Vous êtes sur la page 1sur 12

Analyse Factorielle des Correspondances (AFC)

Introduction
Parmi les méthodes factorielles d’analyse des données qui tiennent compte de la dépendance
entres les variables, on avait cité l’AFC.
Cette méthode a pour objet de traiter les informations contenues dans un tableau appelé tableau de
contingence ou de dépendance. Ce tableau est relatif à deux ensembles de nature qualitatives différentes
mais qui sont liés d’une manière ou d’une autre.

Tableau de contingence
On l’appelle aussi tableau à double entrée.
Soient la variable X à n modalités et la variable Y à m modalités. Ces donnée peuvent être classées dans le
tableau à n lignes (n modalités de X) et m lignes (m modalités de Y) suivant :

… …


⋮ ⋮ ⋮
⋯ ⋯ ∙
⋮ ⋮ ⋮

∙ … ∙ … ∙
Où :

: est l’effectif conjoint ou l’effectif des individus qui présentent à la fois la modalité de et la
modalité de .

∙: est l’effectif des individus qui présentent la modalité de . Avec : ∙ =∑

∙ : est l’effectif de individus qui présentent la modalité de Y. Avec : ∙ =∑


Remarque :On a :

∙ = ∙ = =

1
Exemple
Au cours d’une enquête sur les vacances on a demandé à un échantillon de 100 individus d’indiquer
leur Catégorie Socio professionnelle (caractère X « CSP ») ainsi que le mode d’hébergement utilisé lors de
leurs dernières vacances (Caractère Y)
Le tableau de données initial est donc :

Le tableau de contingence croisant les caractères X et Y se présente comme suit :


Tableau de contingence entre CSP est mode d’hébergement :

On a : - Le nombre de modalités du caractère X « CSP » est égal 7 (n=7) et le nombre de modalités


du caractère Y « mode d’hébergement » est égal à 4 (m=4).
- Le nombre total d’individus est égal à N=100.
- Les modalités des caractères sont exclusives : un individu n’a qu’une CSP et un seul
mode d’hébergement.
- Les modalités des caractères sont exhaustives (tous les individus sont renseignés).

2
Fréquences conjointes / Tableau de contingence des fréquences relatives:

A partir des effectifs conjoints on peut obtenir les fréquences conjointes telles que : = est la
proportion des individusqui présentent à lafois la modalité de X et la modalité de .

Avec : ∙ = représente la proportion des individus qui présentent la modalité de .


et ∙ = représente la proportion des individus qui présentent la modalités de .

Remarque :On a :

∙ = ∙ = =1

Voici le tableau de contingence noté Z des fréquences relatives :

… …


⋮ ⋮ ⋮
⋯ ⋯ ∙
⋮ ⋮ ⋮

∙ … ∙ … ∙ 1
Exemple :
Dans l’exemple précédent, on obtient le tableau de contingences des fréquences relatives suivant :

Notion de profil lignes et profil colonnes


• L’AFC s’intéresse plus particulièrement aux effectifs marginaux des tableaux que l’on appelle profils.
• Le tableau de contingence Z peut être alors transformé selon deux autres tableaux et appelés
respectivement : tableau des profils lignes et tableau des profils Colonnes.

3
1/ Profil lignes : Dans le tableau des profils lignes, il s’agit de diviser les éléments de chaque ligne
idu tableau des fréquences Z sur la fréquence marginale correspondante ∙

= … …


Ce tableau est aussi appelé : matrice des pourcentages lignes à partir desquels on obtient le nuage de
points dans Rm.

2/ Profil colonnes : Dans le tableau des profils colonnes, il s’agit de diviser les éléments de
chaque colonne j sur la fréquence marginale correspondante ∙

= … …


Ce tableau est aussi appelé : matrice des pourcentages colonnes à partir desquels on obtient le nuage de
points dans Rn.

Remarque :

En statistique descriptive les fréquences et sont appelées fréquences conditionnelles.


∙ ∙

Remarque Importante :
Le sens économique des matrices et (Profil lignes et profil colonnes) est différents.
En effet, on peut dire à partir de de l’exemple précédent que : 16.67% des agriculteurs vont au camping,
et à partir de que : 6.25% des personnes allant au camping sont des agriculteurs.

La distance du Khi deux


En AFC, la distance entre deux points est calculée par la métrique du khi-deux Sur les données
relatives .

Calcul de la distance entre deux points


 Dans l’espace Rm la distance entre deux points lignes i et i’ est :
1
(, )= −
∙ ∙ ∙

 Dans Rn la distance entre deux points j et j’ est :


1
( , )= −
∙ ∙ ∙

Modèle d’indépendance
 Pour les événements :
é é é ⇔ ( ∩ )= ( )× ( )
4
 Pour des variables qualitatives :
é ⇔ = ∙ × ∙ ( é
= é )
: = ∙ ( é = é )

é : = ∙

Liaison entre deux variables qualitatives


La liaison entre deux variables qualitatives c’est l’écart entre les données observées et les
données du modèle d’indépendance ∙ × ∙ .
L’AFC a pour objectif d’étudier la liaison qui existe entre deux variables qualitatives ce qui revient
donc à appréhender l’écart entre données observées et données dans le cas d’indépendance.
L’étude de la significativité de cet écart est faite par le test du khi deux.

Test d’indépendance du khi-deux


Ce test consiste à évaluer l’écart entre valeur observées et valeurs théorique du modèle
d’indépendance.

. .
− ∙ ∙

= = . .
∙ ∙

. .
∶ = ℎé ( é )

Il s’agit de tester l’hypothèse : H0 : Les deux variables X et Y sont indépendantes


Contre l’hypothèse alternative H1 : Les variables X et Y sont liées.(Voir la série d’exercices corrigés)

Exemple :

5
Poids des points lignes et des points colonnes

 Chaque point ligne est doté d’un poids qui indique l’importance de la ième modalité de X. Il s’agit
de la fréquence marginale ∙

 Chaque point colonne est doté d’un poids qui indique l’importance de la jème modalité de Y. Il
s’agit de la fréquence marginale ∙

Centre de gravité

 Le centre de gravité ou le barycentre pour le nuage de points lignes noté N(I) c’est la distribution
marginale de Y :

= , ,…, ,…, = ∙ , ∙ ,…, ∙ ,…, ∙ ù: = ∙

 Le centre de gravité ou le barycentre pour le nuage de points colonnes noté N(J) c’est la distribution
marginale de X :

=( , ,…, ,…, )=( ∙, ∙, … , ∙, … , ∙) ù: = ∙

Inertie

 Pour calculer l’inertie du nuage despoints Ligneson doit calculer la distance entre les points lignesi
et i’ centrés par le barycentre GXen utilisant la métrique du khi-deux :

= ∙ ∙

Si la distance est grande ⇔ Les modalités i et i’ de la variable X ont des valeurs très différentes dans les
modalités de Y

 Pour calculer l’inertie du nuage des points colonneson doit calculer la distance entre les points
lignes j et j’ centrés par le barycentre GYen utilisant la métrique du khi-deux :

6

= . ∙
.

Si la distance est grande ⇔ Les modalités j et j’ de la variable Y ont des valeurs très différentes dans les
modalités de X
Exemple : On dit que la distance entre deux CSP est grande c’est-à-dire que ces deux CSP sont réparties de
manière très différente dans les lieux d’hébergement.

 L’inertie du nuage N(I) des points lignes est calculé par :


− ∙ − ∙ ∙
= ∙∙ ( , )= ∙∙ = =
∙ ∙ ∙

 L’inertie du nuage N(J) des points colonnes est calculé par :


− ∙ − ∙ ∙
= ∙ ∙ ( , )= ∙ ∙ = =
∙ ∙ ∙

Remarque :
- L’inertie est nulle alors X et Y sont indépendantes.
- Forte dépendance veut dire grande inertie.
Recherche des axes factoriels
Analyse du nuage des points lignes N(I) (Analyse directe) :
Les axes ∆ recherchés en AFC comme dans l’ACP passent tous par l’origine qui est le centre de
gravité ou le barycentre GX , donc les doivent être centrés : −

On note : la matrice profil ligne transformée et centrée.


On note P la matrice des poids associés aux points lignes :


= ⋱

On note : = la matrice de variances-covariances de

Comme dans l’ACP on va donc diagonaliser V (Rechercher ses valeurs propres et vecteurs propres)
La matrice V peut s’écrire comme suit :

Remarque :
Là encore : = la trace de la matrice V est l’inertie du nuage.
7
L’inertie du nuage N(I) des points lignes projetés sur l’axe doit être maximale telle
que : =
- L’inertie expliquée par l’axe est : =

- L’inertie expliquée par l’espace vectoriel de q axes factoriels est :

= = , ≤ −1

Il est à noter que la différence entre AFC et ACP est que le nombre d’axes factoriels en AFC est m-
1 car GX est vecteur propre de V associé à la valeur propre « 0 » et c’est aussi le vecteur propre de S
associé à la valeur propre « 1 ».

- L’inertie expliquée par l’axe est : =

- L’inertie expliquée par l’espace vectoriel de q axes factoriels est :

= = , ≤ −1

Remarque :
Les valeurs propres en AFC sont toutes inférieures ou égales à 1.

Coordonnées des nuages projetés


- Dans l’espace Rm(profil ligne) : =
- Dans l’espace Rn (profil colonne) : =

Représentation graphique

Il existe des formules de transition qui permettent le passage de à et inversement d’où la


représentation graphique simultanée des projections des points lignes et points colonnes.

Il faut rappeler que le centre du nuage N(I) des points lignes correspond au profil moyen de Y et
inversement. (Voir la partie : centre de gravité)

Ainsi, une modalité i loin du centre de gravité signifie que la distribution des modalités Y est très
différente dans l’ensemble des individus qui ont la caractéristique i de X (et dans l’ensemble de tous les
individus).

Exemple : La distribution des lieux de vacances pour la CSP « autres actifs » est très éloignée du profil

moyen en ce qui concerne les lieux de vacances.


8
Interprétation d’une AFC
Chaque AFC comporte deux décompositions factorielles (décomposition pour N(I) et pour N(J)).
Chaque nuage sera interprété relativement à son espace factoriel.
1- Choix du nombre d’axes 3- Qualité de représentation des points
2- Interprétation des axes 4- Interprétation des graphiques

1- Choix du nombre d’axes :


- Il dépend du nombre de valeurs propres à retenir. En AFC aussi il s’agit des plus grandes valeurs
et donc celles qui apportent le maximum d’inertie expliquée.
- Les comparaisons des inerties de chacun des axes (les valeurs propres associées aux axes)
renseignent sur la forme du nuage de point.

2- Interprétation des axes :

Pour chaque axe retenu et chaque nuage on doit trouver quels sont les points de N(I)
(respectivement N(J)) qui contribuent le plus à la formation de l’axe c’est-à-dire qui contribuent à l’inertie
expliquée par l’axe .
- Contribution du profil ligne i à l’inertie de l’axe .
2

∙ ()
2
()= ∶ = ∙
∙ ()
=1
- Contribution du profil colonne j à l’inertie de l’axe .
∙ ∙ ()
( )= ∶ = ∙ ∙ ()

9
Remarque :La somme des contributions des lignes (resp colonnes) est égale à 100%.
En pratique, on retient dans l’interprétation les lignes (resp colonnes) dont la contribution est
grande c’est-à-dire supérieure à la contribution moyenne 1/n (resp 1/m). Le sens de la contribution
dépend du signe de C(i) (resp D(j)).

Exemple : Tableau des contributions sur les 5 axes factoriels

L’axe 1 oppose les cadres supérieurs aux ouvriers du point de vue de leur profil de lieu de vacances.
Conclusion : L’axe 1 oppose les ouvriers caractérisés par une forte fréquentation des campings aux
cadres supérieurs qui vont plutôt en résidence secondaire ou à l’hôtel.

3- Qualité de représentation :
Un point est dit bien représenté sur un axe ou un plan factoriel s’il est proche de sa projection sur
l’axe ou le plan. S’il est éloigné, on dit qu’il est mal représenté.
Comme dans l’ACP, la qualité de représentation d’un point est mesuré par l’angle formé par sa projection
sur l’axe et donc par le cosinus correspondant à l’angle formé entre le point et saprojection sur l’axe.
Qualité de représentation du point-ligne i sur l’axe α:

Qualité de représentation du point-colonne j sur l’axe α:

 Lorsque l’angle est proche de 0, c'est-à-dire que le cosinus est proche de 1, le point est bien
représenté. Dans le cas inverse, l’angle est proche de 90° et le cosinus est proche de 0.

10
Exemple :Tableau des Cosinus carrés

Mis à part « autres », « cadres », « cadres moyens » et « agriculteurs », tous les points sont bien
représentés sur le 1er plan factoriel

4- Aide à l’interprétation :
Interprétation générale des graphiques :
 On représente les deux nuages N(I) et N(J) sur le même graphique.
 On n’interprète que les points bien représentés sur le plan factoriel étudié.

Interprétation des points par rapport aux axes :


 Pour interpréter les groupes de points-profils d’une variable, on tient compte de leur position par
rapport aux axes (Chaque axe a son interprétation donnée)
Exemple :
Les « autres actifs » s’opposent par rapport aux autres CSP du point de vue de la fréquentation de la
maison de leurs parents.

Interprétation des proximités entre points :


 Les distances entre les modalités d’une même variable sont égales aux distances du khi-deux entre
les profils associés.
 L’origine correspond au profil moyen pour la variable considérée (distribution marginale).
 Deux points d’une même variable suffisamment proches représentent deux modalités ayant des
distributions similaires selon les modalités de l’autre variable.

11
Exemple : Les camping et séjours organisés ont des profils proches suivant les CSP.
 Il est possible d’interpréter la proximité d’une modalité avec une modalité de l’autre variable si ces
deux dernières se trouvent à la périphérique du nuage (ne pas trop se fier à cette proximité)
Exemple : Les ouvriers sont une CSP où le poids (la proportion) des locations est nettement plus
élevé que la moyenne des CSP.

Récapitulatif AFC :

Nous résumons l'AFC en neuf étapes sur le premier plan factoriel :


Etape 1 : Cette première étape donne le tableau de contingence des modalités communes
aux deux variables. Les lignes et les colonnes jouent des rôles symétriques.
Etape 2 : Cette deuxième étape modifie le tableau en fréquences. Ces fréquences font
apparaître des lois de probabilités.
Etape 3 : Nous considérons ici le tableau comme une juxtaposition de lignes après transformation
en divisant par fi. Ces lignes sont appelées profil-lignes et peuvent être interprétées comme des probabilités
conditionnelles.
Etape 4 : Nous considérons ici le tableau comme une juxtaposition de colonnes après
transformation en divisant par f.j. Ces colonnes sont appelées profil-colonnes et
peuvent être interprétées comme des probabilités conditionnelles.
Etape5 : Les profils-lignes qui constituent le nuage N(I) sont projetés dans l'espace IRm et est analysé par rapport au
centre de gravité qui constitue un profil moyen.
Etape 6 : Les profils-colonnes qui constituent le nuage N(J) sont projetés dans l'espace IRn et est analysé par rapport
au centre de gravité qui constitue un profil moyen.
Etape 7 : Cette étape consiste en la projection du nuage N(I) sur le premier plan factoriel. Les distances
correspondent à des ressemblances entre les modalités.
Etape 8 : Cette étape consiste en la projection du nuage N(J ) sur le premier plan factoriel.
Les distances correspondent à des ressemblances entre les modalités.
(Relations de transition : ces relations expriment les résultats d'une AF en fonction
des résultats de l'autre).
Etape 9 : les relations de transition permettent des interprétations simultanées des axes.
Cette représentation simultanée facilite l'interprétation.

12

Vous aimerez peut-être aussi