Académique Documents
Professionnel Documents
Culture Documents
Introduction
Parmi les méthodes factorielles d’analyse des données qui tiennent compte de la dépendance
entres les variables, on avait cité l’AFC.
Cette méthode a pour objet de traiter les informations contenues dans un tableau appelé tableau de
contingence ou de dépendance. Ce tableau est relatif à deux ensembles de nature qualitatives différentes
mais qui sont liés d’une manière ou d’une autre.
Tableau de contingence
On l’appelle aussi tableau à double entrée.
Soient la variable X à n modalités et la variable Y à m modalités. Ces donnée peuvent être classées dans le
tableau à n lignes (n modalités de X) et m lignes (m modalités de Y) suivant :
… …
∙
⋮ ⋮ ⋮
⋯ ⋯ ∙
⋮ ⋮ ⋮
∙
∙ … ∙ … ∙
Où :
: est l’effectif conjoint ou l’effectif des individus qui présentent à la fois la modalité de et la
modalité de .
∙ = ∙ = =
1
Exemple
Au cours d’une enquête sur les vacances on a demandé à un échantillon de 100 individus d’indiquer
leur Catégorie Socio professionnelle (caractère X « CSP ») ainsi que le mode d’hébergement utilisé lors de
leurs dernières vacances (Caractère Y)
Le tableau de données initial est donc :
2
Fréquences conjointes / Tableau de contingence des fréquences relatives:
A partir des effectifs conjoints on peut obtenir les fréquences conjointes telles que : = est la
proportion des individusqui présentent à lafois la modalité de X et la modalité de .
∙
Avec : ∙ = représente la proportion des individus qui présentent la modalité de .
∙
et ∙ = représente la proportion des individus qui présentent la modalités de .
Remarque :On a :
∙ = ∙ = =1
… …
∙
⋮ ⋮ ⋮
⋯ ⋯ ∙
⋮ ⋮ ⋮
∙
∙ … ∙ … ∙ 1
Exemple :
Dans l’exemple précédent, on obtient le tableau de contingences des fréquences relatives suivant :
3
1/ Profil lignes : Dans le tableau des profils lignes, il s’agit de diviser les éléments de chaque ligne
idu tableau des fréquences Z sur la fréquence marginale correspondante ∙
⋮
= … …
∙
⋮
Ce tableau est aussi appelé : matrice des pourcentages lignes à partir desquels on obtient le nuage de
points dans Rm.
2/ Profil colonnes : Dans le tableau des profils colonnes, il s’agit de diviser les éléments de
chaque colonne j sur la fréquence marginale correspondante ∙
⋮
= … …
∙
⋮
Ce tableau est aussi appelé : matrice des pourcentages colonnes à partir desquels on obtient le nuage de
points dans Rn.
Remarque :
Remarque Importante :
Le sens économique des matrices et (Profil lignes et profil colonnes) est différents.
En effet, on peut dire à partir de de l’exemple précédent que : 16.67% des agriculteurs vont au camping,
et à partir de que : 6.25% des personnes allant au camping sont des agriculteurs.
Modèle d’indépendance
Pour les événements :
é é é ⇔ ( ∩ )= ( )× ( )
4
Pour des variables qualitatives :
é ⇔ = ∙ × ∙ ( é
= é )
: = ∙ ( é = é )
∙
é : = ∙
∙
. .
− ∙ ∙
−
= = . .
∙ ∙
. .
∶ = ℎé ( é )
Exemple :
5
Poids des points lignes et des points colonnes
Chaque point ligne est doté d’un poids qui indique l’importance de la ième modalité de X. Il s’agit
de la fréquence marginale ∙
Chaque point colonne est doté d’un poids qui indique l’importance de la jème modalité de Y. Il
s’agit de la fréquence marginale ∙
Centre de gravité
Le centre de gravité ou le barycentre pour le nuage de points lignes noté N(I) c’est la distribution
marginale de Y :
Le centre de gravité ou le barycentre pour le nuage de points colonnes noté N(J) c’est la distribution
marginale de X :
Inertie
Pour calculer l’inertie du nuage despoints Ligneson doit calculer la distance entre les points lignesi
et i’ centrés par le barycentre GXen utilisant la métrique du khi-deux :
−
= ∙ ∙
∙
Si la distance est grande ⇔ Les modalités i et i’ de la variable X ont des valeurs très différentes dans les
modalités de Y
Pour calculer l’inertie du nuage des points colonneson doit calculer la distance entre les points
lignes j et j’ centrés par le barycentre GYen utilisant la métrique du khi-deux :
6
−
= . ∙
.
Si la distance est grande ⇔ Les modalités j et j’ de la variable Y ont des valeurs très différentes dans les
modalités de X
Exemple : On dit que la distance entre deux CSP est grande c’est-à-dire que ces deux CSP sont réparties de
manière très différente dans les lieux d’hébergement.
Remarque :
- L’inertie est nulle alors X et Y sont indépendantes.
- Forte dépendance veut dire grande inertie.
Recherche des axes factoriels
Analyse du nuage des points lignes N(I) (Analyse directe) :
Les axes ∆ recherchés en AFC comme dans l’ACP passent tous par l’origine qui est le centre de
gravité ou le barycentre GX , donc les doivent être centrés : −
∙
= ⋱
∙
Comme dans l’ACP on va donc diagonaliser V (Rechercher ses valeurs propres et vecteurs propres)
La matrice V peut s’écrire comme suit :
Remarque :
Là encore : = la trace de la matrice V est l’inertie du nuage.
7
L’inertie du nuage N(I) des points lignes projetés sur l’axe doit être maximale telle
que : =
- L’inertie expliquée par l’axe est : =
= = , ≤ −1
Il est à noter que la différence entre AFC et ACP est que le nombre d’axes factoriels en AFC est m-
1 car GX est vecteur propre de V associé à la valeur propre « 0 » et c’est aussi le vecteur propre de S
associé à la valeur propre « 1 ».
= = , ≤ −1
Remarque :
Les valeurs propres en AFC sont toutes inférieures ou égales à 1.
Représentation graphique
Il faut rappeler que le centre du nuage N(I) des points lignes correspond au profil moyen de Y et
inversement. (Voir la partie : centre de gravité)
Ainsi, une modalité i loin du centre de gravité signifie que la distribution des modalités Y est très
différente dans l’ensemble des individus qui ont la caractéristique i de X (et dans l’ensemble de tous les
individus).
Exemple : La distribution des lieux de vacances pour la CSP « autres actifs » est très éloignée du profil
Pour chaque axe retenu et chaque nuage on doit trouver quels sont les points de N(I)
(respectivement N(J)) qui contribuent le plus à la formation de l’axe c’est-à-dire qui contribuent à l’inertie
expliquée par l’axe .
- Contribution du profil ligne i à l’inertie de l’axe .
2
∙
∙ ()
2
()= ∶ = ∙
∙ ()
=1
- Contribution du profil colonne j à l’inertie de l’axe .
∙ ∙ ()
( )= ∶ = ∙ ∙ ()
9
Remarque :La somme des contributions des lignes (resp colonnes) est égale à 100%.
En pratique, on retient dans l’interprétation les lignes (resp colonnes) dont la contribution est
grande c’est-à-dire supérieure à la contribution moyenne 1/n (resp 1/m). Le sens de la contribution
dépend du signe de C(i) (resp D(j)).
L’axe 1 oppose les cadres supérieurs aux ouvriers du point de vue de leur profil de lieu de vacances.
Conclusion : L’axe 1 oppose les ouvriers caractérisés par une forte fréquentation des campings aux
cadres supérieurs qui vont plutôt en résidence secondaire ou à l’hôtel.
3- Qualité de représentation :
Un point est dit bien représenté sur un axe ou un plan factoriel s’il est proche de sa projection sur
l’axe ou le plan. S’il est éloigné, on dit qu’il est mal représenté.
Comme dans l’ACP, la qualité de représentation d’un point est mesuré par l’angle formé par sa projection
sur l’axe et donc par le cosinus correspondant à l’angle formé entre le point et saprojection sur l’axe.
Qualité de représentation du point-ligne i sur l’axe α:
Lorsque l’angle est proche de 0, c'est-à-dire que le cosinus est proche de 1, le point est bien
représenté. Dans le cas inverse, l’angle est proche de 90° et le cosinus est proche de 0.
10
Exemple :Tableau des Cosinus carrés
Mis à part « autres », « cadres », « cadres moyens » et « agriculteurs », tous les points sont bien
représentés sur le 1er plan factoriel
4- Aide à l’interprétation :
Interprétation générale des graphiques :
On représente les deux nuages N(I) et N(J) sur le même graphique.
On n’interprète que les points bien représentés sur le plan factoriel étudié.
11
Exemple : Les camping et séjours organisés ont des profils proches suivant les CSP.
Il est possible d’interpréter la proximité d’une modalité avec une modalité de l’autre variable si ces
deux dernières se trouvent à la périphérique du nuage (ne pas trop se fier à cette proximité)
Exemple : Les ouvriers sont une CSP où le poids (la proportion) des locations est nettement plus
élevé que la moyenne des CSP.
Récapitulatif AFC :
12