Vous êtes sur la page 1sur 36

Analyse Des Données

Ouazza Ahmed

Institut National de Statistique et d’Economie Appliquée


(INSEA)

2022-2023

1/1
Analyse Factorielle des Correspondances
AFC

2/1
AFC

• L’analyse des correspondances est une technique d’analyse


factorielle destinée à mettre en évidence et décrire des associations
entre deux variables qualitatives X et Y .
• Cette méthode permet d’analyser des tables de contingence
obtenues en observant deux variables qualitatives X et Y sur un
ensemble de n individus.
• L’AFC peut être présentée comme une double ACP (ACP des
profils lignes et ACP des profils colonnes) avec une métrique spéciale
dite la métrique du khi-deux χ2 .

3/1
AFC

Les données:

Les données utilisées dans le cadre de l’AFC sont présentées dans un


tableau de contingence, appelés aussi tableau de dépendance ou
tableau croisé.
Un tableau de contingence est un tableau d’effectifs obtenus en
croisant les modalités de deux variables qualitatives X et Y définies
sur une même population de n observations.
Soient:
{x1 , x2 , ..., xI } , I modalités de la variable X
{y1 , y2 , ..., yJ } , J modalités de la variable Y

4/1
AFC

X\Y y1 ... yj ... yJ Total


x1 n11 ... n1j ... n1J n1.
. . . . .
. . . . .
. . . . .
xi ni1 ... nij ... niJ ni.
. . . . .
. . . . .
. . . . .
xI nI1 ... nIj ... nIJ nI.
Total n.1 ... n.j ... n.J n
Table 1: Les données de l’AFC

5/1
AFC

La forme matricielle du tableau précédent est donnée comme suit:


 
n11 · · · · · · n1J
n21 n22 · · · n2J 
N = .
 
.. .. 
 .. ··· . . 
nI1 ··· ··· nIJ

6/1
AFC

• nij est le nombre d’individus sur lesquels on a observé la modalité


xi de la variable X et la modalité yj de la variable Y .
• Les effectifs marginaux sont :
J
X
ni. = nij (ième marge en ligne)
j=1

I
X
n.j = nij (j ème marge en colonne)
i=1
I
X J
X I X
X J
• ni. = n.j = nij = n.. = n
i=1 j=1 i=1 j=1

7/1
AFC
Exemple
On considère deux variables qualitatives X et Y observées sur une
population de taille n=592.
avec:
X : représente les couleurs des yeux
Y : représente les couleurs des cheveux
Le tableau de contingence obtenu est le suivant:
*********************************************
* * brun * châtain * roux * blond *
*********************************************
* marron * 68 * 119 * 26 * 7 *
* noisette * 15 * 54 * 14 * 10 *
* vert * 5 * 29 * 14 * 16 *
* bleu * 20 * 84 * 17 * 94 *
*********************************************
8/1
AFC

On peut définir aussi les marges en fréquence comme suit:


D’abord, on a:
nij
fij =
n
J
X
• fi. = fij (ième marge en ligne)
j=1

I
X
• f.j = fij (j ème marge en colonne)
i=1
I
X J
X I X
X J
• fi. = f.j = fij = f.. = 1
i=1 j=1 i=1 j=1

9/1
AFC

Remarque:

Pour faire une AFC, les deux variables qualitatives X et Y doivent


être dépendantes, c-à-d il existe une correspondances entre les deux
variables étudiées.
Cette correspondance est testée à l’aide du test de khi-deux (χ2 )
d’indépendance.

10 / 1
Test d’indépendance de χ2

Avant de procéder à une AFC, on doit tester l’indépendance entre X


et Y .
Les hypothèses du test:
On cherche à tester les hypothèses suivantes:


H0 : X et Y sont indépendantes (pas de correspondance)
H1 : X et Y sont dépendantes (il y a une correspondance)

On considère le tableau de contingence présenté dans la page 5, et on


note Eij l’effectif théorique qui est définit comme suit:

Total de ligne i × Total de collone j ni. n.j


Eij = =
Total n

11 / 1
AFC

X\Y y1 ... yj ... yJ Total


x1 n1.
. . .
. . .
. .
xi . ... nij ... . ni.
. . .
. . .
. . .
xI . nI.
Total n.1 ... n.j ... n.J n
Table 2: Tableau des effectifs observés

12 / 1
AFC

X\Y y1 ... yj ... yJ Total


x1 n1.
. . .
. . .
. .
ni. n.j
xi . ... Eij = n ... . ni.
. . .
. . .
. . .
xI . nI.
Total n.1 ... n.j ... n.J n
Table 3: Tableau des effectifs théoriques

13 / 1
Test d’indépendance de χ2

La statistique du test:
La statistique du test est donnée par:
J
I X
X (nij − Eij )2
T =
Eij
i=1 j=1

Où nij est l’effectif observé.


Plus la valeur de T est grande, plus le tableau observé est éloigné du
tableau théorique (ie le tableau qui contient les effectifs Eij ).
La statistique T suit une loi de χ2 à (I − 1)(J − 1) degrés de liberté.

14 / 1
Test d’indépendance de χ2

Règle de décision:

• Si T ≥ χ2(I−1)(J−1) (1 − α), on rejette l’hypothèse nulle H0 au seuil


α.
• Si T < χ2(I−1)(J−1) (1 − α), on accepte l’hypothèse nulle H0 au
seuil α.
Où χ2(I−1)(J−1) (1 − α) est le quantile d’ordre 1 − α d’une loi de χ2 à
(I − 1)(J − 1) degrés de liberté.

15 / 1
Test d’indépendance de χ2

Exemple:

On veux savoir s’il existe une relation entre la variable « salaire » et la


variable « Sexe »

16 / 1
L’indépendance

Remarque:

On peut aussi utiliser la définition suivante pour étudier


l’indépendance entre les deux variables X et Y ,
Définition 0.1
Il y a indépendance entre les deux variables considérées si :

fij = fi. f.j , ∀i ∈ {1, ..., I}, ∀j ∈ {1, ..., J}

Nous disons qu’il y a liaison entre ces deux variables, ou que ces deux
variables sont liées si elles ne sont pas indépendantes

17 / 1
AFC
Profil ligne et Profil colonne:

Définition 0.2
f
• L’ensemble de probabilités Li = { fiji. , j = 1, ..., J} est appelée
ième profil ligne.
f
• L’ensemble de probabilités Cj = { fij
.j
, i = 1, ..., I} est appelée
j ème profil colonne.
• {f.j , j = 1, ..., J} est le profil moyen correspondant au profil ligne.
• {fi. , i = 1, ..., I} est le profil moyen correspondant au profil
colonne.
Remarque:
Si on a l’indépendance entre les deux variables X et Y , alors le profil
ligne et le profil colonne sont égaux au profil moyen correspondant.
18 / 1
AFC

Figure 1: Les profil-ligne et profil-colonne

19 / 1
AFC
Remarque:

Si on note Dl et Dc les matrices diagonales des effectifs marginaux


des variables X et Y :
 
n1. · · · 0
Dl = diag(n1. , ..., nI. ) =  ... .. .. 

. . 
0 ··· nI.
 
n.1 · · · 0
 .. .. .. 
Dc = diag(n.1 , ..., n.J ) =  . . . 
0 ··· n.J
Alors, les tableaux des profils-lignes et des profils-colonnes
s’écrivent:
Pl = Dl−1 N et Pc = N Dc−1
Dans la suite, on va voir que l’AFC est une double ACP : ACP des
profils lignes et ACP des profils colonnes.
20 / 1
AFC

Nuage des profils-lignes:

• On appelle nuage des profils-lignes NI , l’ensemble des I points Li


de RJ munis de leurs poids fi. .
• Chaque profil-ligne Li est représenté comme un point de l’espace
RJ dont chacune des J dimensions représente une modalité de la
seconde variable Y .
• Le centre de gravité GI du nuage de points NI est donné par:
n   
.1
n f.1
1 −1 0  ..   .. 
GI = (Dl N ) Dl 1 =  .  =  .  ∈ RJ
n n.J
n f.J

GI est le profil moyen des lignes.

21 / 1
Puisque la somme de chaque profil-ligne est égale à 1, alors le nuage
NI ainsi que leur centre de gravité GI appartiennent à un hyperplan
HI de dimension J − 1 .

22 / 1
AFC

Nuage des profils-colonnes:

Pour déterminer le nuage des profils-colonnes NJ , on utilise la même


démarche que les profils-lignes.

23 / 1
AFC

Métrique de χ2 :

Pour calculer la distance entre deux profils-lignes Li et Li0 on utilise


la formule suivante:
J
fi0 j 2
 
X 1 fij
d2χ2 (Li , Li0 ) = −
f.j fi. fi0 .
j=1
0
= (Li − Li0 ) M (Li − Li0 )

Où la matrice M est la métrique diagonale définie par M = nDc−1


La pondération par f1.j = nn.j de chaque carré de différence revient à
donner des importances comparables aux diverses modalités yj de la
variable Y . Cette métrique attribue donc plus de poids aux écarts
correspondants à des modalités de faible effectif (rares) pour la
variable Y .

24 / 1
AFC

Métrique de χ2 :

De façon plus fondamentale, la distance de χ2 possède la propriété


d’équivalence distributionnelle, qui dit qu’on peut regrouper des
modalités de Y ayant les mêmes profils-colonnes, sans changer la
distance entre profils-lignes. Cette propriété n’est pas vraie pour la
distance euclidienne usuelle.

25 / 1
AFC

Métrique de χ2 :

De la même manière, la distance entre deux profils-colonnes Cj et


Cj 0 est donnée par:

I
!2
X 1 fij fij 0
d2χ2 (Cj , Cj 0 ) = −
fi. f.j f.j 0
i=1
0
= (Cj − Cj 0 ) M (Cj − Cj 0 )

Où la matrice M est la métrique diagonale définie par M = nDl−1

26 / 1
AFC
Inertie:

L’inertie du nuage des profils-lignes NI par rapport à GI est donnée


par:
I
X
I(NI ) = fi. d2χ2 (Li , GI )
i=1
I J  2
X X 1 fij
= fi. − f.j
f.j fi.
i=1 j=1
I X
J  2
X fi. fij
= − f.j
f.j fi.
i=1 j=1
I X
J
X (fij − fi. f.j )2
=
fi. f.j
i=1 j=1

27 / 1
AFC

Remarque:
• L’inertie du nuage des profils-colonnes NJ est égale à l’inertie du
nuage des profils-lignes NI : I(NJ ) = I(NI )
• Cette inertie représente la liaison entre les deux variables étudiées
X et Y .

28 / 1
AFC

ACP des deux nuages de profils:

1) ACP du nuage des profils-lignes


2) ACP du nuage des profils-colonnes

29 / 1
AFC

1) ACP du nuage des profils-lignes

• Tableau de données: X = Dl−1 N


Dl
• Matrice des poids: D = diag( nn1. , ..., nnI. ) = n
• Métrique: M = nDc−1
• Matrice à diagonaliser: V M
avec V est la matrice de covariance associée à X.

30 / 1
AFC
Détermination de la matrice V M :

En reprenant les notations du chapitre sur l’ACP, la matrice de


covariance associée à X = Dl−1 N est donnée par :
0 0
V = X DX − GI GI
1 0 0
= N Dl−1 N − GI GI
n
Et la matrice à diagonaliser est:
1 0 −1 0
VM = N D l N M − GI GI M
n
0 0
= N Dl−1 N Dc−1 − nGI GI Dc−1
0
= L − nGI GI Dc−1
0
Où L = N Dl−1 N Dc−1
31 / 1
AFC

Remarques:
0
• GI est un vecteur propre de nGI GI Dc−1 associé à la valeur propre
1.
• GI est un vecteur propre de V M associé à la valeur propre 0, et un
vecteur propre de L associé à la valeur propre 1.
• Les autres vecteurs propres (autre que GI ) sont orthogonaux à GI et
sont associés aux mêmes valeurs propres pour L et V M .
Vérification: (Exercice)

32 / 1
AFC

D’après ces remarques, il est donc inutile de centrer le tableau des


profils-lignes. De manière pratique, on effectuera une ACP non
centré:
La première valeur propre λ1 = 1 (de L) est maximale sera ensuite
éliminer de l’analyse. A cette valeur propre triviale est associé l’axe
principal OGI .
C-à-d, on garde seulement les valeurs propre de L autre que 1 ou
d’une façon équivalente, on garde les valeurs propres de V M autre
que 0.

33 / 1
AFC

2) ACP du nuage des profils-colonnes


0
• Tableau de données: X = Dc−1 N
• Matrice des poids: D = diag( nn.1 , ..., nn.J ) = Dc
n
• Métrique: M = nDl−1
• Matrice à diagonaliser: V M
avec V est la matrice de covariance associée à X.
On peut déterminer la matrice V M de la même manière que les
profils-lignes....

34 / 1
AFC

Qualité de représentation et contributions

(Voir TP)

35 / 1
36 / 1

Vous aimerez peut-être aussi