Vous êtes sur la page 1sur 24

27/04/2020

Institut International de Technologie - Sfax.

Analyse des Données

Chapitre III: Analyse Factorielle des


Correspondances (AFC)

Mme. Diala DHOUIB

Chapitre III: Analyse Factorielle des


Correspondances (AFC)
L’ AFC traite les données multidimensionnelles, c’est une
méthode descriptive qui généralise le test d’indépendance de χ2.
L’ AFC a été utilisée initialement pour le traitement des tableaux
de contingence qui croisent les modalités de deux variables
qualitatives Q1 et Q2; un élément cij du tableau est égal à l’effectif
correspondant à la modalité i de Q1 et j de Q2.
L’ AFC traite aussi les tableaux dont les variables sont
quantitatives et positives.
L’ AFC étudie les relations structurelles entre les lignes et les
relations structurelles entre les colonnes. On déduit que l’AFC est
une double ACP. Elle permet une représentation simultanée des
individus et des variables.
2

1
27/04/2020

Plan

Section 1. Tableau de contingence

Section 2. Analyse des points profils

Section 3. Passage d’un nuage à un autre

Section 1. Tableau de contingence

V1 V2
K individus
1 Deux variables qualitatives

K personnes interrogées
Deux questions à choix multiples
Individus

l i j L’individus l possède:
la modalité i de V1
la modalité j de V2

2
27/04/2020

Section 1. Tableau de contingence


Ancienne enquête du CREDOC (Nicole Tabar, 1974)
V1 V2
1724 femmes interrogées
1 Questions relatives à leur attitude à l’égard du travail
féminin

Q1: la famille idéale est celle où:


Individus

•Les deux conjoints travaillent également


l i j •Le mari a un métier plus absorbant que celui de sa
femme
•Seul le mari travaille

Q2: activité convenant le mieux à une mère de famille


quand les enfants vont à l’école:
K •Rester au foyer
•Travailler à mi-temps
•Travailler à plein temps
5

Section 1. Tableau de contingence


Modalités
V1 V2 de V2
1
1 j J
1
Individus

Modalités
de V1 i kij
l i j

I
k
kij est le nombre de personnes ayant choisis la
k
modalité i de V1 et la modalité j de V2
La distribution des k individus
6

3
27/04/2020

Section 1. Tableau de contingence


Réponses simultanées à des question d’opinions

La famille idéale activité convenant le mieux à une mère de


est celle où famille quand les enfants vont à l’école:

Rester au Travailler à mi- Travailler à plein


foyer temps temps

Les deux conjoints 13 142 106 261


travaillent également
Le mari a un métier 30 408 117 555
plus absorbant que
celui de sa femme
241 573 94 908
Seul le mari travaille

284 1123 317 1724


7

Section 1. Tableau de contingence

K le tableau de contingence analysé


n le nombre de lignes du tableau K

p le nombre de colonnes du tableau K


ème ème
k le terme situé à l'intersection de la i ligne et de la j colonne du tableau K
ij
ème
k la somme de s termes de la i ligne du tableau K
i.
ème
k la somme des termes de la j colonne du tableau K
.j
k la somme de tous les termes du tableau K

4
27/04/2020

Section 1. Tableau de contingence

Tableau de Contingence K
1 …. j …. p ki.


i kij


n

k.j k

9 9

Section 1. Tableau de contingence


Du tableau de contingence K, on tire un tableau des
fréquences relatives F de dimension (n, p) avec fij = kij / k
Sur cette base, on définit un tableau de profils lignes et un tableau de
profils colonnes.

k = ∑ ∑ kij effectif total dans le tableau


i j
kij
f = fréquences relatives
ij k
f i. = ∑ fij 
j 
 fréquences relatives marginales
f. j = ∑ fij 
i 

10

5
27/04/2020

Section 1. Tableau de contingence

Tableau des fréquences relatives F

1 …. j …. p fi.

1

i fij fi.

f.j
∑ f.j 1

11

Section 1. Tableau de contingence


Elaboration du tableau des fréquences relatives F

Q2m1 Q2m2 Q2m3 fi.

Q1m1 0,75 8,23 6,14 15,13

Q1m2 1,74 23,66 6,78 32,19

Q1m3 13,97 33,23 5,45 52,65

f.j 16,47 65,13 18,38 100

Les fréquences relatives fournissent une estimation des probabilités


attachées à chacun des couples de réponses apportées aux
questions Q1 et Q2. 12

6
27/04/2020

Section 1. Tableau de contingence

1.1. Tableau de profils lignes

1.2. Tableau de profils colonnes

13

1.1. Tableau de profils lignes


Pour construire le tableau de profils lignes, on divise chaque
élément de la ligne par son total.
Le tableau de profils lignes noté PL est alors généré en faisant:
fij / fi. ∀ i = 1,…,n et j = 1,…, p
 f f ij f ip 
Le ième profil ligne est: f Ji =  i1 ⋯ ⋯ 
 fi. fi. f i. 

 f1. 0 0 
k ij  
0 ⋱ 
f ij k k ij
= p = p ⇒ F = { f ij } et Dn =  f i. 
fi. k ij  
∑j =1 k
∑ k ij  ⋱ 0 
j =1
0 0 f n . 

Le tableau PL peut être obtenu en faisant: F ' . D n− 1 14

7
27/04/2020

1.1. Tableau de profils lignes


a. Construction du nuage N(
N(I))
Le nuage des profils lignes NI est donné par: {f J
1
}
, f J2 , ..., f Jn ∈ ℝ p
2 f J2 f J1 1
× ×

×
f Ji ×
× ×
×
f Jn
×
p
En ACP, en général, on prend pi = 1/n
En AFC, chaque modalité i est pondérée par ses fréquences
relatives marginales fi.: f1., f2. ,…, fi. ,…, fn.
15

1.1. Tableau de profils lignes


b. Centre de gravité du nuage N(I)
N( )
Soit gI: centre de gravité du nuage N(I), c-à-d le nuage des profils lignes.

g I = som m e p o n d é ré e d e s p ro fils lig n e s


n f ij
= ∑ f i. = f. j
i =1 f i.
= f J : p ro fil lig n e m o ye n

Le centre de gravité des profils lignes n’est autre que les


profils lignes moyens.

16

8
27/04/2020

1.1. Tableau de profils lignes


Q2m1 Q2m2 Q2m3 Total

Q1m1 4,98 54,41 40,61 100

Q1m2 5,41 73,51 21,08 100

L’AFC compare
Q1m3 26,54 63,11 10,35 100
les profils lignes au
profils ligne moyen
f.J 16,47 65,13 18,38 100

Les éléments des profils lignes fournis par ce tableau


correspondent à des probabilités conditionnelles.
Par exemple, la probabilité qu’un individu choisisse la
première modalité de Q2 (Q2m1) sachant qu’il a choisi la
modalité n°1 pour Q1 (Q1m1) est de 17

1.1. Tableau de profils lignes


Comparaison du profil ligne au profil ligne moyen

18

9
27/04/2020

Section 1. Tableau de contingence

1.1. Tableau de profils lignes

1.2. Tableau de profils colonnes

19

1.1. Tableau de profils colonnes


Pour construire le tableau de profils colonnes, on divise chaque
élément de la colonne par son total.
Le tableau de profils colonnes noté PC est alors généré en faisant:
fij / f.j ∀ i = 1,…,n et j = 1,…, p
 f1 j f ij f nj 
Le jème profil colonne est: fI j =  ⋯ ⋯ 
 f. j f. j f . j 

 f.1 0 0 
k ij  
0 ⋱ 
f ij k
= nk = n ij
⇒ F = { f ij } et D p =  f. j 
f. j k ij  
∑ ∑ k ij  ⋱ 0 
j =1 k i =1
0 0 f . p 

Le tableau PC peut être obtenu en faisant: F . D p− 1 20

10
27/04/2020

1.1. Tableau de profils colonnes


a. Construction du nuage N(
N(J))
Le nuage des profils colonnes NJ est donné {f I
1
}
, f I 2 , ..., f I p ∈ ℝ n
par:
2 f I2 f I1 1
× ×

×
fI j ×
× ×
×
fIp
×
n
Chaque modalité j est pondérée par ses fréquences relatives
marginales f.j:
f.1, f.2 ,…, f.j ,…, f.p
21

1.1. Tableau de profils colonnes


b. Centre de gravité du nuage N(J)
N( )
Soit gJ: centre de gravité du nuage N(J), c-à-d le nuage des profils
colonnes.
g J = som m e p o n d é ré e d e s p ro fils c o lo n n e s
p
f ij
= ∑ f. j = f i.
j =1 f. j
= f I : p ro fil c o lo n n e m o ye n

Le centre de gravité des profils colonnes n’est autre que les


profils colonnes moyens.

22

11
27/04/2020

1.1. Tableau de profils colonnes


Q2m1 Q2m2 Q2m3 fi.

Q1m1 4,57 12,64 33,43 15,13

Q1m2 10,56 36,33 36,9 32,19

Q1m3 84,85 51 29,65 52,66

Total 100 100 100

L’AFC compare les profils colonnes au


profils colonne moyen
Par exemple, la probabilité qu’un individu choisisse la première
modalité de Q1 (Q1m1) sachant qu’il a choisi la modalité n°1 pour
Q2 (Q2m1) est de 23

1.1. Tableau de profils colonnes


Comparaison du profil colonne au profil colonne moyen

24

12
27/04/2020

Plan

Section 1. Tableau de contingence

Section 2. Analyse des points profils

Section 3. Passage d’un nuage à un autre

25

Section 2. Analyse des points profils

2.1. Construction des distances

2.2. Calcul de l’inertie totale des nuages

2.3. Analyse des correspondances

2.4. Interprétation

26

13
27/04/2020

2.1. Construction des distances


L’AFC revient à chercher, à visualiser simultanément les lignes i et
les colonnes j de manière à rendre compte:

Des proximités entre les profils lignes:


f Ji / i = 1,..., n

Deux points proches i et i’ signifie que les profils lignes sont


proches et non les données initiales.

Des proximités entre les profils colonnes:


f I j/ j = 1,..., p

27

2.1. Construction des distances


Benzékri a proposé la distance de χ2 pour calculer la distance entre
deux modalités.
L’adoption de cette distance fournit une certaine protection contre
l’arbitraire des nomenclatures qui définissent les modalités des
variables qualitatives.
Grâce à cette distance, si deux modalités d’une nomenclature
détaillée ont le même profil, l’AFC fournira des résultats identiques
lorsqu’on les distinguera toutes deux et lorsqu’on les réunira pour
former une seule modalité.

28
28

14
27/04/2020

2.1. Construction des distances

Le nuage des profils lignes Le nuage des profils colonnes

29
29

2.1. Construction des distances


a. Distance dans IRP entre deux profils lignes
2
p
1  f ij fi' j 
( )
d 2 i, i ' = d 2 (f J
i
, f Ji ' = ∑
)  − 
j =1 f. j  f i. f i '. 
On ne pondère pas par f.j car les modalités j ne sont pas réparties
proportionnellement entre les individus; il y a des modalités
importantes et des modalités négligeables. Le rapport 1/ f.j permet
d’atténuer la fréquence relativement forte pour les modalités les plus
importantes et donner une chance aux modalités faibles.
b. Distance dans IRn entre deux profils colonnes
2
n
1  f ij f ij ' 
d2 ( j, j ) = d ( f
' 2 j
, fI j' = ∑
)  − 
f i.  f. j 
I
f. j'
i =1
  30
30

15
27/04/2020

Section 2. Analyse des points profils

2.1. Construction des distances

2.2. Calcul de l’inertie totale des nuages

2.3. Analyse des correspondances

2.4. Interprétation

31

2.2. Calcul de l’inertie totale des nuages


a. Inertie totale du nuage N(I)

2
n n p
1  f ij 
I ( N ( I ) , f J ) = ∑ f i. d 2
(f J
i
, f J = ∑ f i. ∑
)  − f. j 
i =1 i =1 j =1 f. j  f i. 
Plus l’inertie est grande, plus les profils lignes sont dispersés autour
du profil ligne moyen.
b. Inertie totale du nuage N(J)
2
p p n
1  f ij 
I ( N ( J ) , f I ) = ∑ f. j d 2
(f j
, f I = ∑ f. j
) ∑  − fi. 
I
f i. 
j =1 j =1 i =1  f. j 
Plus l’inertie est grande, plus les profils colonnes sont dispersés
autour du profil colonne moyen. 32

16
27/04/2020

Section 2. Analyse des points profils

2.1. Construction des distances

2.2. Calcul de l’inertie totale des nuages

2.3. Analyse des correspondances

2.4. Interprétation

33

2.3. Analyse des correspondances


L’AFC n’est autre qu’une ACP simultanée des deux triplets:

1er triplet 2ème triplet


( N ( I ) ; D p− 1 ; D n ) ( N ( J ) ; D n− 1 ; D p )

Avec:

 f 1. 0 0 0   f .1 0 0 0 
   
0 f .2 0 0 
D p =
0 f 2. 0 0 
Dn =  ⋱ 0 
 0 0 ⋱ 0  0 0
   
0 0 0 f n.   0 0 0 f . p 

34

17
27/04/2020

2.3. Analyse des correspondances

ACP ( N ( I ) ; Dp−1; Dn ) ( N ( J ) ; Dn−1; Dp )


n
Centre de
gravité g = ∑ pi xi fJ fI
i =1
Matrice à
diagonaliser
VM →R si M = D 1 F ′ Dn−1 F Dp−1 F Dp−1 F ′ Dn−1
σ2
Vecteurs uh ≠ f J associé à la vh ≠ f I associé à la
propres
uh associés aux valeurs
propres λh de VM ou R valeur propre λ = 1 valeur propre λ = 1

(trivial ) (trivial )
Composantes
principales Ch = X ′ M uh Fh = Dn−1 F Dp−1 uh Gh = Dp−1 F′ Dn−1 vh

35

2.3. Analyse des correspondances


a. ACP du triplet ( N (I); Dp-1 ; Dn)
1. Les axes factoriels du nuage N(I):
Les axes factoriels uh du nuage N(I) sont les r vecteurs propres normés
−1 −1
de la matrice F ′ Dn F Dp associés au r plus grandes valeurs propres λh
rangées par ordre décroissant et diffèrent de la valeur propre λ=1.
L’inertie expliquée par chaque axe factoriel uh est donné par λh .
2. Les composantes principales du nuage N(I):
Les composantes principales Fh du nuage N(I) sont donnés par la
−1 −1
formule: Fh = Dn F Dp uh
Les composantes principales Fh sont centrées, de variance λh et non
corrélées entre elles (même chose que l’ACP). 36

18
27/04/2020

2.3. Analyse des correspondances


b. ACP du triplet ( N (J); Dn-1 ; Dp)
1. Les axes factoriels du nuage N(J):
Les axes factoriels vh du nuage N(I) sont les r vecteurs propres normés
−1 −1
de la matrice F Dp F ′ Dn associés au r plus grandes valeurs propres λh
rangées par ordre décroissant et diffèrent de la valeur propre λ=1.
L’inertie expliquée par chaque axe factoriel vh est donné par λh .
2. Les composantes principales du nuage N(J):
Les composantes principales Gh du nuage N(J) sont donnés par la
−1 −1
formule: Gh = Dp F′ Dn vh
Les composantes principales Gh sont centrées, de variance λh et non
corrélées entre elles (même chose que l’ACP). 37

Section 2. Analyse des points profils

2.1. Construction des distances

2.2. Calcul de l’inertie totale des nuages

2.3. Analyse des correspondances

2.4. Interprétation

38

19
27/04/2020

2.4. Interprétation
a. Contribution relative
La contribution relative d’une modalité i à la formation de l’axe ∆ u
h

permet de mesurer la qualité de projection de la modalité i sur l’axe ∆ u h

et elle est donnée par la formule:

2
 Fh ( i ) 
CTRh ( i ) = n = cos 2 θ
∑ Fh ( i )
2

i =1

Les modalités i projetées loin de l’origine positivement ou


négativement sont bien représentées sur l’axe.

39

2.4. Interprétation
b. Contribution absolue
La contribution absolue d’une modalité i à la formation de l’axe ∆ u
h

permet d’apprécier la contribution d’une modalité i à la formation


de l’axe ∆ u et elle est donnée par la formule:
h

2
f i. Fh ( i )
CTAh ( i ) =
λh

Ce sont les modalités i projetées loin de l’origine qui jouent un rôle


important dans la formation d’un axe.

40

20
27/04/2020

Plan

Section 1. Tableau de contingence

Section 2. Analyse des points profils

Section 3. Passage d’un nuage à un autre

41

Section 3. Passage d’un nuage à un autre


On diagonalise une seule matrice, celle qui a la dimension la plus
faible, puis on peut utiliser les formules de liaison qui suivent pour
passer d’un nuage à un autre.

3.1. Liaison entre les axes factoriels uh et vh

3.2. Liaison entre les composantes


principales Fh et Gh
2.3. Liaison entre les composantes
principales d’un nuage et les axes
factoriels de l’autre

42

21
27/04/2020

3.1. Liaison entre les axes factoriels uh et vh


Les axes factoriels d’un des deux nuages peuvent se déduire des axes
factoriels de l’autre nuage.

Les axes factoriels uh et vh vérifient les équations:

1
uh = F ′ Dn−1 vh
λh
1
vh = F D p−1 uh
λh

43

Section 3. Passage d’un nuage à un autre

3.1. Liaison entre les axes factoriels uh et vh

3.2. Liaison entre les composantes


principales Fh et Gh
2.3. Liaison entre les composantes
principales d’un nuage et les axes
factoriels de l’autre

44

22
27/04/2020

3.2. Liaison entre les composantes principales


Fh et Gh
Les composantes principales d’un des deux nuages peuvent se déduire
des composantes principales de l’autre nuage.

Les composantes principales Fh et Gh vérifient les équations:

1
Fh = Dn−1 F Gh
λh
1
Gh = D p−1 F ′ Fh
λh

45

Section 3. Passage d’un nuage à un autre

3.1. Liaison entre les axes factoriels uh et vh

3.2. Liaison entre les composantes


principales Fh et Gh
2.3. Liaison entre les composantes
principales d’un nuage et les axes
factoriels de l’autre

46

23
27/04/2020

3.3. Liaison entre les composantes principales


d’un nuage

Fh = λh Dn−1vh
Gh = λh D p−1uh

47

48

24

Vous aimerez peut-être aussi