Vous êtes sur la page 1sur 11

Analyse Factorielle de correspondances simple

L’analyse factorielle des correspondances (AFC) L’objectif est identique à L’ACP ; les variables exigées sont nominatives avec

des tableaux de contingences. Cette méthode complète les tris croisés et les tests

de CHI-DEUX, lorsque les variables ont un grand nombre de modalités.

PRINCIPES DE L'AFC

Analyse du nuage des profils en ligne

A partir du tableau de contingence: K, on passe au tableau: X, des profils en

ligne, c'est à dire des fréquences conditionnelles, obtenu en divisant chaque

élément de la ligne i, par son total k(i):

x =

ij

k

ij

k

i

Ainsi la ligne i du tableau X, donne la répartition en proportions selon les p modalités du second caractère des k(i) individus qui prennent la modalité: i, du premier caractère. Le terme de profil fait référence à l’aspect visuel des diagrammes en rectangles fréquemment utilisés pour représenter les distributions, ici celles de fréquences conditionnelles indiquées.

Les lignes de X étant donc des fréquences, ou encore des probabilités

empiriques, l'ACP du nuage de ses n lignes, éléments de R p , est effectuée non selon la distance usuelle, mais selon la distance, dite du chi-deux, adaptée à la comparaison de fréquences ou de probabilités. D'autre part, pour tenir compte de l'importance relative des différentes modalités en ligne, la ligne-individu i est affectée du poids: k(i).

1

L'AFC du tableau de contingence: K, est l'ACP du tableau: X, des profils en ligne, avec la distance du chi-deux et les poids précédents. Les différentes notions présentées en ACP:

les taux d'inertie

les coordonnées et plans factoriels (ou principaux)

les contributions

les éléments supplémentaires

se retrouvent ici; elles conservent la même signification et s'utilisent de la même manière qu'en ACP.

Analyse des profils en colonne, représentation simultanée

A l'inverse de ce qui se passe en ACP, lignes et colonnes d'un tableau de

contingence: K, jouent des rôles comparables.

A l'analyse du tableau: X, des profils en ligne correspond celle du tableau: Y,

des profils en colonnes - avec la distance et les poids convenables. Du fait de relations algébriques particulières, les deux analyses peuvent être menées conjointement. Elles présentent en outre une propriété remarquable: sans entrer dans le détail mathématique, il est loisible de représenter les deux ensembles: I et J, simultanément sur les plans factoriels, de telle sorte que la position d'un point de l'ensemble I (resp. J) y est interprétable par rapport à l'ensemble de tous les points de l'ensemble J (resp. I).

Pour cette raison, la plupart des logiciels éditent la représentation simultanée des deux ensembles dans les plans principaux demandés.

2

On retiendra impérativement que cette interprétation reste délicate, et que la proximité entre un point-ligne et un point-colonne considérés isolément n'a aucune signification.

Formalisation de l’AFC

L’AFC, comme il a été dit, est une forme particulière de l’ACP appliquée aux tableaux de contingence : non centrée-réduite, avec pondérations, et utilisant la métrique dite du chi-deux (ie des inverses des fréquences marginales) au lieu de la métrique euclidienne usuelle.

On note K le tableau de contingence, ou tableau croisé, initial, de dimension n.p, F J/I le tableau des profils en ligne (fréquences conditionnelles, conditionnées par les items en ligne) et F I/J celui des profils en colonne. D I désigne la matrice diagonale portant sur sa diagonale les totaux en ligne (ou totaux marginaux) et D J celle des totaux en colonne.

Les différentes matrices précédentes sont naturellement liées:

F

ji/

=

1

D K

I

et

F

ij/

=

KD

J

1

Le produit scalaire de deux vecteurs u et v dans R p pour la métrique du chi-deux

.v , à un facteur multiplicatif près, par

suite l’inertie dans la direction du vecteur

ligne, pour la métrique précédente avec pour pondérations les totaux en ligne, est donnée, au même facteur près, par le produit matriciel:

est donné par le produit matriciel: u’.

unitaire u du nuage des profils en

D J

1

D J

1

u D F

J

ji /

'

1

'

1

D F D u =

I

ji /

j

u D K D KD u

−−

I

''

J

1

11

J

Les directions principales d’inertie sont obtenues en maximisant la quantité

orthogonales

précédente sous la contrainte: u’.

D

J

1

.u = 1 , dans des directions

D

J

1

3

successives. La théorie indique que la solution est la suite des vecteurs propres

normés u k associée à la suite décroissante des valeurs propres λ k de la

matrice (non symétrique):

D J

1

'

F ji /

D F D

I

J / I

J

1

=

K D KD

−−

I

'

11

J

Les composantes principales:

c

k

=

1

F D u

JI/

J

k

=

D KD u

−−

I

11

J

k

donnent à nouveau les coordonnées des profils en ligne sur les axes factoriels, tandis que les différentes aides à l'interprétations s'obtiennent aisément en tenant compte de la métrique D J -1 et des pondérations données par D I .

L’analyse des profils en colonne est étroitement liée à la précédente, du fait des relations entre F I/J et F J/I . Les directions principales de cette analyse sont données par les vecteurs propres D I -1 -normés et orthogonaux:

v

k

=

λ

k

1/2

1

KD u

Jk

de la matrice:

F D F D

/

IJ

J

IJ /

'1

I

=

KD K D

−−

J

I

1

'

1

et les composantes principales par:

d

k

=

'

F Dv

IJ/

I

1

k

=

λ

k

1/2

'

F c

IJ/

k

La i ème composante: d ki , de d k est donc:

d

ki

=

λ

k

1/2

n

ji

j n

i

c

kj

relation barycentrique, au facteur

la représentation simultanée.

Exemple

λ

k

1/2

près, qui relie les deux analyses et justifie

4

Le chef de produit désire cibler la clientèle d’une nouvelle lessive écologique. Il voudrait notamment savoir quelle tranche d’age est la tranche la plus réceptive à ce produit. Un échantillon de 391 personnes a été interrogé, il a effectué un tri croisé entre les différentes classes d’age ( six tranches) des répondants et une variable ‘achats de produit écologiques’ comportant quatre modalités ( systématique, la plus part du temps, occasionnellement et jamais, le test de CHI- DEUX semple significatif et permet d’établir un lien entre les deux variables ; mais le chef de produit souhait souhaite approfondir la nature de cette association. Le tableau de contingence suivant est établit :

Age

Achats des produits écologiques

 

Ligne

Total

Syste

LPDT

OCCAS

Jamais

1

2

3

4

 

1

6

6

24

9

45

15

19

13,3

13,3

53,3

20

11,5

 

15,4

4,3

14,3

20,9

 

2

2

25

37

6

70

20

24

2,9

35,7

52,9

8,6

17.9

 

5,1

17,7

22

14

 

3

5

17

25

9

56

25

34

8,9

30,4

44,6

16,1

14.3

 

12,8

12,1

14,9

20,9

 

4

12

29

37

3

81

35

45

14,8

35,8

45,7

3,7

20,7

 

30,8

20,6

22

7

5

 

5

3

45

36

12

96

45 59

3,1

46,9

37,5

12,5

24,6

7,7

31,9

21,4

27,9

 

6

11

19

9

4

43

60 et plus

25,6

44,2

20,9

9,3

11

28,2

13,5

5,4

9,3

Colonne

39

141

168

43

391

Total

10,0

36,1

43

11

100

LPDT = la plus part du temps Dans chaque case du tableau il y a 3 chiffres : le 1èr (en partant du haut) représente le nombre d’individus présentant les deux modalités considérées ; le chiffre du milieu correspond au % que représente l’effectif de la case par rapport au total de la ligne , le chiffre de la 3 ème ligne représente le pourcentage par rapport au total de la colonne.

Etape 1 : Analyse des tableaux de contingence

Pour analyser le sens de la relation entre les deux variables, on compare les % en lignes et en colonnes par rapport aux % marginaux qui leur correspondent. Par exemple 10% des personnes interrogées ont répondu faire systématiquement attention à acheter des produits écologiques. Si on détaille cette colonne par classe d’age, on s’aperçoit que les 15-19, les 35-44 et les 60 et plus sont largement sur représentées, tandis que les autres classes sont sous représentées. Le raisonnement se poursuit de la même manière aussi bien pour les lignes que pour les colonnes. On peut alors tenter de déceler une tendance dans les liens entre les modalités des deux variables. Ce travail devient vite fastidieux : L’AFC permet de visualiser directement ces liens.

Etape 2 : Représentation graphique

6

Le choix du nombre de dimensions pertinentes est du ressort de l’analyse. Il est basé sur la quantité d’information à laquelle chaque dimension contribue. Pour L’ACP cette notion d’information était assimilable à la part de la variance initiale. Avec des variables qualitatives, la variance n’est plus utilisée, on utilise une notion proche, appelée inertie.

Inertie des dimensions

Dimension

Inertie

% expliqué

% cumulé

1

0,06257

0,494

0,494

2

0,04406

0,348

0,841

3

0,02010

0,159

1

Total

0,12673

1

Dans le tableau ci-dessus, la dimension 3 contribue pour 16% de l’inertie totale, soit moitié moins que la seconde dimension. Les deux premières dimensions contribuent ensemble à 84,1% de cette inertie totale. Il semble donc logique de négliger la 3 ème .

La représentation graphique met en relief les liens éventuels entre les modalités des deux variables étudier. La dimension horizontale est par convention celle qui représente plus d’information.

7

0,59

0,39

0,04

-0,24

-0,52

-0,79

-1,07

Représentation graphique d’une AFC la plus part du temps 45-39 60 et plus 20-24 35
Représentation graphique d’une AFC
la plus part
du temps
45-39
60 et plus
20-24
35 44
occas
25-34
systema
jamais
15-19
-1,39
–1,22
–1,06
-0,89
-0,73
-0,56
-0.39
-0,23
-0,06
10
27
44

Nous constatons une nette opposition entre la modalité ‘ 60 et plus’ associé à la modalité systématiquement dont les coordonnées sont négatives, et les modalités ’20-24’ et jamais sur le coté positif de l’axe. La seconde dimension oppose les ’15-19’ aux ’45-59’ et à la plupart du temps. La représentation montre donc les différences de comportement très marqués entre les classes d’age extrême, à l’exception des 15-19 qu’aucune modalité de comportement n’accompagne. Les classes d’age intermédiaires sont très proches du barycentre et contribue moins, à priori, à l’inertie du nuage.

Etape 3 : Interprétation des dimensions Trois types d’indicateurs facilitent cette opération. 1) Contributions. Elles représentent, en %, les parts de chaque point (chaque modalité) dans l’inertie des axes. Plus ce poids est fort, et plus la modalité à l’apparition de la dimension.

8

Contribution des variables Age et Achat

Age

Profile

 

Dimensions

 

marginal

1

2

3

1

15-19

0,115

0,009

0,635

0,030

2

20-24

0,179

0,173

0,011

0,140

3

25-34

0,143

0,016

0,056

0,072

4

35-44

0,207

0,088

0,001

0,480

5

45-59

0,246

0,084

0,285

0,195

6

60et

0,110

0,631

0,011

0,082

plus

 

1,00

1,00

1,00

Achat

Profil

 

Dimensions

marginal

1

2

3

1 systématiquement

0,10

0,771

0,124

0,005

2 La plus part du temps

0,361

0,012

0,602

0,026

3 occasionnellement

0,430

0,172

0,115

0,283

4 Jamais

0,110

0,045

0,159

0,686

1,00

1,00

1,00

Les contributions les plus fortes à l’axe 1 sont les modalités ’60 et plus’ et ‘systématiquement’. Par contre , contrairement à ce que le graphe pouvait laisser penser, la contribution du point ’20-24’ est beaucoup plus faible. La dimension

9

2, quant à elle, résulte de la contribution opposée des ’15-19’ et de la modalité ‘la plus part du temps’. Les modalités ’35-44’ et ‘jamais’ contribuent au 3 ème dimension.

Qualité de la représentation Elle indique la capacité du graphique à restituer l’information contenue dans la variable initiale : un % élevé traduit une perte d’information minime.

Qualité de la représentation

 

Age

Profile

 

Dimensions

 

Total

marginal

1

2

3

1

15-19

0,115

0,020

0,960

0,020

 

1

2

20-24

0,179

0,765

0,035

0,200

1

3

25-34

0,143

0,198

0,508

0,294

1

4

35-44

0,207

0,363

0,004

0,633

1

5

45-59

0,246

0,241

0,578

0,181

1

60et plus

0,110

0,949

0,011

0,040

1

Achat

 

Profil

 

Dimensions

 

Total

 

marginal

1

2

3

1 systématiquement

0,10

0,897

0,101

0,002

1

2 La plus part du temps

0,361

0,026

0,955

0,019

1

3 occasionnellement

0,430

0,501

0,235

0,264

1

4 Jamais

 

0,110

0,119

0,297

0,584

1

10

Pour la variable ‘Age’, c’est le point ’ 60 et plus’ qui est le mieux
Pour la variable ‘Age’, c’est le point ’ 60 et plus’ qui est le mieux
Pour la variable ‘Age’, c’est le point ’ 60 et plus’ qui est le mieux
Pour la variable ‘Age’, c’est le point ’ 60 et plus’ qui est le mieux
Pour la variable ‘Age’, c’est le point ’ 60 et plus’ qui est le mieux
Pour la variable ‘Age’, c’est le point ’ 60 et plus’ qui est le mieux

Pour la variable ‘Age’, c’est le point ’60 et plus’ qui est le mieux représenté sur l’axe 1. tandis que l’axe 2 privilégie le point ’15-19’. Ces deux axes d’age extrême s’opposent donc. Pour la variable ‘achat’ c’est le point ‘systématique’ qui est le mieux représenté sur l’axe 1 et le point, ‘la plus part du temps’ sur l’axe 2 ( en signe opposé comme dans le graphe). Les modalités ‘35_44’ et ‘jamais’ sont les mieux représentées ( mais moyennant) sur l’axe 3 ; ce qui confirme le faible intérêt de ce dernier.

Synthèse : Nous avons, dans cet exemple, une opposition entre une classe d’age âgée à laquelle semble faire un effort ‘systématique’ d’achat de produit respectant l’environnement et une classe d’age très jeune dont le comportement n’est pas clairement défini, mais opposée à un comportement que l’on pourrait qualifier de régulier (‘la plus part du temps’). L’axe 1 représenterait la fidélité à l’achat d’un produit écologique.

11