Vous êtes sur la page 1sur 65

Analyse et valorisation de Données

Analyse (factorielle) des


correspondances multiples
Multiple Correspondence Analysis

Nhân-Quy NGUYEN (PhD)


Chair Connected Innovation

Université de Technologie de Troyes, France


Plan
I. Contexte et données
II. Tableau disjonctif complet
III. Étude des individus
IV. Étude des variables et des modalités
V. Représentation simultanée Individus - modalités
VI. Aide à l’interprétation
VII. Conclusion

Analyse des correspondances multiples Nhân-Quy Nguyen 2


Plan
I. Contexte et données
II. Tableau disjonctif complet
III. Étude des individus
IV. Étude des variables et des modalités
V. Représentation simultanée Individus - modalités
VI. Aide à l’interprétation
VII. Conclusion

Analyse des correspondances multiples Nhân-Quy Nguyen 3


Contexte
 Avec l’Analyse de Correspondance (CA) on a analysé l’association entre
deux variables qualitatives.
 Que faire dans le cas où il faut explorer les liens entre plus de deux
variables qualitatives?
 Traitement des données d’enquêtes:
• Une question  Une variable
• Des réponses possibles  Des modalités de cette variable
Par exemple :
• Les loisirs : musique (types de musiques), cinéma (fréquence), jardinage (tranche
horaire)…
• Les variables démographiques des travailleurs : état civil, tranche d’âge, éducation,
profession…

« L’ACM n’est pas une nouvelle méthode mais une application particulière de
l’AFC […] »1
1Husson, F., Lê, S., & Pagès, J. (2016). Analyse de données avec R. Presses universitaires de Rennes.
Analyse des correspondances multiples Nhân-Quy Nguyen 4
Etude de cas : Intoxication alimentaire (IA)

 Echantillon de données libre sur FactoMineR1.  Identité


 Age
 Enquête réalisée auprès d'enfants de l'école  Sexe
primaire victimes d'une intoxication  Intoxication : oui ou non
alimentaire.  Type de symptôme :
Nausée, Vomissement,
 Sur leurs symptômes et sur leur alimentation. Douleurs abdominales,
 55 individus, 15 questions. Fièvre, Diarrhée.
 Plat mangé : Patate,
Poisson, Mayonnaise,
Courgette, Fromage, Glace

1Lê, S., Josse, J. & Husson, F. (2008). FactoMineR: An R Package for Multivariate Analysis. Journal of Statistical Software. 25(1). pp. 1-18.
Analyse des correspondances multiples Nhân-Quy Nguyen 5
Un coup d‘œil sur les données
Modalité

Age

Malade

Sexe
Symptôme Plat mangé
#

Nausée
ent
Vomissem-
abdominales
Douleurs

Fièvre

Diarrhée

Patate

Poisson

Mayonnaise

Courgette

Fromage

Glace
1 9 Oui F Oui Non Oui Oui Oui Oui Oui Oui Oui Oui Oui
2 5 Non F Non Non Non Non Non Oui Oui Oui Oui Non Oui
Les individus

3 6 Oui F Non Oui Oui Oui Oui Oui Oui Oui Oui Oui Oui Variables
oui ou
… non
55 7 Oui M Non Oui Oui Oui Oui Oui Oui Oui Oui Oui Oui

Variables supplémentaires Variables actives

Analyse des correspondances multiples Nhân-Quy Nguyen 6


Objectifs de ACM
Etude des individus, des variables et des modalités :
1. Etude des proximités entre les individus
 Quelles sont les individus qui sont ressemblants / similaires ?
 Peut-on grouper les individus similaires de la population

2. Etude des associations des variables et des modalités


 Les caractéristiques (variables) qui construisent la similarité
 La distance entre deux modalités : Deux modalités sont proches si elles ont
souvent été choisies ensemble.
 Caractériser des groupes d'individus par des modalités.

Analyse des correspondances multiples Nhân-Quy Nguyen 7


Objectifs de ACM (1/2) : Etude des individus
Typologies des individus (en terme de l’ensemble des variables) :
• Quels sont les individus les plus proches (plus ressemblants) et inversement,
les plus éloignés
• Homogénéité des groupes d’individus par rapport à leur ressemblance

Distance (ressemblance) des individus : La présence/absence des


modalités communes qui ont été choisies
• Zéro Ensemble des modalités choisies identique
• Petite Nombre de modalités choisies communes élevé
• Eloignée Les modalités rares non communes
• Rapprochée Les modalités rares communes

Analyse des correspondances multiples Nhân-Quy Nguyen 8


Objectifs de ACM (2/2) : Etude des variables et modalités
Bilan de liaison entre variables (leur intensité de dépendance)
( ACF + ACP)
• Variable synthétique
• L’ensemble des individus qui prennent une modalité

Distance (proximité) entre deux modalités : En fonction du nombre


d’individus qui choisissent en même temps ces deux modalités
• Loin Peu d’individus en commun
• Proche Plus d’individus en commun

Analyse des correspondances multiples Nhân-Quy Nguyen 9


Plan
I. Contexte et données
II. Tableau disjonctif complet
III. Étude des individus
IV. Étude des variables et des modalités
V. Représentation simultanée Individus - modalités
VI. Aide à l’interprétation
VII. Conclusion

Analyse des correspondances multiples Nhân-Quy Nguyen 10


Données et notations
 Nombre d’individus (lignes) : 𝐧 Variables qualitatives
 Nombre de variables (colonnes) : 𝐩 1
1 𝑗 𝑝

 Tableau de données brutes :


sondage de 𝑛 individus qui répondent aux 𝑖 𝑣𝑖𝑗
𝑝 questions à choix multiple.

Individus
 𝒗𝒊𝒋 est la réponse de l’individu 𝒊 à la 𝒋ème
question (modalité de la variable 𝑗 de
l’individu 𝑖)

𝑛
Comment « encoder » ces
données ?
Tableau de données brutes

Analyse des correspondances multiples Nhân-Quy Nguyen 11


Tableau disjonctif complet (TDC)
Exemple d’intoxication alimentaire : chaque question a deux choix
1 - Oui et 2 - Non.
Tableau disjonctif complet
(ou Matrice indicatrice)
# Symptôme # Symptôme # Symptôme
Nausée

Vomissement
abdominales
Douleurs

J1 J2 J3 J1 J1 J2 J2 J3 J3
(1) (2) (1) (2) (1) (2)

1 Oui Non Oui 1 1 2 1 1 1 0 0 1 1 0 Σ=p


2 Non Non Non 2 2 2 2 2 0 1 0 1 0 1 ↓
3 Non Oui Oui 3 2 1 1 3 0 1 1 0 1 0 Complet

Σ=1  Disjonctif
Analyse des correspondances multiples Nhân-Quy Nguyen 12
Tableau disjonctif complet (TDC)
Modalités
1 𝑗 𝑝
Variables qualitatives
1 2
1 𝑗 𝑝 1 𝑘 𝐾
1 1

𝑖 𝑣𝑖𝑗 𝑖 𝑥𝑖𝑘 ∈ {0,1}


෍ 𝑥𝑖𝑘 = 𝑝
Fièvre: oui 1 0
Individus

𝑗=1..𝐾

Individus
ici les somme
en terme de nbr
en remplace pas les
val????

𝑛 𝑛 ෍ ෍ 𝑥𝑖𝑘 = 𝑛. 𝑝
𝑗=1..𝐾 𝑖=1..𝑛
෍ 𝑥𝑖𝑘 = 𝑛𝑘 = 𝑛. 𝑝𝑘
𝑖=1..𝑛

Analyse des correspondances multiples Nhân-Quy Nguyen 13


nbr d'individus qui ont choisie la modalité K=occurance
Tableau disjonctif complet (TDC) : Notations
1 si individu i a choisi la catégorie k de la variable j
 𝒙𝒊𝒌 =ቊ
0 sinon

 La somme des lignes du TDC est égale au nombre de variables


catégorielles 𝒑

 La somme sur la colonne 𝒌 du TDC est noté 𝒏𝒌 , qui est l’effectif


marginal de la catégorie 𝒌.

𝒏𝒌
 La proportion de la population choisissant la modalité 𝒌 est 𝒑𝒌 =
𝒏

Analyse des correspondances multiples Nhân-Quy Nguyen 14


Plan
I. Contexte et données
II. Tableau disjonctif complet
III. Étude des individus
IV. Étude des variables et des modalités
V. Représentation simultanée Individus - modalités
VI. Aide à l’interprétation
VII. Conclusion

Analyse des correspondances multiples Nhân-Quy Nguyen 15


Distance entre deux individus 𝒊 et 𝒊′
Rappel : Distance (ressemblance) des individus : La présence/absence
des modalités communes qui ont été choisies
Suggestion de modélisation de la distance Si 𝑖 et 𝑖 ′ n’ont pas 𝑘 en
𝐾 commun :
2
2 𝑥𝑖𝑘 − 𝑥𝑖 ′ 𝑘 𝑥 −𝑥 𝑖𝑘 𝑖′ 𝑘
2

𝑑𝑖,𝑖 ′ = 𝒸 ෍ 𝑛
grand
𝑘
𝑛𝑘
𝑘=1
Avec Modalité rare :
Si 𝑖 et 𝑖 ′ ont 𝑘 en commun :
 𝒸 > 0 une constante 𝑛𝑘 petit.
𝑥𝑖𝑘 −𝑥𝑖′ 𝑘
2
nul
 𝑛𝑘 le nombre d’individus choisissant la modalité 𝒌 𝑛𝑘

si la distance est proche de 0 --> indi proche et l'inverse

Analyse des correspondances multiples Nhân-Quy Nguyen 16


Distance entre deux individus 𝒊 et 𝒊′
n
Soit 𝒸 = on a :
p
𝐾 𝐾 2
n 𝑥𝑖𝑘 − 𝑥𝑖 ′ 𝑘 2 𝑛𝑝 𝑥𝑖𝑘 𝑥𝑖 ′ 𝑘
2
𝑑𝑖,𝑖 ′ = ෍ =෍ −
p 𝑛𝑘 𝑛𝑘 𝑝 𝑝
𝑘=1 𝑘=1
Donc :
𝑥𝑖𝑘 𝑥𝑖 ′ 𝑘 2
𝐾
2 1 𝑛𝑝 𝑛𝑝
𝑑𝑖,𝑖 ′ =෍𝑛 −
𝑘 1 1 np=n*p
𝑘=1 𝑛𝑝 𝑛 𝑛

Analyse des correspondances multiples Nhân-Quy Nguyen 17


Distance entre deux individus 𝒊 et 𝒊′
Rappels :
𝑥𝑖𝑘
 Probabilité que l’individu 𝑖 prenne la modalité 𝑘 𝑓𝑖𝑘 =
𝑛𝑝
𝑛 𝑥𝑖𝑘 𝑛𝑘
 Probabilité marginale de modalité 𝑓∙𝑘 = σ𝑖=1 =
𝑛𝑝 𝑛𝑝
𝐾 𝑥𝑖𝑘 𝑝 1
 Probabilité marginale d’individus 𝑓𝑖∙ = σ𝑘=1 = =
𝑛𝑝 𝑛𝑝 𝑛

𝑥𝑖𝑘 𝑥𝑖 ′ 𝑘 2
𝐾 𝐾 2
2 1 𝑛𝑝 𝑛𝑝 1 𝑓𝑖𝑘 𝑓𝑖 ′𝑘
𝑑𝑖,𝑖 ′ =෍𝑛 − =෍ − = 𝑑𝜒2 2 (𝑖, 𝑖 ′ )
𝑘 1 1 𝑓∙𝑘 𝑓𝑖∙ 𝑓𝑖 ′∙
𝑘=1 𝑛𝑝 𝑘=1
𝑛 𝑛
la distance de khi-deux

Analyse des correspondances multiples Nhân-Quy Nguyen 18


Nuage d’individus

1 𝑘
1

Le poids de l’individu 𝑖 est 𝑖 𝑥𝑖𝑘


1
= 𝑓𝑖∙

Individus
𝑛
(Probabilité marginale de l’individu 𝑖)

Analyse des correspondances multiples Nhân-Quy Nguyen 19


𝟐
Distance 𝝌 entre deux profils ligne 𝒊 et 𝒊′

𝐾 2 𝐾
1 𝑓𝑖𝑘 𝑓𝑖 ′ 𝑘 𝑛 1
2
𝑑 𝑖, 𝑖 ′
= 𝑑𝜒2 2 (𝑖, 𝑖 ′ ) =෍ − = ෍ 𝑥𝑖𝑘 − 𝑥𝑖 ′ 𝑘 2
𝑓∙𝑘 𝑓𝑖∙ 𝑓𝑖 ′ ∙ 𝑝 𝑛𝑘
𝑘=1 𝑘=1

 Toutes les catégories sont les mêmes: distance = 0


1
 Une catégorie rare (grande )
est choisi par un profil mais pas par l’autre :
𝑓∙𝑘
grande distance
 Les deux profils partagent une catégorie rare : distance moins importante
 L’intensité de la dépendance entre 𝒊 et 𝒊’ (test 𝝌𝟐 )

Analyse des correspondances multiples Nhân-Quy Nguyen 20


𝟐
Distance 𝝌 entre deux profils ligne 𝒊 et 𝒊′
 Distance entre deux individus
𝐾
2 ′
𝑛 1 2
𝑑 𝑖, 𝑖 = ෍ 𝑥𝑖𝑘 − 𝑥𝑖 ′ 𝑘
𝑝 𝑛𝑘
𝑘=1

 Distance de l’individus 𝒊 au centre


Centre ≡ profil moyen 𝑶𝑰 (𝒑𝟏 , 𝒑𝟐 , … , 𝒑𝑲 )

𝐾 𝐾
𝑛 1 𝑛𝑘 2 1 𝑥𝑖𝑘
𝑑2 𝑖, 𝑂𝐼 = ෍ 𝑥𝑖𝑘 − =⋯= ෍ −1
𝑝 𝑛𝑘 𝑛 𝑝 𝑝𝑘
𝑘=1 𝑘=1

Analyse des correspondances multiples Nhân-Quy Nguyen 21


Inertie d’individus
𝟏
Le poids d’un profil ligne est égal à sa marge 𝑓𝑖∙ =
𝐧
 L’inertie de l’individu 𝒊
1 2
𝝓 𝒊 = 𝑑 𝑖, 𝑂𝐼
𝑛
 L’inertie totale
𝑛 𝑛 𝐾 𝑛 𝐾
1 𝑥𝑖𝑘 1 1 𝑥𝑖𝑘
Φ = ෍𝜙 𝑖 = ෍ ෍ − = ෍෍ −1
𝑛𝑝 𝑝𝑘 𝑛 𝑛𝑝 𝑝𝑘
𝑖=1 𝑖=1 𝑘=1 𝑖=1 𝑘=1
𝐾 𝑛 𝐾
1 1 1 𝑛𝑘 𝐾𝑛 𝑲
Φ= ෍ ෍ 𝑥𝑖𝑘 − 1 = ෍ −1= −1= −𝟏
𝑛𝑝 𝑝𝑘 𝑛𝑝 𝑝𝑘 𝑛𝑝 𝒑
𝑘=1 𝑖=1 𝑘=1
Ne dépend pas du contenu mais de la
Analyse des correspondances multiples Nhân-Quy Nguyen structure du TDC 22
Analyse factorielle : Construction du nuage d’individus
Trouver un repère qui préserve au mieux les distances entre les individus :
 Discerner le mieux possible les individus
 Maximiser l’inertie totale

Recherche des dimensions factorielles


Décomposition orthogonale (projection) sur l’axe qui maximise l’inertie :
𝟏 𝟐 ?ind
𝒏
σ𝒊=𝟏 𝑭𝟏 (𝒊, 𝑶)
1ère dimension : 𝝀𝟏 =
𝒏
?projection
𝜆1 : dispersion de la dimension 1 sur l'axe
?axe1
Le nb max de dimensions : 𝑯 = 𝑲 − 𝒑 𝐹12 (𝑖, 𝑂)

Analyse des correspondances multiples Nhân-Quy Nguyen 23


Inertie sur les dimensions du cas d’étude Scree plot

40

33.5%
Percentage of explained variances

30

20

12.9%
10.7%
10 9.6%
7.9%
7.1%
6% 5.6%
4.1%

1.3%
0

1 2 3 4 5 6 7 8 9 10
Dimensions

Graphe construit par R avec le package FactoMineR

Analyse des correspondances multiples Nhân-Quy Nguyen 24


Représentation du nuage des individus
Individuals - MCA

Le graphe des individus 1.0

44

sur les deux premières 45


23
28

dimensions 38

 Dimension 1 conserve
0.5 53

17
33,5% de l’inertie 7
3 27
22
47
55 54

 Dimension 2 conserve 5 12
32

Dim2 (12.9%)
18 19 10
16 24 15
0.0 11 30 25
2
12,9% de l’inertie 8
40
36
21
46 43
50 31

34 26
42 51
20
4
52
41 13 14
48 49
33
9
1 29

Il y a 4 groupes particuliers -0.5


6

39
35
-1.0 37

-0.5 0.0 0.5 1.0


Dim1 (33.5%)

Graphe construit par R avec le package FactoMineR


Analyse des correspondances multiples Nhân-Quy Nguyen 25
Représentation du nuage des individus
Individuals - MCA
Malade
Vomissem. Oui
Doul. Abd. Non
Fièvre
Diarrhée
Patate
Poisson
Mayonnaise Oui
Courgette Oui
Fromage
Glace
Nausée
1.0

44
28
23
45

38
Oui

Oui
Oui
Oui
Non

Oui
Oui
Oui
0.5 53

17
22
3 27 47
55 7 54
5 32
12

Dim2 (12.9%)
18 19 10
35 0.0 11 30
16 24
50
25
31 2 20
15
Oui
Oui
Non
Oui
Non
Oui
Non
Oui
Oui
Oui
Oui
Oui
8 36 46 43
42 4
51
40 21 52 34 26
41 13 14
48 49
33
9
1 29
6
-0.5
37
Oui
Non
Non
Oui
Oui
Oui
Non
Oui
Oui
Oui
Oui
Oui

39
35
-1.0 37

39 -0.5 0.0 0.5 1.0


Dim1 (33.5%)
ces individus ont le meme choix ,on remarque qu'il
n'ont pas manger de poisson pas de douleur abdo Graphe construit par R avec le package FactoMineR
Analyse des correspondances multiples Nhân-Quy Nguyen 26
Représentation du nuage des individus
Individuals - MCA
Dim1(rose)separe des malade de non
Malade
Vomissem. Oui
Doul. Abd. Non
Fièvre
Diarrhée
Patate
Poisson
Mayonnaise Oui
Courgette Oui
Fromage
Glace
Nausée
1.0

44
malade
28
53 et35
23
45

38
Oui

Oui
Oui
Oui
Non

Oui
Oui
Oui
0.5 53

17
22
3 27 47
55 7 54
5 32
12

Dim2 (12.9%)
18 19 10
35 0.0 11 30
16 24
50
25
31 2 20
15
Oui
Oui
Oui
Oui
Oui
Oui
Oui
Oui
Oui
Non
Oui
Non
8 36 46 43
42 4
51
40 21 52 34 26
41 13 14
48 49
33
9
1 29
6
-0.5
44
Non
Non
Non
Non
Non
Non
Oui
Oui
Non
Oui
Non
Non
Cet axe distingue le
39
plus les individus
35
-1.0 37

53 -0.5 0.0 0.5 1.0


Dim1 (33.5%)
Modalité rare(entre 35 et 44) sont celle qui correspond
au non Graphe construit par R avec le package FactoMineR
Analyse des correspondances multiples Nhân-Quy Nguyen 27
Représentation du nuage des individus
MCA factor map

Le graphe des individus sur

2.0
la troisième et la quatrième
dimension
6

1.5
 Dimension 3 conserve

Dim 4 (9.59%)

1.0
10,73% de l’inertie
 Dimension 4 conserve 22 53

0.5
47

9,59% de l’inertie
44

39
35

0.0
37

C’est assez intéressant d’analyser ces 5 55


7
19
16 3 49
27
10 24
dimensions même avec une faible inertie : 54
12

-0.5
Classification en trois groupes distincts
-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

Dim 3 (10.73%)

Graphe construit par R avec le package FactoMineR


Analyse des correspondances multiples Nhân-Quy Nguyen 28
Représentation du nuage des individus
MCA factor map
La seule personne qui ne
mange pas de poisson

2.0
6

1.5
Groupe des personnes qui ne
mangent pas de glace et ont la

Dim 4 (9.59%)

1.0
diarrhée

22 53

0.5
47 44

39
35

0.0
37

Groupe des personnes qui 5 55


7
19
16 3 49
27

mangent de la glace mais 54


10 24

12

n’ont pas de diarrhée -0.5


-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

Dim 3 (10.73%)

Graphe construit par R avec le package FactoMineR


Analyse des correspondances multiples Nhân-Quy Nguyen 29
Plan
I. Contexte et données
II. Tableau disjonctif complet
III. Étude des individus
IV. Étude des variables et des modalités
V. Représentation simultanée Individus - modalités
VI. Aide à l’interprétation
VII. Conclusion

Analyse des correspondances multiples Nhân-Quy Nguyen 30


Etude des variables et des modalités
 La bilan des liaison des variables:
Soit 2-à-2 comme AFC
Soit globalement, à l’aide des variables synthétiques

 Etude des modalités  L’information des variables

 Une modalité représente


 Une partie d’une variables
 L’ensemble des individus qui l’ont choisie

 La proximité de deux modalités : Définition d’une distance

Analyse des correspondances multiples Nhân-Quy Nguyen 31


Poids d’une modalité

1 𝑘
1

Poids de la modalité 𝑘 𝑖 𝑥𝑖𝑘

σ𝑖=1..𝑛 𝑥𝑖𝑘 𝒏𝒌
=

Individus
σ𝑗=1..𝐾 σ𝑖=1..𝑛 𝑥𝑖𝑘 𝒏 × 𝒑

= 𝑓∙𝑘 (Probabilité marginale de 𝑘) 𝑛


෍ ෍ 𝑥𝑖𝑘 = 𝑛. 𝑝
𝑗=1..𝐾 𝑖=1..𝑛
෍ 𝑥𝑖𝑘 = 𝑛𝑘 = 𝑛. 𝑝𝑘
𝑖=1..𝑛

Analyse des correspondances multiples Nhân-Quy Nguyen 32


Distance entre deux modalités 𝒌 et 𝒌′
Rappel : Distance (proximité) entre deux modalités : En fonction du
nombre d’individus qui choisissent en même temps ces deux modalités
Suggestion de la modélisation de cette distance
𝑛 𝑘||𝑘 ′
𝑑2 𝑘, 𝑘 ′ = 𝒸
𝑛𝑘 𝑛𝑘 ′
Avec
𝒸 > 0 une constante. Il faudrait judicieusement choisir sa valeur
 𝑛𝑘 le nombre d’individus choisissant la modalité 𝑘
 𝑛𝑘||𝑘 ′ le nombre d’individus choisissant une et une seule des
deux modalité: soit 𝑘, soit 𝑘′. (une autre notation: 𝑛𝑘≠𝑘 ′ )

Analyse des correspondances multiples Nhân-Quy Nguyen 33


Distance entre deux modalités 𝒌 et 𝒌′
Soit 𝓬 = 𝒏 , et sachant que 𝒙𝒊𝒌 est binaire
𝑛
on a: 𝑛
2 ′
𝑛𝑘||𝑘 ′ 𝑛 𝑛 2
𝑑 (𝑘, 𝑘 ) = 𝑛 = ෍ |𝑥𝑖𝑘 − 𝑥𝑖𝑘 ′ | = ෍ 𝑥𝑖𝑘 − 𝑥𝑖𝑘 ′
𝑛𝑘 𝑛𝑘 ′ 𝑛𝑘 𝑛𝑘 ′ 𝑛𝑘 𝑛𝑘 ′
𝑖=1 𝑖=1
𝟐
Parce que 𝒂||𝒃 = 𝒂 − 𝒃 = 𝒂 − 𝒃 𝑛
avec 𝒂, 𝒃 ∈ 𝟎, 𝟏
2
2 ′
𝑥𝑖𝑘 𝑥𝑖𝑘 ′ 𝑝𝑘 + 𝑝𝑘 ′ − 2𝑝𝑘𝑘 ′
𝑑 (𝑘, 𝑘 ) = ⋯ = 𝑛 ෍ − =
𝑛𝑘 𝑛𝑘 ′ 𝑝𝑘 𝑝𝑘 ′
𝑖=1
σ𝑖 𝑥𝑖𝑘 𝑥𝑖𝑘′
Avec 𝑝𝑘𝑘 ′ = la proportion des individus qui prennent à la fois 𝑘 et 𝑘 ′
𝑛

Développer la formule, on peut obtenir 2


𝑛𝑥𝑖𝑘 𝑥𝑖𝑘 ′
2 ′
1 𝑛𝑝 𝑛𝑝
𝑑 (𝑘, 𝑘 ) = ⋯ = ෍ −
1 𝑛𝑘 𝑛𝑘 ′
𝑖=1 𝑛 𝑛𝑝 𝑛𝑝

Analyse des correspondances multiples Nhân-Quy Nguyen 34


Distance entre deux modalités 𝒌 et 𝒌′
Rappels :
𝑥𝑖𝑘
 Probabilité que l’individu 𝑖 prenne la modalité 𝑘 𝑓𝑖𝑘 =
𝑛𝑝
𝑛 𝑥𝑖𝑘 𝑛𝑘
 Probabilité marginale de modalité 𝑓∙𝑘 = σ𝑖=1 =
𝑛𝑝 𝑛𝑝
𝐾 𝑥𝑖𝑘 𝑝 1
 Probabilité marginale d’individus 𝑓𝑖∙ = σ𝑘=1 = =
𝑛𝑝 𝑛𝑝 𝑛

𝑥𝑖𝑘 𝑥𝑖𝑘 ′ 2
𝑛 𝑛 2
2 1 𝑛𝑝 𝑛𝑝 1 𝑓𝑖𝑘 𝑓𝑖𝑘 ′
𝑑𝑘,𝑘 ′ =෍ 𝑛 −𝑛 ′ =෍ − = 𝑑𝜒2 2 (𝑘, 𝑘 ′ )
1 𝑘 𝑘 𝑓𝑖∙ 𝑓∙𝑘 𝑓∙𝑘 ′
𝑖=1
𝑛 𝑛𝑝 𝑛𝑝 𝑖=1

Analyse des correspondances multiples Nhân-Quy Nguyen 35


Distance entre deux modalités 𝒌 et 𝒌′
 Distance entre deux colonnes (modalités) 𝒌 et 𝒌′ :
𝑛 2
2 ′
𝑥𝑖𝑘 𝑥𝑖𝑘 ′
𝑑 (𝑘, 𝑘 ) = 𝑛 ෍ −
𝑛𝑘 𝑛𝑘 ′
𝑖=1

𝟏 𝟏
 Distance au centre 𝑶𝑲 , … ,
𝐧 𝐧
𝑛 2
2
𝑥𝑖𝑘 1 𝑛 1
𝑑 𝑘, 𝑂𝐾 = 𝑛෍ − =⋯= −1= −1
𝑛𝑘 𝑛 𝑛𝑘 𝑝𝑘
𝑖=1

Plus une modalité est rare (𝒑𝒌 petit) plus elle est éloignée du centre

Analyse des correspondances multiples Nhân-Quy Nguyen 36


Nuage des modalités
 Les modalités se représentent au barycentre des individus qui les ont
pris.

 Cette représentation corresponde avec un facteur d’échelle d’une


représentation optimale des individus (qui maximise l’inertie totale)

 Elle est construite par la même construction des axes factoriels

 La barycentre de toutes les modalités d’une même variables est


confondu avec l’origine des axes

Analyse des correspondances multiples Nhân-Quy Nguyen 37


Inertie des modalités Toujour l'inertie = poids * distance

Le poids d’une modalité (un profil colonne) correspond à sa


probabilité marginale
𝑛𝑘
𝑓∙𝑘 =
𝑛𝑝
 Inertie d’une modalité 𝒌 L’inertie d’une
𝑛𝑘 2 1 − 𝑝𝑘 modalité est plus
𝜙𝑘 = 𝑑 𝑘, 𝑂 = grande si cette
𝑛𝑝 𝑝 modalité est rare

 Inertie totale
𝐾 𝐾 𝐾 𝑛𝑘
1 𝐾 − σ𝑘=1 𝐾
Φ = ෍ 𝜙𝑘 = ෍ 1 − 𝑝𝑘 = 𝑛 = −1
𝑝 𝑝 𝑝
𝑘=1 𝑘=1

Analyse des correspondances multiples Nhân-Quy Nguyen 38


Inertie des variables
 Inertie d’une variable 𝒋
1 − 𝑝𝑘 1
𝜙𝑗 = ෍ 𝜙𝑘 = ෍ = |𝐾𝑗 | − ෍ 𝑝𝑘
𝑝 𝑝
𝑘∈𝐾𝑗 𝑘∈𝐾𝑗 𝑘∈𝐾𝑗

L’inertie d’une variables est


1 indépendant des données mais.
𝜙𝑗 = (|𝐾𝑗 | − 1)
𝑝 Elle dépend que du nombre de
modalités qui la constituent
Avec
 𝐾𝑗 : L’ensemble des modalités appartenant à la variable 𝑗
 |𝐾𝑗 |: Nombre de modalités appartenant à la variables 𝑗

Analyse des correspondances multiples Nhân-Quy Nguyen 39


Nuage des variables

 Identifier les variables les plus


corrélées avec chaque dimension.

 Les corrélations au carré entre les


variables et les dimensions sont
utilisées comme coordonnées.

 Les variables Courgette et Potato


sont les plus corrélées avec la
dimension 2.

 Mais on ne sais pas comment  Utile pour d’une premier regard face à un
Etude du nuages des modalités grand nombre de variable

Analyse des correspondances multiples Nhân-Quy Nguyen 40


Rappel: Inertie sur les dimensions du cas d’étudeScree plot

40

33.5%
Percentage of explained variances

30

20

12.9%
10.7%
10 9.6%
7.9%
7.1%
6% 5.6%
4.1%

1.3%
0

1 2 3 4 5 6 7 8 9 10
Dimensions

Graphe construit par R avec le package FactoMineR

Analyse des correspondances multiples Nhân-Quy Nguyen 41


Représentation du nuage des modalités
Le graphe des variables sur les Graph of the active categories

deux premières dimensions


Courg_n

2
Dimension 1 conserve 33,5% Icecream_n
de l’inertie

1
Dimension 2 conserve 12,9% Vomit_y Cheese_n
Mayo_n
de l’inertie Fever_y Potato_y

Dim 2 (12.91%)
Nausea_n
Abdo_y Fish_y Diarrhea_n
Diarrhea_y Icecream_y

0
Abdo_n
Mayo_y Cheese_y

 La distance entre un point


Courg_y Fever_n
Nausea_y Vomit_n

représentant d’une

-1
modalité et l'origine  la
Fish_n

qualité de la modalité sur la

-2
représentation. Potato_n

-3
 Les points de modalités -2 0 2 4
éloignés de l'origine sont les Dim 1 (33.52%)

plus bien représentés


Analyse des correspondances multiples Nhân-Quy Nguyen 42
Représentation du nuage des modalités
 Les modalités avec une Graph of the active categories

dégrée de similarité sont Courg_n

regroupées.

2
Icecream_n

 Les modalités corrélées

1
Vomit_y Cheese_n

négativement sont Fever_y Potato_y


Mayo_n

Dim 2 (12.91%)
Nausea_n
Abdo_y Fish_y Diarrhea_n

positionnées sur les Diarrhea_y Icecream_y

0
Abdo_n
Mayo_y Cheese_y
Courg_y Fever_n
Nausea_y Vomit_n

côtés opposés de

-1
l'origine du tracé Fish_n

(quadrants opposés).

-2
Potato_n
Ex: icecreme_n et Nausea_y sont correlees neg

-3
donc , moins qu'on mange de glasse plus de nausea?? -2 0 2 4

Dim 1 (33.52%)
noire reponse non
rouge oui

Analyse des correspondances multiples Nhân-Quy Nguyen 43


Représentation du nuage des modalités
rouge : oui ---> symptome d'intoxsication
Graph of the active categories

Courg_n
2

Icecream_n
La 1ère dimension
1

Vomit_y Cheese_n
Mayo_n
sépare les modalités
Fever_y Potato_y
présentant des
Dim 2 (12.91%)

Nausea_n
Abdo_y Fish_y Diarrhea_n
Diarrhea_y Icecream_y
0

Abdo_n
Mayo_y Cheese_y
Courg_y Fever_n
Nausea_y Vomit_n
symptômes de
l’intoxication
-1

Fish_n
Non malade
alimentaire et les
-2

Malade
Potato_n
modalités signifiant
l’absence des
-3

-2 0 2 4 symptômes.
Dim 1 (33.52%)

Analyse des correspondances multiples Nhân-Quy Nguyen 44


Représentation du nuage des modalités
Le graphe des individus sur
la troisième et la quatrième
dimension

 Dimension 3 conserve
10,73% de l’inertie
 Dimension 4 conserve
9,59% de l’inertie

plus de détails , on voit ici que les gens ne


mange pas de poisson et de potato

Analyse des correspondances multiples Nhân-Quy Nguyen 45


Plan
I. Contexte et données
II. Tableau disjonctif complet
III. Étude des individus
IV. Étude des variables et des modalités
V. Représentation simultanée Individus - modalités
VI. Aide à l’interprétation
VII. Conclusion

Analyse des correspondances multiples Nhân-Quy Nguyen 46


Représentation optimale du nuage des individus
 Representation optimale du nuage des individus avec les profils ligne.
 Soit 𝑭𝒔 (𝒊) la coordonnée de l’individu 𝒊 sur la dimension 𝒔
 La coordonnée barycentrique de la modalité 𝒌 sur la dimension 𝒔 :
𝑛
𝒙𝒊𝒌
𝐺𝑠 𝑘 = ෍ 𝑭𝒔 𝒊
𝒏𝒌
𝑖=1

Moyenne des coordonnées des individus


choisissant la modalité 𝑘

Analyse des correspondances multiples Nhân-Quy Nguyen 47


Représentation optimale du nuage des modalités
 Representation optimale du
nuage des individus avec le profil
colonne.
 Soit 𝑮𝒔 (𝒌) la coordonnée de la
modalité 𝒌 sur la dimension 𝒔
 La coordonnée barycentrique de
l’individu 𝒊 sur la dimension 𝒔 :
𝐾
𝒙𝒊𝒌
𝐹𝑠 𝑖 = ෍ 𝐺𝑠 𝑘
𝒑
𝑘=1
Moyenne des coordonnées des
modalités que l’individu 𝒊 a choisies

Analyse des correspondances multiples Nhân-Quy Nguyen 48


Représentation quasi-barycentrique de la
dualité individus - modalités
Représentation optimale des modalités Représentation optimale des individus
Les individus au quasi-barycentre Les modalités au quasi-barycentre
de leurs modalités des individus qui les ont choisies

𝐾 𝑛
1 𝒙𝒊𝒌 1 𝒙𝒊𝒌
𝐹𝑠 𝑖 = ෍ 𝐺𝑠 𝑘 𝐺𝑠 𝑘 = ෍ 𝐹𝑠 𝑖
𝜆𝑠 𝒑 𝜆𝑠 𝒏𝒌
𝑘=1 𝑖=1

𝝀𝒔 : dispersion de la dimension s
 Propriété d‘échelle de MCA
Analyse des correspondances multiples Nhân-Quy Nguyen 49
MCA - Biplot

Représentation quasi- 2 Courg_n

barycentrique de la
dualité individus - 1
Icecream_n

44 28
modalités 23
Vomit_y
45
38
17 53
36 3 Cheese_n
27 22 26 47
30 55 Potato_y Mayo_n
Fever_y 54 10 12 33 51 32
40 16 5

Dim2 (12.9%)
25Fish_y Diarrhea_n
4 15 Abdo_n
0 8 Abdo_y 52Cheese_y
50 Nausea_n 2
19 21 24 31 42
Les individus et les Diarrhea_y
11 Mayo_y Icecream_y
1 13 46 49 48 20
Fever_n
18 7 Courg_y
modalités à leurs Nausea_y
9
41
6
29 34
Vomit_n
échelons optimaux 35 39 43
-1 14
Fish_n 37

-2

Potato_n
Analyse des correspondances multiples Nhân-Quy Nguyen 50
-1.0 -0.5 0.0 0.5 1.0
Plan
I. Contexte et données
II. Tableau disjonctif complet
III. Étude des individus
IV. Étude des variables et des modalités
V. Représentation simultanée Individus - modalités
VI. Aide à l’interprétation
VII. Conclusion

Analyse des correspondances multiples Nhân-Quy Nguyen 51


Rappel: Inertie sur les dimensions du cas d’étudeScree plot

40

33.5%
Percentage of explained variances

30

20

12.9%
10.7%
10 9.6%
7.9%
7.1%
6% 5.6%
4.1%

1.3%
0

1 2 3 4 5 6 7 8 9 10
Dimensions

Graphe construit par R avec le package FactoMineR

Analyse des correspondances multiples Nhân-Quy Nguyen 52


Contribution et qualité de présentation d’un point

1. Les axes sont construits par l’optimisation de la conservation des


inerties des points

2. Chaque point a une contribution à cette construction

3. Chaque construction représente mieux les uns et moins bien les


autres

Analyse des correspondances multiples Nhân-Quy Nguyen 53


Contribution d’un individu à l’inertie d’un axe
Individuals - MCA

 Contribution d’un individu à l’inertie


1.0

44

d’un axe  à la construction 45


23
28

factorielle d’un axe : 0.5


38
53

17
47

𝒇𝒊. 𝑶𝑯𝒔𝒊 𝟐 𝒇𝒊. 𝑶𝑯𝒔𝒊 𝟐


55 22
3 27
36 54 10 contrib
𝒄𝒕𝒓𝒔 𝒊 = = 5 32

Dim2 (12.9%)
40 16 24 43 12 2 6

𝒔 𝟐 𝝀𝒔 18 7 25 4 15
σ𝑵𝑰 𝒇𝒊′. 𝑶𝑯𝒊′ 0.0
11 30 19
52 50
46
31 34 51
4

8 33 20 2
21 26
41 48
49
1 13
29
9 14
6 42
-0.5

39

-1.0 35 37

-0.5 0.0 0.5 1.0


Dim1 (33.5%)
Analyse des correspondances multiples Nhân-Quy Nguyen 54
Qualité de représentation d’un individu
Individuals - MCA

 Tous les points ne sont pas


1.0

44 28

également bien affichés dans les 23


45

deux dimensions. 0.5


38

 La qualité de la représentation est 3


17
22
47
53

appelée cosinus carré (cos2): le 18


55 5
16
27
54
32
cos2

Dim2 (12.9%)
7 10
degré d'association entre les 0.0
11 40 19
8 36 50
24
21
25 12
31 26
2 20
51
15 0.6

0.4
4
catégories variables et un axe 30
41
46
52
43

42
33
34
49 14 0.2

particulier. 1 9 13
29
48

-0.5
6

𝑶𝑯𝒔𝒊 𝟐 𝟐 𝒔 39
𝒒𝒍𝒕 𝒊 = 𝟐
= 𝐜𝐨𝐬 (𝑶𝒊, 𝑶𝑯 𝒊)
𝑶𝒊 -1.0
35
37

-0.5 0.0 0.5 1.0


Dim1 (33.5%)

Analyse des correspondances multiples Nhân-Quy Nguyen 55


Contribution d’une modalité à l’inertie d’un axe
Variable categories - MCA

 Les modalité avec la plus grande valeur, 2 Courg_n

contribuent le plus à la définition des


Icecream_n
dimensions.
1

 Les modalité qui contribuent le plus à Cheese_n

Dim.1 et Dim.2 sont les plus importantes Vomit_y


Potato_y
Mayo_n
contrib
pour expliquer la variabilité dans Fever_y

Dim2 (12.9%)
Abdo_n
0 Abdo_y Cheese_y Fish_y Nausea_n 9
Diarrhea_y Diarrhea_n
l'ensemble de données. Nausea_y
Mayo_y Icecream_y
Courg_y Vomit_n
Fever_n 6

-1

Fish_n

𝒇.𝒌 𝑶𝑯𝒔𝒌 𝟐 𝒇.𝒌 𝑶𝑯𝒔𝒌 𝟐


𝒄𝒕𝒓𝒔 𝒌 = 𝟐 =
σ𝑵𝑲 𝒇.𝒌′ 𝑶𝑯𝒔𝒌′ 𝝀𝒔 -2

Potato_n
-1.0 -0.5 0.0 0.5 1.0
Dim1 (33.5%)

Analyse des correspondances multiples Nhân-Quy Nguyen 56


Qualité de représentation d’une modalité Variable categories - MCA

 Si une modalité est bien


Courg_n
2

représentée par deux dimensions, Icecream_n

la somme du cos2 est près à un. 1

 Pour certains des éléments, plus Vomit_y


Cheese_n

de 2 dimensions sont requises Fever_y Potato_y Mayo_n cos2

Dim2 (12.9%)
Abdo_n 0.8
0 Abdo_y Cheese_y Fish_y Nausea_n

pour représenter parfaitement les Diarrhea_y

Nausea_y
Mayo_y Icecream_y
Courg_y
Diarrhea_n
Fever_n
0.6

0.4

données. Vomit_n
0.2

-1
Fish_n • Abdo_n, Diarrhea_n, Fever_n et Mayo_n

𝑶𝑯𝒔𝒌 𝟐 𝟐 𝒔
ont une contribution importante au pôle
positif de la première dimension
𝒒𝒍𝒕 𝒌 = 𝟐
= 𝐜𝐨𝐬 (𝑶𝒊, 𝑶𝑯 𝒊) • Fever_y et Diarrhea_y ont une
𝑶𝒌 -2 contribution majeure au pôle négatif de la
première dimension

Potato_n
-1.0 -0.5 0.0 0.5 1.0
Dim1 (33.5%)

Analyse des correspondances multiples Nhân-Quy Nguyen 57


Eléments supplémentaires

1. Des individus supplémentaires

2. Des variables qualitatives supplémentaires

3. Des variables quantitatives supplémentaires

Analyse des correspondances multiples Nhân-Quy Nguyen 58


Individus supplémentaires

Quasi-barycentre des
modalités actives qu’il a
choisies
𝐾
1 𝒙𝑖𝑠𝑢𝑝 𝒌
𝐹𝑠 𝑖𝑠𝑢𝑝 = ෍ 𝐺𝑠 𝑘
𝜆𝑠 𝑘=1 𝒑

Analyse des correspondances multiples Nhân-Quy Nguyen 59


Des variables qualitatives supplémentaires

Quasi-barycentre des individus


actifs qui l’ont choisie
𝑛
1 𝒙𝑖𝑘𝑠𝑢𝑝
𝐺𝑠 𝑘𝑠𝑢𝑝 = ෍ 𝐹𝑠 𝑖
𝜆𝑠 𝑖=1 𝒏𝒌𝒔𝒖𝒑

Analyse des correspondances multiples Nhân-Quy Nguyen 60


Des variables quantitatives supplémentaires

 Même méthode que l’ACP


 Corrélation de cette variable à
l’axe 𝒔

𝐺𝑠 𝑘𝑠𝑢𝑝
𝑛
1 1
= . ෍ 𝒙𝑖𝑘𝑠𝑢𝑝 𝐹𝑠 𝑖
𝜆𝑠 𝑛 𝑖=1
= r 𝑘𝑠𝑢𝑝 , 𝐹𝑠 = cos 𝑘𝑠𝑢𝑝 , 𝐹𝑠

Analyse des correspondances multiples Nhân-Quy Nguyen 61


Rapport de corrélation
 Dispersion d’une dimension

𝒏 𝑲 𝒑 𝑲𝒋
𝟏 𝟐 𝒑𝒌 𝟐 𝒑𝝉 𝟐
𝝀𝟏 = ෍ 𝑭𝟏 (𝒊, 𝑶) = ෍ 𝑮𝟏 (𝒊, 𝑶) = ෍ ෍ 𝑮𝟏 (𝒊, 𝑶)
𝒏 𝒑 𝒑
𝒊=𝟏 𝒌=𝟏 𝒑 𝒋=𝟏 𝝉=𝟏
𝟏
⇒ 𝝀𝟏 = ෍ 𝜼𝟐 𝑭𝟏 , 𝒗.𝒋
𝐩
𝒋=𝟏

L’ACM vise à maximiser la moyenne des rapports de corrélations


On distingue au mieux entre elles les modalités de chaque variable

Analyse des correspondances multiples Nhân-Quy Nguyen 62


Plan
I. Contexte et données
II. Tableau disjonctif complet
III. Étude des individus
IV. Étude des variables et des modalités
V. Représentation simultanée Individus - modalités
VI. Aide à l’interprétation
VII.Conclusion

Analyse des correspondances multiples Nhân-Quy Nguyen 63


Conclusion
 ACM : une extension de AFC
 Etudes de relation entre individus et de proximité entre
variables/modalités
 Représentation graphique efficace sur les dimensions réduites :
corrélation entre chaque point et son axe projeté
 ACM : prétraitement des méthodes de classification
 Une autre approche : Analyse des correspondances jointes (Tableau
de BURT)

Analyse des correspondances multiples Nhân-Quy Nguyen 64


Bibliographie
…et pour le plaisir :
 Abdi, H., & Valentin, D. (2007). Multiple correspondence analysis.
Encyclopedia of measurement and statistics, 95(2), 116-28.
 Greenacre, M. (2017). Correspondence analysis in practice. Chapman
and Hall/CRC.
 Husson, F., Lê, S., & Pagès, J. (2016). Analyse de données avec R.
Presses universitaires de Rennes. (Cette référence est en français,
vous êtes sauvés !)

Analyse des correspondances multiples Nhân-Quy Nguyen 65

Vous aimerez peut-être aussi