Académique Documents
Professionnel Documents
Culture Documents
« L’ACM n’est pas une nouvelle méthode mais une application particulière de
l’AFC […] »1
1Husson, F., Lê, S., & Pagès, J. (2016). Analyse de données avec R. Presses universitaires de Rennes.
Analyse des correspondances multiples Nhân-Quy Nguyen 4
Etude de cas : Intoxication alimentaire (IA)
1Lê, S., Josse, J. & Husson, F. (2008). FactoMineR: An R Package for Multivariate Analysis. Journal of Statistical Software. 25(1). pp. 1-18.
Analyse des correspondances multiples Nhân-Quy Nguyen 5
Un coup d‘œil sur les données
Modalité
Age
Malade
Sexe
Symptôme Plat mangé
#
Nausée
ent
Vomissem-
abdominales
Douleurs
Fièvre
Diarrhée
Patate
Poisson
Mayonnaise
Courgette
Fromage
Glace
1 9 Oui F Oui Non Oui Oui Oui Oui Oui Oui Oui Oui Oui
2 5 Non F Non Non Non Non Non Oui Oui Oui Oui Non Oui
Les individus
3 6 Oui F Non Oui Oui Oui Oui Oui Oui Oui Oui Oui Oui Variables
oui ou
… non
55 7 Oui M Non Oui Oui Oui Oui Oui Oui Oui Oui Oui Oui
Individus
𝒗𝒊𝒋 est la réponse de l’individu 𝒊 à la 𝒋ème
question (modalité de la variable 𝑗 de
l’individu 𝑖)
𝑛
Comment « encoder » ces
données ?
Tableau de données brutes
Vomissement
abdominales
Douleurs
J1 J2 J3 J1 J1 J2 J2 J3 J3
(1) (2) (1) (2) (1) (2)
Σ=1 Disjonctif
Analyse des correspondances multiples Nhân-Quy Nguyen 12
Tableau disjonctif complet (TDC)
Modalités
1 𝑗 𝑝
Variables qualitatives
1 2
1 𝑗 𝑝 1 𝑘 𝐾
1 1
𝑗=1..𝐾
Individus
ici les somme
en terme de nbr
en remplace pas les
val????
𝑛 𝑛 𝑥𝑖𝑘 = 𝑛. 𝑝
𝑗=1..𝐾 𝑖=1..𝑛
𝑥𝑖𝑘 = 𝑛𝑘 = 𝑛. 𝑝𝑘
𝑖=1..𝑛
𝒏𝒌
La proportion de la population choisissant la modalité 𝒌 est 𝒑𝒌 =
𝒏
𝑑𝑖,𝑖 ′ = 𝒸 𝑛
grand
𝑘
𝑛𝑘
𝑘=1
Avec Modalité rare :
Si 𝑖 et 𝑖 ′ ont 𝑘 en commun :
𝒸 > 0 une constante 𝑛𝑘 petit.
𝑥𝑖𝑘 −𝑥𝑖′ 𝑘
2
nul
𝑛𝑘 le nombre d’individus choisissant la modalité 𝒌 𝑛𝑘
𝑥𝑖𝑘 𝑥𝑖 ′ 𝑘 2
𝐾 𝐾 2
2 1 𝑛𝑝 𝑛𝑝 1 𝑓𝑖𝑘 𝑓𝑖 ′𝑘
𝑑𝑖,𝑖 ′ =𝑛 − = − = 𝑑𝜒2 2 (𝑖, 𝑖 ′ )
𝑘 1 1 𝑓∙𝑘 𝑓𝑖∙ 𝑓𝑖 ′∙
𝑘=1 𝑛𝑝 𝑘=1
𝑛 𝑛
la distance de khi-deux
1 𝑘
1
Individus
𝑛
(Probabilité marginale de l’individu 𝑖)
𝐾 2 𝐾
1 𝑓𝑖𝑘 𝑓𝑖 ′ 𝑘 𝑛 1
2
𝑑 𝑖, 𝑖 ′
= 𝑑𝜒2 2 (𝑖, 𝑖 ′ ) = − = 𝑥𝑖𝑘 − 𝑥𝑖 ′ 𝑘 2
𝑓∙𝑘 𝑓𝑖∙ 𝑓𝑖 ′ ∙ 𝑝 𝑛𝑘
𝑘=1 𝑘=1
𝐾 𝐾
𝑛 1 𝑛𝑘 2 1 𝑥𝑖𝑘
𝑑2 𝑖, 𝑂𝐼 = 𝑥𝑖𝑘 − =⋯= −1
𝑝 𝑛𝑘 𝑛 𝑝 𝑝𝑘
𝑘=1 𝑘=1
40
33.5%
Percentage of explained variances
30
20
12.9%
10.7%
10 9.6%
7.9%
7.1%
6% 5.6%
4.1%
1.3%
0
1 2 3 4 5 6 7 8 9 10
Dimensions
44
dimensions 38
Dimension 1 conserve
0.5 53
17
33,5% de l’inertie 7
3 27
22
47
55 54
Dimension 2 conserve 5 12
32
Dim2 (12.9%)
18 19 10
16 24 15
0.0 11 30 25
2
12,9% de l’inertie 8
40
36
21
46 43
50 31
34 26
42 51
20
4
52
41 13 14
48 49
33
9
1 29
39
35
-1.0 37
44
28
23
45
38
Oui
Oui
Oui
Oui
Non
Oui
Oui
Oui
0.5 53
17
22
3 27 47
55 7 54
5 32
12
Dim2 (12.9%)
18 19 10
35 0.0 11 30
16 24
50
25
31 2 20
15
Oui
Oui
Non
Oui
Non
Oui
Non
Oui
Oui
Oui
Oui
Oui
8 36 46 43
42 4
51
40 21 52 34 26
41 13 14
48 49
33
9
1 29
6
-0.5
37
Oui
Non
Non
Oui
Oui
Oui
Non
Oui
Oui
Oui
Oui
Oui
39
35
-1.0 37
44
malade
28
53 et35
23
45
38
Oui
Oui
Oui
Oui
Non
Oui
Oui
Oui
0.5 53
17
22
3 27 47
55 7 54
5 32
12
Dim2 (12.9%)
18 19 10
35 0.0 11 30
16 24
50
25
31 2 20
15
Oui
Oui
Oui
Oui
Oui
Oui
Oui
Oui
Oui
Non
Oui
Non
8 36 46 43
42 4
51
40 21 52 34 26
41 13 14
48 49
33
9
1 29
6
-0.5
44
Non
Non
Non
Non
Non
Non
Oui
Oui
Non
Oui
Non
Non
Cet axe distingue le
39
plus les individus
35
-1.0 37
2.0
la troisième et la quatrième
dimension
6
1.5
Dimension 3 conserve
Dim 4 (9.59%)
1.0
10,73% de l’inertie
Dimension 4 conserve 22 53
0.5
47
9,59% de l’inertie
44
39
35
0.0
37
-0.5
Classification en trois groupes distincts
-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
Dim 3 (10.73%)
2.0
6
1.5
Groupe des personnes qui ne
mangent pas de glace et ont la
Dim 4 (9.59%)
1.0
diarrhée
22 53
0.5
47 44
39
35
0.0
37
12
Dim 3 (10.73%)
1 𝑘
1
σ𝑖=1..𝑛 𝑥𝑖𝑘 𝒏𝒌
=
Individus
σ𝑗=1..𝐾 σ𝑖=1..𝑛 𝑥𝑖𝑘 𝒏 × 𝒑
𝑥𝑖𝑘 𝑥𝑖𝑘 ′ 2
𝑛 𝑛 2
2 1 𝑛𝑝 𝑛𝑝 1 𝑓𝑖𝑘 𝑓𝑖𝑘 ′
𝑑𝑘,𝑘 ′ = 𝑛 −𝑛 ′ = − = 𝑑𝜒2 2 (𝑘, 𝑘 ′ )
1 𝑘 𝑘 𝑓𝑖∙ 𝑓∙𝑘 𝑓∙𝑘 ′
𝑖=1
𝑛 𝑛𝑝 𝑛𝑝 𝑖=1
𝟏 𝟏
Distance au centre 𝑶𝑲 , … ,
𝐧 𝐧
𝑛 2
2
𝑥𝑖𝑘 1 𝑛 1
𝑑 𝑘, 𝑂𝐾 = 𝑛 − =⋯= −1= −1
𝑛𝑘 𝑛 𝑛𝑘 𝑝𝑘
𝑖=1
Plus une modalité est rare (𝒑𝒌 petit) plus elle est éloignée du centre
Inertie totale
𝐾 𝐾 𝐾 𝑛𝑘
1 𝐾 − σ𝑘=1 𝐾
Φ = 𝜙𝑘 = 1 − 𝑝𝑘 = 𝑛 = −1
𝑝 𝑝 𝑝
𝑘=1 𝑘=1
Mais on ne sais pas comment Utile pour d’une premier regard face à un
Etude du nuages des modalités grand nombre de variable
40
33.5%
Percentage of explained variances
30
20
12.9%
10.7%
10 9.6%
7.9%
7.1%
6% 5.6%
4.1%
1.3%
0
1 2 3 4 5 6 7 8 9 10
Dimensions
2
Dimension 1 conserve 33,5% Icecream_n
de l’inertie
1
Dimension 2 conserve 12,9% Vomit_y Cheese_n
Mayo_n
de l’inertie Fever_y Potato_y
Dim 2 (12.91%)
Nausea_n
Abdo_y Fish_y Diarrhea_n
Diarrhea_y Icecream_y
0
Abdo_n
Mayo_y Cheese_y
représentant d’une
-1
modalité et l'origine la
Fish_n
-2
représentation. Potato_n
-3
Les points de modalités -2 0 2 4
éloignés de l'origine sont les Dim 1 (33.52%)
regroupées.
2
Icecream_n
1
Vomit_y Cheese_n
Dim 2 (12.91%)
Nausea_n
Abdo_y Fish_y Diarrhea_n
0
Abdo_n
Mayo_y Cheese_y
Courg_y Fever_n
Nausea_y Vomit_n
côtés opposés de
-1
l'origine du tracé Fish_n
(quadrants opposés).
-2
Potato_n
Ex: icecreme_n et Nausea_y sont correlees neg
-3
donc , moins qu'on mange de glasse plus de nausea?? -2 0 2 4
Dim 1 (33.52%)
noire reponse non
rouge oui
Courg_n
2
Icecream_n
La 1ère dimension
1
Vomit_y Cheese_n
Mayo_n
sépare les modalités
Fever_y Potato_y
présentant des
Dim 2 (12.91%)
Nausea_n
Abdo_y Fish_y Diarrhea_n
Diarrhea_y Icecream_y
0
Abdo_n
Mayo_y Cheese_y
Courg_y Fever_n
Nausea_y Vomit_n
symptômes de
l’intoxication
-1
Fish_n
Non malade
alimentaire et les
-2
Malade
Potato_n
modalités signifiant
l’absence des
-3
-2 0 2 4 symptômes.
Dim 1 (33.52%)
Dimension 3 conserve
10,73% de l’inertie
Dimension 4 conserve
9,59% de l’inertie
𝐾 𝑛
1 𝒙𝒊𝒌 1 𝒙𝒊𝒌
𝐹𝑠 𝑖 = 𝐺𝑠 𝑘 𝐺𝑠 𝑘 = 𝐹𝑠 𝑖
𝜆𝑠 𝒑 𝜆𝑠 𝒏𝒌
𝑘=1 𝑖=1
𝝀𝒔 : dispersion de la dimension s
Propriété d‘échelle de MCA
Analyse des correspondances multiples Nhân-Quy Nguyen 49
MCA - Biplot
barycentrique de la
dualité individus - 1
Icecream_n
44 28
modalités 23
Vomit_y
45
38
17 53
36 3 Cheese_n
27 22 26 47
30 55 Potato_y Mayo_n
Fever_y 54 10 12 33 51 32
40 16 5
Dim2 (12.9%)
25Fish_y Diarrhea_n
4 15 Abdo_n
0 8 Abdo_y 52Cheese_y
50 Nausea_n 2
19 21 24 31 42
Les individus et les Diarrhea_y
11 Mayo_y Icecream_y
1 13 46 49 48 20
Fever_n
18 7 Courg_y
modalités à leurs Nausea_y
9
41
6
29 34
Vomit_n
échelons optimaux 35 39 43
-1 14
Fish_n 37
-2
Potato_n
Analyse des correspondances multiples Nhân-Quy Nguyen 50
-1.0 -0.5 0.0 0.5 1.0
Plan
I. Contexte et données
II. Tableau disjonctif complet
III. Étude des individus
IV. Étude des variables et des modalités
V. Représentation simultanée Individus - modalités
VI. Aide à l’interprétation
VII. Conclusion
40
33.5%
Percentage of explained variances
30
20
12.9%
10.7%
10 9.6%
7.9%
7.1%
6% 5.6%
4.1%
1.3%
0
1 2 3 4 5 6 7 8 9 10
Dimensions
44
17
47
Dim2 (12.9%)
40 16 24 43 12 2 6
𝒔 𝟐 𝝀𝒔 18 7 25 4 15
σ𝑵𝑰 𝒇𝒊′. 𝑶𝑯𝒊′ 0.0
11 30 19
52 50
46
31 34 51
4
8 33 20 2
21 26
41 48
49
1 13
29
9 14
6 42
-0.5
39
-1.0 35 37
44 28
Dim2 (12.9%)
7 10
degré d'association entre les 0.0
11 40 19
8 36 50
24
21
25 12
31 26
2 20
51
15 0.6
0.4
4
catégories variables et un axe 30
41
46
52
43
42
33
34
49 14 0.2
particulier. 1 9 13
29
48
-0.5
6
𝑶𝑯𝒔𝒊 𝟐 𝟐 𝒔 39
𝒒𝒍𝒕 𝒊 = 𝟐
= 𝐜𝐨𝐬 (𝑶𝒊, 𝑶𝑯 𝒊)
𝑶𝒊 -1.0
35
37
Dim2 (12.9%)
Abdo_n
0 Abdo_y Cheese_y Fish_y Nausea_n 9
Diarrhea_y Diarrhea_n
l'ensemble de données. Nausea_y
Mayo_y Icecream_y
Courg_y Vomit_n
Fever_n 6
-1
Fish_n
Potato_n
-1.0 -0.5 0.0 0.5 1.0
Dim1 (33.5%)
Dim2 (12.9%)
Abdo_n 0.8
0 Abdo_y Cheese_y Fish_y Nausea_n
Nausea_y
Mayo_y Icecream_y
Courg_y
Diarrhea_n
Fever_n
0.6
0.4
données. Vomit_n
0.2
-1
Fish_n • Abdo_n, Diarrhea_n, Fever_n et Mayo_n
𝑶𝑯𝒔𝒌 𝟐 𝟐 𝒔
ont une contribution importante au pôle
positif de la première dimension
𝒒𝒍𝒕 𝒌 = 𝟐
= 𝐜𝐨𝐬 (𝑶𝒊, 𝑶𝑯 𝒊) • Fever_y et Diarrhea_y ont une
𝑶𝒌 -2 contribution majeure au pôle négatif de la
première dimension
Potato_n
-1.0 -0.5 0.0 0.5 1.0
Dim1 (33.5%)
Quasi-barycentre des
modalités actives qu’il a
choisies
𝐾
1 𝒙𝑖𝑠𝑢𝑝 𝒌
𝐹𝑠 𝑖𝑠𝑢𝑝 = 𝐺𝑠 𝑘
𝜆𝑠 𝑘=1 𝒑
𝐺𝑠 𝑘𝑠𝑢𝑝
𝑛
1 1
= . 𝒙𝑖𝑘𝑠𝑢𝑝 𝐹𝑠 𝑖
𝜆𝑠 𝑛 𝑖=1
= r 𝑘𝑠𝑢𝑝 , 𝐹𝑠 = cos 𝑘𝑠𝑢𝑝 , 𝐹𝑠
𝒏 𝑲 𝒑 𝑲𝒋
𝟏 𝟐 𝒑𝒌 𝟐 𝒑𝝉 𝟐
𝝀𝟏 = 𝑭𝟏 (𝒊, 𝑶) = 𝑮𝟏 (𝒊, 𝑶) = 𝑮𝟏 (𝒊, 𝑶)
𝒏 𝒑 𝒑
𝒊=𝟏 𝒌=𝟏 𝒑 𝒋=𝟏 𝝉=𝟏
𝟏
⇒ 𝝀𝟏 = 𝜼𝟐 𝑭𝟏 , 𝒗.𝒋
𝐩
𝒋=𝟏