Vous êtes sur la page 1sur 43

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Classification ascendante hiérarchique (CAH)

François Husson

Laboratoire de mathématiques appliquées - Agrocampus Rennes

husson@agrocampus-ouest.fr

1 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Classification ascendante hiérarchique (CAH)

1 Introduction
2 Principes de la Classification Ascendante Hiérarchique
3 Exemple
4 Les K-means : un algorithme de partitionnement
5 Compléments
• Consolidation de partition
• Classification sur des données de grandes dimensions
• Variables qualitatives et classification
• Enchaînement analyse factorielle - classification
6 Caractérisation de classes d’individus

1 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Classification ascendante hiérarchique (CAH)

1 Introduction

2 Principes de la Classification Ascendante Hiérarchique

3 Exemple

4 Algorithme de partitionnement : les K-means

5 Compléments

6 Caractérisation des classes d’individus

2 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Introduction

• Définitions :
• Classification : action de constituer ou construire des classes
• Classe : ensemble d’individus (ou d’objets) possédant des traits
de caractères communs (groupe, catégorie)
• Exemples
• de classification : règne animal, disque dur d’un ordinateur,
division géographique de la France, etc.
• de classe : classe sociale, classe politique, etc.
• Deux types de classification :
• hiérarchique : arbre, CAH
• méthode de partitionnement : partition

3 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Exemple de hiérarchie : le règne animal

4 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Classification ascendante hiérarchique (CAH)

1 Introduction

2 Principes de la Classification Ascendante Hiérarchique

3 Exemple

4 Algorithme de partitionnement : les K-means

5 Compléments

6 Caractérisation des classes d’individus

5 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Quelles données pour quels objectifs ?

La classification s’intéresse à des tableaux de


données individus × variables quantitatives

Objectifs : production d’une structure (arbo-

4
rescence) permettant :
• la mise en évidence de liens

3
hiérarchiques entre individus ou

2
groupes d’individus
1
• la détection d’un nb de classes 0

H
« naturel » au sein de la population
6 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Critères

Ressemblance entre individus :


• distance euclidienne
• indice de similarité
• ...

Ressemblance entre groupes d’individus :


• saut minimum ou lien simple (plus
petite distance) x xx
x x x xxx x
• lien complet (plus grande distance) x x x x
• critère de Ward

7 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Algorithme
ABC
7e regroupement DEFGH 4.07 {ABCDEFGH}

4
ABC DE
DE 4.72
6e regroupement
FGH 4.07 1.81

3
ABC DE FG
DE 4.72
5e regroupement FG 4.23 1.81
H 4.07 2.90 1.12

2
ABC D E FG
D 4.72 {ABC},{DEFGH}
4e regroupement E 5.55 1.00
FG 4.07 2.01 1.81
H 4.75 3.16 2.90 1.12
{ABC},{DE},{FGH}
{ABC},{DE},{FG},{H}

1
ABC D E F G
D 4.72 {ABC},{D},{E},{FG},{H}
3e regroupement E 5.55 1.00 {ABC},{D},{E},{F},{G},{H}
F 4.07 2.01 2.06
{AC},{B},{D},{E},{F},{G},{H}
G 4.68 2.06 1.81 0.61

0
H 4.75 3.16 2.90 1.28 1.12 {A},{B},{C},{D},{E},{F},{G},{H}

B
C

F
E

G
H
AC B D E F G A B C D E F G
B 0.50 B 0.50
D 4.80 4.72 C 0.25 0.56 1er regroupement
e
2 regroupement E 5.57 5.55 1.00 D 5.00 4.72 4.80
F 4.07 4.23 2.01 2.06 E 5.78 5.55 5.57 1.00
G 4.68 4.84 2.06 1.81 0.61 F 4.32 4.23 4.07 2.01 2.06
H 4.75 5.02 3.16 2.90 1.28 1.12 G 4.92 4.84 4.68 2.06 1.81 0.61
H 5.00 5.02 4.75 3.16 2.90 1.28 1.12

8 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Arbres et partitions

1.5
1.0
Hierarchical Clustering

Les arbres finissent tous ... par être coupés ! ! !

0.5
0.0
Click to cut the tree
inertia gain

1.5
En définissant un niveau de

1.0
coupure, on construit une
partition 0.5
0.0

Casarsa
Parkhomenko
YURKOV
Lorenzo
NOOL
BOURGUIGNON
MARTINEAU
Karlivans
BARRAS
Uldal
HERNU
Turi
Karpov
Clay
Sebrle
Schoenbeck
Ojaniemi
Barras
Qi
Smirnov
Gomez
Zsivoczky
Macey
Smith
McMULLEN
Bernard
ZSIVOCZKY
Hernu
KARPOV
SEBRLE
Terek
Pogorelov
Korkizoglou
CLAY
BERNARD
Nool
Warners
Drews
WARNERS
Schwarzl
Averyanov
Remarque : vu le mode de construction, la partition n’est pas
optimale mais est intéressante

9 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Qualité d’une partition

Quand une partition est-elle bonne ?


• Si les individus d’une même classe sont proches
• Si les individus de 2 classes différentes sont éloignés

Et mathématiquement ça se traduit par ?


• Variabilité intra-classe petite
• Variabilité inter-classes grande

=⇒ Deux critères, lequel choisir ?

10 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Qualité d’une partition

x̄k moyenne de xk , x̄qk moyenne de xk dans la classe q

K Q I K Q I K Q I
X X X X X X X X X
(xiqk − x̄k )2 = (xiqk − x̄qk )2 + (x̄qk − x̄k )2
k=1 q=1 i=1 k=1 q=1 i=1 k=1 q=1 i=1
| {z } | {z } | {z }
Inertie totale Inertie intra Inertie inter

x2
x1
x x

x3

=⇒ 1 seul critère !
11 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Qualité d’une partition


La qualité d’une partition est mesurée par :
Inertie inter
0≤ ≤1
Inertie totale
Inertie inter
Inertie totale = 0 =⇒ ∀k, ∀q, x̄qk = x̄k
par variable, les classes ont mêmes moyennes
Ne permet pas de classifier

Inertie inter
Inertie totale = 1 =⇒ ∀k, ∀q, ∀i, xiqk = x̄qk
les individus d’une même classe sont identiques
Idéal pour classifier

Attention : ce critère ne peut être jugé en absolu car il dépend du


nb d’individus et du nb de classes
12 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Méthode de Ward
• Initialisation : 1 classe = 1 individu =⇒ In. inter = In. totale
• A chaque étape : agréger les classes a et b qui minimisent la
diminution de l’inertie inter
ma mb
Inertie(a) + Inertie(b) = Inertie(a ∪ b) − d 2 (a, b)
ma + mb
| {z }
à minimiser
Regroupe les objets de faible poids et
évite l’effet de chaîne
+
Regroupe des classes
8 10

++++ +
Saut minimum Ward
++ ++++
+
ayant des centres de
6
4

gravité proches
2

xx xx
xxxxxx
−2 0

x
1
6
5
10
3
15
2
4
7
13
9
8
11
12
14
16
18
25
26
19
20
30
23
22
27
24
28
29
17
21

1
6
5
10
7
13
8
11
2
12
9
3
4
15
14
16
18
25
26
24
28
29
17
19
20
30
23
21
22
27
xx x
−2 0 2 4 6 8 10

+
8 10

Saut minimum Ward


+++++ + +
++*+
** +
Saut minimum Ward
Intérêt immédiat pour la
*** +
6

**
***
***
classification
4

***
xx x*x*****
2

xxx*x*xx**
−2 0

x
1
31
32
6
10
33
7
35
34
5
13
36
37
38
39
40
41
42
43
44
45
46
47
48
49
26
57
56
50
51
52
53
54
55
18
25
3
15
22
27
19
20
2
30
23
4
24
28
9
29
21
8
11
12
14
16
17

1
31
32
6
5
10
8
33
11
7
12
35
34
13
36
2
9
3
4
15
14
16
18
25
24
28
29
17
19
20
30
23
21
53
54
55
22
27
26
57
56
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52

xx x
−2 0 2 4 6 8 10

13 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Classification ascendante hiérarchique (CAH)

1 Introduction

2 Principes de la Classification Ascendante Hiérarchique

3 Exemple

4 Algorithme de partitionnement : les K-means

5 Compléments

6 Caractérisation des classes d’individus

14 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Les données température


• 15 individus : villes de France
• 12 variables : températures mensuelles moyennes (sur 30 ans)

Janv Févr Mars Avri Mai Juin juil Août Sept Octo Nove Déce Lati Long
Bordeaux 5.6 6.6 10.3 12.8 15.8 19.3 20.9 21 18.6 13.8 9.1 6.2 44.5 -0.34
Brest 6.1 5.8 7.8 9.2 11.6 14.4 15.6 16 14.7 12 9 7 48.24 -4.29
Clermont 2.6 3.7 7.5 10.3 13.8 17.3 19.4 19.1 16.2 11.2 6.6 3.6 45.47 3.05
Grenoble 1.5 3.2 7.7 10.6 14.5 17.8 20.1 19.5 16.7 11.4 6.5 2.3 45.1 5.43
Lille 2.4 2.9 6 8.9 12.4 15.3 17.1 17.1 14.7 10.4 6.1 3.5 50.38 3.04
Lyon 2.1 3.3 7.7 10.9 14.9 18.5 20.7 20.1 16.9 11.4 6.7 3.1 45.45 4.51
Marseille 5.5 6.6 10 13 16.8 20.8 23.3 22.8 19.9 15 10.2 6.9 43.18 5.24
Montpellier 5.6 6.7 9.9 12.8 16.2 20.1 22.7 22.3 19.3 14.6 10 6.5 43.36 3.53
Nantes 5 5.3 8.4 10.8 13.9 17.2 18.8 18.6 16.4 12.2 8.2 5.5 47.13 -1.33
Nice 7.5 8.5 10.8 13.3 16.7 20.1 22.7 22.5 20.3 16 11.5 8.2 43.42 7.15
Paris 3.4 4.1 7.6 10.7 14.3 17.5 19.1 18.7 16 11.4 7.1 4.3 48.52 2.2
Rennes 4.8 5.3 7.9 10.1 13.1 16.2 17.9 17.8 15.7 11.6 7.8 5.4 48.05 -1.41
Strasbourg 0.4 1.5 5.6 9.8 14 17.2 19 18.3 15.1 9.5 4.9 1.3 48.35 7.45
Toulouse 4.7 5.6 9.2 11.6 14.9 18.7 20.9 20.9 18.3 13.3 8.6 5.5 43.36 1.26
Vichy 2.4 3.4 7.1 9.9 13.6 17.1 19.3 18.8 16 11 6.6 3.4 46.08 3.26

Quelles villes ont des profils météo similaires ?


Comment caractériser les groupes de villes ?
15 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Les données température : l’arbre hiérarchique


Hierarchical clustering
Cluster Dendrogram

6
4
2
0
6

inertia gain
4
2
0

Strasbourg
Toulouse

Clermont
Bordeaux

Grenoble
Montpellier

Marseille

Rennes

Nantes
Brest

Paris

Vichy
Nice

Lyon

Lille
16 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Les données température


Pertes d’inertie inter
lors du passage de
15 classes en 14 classes : 0.01
14 classes en 13 classes : 0.02
13 classes en 12 classes : 0.03

6
12 classes en 11 classes : 0.05
11 classes en 10 classes : 0.06

4
10 classes en 9 classes : 0.09
9 classes en 8 classes : 0.17

2
8 classes en 7 classes : 0.19
7 classes en 6 classes : 0.26

0
6 classes en 5 classes : 0.42
5 classes en 4 classes : 0.56 inertia gain
4 classes en 3 classes : 0.69
3 classes en 2 classes : 1.56
2 classes en 1 classe : 7.88 Grosse perte si on passe de
2 classes à 1 seule donc on
préfère garder 2 classes

Somme des pertes d’inertie = 12


17 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Utilisation de l’arbre pour construire une partition

Doit-on faire 2 groupes ? 3 groupes ? 4 ?

8
Découpage en 2 groupes :

6
Inertie inter 7.88
= = 66%

4
Inertie totale 12

2
A quoi comparer ce pourcen-
tage ?
0

Toulouse
Bordeaux

Rennes

Grenoble

Vichy

Lille
Clermont
Nice

Marseille

Nantes

Lyon
Paris

Strasbourg
Montpellier

Brest

18 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Utilisation de l’arbre pour construire une partition

66 % de l’information résumée avec ce découpage en 2 classes


A quoi comparer ce pourcentage ?
4

Brest
Dim 2 (18.97%)
2

Rennes
Nantes Nice
Lille
Bordeaux
0

Paris Toulouse
Vichy Clermont Montpellier
Marseille
Grenoble
-2

Lyon
Strasbourg

-4 -2 0 2 4 6
Dim 1 (79.85%)

19 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

8
6 Utilisation de l’arbre pour construire une partition

Séparer villes froides en 2


groupes :
4

Inertie inter 1.56


= = 13%
Inertie totale 12
2
0

Toulouse
Bordeaux

Rennes

Grenoble

Vichy

Lille
Clermont
Nice

Marseille

Nantes

Lyon
Paris

Strasbourg
Montpellier

Brest

19 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Utilisation de l’arbre pour construire une partition

Passage de 15 villes à 3 classes : 66 % + 13 % = 79 % de la


variabilité des données
4
Brest
Dim 2 (18.97%)
2

Rennes
Nantes Nice
Lille
Bordeaux
0

Paris Toulouse
Vichy Clermont Montpellier
Marseille
Grenoble
-2

Lyon
Strasbourg

-4 -2 0 2 4 6
Dim 1 (79.85%)

20 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Détermination d’un nombre de classes


• A partir du diagramme des
• A partir de l’arbre
indices de niveau
• Dépend de l’usage
• Critère ultime :
(enquête, . . . )
interprétabilité des classes
8
6

6
4

4
2
2

0 inertia gain
0

Toulouse
Bordeaux

Rennes

Grenoble

Vichy

Lille
Clermont
Nice

Marseille

Nantes

Lyon
Paris

Strasbourg
Montpellier

Brest

20 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Classification ascendante hiérarchique (CAH)

1 Introduction

2 Principes de la Classification Ascendante Hiérarchique

3 Exemple

4 Algorithme de partitionnement : les K-means

5 Compléments

6 Caractérisation des classes d’individus

21 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Algorithme de partitionnement : les K-means


Algorithme d’agrégation autour des centres mobiles (K-means)
Brest Brest Brest

4
3

3
Dim 2 ( 18.97 %)

Dim 2 ( 18.97 %)

Dim 2 ( 18.97 %)
2

2
Rennes Rennes Rennes

Nantes Nantes Nantes



Nice Nice Nice

1
Lille ● Lille Lille

Bordeaux Bordeaux Bordeaux
Paris Toulouse ● Paris Toulouse Paris Toulouse

0
● ● ● ● ● ●
Montpellier Montpellier Montpellier
Vichy
Clermont ● Vichy
Clermont ● Vichy
Clermont ●
● ● ● Marseille

● ● Marseille



Marseille

−1

−1

−1
• Choisir Q centres de Strasbourg
Grenoble

Lyon

Strasbourg
Grenoble

Lyon

Strasbourg
Grenoble

Lyon

−2

−2

−2

−4 −2 0 2 4 6 −4 −2 0 2 4 6 −4 −2 0 2 4 6

classes au hasard Dim 1 ( 79.85 %) Dim 1 ( 79.85 %) Dim 1 ( 79.85 %)

Brest Brest Brest

• Affecter les points 4

4
3

3
Dim 2 ( 18.97 %)

Dim 2 ( 18.97 %)

Dim 2 ( 18.97 %)
2

2
Rennes Rennes Rennes

au centre le plus Nantes


Nice
Nantes
Nice
Nantes
Nice
1

1
Lille Lille Lille ●

Bordeaux Bordeaux Bordeaux


Paris Toulouse Paris Toulouse Paris Toulouse ●
0

0
● ● ● ● ●
Montpellier Montpellier Montpellier
Vichy
Clermont ● Vichy
Clermont ● Vichy
Clermont ●
Marseille ● Marseille
● Marseille

proche ● ● ● ●
−1

−1

−1
Grenoble
Lyon Grenoble
Lyon Grenoble
Lyon
● ●
Strasbourg Strasbourg Strasbourg
−2

−2

−2
−4 −2 0 2 4 6 −4 −2 0 2 4 6 −4 −2 0 2 4 6

• Calculer les Q
Dim 1 ( 79.85 %) Dim 1 ( 79.85 %) Dim 1 ( 79.85 %)

centres de gravité
Brest Brest Brest
4

4
3

3
Dim 2 ( 18.97 %)

Dim 2 ( 18.97 %)

Dim 2 ( 18.97 %)
2

2
Rennes Rennes Rennes

Nantes Nantes Nantes


Nice Nice Nice
1

1
Lille ● Lille ● Lille ●

Bordeaux Bordeaux Bordeaux


Paris Toulouse ● Paris Toulouse ● Paris Toulouse ●

● ●
0

0
● ●
Montpellier ●
Montpellier ●
Montpellier
Vichy
Clermont ● Vichy
Clermont ● Vichy
Clermont ●
Marseille Marseille Marseille
● ● ●
−1

−1

−1
Grenoble
Lyon Grenoble
Lyon Grenoble
Lyon
Strasbourg Strasbourg Strasbourg
−2

−2

−2
−4 −2 0 2 4 6 −4 −2 0 2 4 6 −4 −2 0 2 4 6

Dim 1 ( 79.85 %) Dim 1 ( 79.85 %) Dim 1 ( 79.85 %)

22 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Classification ascendante hiérarchique (CAH)

1 Introduction

2 Principes de la Classification Ascendante Hiérarchique

3 Exemple

4 Algorithme de partitionnement : les K-means

5 Compléments

6 Caractérisation des classes d’individus

23 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Consolidation d’une partition obtenue par CAH

La partition obtenue par CAH n’est pas optimale et peut être


améliorée, consolidée, par les K-means

Algorithme de consolidation :
• la partition obtenue par CAH est utilisée comme initialisation
de l’algorithme de partitionnement
• quelques étapes de K-means sont itérées

=⇒ amélioration de la partition (souvent non décisive)


Avantage : consolidation de la partition
Inconvénient : perte de l’info de hiérarchie

24 / 40
Introduction

0.00 0.02 0.04 0.06 0.08

158
124
146
118
123
117
169
139
140
285
115
155
176
70
116
11
90
125
130
143
129
218
298
114
174
106
107
73
147
282
292
105
150
137
94
149
82
23
161
83
197
47
194
142
181
290
1
263
88
46
75
26
294
86
54
205
6
4
223
217
198
191
203
209
262
180
189
186
102
226
188
187
200
38
167
154
40
163
37
63
152
166
213
228
296
20
231
164
275
29
84
291
260
109
27
7
30
178
45
214
119
111
5
77
170
Principes de la CAH

71
121
12
134
55
193
237
219
76
97
258

classes dans
41
144
141
177
36
184
254
230
145
250
175
43
247
284
91
216
85
157
104
179
131
293
126
245
93
16
288
206
196
24
81
113
153
15
159
9
128
151
13
19
49
42
300
156
183
2
232
162
34
242
96
132
8
14
257
256
227
222
211
212
249
165
199
195
182
202
220
190
53
100
208
74
95
31
168
248
299
Cluster Dendrogram
171
287
272
297
229
261
62
66
22
44
127
148
204
273
274
135
136
239
103
98
80
286
289
210
215
221
28
72
236
Hierarchical clustering

69
138
281
78
89
270
61
99
267
233
57
18
279
244
234
60
246
225
50
10
173
17
35
278
269
240
224
120
52
271
277
68
108
101
264
133
268
87
259
265
122
251
252
59
295
le calcul)

207
283
67
192
276
92
65
Exemple

110
25
238
79
266
255
39
160
64
3
201
253
48
112
243
241
56
32
51
172
58
21
33
185
280
235

Arbre sur données brutes


0.00 0.02 0.04 0.06 0.08

1
14
33
32
2
40
42
K-means

6
35
36
38
26
47
11
25
43
5
16
30
39
19
49
10
17
3
27
23
13
20
8
22
21
50
• Obtention du « haut » de l’arbre de la CAH

18
Hierarchical Classification

7
41
29
Hierarchical Clustering

31
CAH en grandes dimensions

34
15
37
24
4
Compléments

45
28
46
48
9
Arbre à partir de classes

44
12
• Si beaucoup d’individus : algorithme de CAH trop long

• Construire la CAH à partir des classes (utiliser l’effectif des


les premières dimensions =⇒ on se ramène au cas classique

• Faire une partition (par K-means) en une centaine de classes


• Si beaucoup de variables : faire une ACP et ne conserver que
Description des classes

25 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

CAH sur données qualitatives

Deux stratégies pour faire une classification sur données


qualitatives :

• Se ramener à des variables quantitatives


• Faire une ACM et ne conserver que les premières dimensions
• Faire la CAH à partir des composantes principales de l’ACM
• Utiliser des mesures adaptées aux données qualitatives : indice
de similarité, indice de Jaccard, etc.

26 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Enchaînement analyse factorielle - classification


• Données qualitatives : ACM renvoie des composantes
principales qui sont quantitatives
• L’analyse factorielle élimine les dernières composantes qui ne
contiennent que du bruit =⇒ classification plus stable
Hierarchical clustering on the factor map

• Représentation de cluster 1
cluster 2
cluster 3

l’arbre et des classes


sur un plan factoriel 8

=⇒ vision continue

Dim 2 (18.97%)
avec AF, discontinue
6
height

avec CAH ; vision de 5


4

● 4
Brest 3
l’information sur ●

Rennes● ● 1
2
2


Nantes ● Nice 0
Lille ● ●

d’autres axes avec ● ● ●


Paris ToulouseBordeaux ●
Montpellier −1
Vichy
Clermont
● Marseille

● −2
Grenoble
Lyon
Strasbourg −3
0

CAH −6 −4 −2 0 2 4 6 8

Dim 1 (79.85%)

27 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Classification ascendante hiérarchique (CAH)

1 Introduction

2 Principes de la Classification Ascendante Hiérarchique

3 Exemple

4 Algorithme de partitionnement : les K-means

5 Compléments

6 Caractérisation des classes d’individus

28 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Constitution des classes - Édition des parangons


Parangon : individu le plus proche du centre d’une classe
classe 1 : Montpellier Bordeaux Marseille Nice Toulouse
0.419 1.141 1.193 2.242 2.256
classe 2 : Rennes Nantes Brest
0.641 1.586 2.045
classe 3 : Vichy Clermont Grenoble Paris Lyon
0.428 0.669 1.184 1.339 1.680

cluster 1
4

cluster 2 Brest
cluster 3

cluster 2
Dim 2 (18.97%)
2

Rennes
Nantes Nice
Lille Bordeaux
cluster 1
0

Vichy Paris Toulouse


Clermont Montpellier
cluster 3 Marseille
Grenoble
Lyon
-2

Strasbourg

-4 -2 0 2 4 6
Dim 1 (79.85%)

29 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Caractérisation des classes

• Objectifs :
• Trouver les variables les plus caractérisantes pour la partition
• Caractériser une classe (ou un groupe d’individus) par des
variables quantitatives
• Trier les variables qui caractérisent les classes

• Questions :
• Quelles variables caractérisent le mieux la partition ?
• Comment caractériser les individus de la classe 1 ?
• Quelles variables les caractérisent le mieux ?

30 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Caractérisation des classes


Quelles variables caractérisent le mieux la partition ?
• Pour chaque variable quantitative :
• construire le modèle d’analyse de variance entre la variable
quantitative expliquée par la variable de classe
• faire le test de Fisher de l’effet de la classe
• Trier les variables par probabilité critique croissante

Eta2 P-value
Octo 0.8362 1.930e-05
Sept 0.8301 2.407e-05
Févr 0.8227 3.103e-05
Mars 0.8126 4.326e-05
Janv 0.8118 4.444e-05
Nove 0.8083 4.963e-05
Avri 0.7929 7.890e-05
Déce 0.7871 9.316e-05
Août 0.7864 9.503e-05
Juin 0.7241 4.409e-04
Mai 0.7164 5.205e-04
juil 0.7156 5.287e-04

31 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Caractérisation d’une classe par les variables quantitatives

Janv ● ● ●●● ● ●
●● ●
● ● ●

Févr ● ●●
●●● ● ● ●
●● ●
● ●

Lyon
Mars Paris
●● ●●
●●●
● ● ● ●
●● ●

Avri Grenoble ●● ●
●●●●
●●● ● ●●●
Clermont
Mai Vichy ● ● ● ●●
●●●● ● ●● ●

Strasbourg
Juin Lille
● ● ● ●
●●●● ●● ● ● ●

juil Nantes ● ● ● ●●
●●● ● ●● ● ●
Rennes
Août Brest ● ● ● ●●
●●● ● ● ●
● ●●●

Nice
Sept Marseille
● ● ●●
●●●●● ●● ● ●●

Octo Montpellier ● ● ●●●● ●● ● ● ●● ●


Bordeaux
Nove Toulouse ● ●●
●●● ●●●●
● ●● ●

Déce ● ● ●●
●● ● ●
● ●● ●
● ●

0 5 10 15 20

Température

32 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Caractérisation d’une classe par les variables quantitatives

Idée 1 : si les valeurs de X pour la classe q semblent tirées au


hasard parmi les valeurs de X , alors X ne caractérise pas la classe q

Aléa ● ● ● ● ●●● ● ● ● ●● ● ● ●

Août ● ● ● ● ●●● ● ● ● ●● ● ● ●

16 17 18 19 20 21 22 23

Température

Idée 2 : plus l’hypothèse d’un tirage au hasard est douteuse, plus X


caractérise la classe q

33 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Caractérisation d’une classe par les variables quantitatives


Idée : référence du tirage au hasard de nq valeurs parmi N

Quelles valeurs peut prendre x̄q ? (i.e. quelle est la loi de X̄q ?)

s2 N − nq
 
E(X̄q ) = x̄ V(X̄q ) =
nq N −1
L(X̄q ) = N car X̄q est une moyenne

x̄q − x̄
=⇒ Valeur-test = r   ∼ N (0, 1)
s2 N−nq
nq N−1

• Si |Valeur-test| ≥ 1.96 alors X caractérise la classe q


• X caractérise d’autant mieux la classe q que V-test grande
Idée : classer les variables par |Valeur-test| décroissante
34 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Caractérisation d’une classe par les variables quantitatives

$quanti$‘1‘
v.test Mean in Overall sd in Overall p.value
category mean category sd
Sept 3.40 19.30 17.00 0.755 1.79 0.000678
Moye 3.39 13.80 11.80 0.742 1.55 0.000705
Avri 3.33 12.70 11.00 0.580 1.37 0.000871
Octo 3.32 14.50 12.30 0.941 1.77 0.000893
Mars 3.24 10.00 8.23 0.524 1.48 0.001210
Août 3.18 21.90 19.60 0.792 1.94 0.001490
Juin 3.00 19.80 17.80 0.727 1.73 0.002670
Mai 3.00 16.10 14.40 0.691 1.45 0.002720
Nove 2.97 9.88 7.93 0.999 1.74 0.003020
juil 2.92 22.10 19.80 1.000 2.06 0.003550
Févr 2.88 6.80 4.83 0.940 1.81 0.003940
Déce 2.54 6.66 4.85 0.896 1.89 0.011200
Janv 2.46 5.78 3.97 0.924 1.94 0.013700

35 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Caractérisation d’une classe par les variables quantitatives


$‘2‘
v.test Mean in Overall sd in Overall p.value
category mean category sd
Mai -2.02 12.90 14.40 0.953 1.45 0.04380
Août -2.02 17.50 19.60 1.090 1.94 0.04330
Juin -2.05 15.90 17.80 1.160 1.73 0.04020
juil -2.18 17.40 19.80 1.350 2.06 0.02900
Long -2.88 -2.34 2.58 1.380 3.21 0.00404
Ampl -2.95 12.40 15.90 1.560 2.25 0.00316

$‘3‘
v.test Mean in Overall sd in Overall p.value
category mean category sd
Sept -2.05 15.90 17.00 0.738 1.79 0.040700
Avri -2.11 10.20 11.00 0.637 1.37 0.035100
Moye -2.60 10.70 11.80 0.620 1.55 0.009220
Octo -2.81 10.90 12.30 0.661 1.77 0.004940
Mars -2.85 7.03 8.23 0.807 1.48 0.004310
Nove -3.15 6.36 7.93 0.654 1.74 0.001620
Févr -3.25 3.16 4.83 0.763 1.81 0.001150
Déce -3.28 3.07 4.85 0.911 1.89 0.001020
Janv -3.36 2.11 3.97 0.876 1.94 0.000793
36 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Caractérisation des classes par les variables qualitatives

Quelles variables caractérisent le mieux la partition ?

• Pour chaque variable qualitative, construire un test du χ2


entre la variable et la variable de classe
• Trier les variables par probabilité critique croissante

$test.chi2
p.value df
Région 0.001700272 6

37 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Caractérisation d’une classe par les variables qualitatives


La modalité Nord-Est caractérise-t-elle la classe 3 ?

Classe 3 Autre classe Total


Nord-Est nmc = 3 0 nm = 3
Pas NE 4 8 12
Total nc = 7 8 n = 15

nmc nm
Test : H0 : nc = n contre H1 : m anormalement élevée dans c
Sous H0 : L(Nmc ) = H(nc , nnm , n) PH0 (Nmc ≥ nmc )
Classe 3
Cla/Mod Mod/Cla Global p.value v.test
Région=NE 100.00 42.86 20.00 0.077 1.769

3 3 3
× 100 = 100 ; × 100 = 42.86 ; × 100 = 20 ; PH(7, 3 ,15) [Nmc ≥ 3] = 0.077
3 7 15 15

=⇒ H0 acceptée, Nord-Est n’est pas sur-représenté dans la classe 3


Tri des modalités en fonction des probabilités critiques
38 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Caractérisation d’une classe par les axes

Les axes factoriels sont aussi des variables quantitatives

$‘1‘
v.test Mean in Overall sd in Overall p.value
category mean category sd
Dim.1 3.39 3.97 0 1.46 3.1 0.000693

$‘2‘
v.test Mean in Overall sd in Overall p.value
category mean category sd
Dim.2 2.84 2.29 0 1.29 1.51 0.00447

$‘3‘
v.test Mean in Overall sd in Overall p.value
category mean category sd
Dim.2 -2.11 -0.911 0 0.927 1.51 0.0346
Dim.1 -2.56 -2.270 0 1.260 3.10 0.0104

39 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Conclusion

• La classification s’applique à des tableaux individus ×


variables quantitatives
⇒ L’ACM transforme des variables qualitatives en variables
quantitatives

• CAH donne un arbre hiérarchique ⇒ nombre de classes

• K-means consolide les classes

• Caractérisation des classes par des variables actives et


supplémentaires, quantitatives et qualitatives

40 / 40

Vous aimerez peut-être aussi