Académique Documents
Professionnel Documents
Culture Documents
DE
CLASSIFICATION
Pierre-Louis GONZALEZ
MTHODES DE CLASSIFICATION
Objet
Donnes
Ce
regroupement
ncessite
une
stratgie
de
MTHODES
NON HIERARCHIQUES
Partition en k classes
Exemples : Centres mobiles
Nues dynamiques
HIRARCHIQUES
OU
a
a, b, c, d, e
ab, c, d, e
abc, de
abcde
lments de vocabulaire
classification automatique
classification non supervise
apprentissage sans professeur
lments de vocabulaire
Dissimilarit :
d( i, j) = d( j, i)
d( i, i) = 0
d( i, j) 0
Similarit :
s( i , j) = s( j, i)
s( i , j) 0
s( i, i) s( i , j)
I.
MTHODES DE PARTITIONNEMENT
1.
Considrations combinatoires
(nombres de Bell)
Ex : P12 = 4 213 597
2.
centres de gravit
I1 , I 2 ... I k
inerties associes
I W = Pi I i
inertie intra
I B = Pi d 2 (g i , g) inertie inter
I B + IW = I
x
x
x
x
x
x
x
x
g1
x
x
x
x
g2
g
x
x
x
x
x
x
gk
x
x
3.
x
x
x
x
c1
c2
x
x
c3
x
x
x
x
x
x
x
x
( 2)
g1
g(22)
x
x
g(32)
x
x
x
x
x
x
+ itrations
successives
RSULTAT FONDAMENTAL
gravit de E c .
i
i =1
2
d
g
A
,
(
)
gi
partition E g .
i
10
1
n
i =1
1
d
j
g
,
( i) n
jE
ci
i =1
d (A, g )
2
AEgi
11
x
x x
x
x
x
x
x x
x
1 x
Etape 0
Etape 1
x
x x
x
x
x
x
x x
x x
c2
Etape 2
x
x x
x
x
( 2)
x g1
x
x
x x ( 2)
g2
x x
x
g1
g2
D fin itio n d e n o u v e lle s c la s s e s
+
a u to u r d e s c e n tre s d e g ra v it
Etape 3
x
x x
x
x ( 3)
g1
x x
x x g (23) x
FIN de lalgorithme
12
4.
une droite
une loi de probabilit
Algorithme - Principe
13
Initialisation
Deux possibilits :
1. Soit on se donne au dpart une fonction daffectation qui
gnre une partition Q = (Q1 ... Q k ) sur E. Les noyaux pour
chaque classe sont calculs.
2. Soit on se donne k noyaux.
tape daffectation
tape de reprsentation
14
priori.
Pratique de la mthode
Formes fortes
Ensemble dlments ayant toujours t regroups lors de la
partition finale.
15
Exemples :
Premire partition
113
38
35
40
30
43
5
30
25
8
0
5
Deuxime
partition
2 35
3
partition-produit
40
1000 individus
Trois partitions de base en 6 classes :
Partition 1
127
188
229
245
151
60
Partition 2
232
182
213
149
114
110
Partition 3
44
198
325
99
130
204
63 = 216 classes
Groupements stables rangs par effectifs dcroissants :
168
114
110
107
88
83
78
26
22
16
15
14
12
12
12
11
10
5.
17
II.
LA CLASSIFICATION HIRARCHIQUE
Arbre de classification
ou dendrogramme
a
18
1.
diffrente.
A
x
x
x
x
x
a.
d (A, c) ?
x
x
Le saut minimum
{ d (a, c) ; d (b,c) }
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
19
b.
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
20
2.
Stratgies diverses
diamtre
Indice i(A)
21
3.
p A g A + p Bg B
pA + p B
22
Elle vaut :
(A, B) =
pA p B 2
d (g A , g B )
pA + p B
23
III.
LA PRATIQUE DE LA CLASSIFICATION
1.
24
2.
2-2.
2-3.
25
IV.
a
a+b+c
Dice ou Czekanowski
Ochia
2a
2a + b + c
a
(a + b) (a + c)
Russel et Rao
a
a+b+c+d
Rogers et Tanimoto
a+d
a + d + 2( b + c)
26
b.
m2 ... mp modalits
2
2
mi p ,
en conservant la
27
28