e e B j A i
d(i,j)
Critre ou distance de Ward : o(A,B) =
) (
B A
B A
n n n
n n
+
d(g
A
, g
B
)
Exemple ( suivant le critre de saut maximal)
Les individus : 6 hommes =E={H
1
, H
2
, H
3
, H
4
H
5
,, H
6.
}
Variable: X=(mesure des paules, poitrine, ceinture, masse, tille)
x
5
x
4
x
3
x
2
x
1
174 65.6 71.5 89.5 106.5 H
1
175.3 71.8 79 97 110.5 H
2
193.5 80.7 83.2 97.5 115.1 H
3
185.3 72.6 77.8 97 104.5 H
4
187.2 78.8 80 97.5 107.5 H
5
181.5 74.8 82.5 99.9 119.8 H
6
Distance : Euclidienne
=
=
5
1
) ( ) , (
k
jk ik j i
x x H H d
d(H
1
,H
2
)= 175,3) - (174 71,8) - (65,5 97) - (71,5 97) - (89,5 110,5) - (106,2 + + + + = 13,08
H
6
H
5
H
4
H
3
H
2
H
1
23.56 22.05 17.44 29.81 13.08 H
1
12.43 14.17 12.79 21.2 H
2
14.39 10.55 16.01 H
3
17.16 7.28 H
4
14.55 H
5
H
6
On a : d(H
4
,H
5
)= 7,28 E
1
={ H
4
,H
5
}
tape 3 : On calcule les distances (suivant le critre de saut
maximal) entre E
1
et les lments restants (les autres distances
sont inchanges).
o(H
i
, E
1
)= max{ d(H
i
,H
4
), d(H
i
,H
5
)
H
6
E
1
H
3
H
2
H
1
23.56 22.05 29.81 13.08 H
1
12.43 14.17 21.2 H
2
14.39 16.01 H
3
17,16 E
1
H
6
On a : d(H
2
,H
6
)= 12,43 E
2
={ H
2
,H
6
}
On a : d(H
3
,H
6
)= 14,39 E
3
={ H
3
,H
6
}
On a : d(E
3
,E
1
)= 16,01 E
4
={ E
3
,E
1
}
H
6
E
1
H
3
E
2
23.56 22.05 29.81 E
2
14.39 16.01 H
3
14.55 E
1
H
6
E
1
E
3
E
2
22.05 29.81 E
2
16.01 E
3
E
1
E
3
E
2
29.81 E
2
E
3
(1) (2) (4)
(5) (3)
Individu dorigine
Hararchie
indice
Dendrogramme
(6)
Classification non-hirarchique
Les mthodes non hirarchiques consistent
regrouper, en optimisant un critre donn, en
k groupes toutes les observations
simultanment. Autrement dit, l'algorithme
s'arrte une fois qu'il y a k classes.
On s'intressera ici seulement une mthode
qui est largement utilise en pratique.
Algorithme kmeans
Chaque individu i est reprsent par une
observation x
i
=(x
1i
, x
2i
,,x
pi
). Donc les n
objets seront reprsents par un nuage
dans IR
p
. Dsignant par E
k
une partie
d'individus de E, n
k
son effectif, g
k
son
centre de gravit et g celui de l'ensemble
des individus E.
On dfinie :
L'inertie d'un groupe E
k
: I
k
=
e
k
E i
d( x
i
, g
k
)
L'inertie intra- groupe: I
W
=
=
K
k 1
I
k
L'inertie inter- groupe: I
B
=
=
K
k 1
n
k
d( g
k
, g)
L'inertie totale: I
tot
=
=
n
i 1
d( x
i
, g) = I
W
+ I
B
Bonne partition I
W
minimum (groupes homognes)
I
B
maximum (sparation inter-groupe)
Algorithme kmeans
1
er
tape: (Initialisation)
On choisie une mtrique pour calculer la distance entre
individus.
On dfinie priori un nombre de classes (K).
On choisie de faon arbitraire K centres (C
k
, k=1,2,,K)
de classes. C'est souvent K individus tirs au hasard
2
eme
tape: On calcule la distance de chaque individu aux K
centres de classes.
3
eme
tape: On affecte chaque individu i la classe dont le
centre est le plus proche, puis on calcule pour chaque
groupe E
k
le nouveau centre de classe C
k
(qui n'est autre
que le centre de gravit g
k
de ce groupe).
4
eme
tape: On calcule pour chaque individu i la distance au
centre de chaque groupe et on calcule le critre d'inertie I
W
prsent. Si la dispersion (I
W
) dcrot, on revient l'tape 2,
sinon on arrte lalgorithme.