Vous êtes sur la page 1sur 28

MTHODES

DE
CLASSIFICATION

Pierre-Louis GONZALEZ

MTHODES DE CLASSIFICATION

Objet

Oprer des regroupements en classes homognes dun


ensemble dindividus.

Donnes

Les donnes se prsentent en gnral sous la forme dun


tableau individus variables.
1. Ayant dfini un critre de distance (dissemblance) ou
dissimilarit (pas ncessairement dingalit triangulaire)
entre les individus, on procde au regroupement des
individus.
2.

Ce

regroupement

ncessite

une

stratgie

de

classification : critre de classification.

MTHODES

NON HIERARCHIQUES

Partition en k classes
Exemples : Centres mobiles
Nues dynamiques

Avantages : Permettent la classification densembles volumineux.

Inconvnients : On impose au dpart le nombre de classes.

HIRARCHIQUES

: suites de partitions embotes

OU
a

a, b, c, d, e
ab, c, d, e
abc, de
abcde

Avantages : La lecture de larbre permet de dterminer le nombre


optimal de classes.

Inconvnients : Coteux en temps de calcul.

lments de vocabulaire

classification automatique
classification non supervise
apprentissage sans professeur

Le terme classification en anglais fait rfrence laffectation dun


individu une classe (existant a priori) dans le cadre de lanalyse
discriminante. Il se traduit en franais par le terme classement.
Lquivalent en anglais de classification automatique est cluster
analysis .

lments de vocabulaire

E : ensemble des n objets classer

Dissimilarit :

d( i, j) = d( j, i)
d( i, i) = 0
d( i, j) 0

Similarit :

s( i , j) = s( j, i)
s( i , j) 0
s( i, i) s( i , j)

I.

MTHODES DE PARTITIONNEMENT

1.

Considrations combinatoires

Pn, k = nombre de partitions en k classes de n individus


Pn, k = Pn 1, k 1 + k Pn 1, k (rcurrence)

(nombre de Stirling de 2me espce)


Ex : P12,5 = 1 379 400

Pn = nombre total de partitions

(nombres de Bell)
Ex : P12 = 4 213 597

Ncessit dalgorithmes pour trouver une bonne partition.

Comment dfinir la qualit dune partition ?

2.

Inertie intra-classe et Inertie inter-classe

n points dans un espace euclidien


d 2 (i, i) distance euclidienne

Soit une partition en k classes de poids Pi


g1 , g 2 ... g k

centres de gravit

I1 , I 2 ... I k

inerties associes

I W = Pi I i

inertie intra

I B = Pi d 2 (g i , g) inertie inter

I B + IW = I
x
x
x
x

x
x

x
x

g = centre de gravit des n individus

g1

x
x

x
x

g2

g
x

x
x
x
x
x

gk

x
x

Comparaison de deux partitions en k classes : La meilleure est celle


qui a linertie I W la plus faible (ou linertie I B la plus forte).
Remarque : Ce critre ne permet pas de comparer des partitions
nombres diffrents de classe.

3.

Mthode des centres mobiles

x
x

x
x

c1

c2

x
x

c3

x
x

x
x

1re tape : choix de centres ci et partition associe (les ci sont


choisis au hasard).
La classe E c est forme de tous les points plus proches de ci
i

que de tout autre centre.

2me tape : calcul des centres de gravit de chaque classe


dfinition dune nouvelle partition.

x
x

x
x

( 2)

g1

g(22)

x
x

g(32)

x
x

x
x

x
x

+ itrations
successives

RSULTAT FONDAMENTAL

Linertie intra-classe diminue chaque tape.


Dmonstration :
Soit E g la classe obtenue en remplaant ci par g(i 2) centre de
i

gravit de E c .
i

Daprs le thorme de Konig-Huygens, g i ntant pas le centre de


gravit de E g
1
n

i =1

2
d
g
A
,
(
)

i est suprieur linertie intra-classe de la


A

gi

partition E g .
i

10

Il suffit de montrer alors que :

1
n

i =1

1
d
j
g
,
( i) n

jE

ci

i =1

d (A, g )
2

AEgi

Or, si on considre un point quelconque, il figurera dans le membre


de droite avec son carr de distance au g i qui sera le plus proche de
lui par construction des E g , tandis que dans le membre de gauche,
i

il figurera avec sa distance un g i qui ne sera pas forcment le plus


proche de lui, mais qui sera seulement son centre de gravit dans la
partition E c .
i

Le nuage tant fini, lalgorithme converge.


Lexprience montre que le nombre ditrations ncessaires est en
gnral faible.

11

EXEMPLE : Mthode des Centres Mobiles

x
x x
x
x
x
x

x x

x
1 x

Choix des centres


c2
c1

Etape 0

Etape 1
x
x x
x
x
x
x

x x
x x

c2

Constitution de classes autour des centres c1 et c 2

Classe 1 : points plus proches de c1 que de c 2


Classe 2 : points plus proches de c que de c
1
2

Etape 2

x
x x
x
x
( 2)
x g1
x

x
x x ( 2)
g2
x x
x

Calcul des centres de gravit

des 2 classes formes l ' tape 1

g1
g2
D fin itio n d e n o u v e lle s c la s s e s
+
a u to u r d e s c e n tre s d e g ra v it

Etape 3
x
x x
x
x ( 3)

g1

x x

x x g (23) x

C alcul des centres de gravit


des classes form es l ' tape 2 .
N ouvelle dfinition des classes
autour de ces centres STABILITE

FIN de lalgorithme

12

4.

Gnralisation : nues dynamiques

Lide est dassocier une classe un reprsentant diffrent de son centre


de gravit.
Par exemple :

un ensemble dindividus (noyau form de q points appels les


talons)

une droite
une loi de probabilit

Algorithme - Principe

Il faut faire dcrotre le critre U mesurant ladquation entre les


classes et leurs reprsentants.

13

Initialisation

Deux possibilits :
1. Soit on se donne au dpart une fonction daffectation qui
gnre une partition Q = (Q1 ... Q k ) sur E. Les noyaux pour
chaque classe sont calculs.
2. Soit on se donne k noyaux.

tape daffectation

Pour chaque individu, dterminer la classe laquelle on doit


laffecter (ncessit davoir dfini une distance entre un point et
un noyau, ou un groupe de points).

tape de reprsentation

Pour chaque classe dfinie, calculer le nouveau noyau.

14

La convergence vers un minimum local est obtenue si chaque tape fait


dcrotre le critre U.
ARRT DE LALGORITHME

quand la dcroissance atteint un seuil fix a

priori.

Pratique de la mthode

Comme la partition finale peut dpendre de linitialisation, on


recommence s fois (exemple : s tirages alatoires de noyaux).

Formes fortes
Ensemble dlments ayant toujours t regroups lors de la
partition finale.

15

Exemples :

Premire partition
113

38

35

40

30
43

5
30

25
8

0
5

Deuxime
partition

2 35
3
partition-produit

40

1000 individus
Trois partitions de base en 6 classes :

Partition 1

127

188

229

245

151

60

Partition 2

232

182

213

149

114

110

Partition 3

44

198

325

99

130

204

Ces trois partitions sont ensuite croises entre elles

63 = 216 classes
Groupements stables rangs par effectifs dcroissants :
168

114

110

107

88

83

78

26

22

16

15

14

12

12

12

11

10

7 formes fortes deffectifs importants


16

5.

Variantes des mthodes centres mobiles

K-means (Mac Queen 1967)


On effectue un recentrage ds quun objet change de classe.
Isodata (Ball et Hall 1965)
Un certain nombre de contraintes sont imposes pour
empcher la formation de classes deffectifs trop faibles ou de
diamtre trop grand.

17

II.

LA CLASSIFICATION HIRARCHIQUE

Elle consiste fournir un ensemble de partitions de E en classes de


moins en moins fines obtenues par regroupements successifs de parties.

Arbre de classification
ou dendrogramme
a

Dmarche : Cet arbre est obtenu dans la plupart des mthodes de


manire ascendante :

On regroupe dabord les deux individus les plus proches qui


forment un sommet

Il ne reste plus que (n-1) objets et on itre le processus jusqu


un regroupement complet.

Un des problmes consiste dfinir une mesure de dissimilarit entre


classes.
Remarque : Les mthodes descendantes ou algorithmes divisifs
sont pratiquement inutilises.

18

1.

Stratgies dagrgation sur dissimilarits

Le problme est de dfinir la dissimilarit entre la runion de deux


lments et un troisime :
d (a b, c) . A chaque solution correspond une ultramtrique

diffrente.
A
x

x
x

x
x

a.

d (A, c) ?

x
x

Le saut minimum

Cette mthode (connue sous le nom de single linkage en


anglais ) consiste crire que :
d (a b,c) = inf

{ d (a, c) ; d (b,c) }

x
x

x
x

x
x

x
x

x
x
x

x
x

x
x

x
x

La distance entre parties est donc la plus petite distance entre


lments des deux parties.

19

b.

Le diamtre ( complete linkage )

On prend ici comme distances entre parties la plus grande


distance entre deux lments.
d [(a, b) ; c] = sup [d (a, c), d ( b, c)]

x
x

x
x

x
x

x
x

x
x

x
x

x
x

x
x

x
x

20

2.

Stratgies diverses

saut minimum (plus proche)

diamtre

moyenne des distances

mdiane des distances

distance au centre de gravit.

Indice i(A)


Lindice ou niveau dagrgation est le niveau auquel on trouve agrgs


pour la premire fois tous les constituants de A.

21

3.

La mthode de Ward pour distance Euclidienne

Si on peut considrer E comme un nuage dun espace Rp, on agrge les


individus qui font le moins varier linertie intra-classe.
A chaque pas, on cherche obtenir un minimum local de linertie intraclasse ou un maximum de linertie inter-classe.
Lindice de dissimilarit entre deux classes (ou niveau dagrgation de ces
deux classes) est alors gal la perte dinertie inter-classe rsultant de leur
regroupement.

Calculons cette perte dinertie :


g A = centre de gravit de la classe A (poids p A )
g B = centre de gravit de la classe B (poids pB )
g AB = centre de gravit de leur runion
g AB =

p A g A + p Bg B
pA + p B

22

Lintertie inter-classe tant la moyenne des carrs des distances des


centres de gravit des classes au centre de gravit total, la variation
dinertie inter-classe, lors du regroupement de A et B est gale :
p A d 2 (g A , g) + p Bd 2 (g B , g) ( p A + p B ) d 2 (g AB , g)

Elle vaut :
(A, B) =

pA p B 2
d (g A , g B )
pA + p B

Remarque : Cette mthode entre dans le cadre de la formule de Lance


et Williams gnralise :
[(A, B) ; C] =

( pA + pC ) (A, C) + ( p B + pC ) (B, C) pC(A, B)


pA + p B + pC

On peut donc utiliser lalgorithme gnral.


On notera que la somme des niveaux dagrgation des diffrents noeuds
de larbre doit tre gale linertie totale du nuage, puisque la somme des
pertes dinertie est gale linertie totale.
Cette mthode est donc complmentaire de lanalyse en composantes
principales et repose sur un critre doptimisation assez naturel.
Elle constitue notre avis la meilleure mthode de classification
hirarchique sur donnes euclidiennes.
Il ne faut pas oublier cependant que le choix de la mtrique dans lespace
des individus conditionne galement les rsultats.

23

III.

LA PRATIQUE DE LA CLASSIFICATION

1.

Les mthodes mixtes

En prsence dun grand nombre dindividus (>103), il est impossible


dutiliser directement les mthodes de classification hirarchique.
On combine les techniques non hirarchiques et hirarchiques.
Etape 1 : Mthode centres mobiles ou nues dynamiques . On

forme par exemple 50 classes.


Etape 2 : Construction dun arbre partir des k classes formes

ltape 1. Coupure de larbre en un nombre judicieux de


classes.
Etape 3 : Consolidation de la partition obtenue ltape 2

(mthode de type centres mobiles ).

24

2.

Interprtation dune partition


2-1.

Utilisation des outils de base de la statistique

Pour chaque variable :

Calcul de paramtres caractristiques de chaque classe


(moyenne, cart-type, min, max...)

Reprsentations graphiques : botes moustaches, intervalle de


confiance pour les moyennes.

Analyse de la variance un facteur pour chaque variable (on


peut ainsi classer les variables par ordre de contribution la
cration des classes).

2-2.

En liaison avec une analyse factorielle (A.C.P.

dans le cas de variables quantitatives)

On peut reprer les classes formes dans le plan des individus.

Projeter les points moyens reprsentant chaque classe.

Utiliser les valeurs-tests pour chaque classe sur les axes


interprts.

2-3.

Les deux approches sont complmentaires, la

premire approche peut tre longue mettre en oeuvre si le nombre


de variables est lev.

25

IV.

LA CLASSIFICATION DE DONNES QUALITATIVES


1. Les n individus classer sont dcrits par des variables
qualitatives
a.

Donnes de prsence - absence

On utilise un des indices de dissimilarit dduit des indices de


similarit proposs qui combinent de diverses manires les quatre
nombres suivants associs un couple dindividus.
a = nombre de caractristiques communes
b = nombre de caractristiques possdes par i et pas par j
c = nombre de caractristiques possdes par j et pas par i
d = nombre de caractristiques que ne possdent ni i, ni j.
Les indices compris entre 0 et 1 sont aisment transformables en
dissimilarit par complmentation 1.
Jaccard

a
a+b+c

Dice ou Czekanowski
Ochia

2a
2a + b + c

a
(a + b) (a + c)

Russel et Rao

a
a+b+c+d

Rogers et Tanimoto

a+d
a + d + 2( b + c)
26

b.

Individus dcrits par des variables qualitatives m1

m2 ... mp modalits

On utilise la reprsentation disjonctive complte et la

distance du 2 entre lignes du tableau.


np x x ij
d (i, i) = ij
p
j n j

2
2

(Elle traduit le fait que deux individus ayant en commun une


modalit rare sont plus proches que deux individus ayant en
commun une modalit frquente).
On utilise alors la mthode de Ward (puisque la distance du 2
est euclidienne) sur le tableau des distances.

Autre solution : Classification hirarchique sur le tableau

des coordonnes factorielles des n individus aprs A.C.M. de X.


Les deux approches sont quivalentes si on utilise tous les
facteurs de lA.C.M. soit
normalisation de chaque axe

mi p ,

en conservant la

27

2. Classification hirarchique des lignes (ou des


colonnes) dun tableau de contingence

Elle seffectue avec la mthode de Ward et la distance du 2 entre lignes


(ou entre colonnes).
Cette mthode revient regrouper les catgories dune variable
qualitative de la faon suivante : chaque tape, on runit les deux
catgories (en sommant les effectifs) qui font diminuer le moins possible
2
.
le puisque linertie totale est ici gale
n
2

28

Vous aimerez peut-être aussi