Classification 2008 2

MTHODES
DE
CLASSIFICATION
Pierre-Louis GONZALEZ
MTHODES DE CLASSIFICATION
Objet
Oprer des regroupements en classes homognes dun

ensemble dindividus.
Donnes
Les donnes se prsentent en gnral sous la forme dun

tableau individus variables.
1. Ayant dfini un critre de distance (dissemblance) ou
dissimilarit (pas ncessairement dingalit triangulaire)
entre les individus, on procde au regroupement des
individus.
2.
Ce
regroupement
ncessite
une
stratgie
de
classification : critre de classification.
MTHODES
NON HIERARCHIQUES
Partition en k classes
Exemples : Centres mobiles
Nues dynamiques
Avantages : Permettent la classification densembles volumineux.
Inconvnients : On impose au dpart le nombre de classes.
HIRARCHIQUES
: suites de partitions embotes
OU
a
a, b, c, d, e
ab, c, d, e
abc, de
abcde
Avantages : La lecture de larbre permet de dterminer le nombre

optimal de classes.
Inconvnients : Coteux en temps de calcul.
lments de vocabulaire
classification automatique
classification non supervise
apprentissage sans professeur
Le terme classification en anglais fait rfrence laffectation dun

individu une classe (existant a priori) dans le cadre de lanalyse
discriminante. Il se traduit en franais par le terme classement.
Lquivalent en anglais de classification automatique est cluster
analysis .
lments de vocabulaire
E : ensemble des n objets classer
Dissimilarit :
d( i, j) = d( j, i)
d( i, i) = 0
d( i, j) 0
Similarit :
s( i , j) = s( j, i)
s( i , j) 0
s( i, i) s( i , j)
I.
MTHODES DE PARTITIONNEMENT
1.
Considrations combinatoires
Pn, k = nombre de partitions en k classes de n individus

Pn, k = Pn 1, k 1 + k Pn 1, k (rcurrence)
(nombre de Stirling de 2me espce)

Ex : P12,5 = 1 379 400
Pn = nombre total de partitions
(nombres de Bell)
Ex : P12 = 4 213 597
Ncessit dalgorithmes pour trouver une bonne partition.
Comment dfinir la qualit dune partition ?
2.
Inertie intra-classe et Inertie inter-classe
n points dans un espace euclidien

d 2 (i, i) distance euclidienne
Soit une partition en k classes de poids Pi

g1 , g 2 ... g k
centres de gravit
I1 , I 2 ... I k
inerties associes
I W = Pi I i
inertie intra
I B = Pi d 2 (g i , g) inertie inter
I B + IW = I
x
x
x
x
x
x
x
x
g = centre de gravit des n individus
g1
x
x
x
x
g2
g
x
x
x
x
x
x
gk
x
x
Comparaison de deux partitions en k classes : La meilleure est celle

qui a linertie I W la plus faible (ou linertie I B la plus forte).
Remarque : Ce critre ne permet pas de comparer des partitions
nombres diffrents de classe.
3.
Mthode des centres mobiles
x
x
x
x
c1
c2
x
x
c3
x
x
x
x
1re tape : choix de centres ci et partition associe (les ci sont

choisis au hasard).
La classe E c est forme de tous les points plus proches de ci
i
que de tout autre centre.
2me tape : calcul des centres de gravit de chaque classe

dfinition dune nouvelle partition.
x
x
x
x
( 2)
g1
g(22)
x
x
g(32)
x
x
x
x
x
x
+ itrations
successives
RSULTAT FONDAMENTAL
Linertie intra-classe diminue chaque tape.

Dmonstration :
Soit E g la classe obtenue en remplaant ci par g(i 2) centre de
i
gravit de E c .
i
Daprs le thorme de Konig-Huygens, g i ntant pas le centre de

gravit de E g
1
n
i =1
2
d
g
A
,
(
)
i est suprieur linertie intra-classe de la

A
gi
partition E g .
i
10
Il suffit de montrer alors que :
1
n
i =1
1
d
j
g
,
( i) n
jE
ci
i =1
d (A, g )
2
AEgi
Or, si on considre un point quelconque, il figurera dans le membre

de droite avec son carr de distance au g i qui sera le plus proche de
lui par construction des E g , tandis que dans le membre de gauche,
i
il figurera avec sa distance un g i qui ne sera pas forcment le plus

proche de lui, mais qui sera seulement son centre de gravit dans la
partition E c .
i
Le nuage tant fini, lalgorithme converge.

Lexprience montre que le nombre ditrations ncessaires est en
gnral faible.
11
EXEMPLE : Mthode des Centres Mobiles
x
x x
x
x
x
x
x x
x
1 x
Choix des centres

c2
c1
Etape 0
Etape 1
x
x x
x
x
x
x
x x
x x
c2
Constitution de classes autour des centres c1 et c 2
Classe 1 : points plus proches de c1 que de c 2

Classe 2 : points plus proches de c que de c
1
2
Etape 2
x
x x
x
x
( 2)
x g1
x
x
x x ( 2)
g2
x x
x
Calcul des centres de gravit
des 2 classes formes l ' tape 1
g1
g2
D fin itio n d e n o u v e lle s c la s s e s
+
a u to u r d e s c e n tre s d e g ra v it
Etape 3
x
x x
x
x ( 3)
g1
x x
x x g (23) x
C alcul des centres de gravit

des classes form es l ' tape 2 .
N ouvelle dfinition des classes
autour de ces centres STABILITE
FIN de lalgorithme
12
4.
Gnralisation : nues dynamiques
Lide est dassocier une classe un reprsentant diffrent de son centre

de gravit.
Par exemple :
un ensemble dindividus (noyau form de q points appels les

talons)
une droite
une loi de probabilit
Algorithme - Principe
Il faut faire dcrotre le critre U mesurant ladquation entre les

classes et leurs reprsentants.
13
Initialisation
Deux possibilits :
1. Soit on se donne au dpart une fonction daffectation qui
gnre une partition Q = (Q1 ... Q k ) sur E. Les noyaux pour
chaque classe sont calculs.
2. Soit on se donne k noyaux.
tape daffectation
Pour chaque individu, dterminer la classe laquelle on doit

laffecter (ncessit davoir dfini une distance entre un point et
un noyau, ou un groupe de points).
tape de reprsentation
Pour chaque classe dfinie, calculer le nouveau noyau.
14
La convergence vers un minimum local est obtenue si chaque tape fait

dcrotre le critre U.
ARRT DE LALGORITHME
quand la dcroissance atteint un seuil fix a
priori.
Pratique de la mthode
Comme la partition finale peut dpendre de linitialisation, on

recommence s fois (exemple : s tirages alatoires de noyaux).
Formes fortes
Ensemble dlments ayant toujours t regroups lors de la
partition finale.
15
Exemples :
Premire partition
113
38
35
40
30
43
5
30
25
8
0
5
Deuxime
partition
2 35
3
partition-produit
40
1000 individus
Trois partitions de base en 6 classes :
Partition 1
127
188
229
245
151
60
Partition 2
232
182
213
149
114
110
Partition 3
44
198
325
99
130
204
Ces trois partitions sont ensuite croises entre elles
63 = 216 classes
Groupements stables rangs par effectifs dcroissants :
168
114
110
107
88
83
78
26
22
16
15
14
12
12
12
11
10
7 formes fortes deffectifs importants

16
5.
Variantes des mthodes centres mobiles
K-means (Mac Queen 1967)

On effectue un recentrage ds quun objet change de classe.
Isodata (Ball et Hall 1965)
Un certain nombre de contraintes sont imposes pour
empcher la formation de classes deffectifs trop faibles ou de
diamtre trop grand.
17
II.
LA CLASSIFICATION HIRARCHIQUE
Elle consiste fournir un ensemble de partitions de E en classes de

moins en moins fines obtenues par regroupements successifs de parties.
Arbre de classification
ou dendrogramme
a
Dmarche : Cet arbre est obtenu dans la plupart des mthodes de

manire ascendante :
On regroupe dabord les deux individus les plus proches qui

forment un sommet
Il ne reste plus que (n-1) objets et on itre le processus jusqu

un regroupement complet.
Un des problmes consiste dfinir une mesure de dissimilarit entre

classes.
Remarque : Les mthodes descendantes ou algorithmes divisifs
sont pratiquement inutilises.
18
1.
Stratgies dagrgation sur dissimilarits
Le problme est de dfinir la dissimilarit entre la runion de deux

lments et un troisime :
d (a b, c) . A chaque solution correspond une ultramtrique
diffrente.
A
x
x
x
x
x
a.
d (A, c) ?
x
x
Le saut minimum
Cette mthode (connue sous le nom de single linkage en

anglais ) consiste crire que :
d (a b,c) = inf
{ d (a, c) ; d (b,c) }
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
La distance entre parties est donc la plus petite distance entre

lments des deux parties.
19
b.
Le diamtre ( complete linkage )
On prend ici comme distances entre parties la plus grande

distance entre deux lments.
d [(a, b) ; c] = sup [d (a, c), d ( b, c)]
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
20
2.
Stratgies diverses
saut minimum (plus proche)
diamtre
moyenne des distances
mdiane des distances
distance au centre de gravit.
Indice i(A)

Lindice ou niveau dagrgation est le niveau auquel on trouve agrgs

pour la premire fois tous les constituants de A.
21
3.
La mthode de Ward pour distance Euclidienne
Si on peut considrer E comme un nuage dun espace Rp, on agrge les

individus qui font le moins varier linertie intra-classe.
A chaque pas, on cherche obtenir un minimum local de linertie intraclasse ou un maximum de linertie inter-classe.
Lindice de dissimilarit entre deux classes (ou niveau dagrgation de ces
deux classes) est alors gal la perte dinertie inter-classe rsultant de leur
regroupement.
Calculons cette perte dinertie :

g A = centre de gravit de la classe A (poids p A )
g B = centre de gravit de la classe B (poids pB )
g AB = centre de gravit de leur runion
g AB =
p A g A + p Bg B
pA + p B
22
Lintertie inter-classe tant la moyenne des carrs des distances des

centres de gravit des classes au centre de gravit total, la variation
dinertie inter-classe, lors du regroupement de A et B est gale :
p A d 2 (g A , g) + p Bd 2 (g B , g) ( p A + p B ) d 2 (g AB , g)
Elle vaut :
(A, B) =
pA p B 2
d (g A , g B )
pA + p B
Remarque : Cette mthode entre dans le cadre de la formule de Lance

et Williams gnralise :
[(A, B) ; C] =
( pA + pC ) (A, C) + ( p B + pC ) (B, C) pC(A, B)

pA + p B + pC
On peut donc utiliser lalgorithme gnral.

On notera que la somme des niveaux dagrgation des diffrents noeuds
de larbre doit tre gale linertie totale du nuage, puisque la somme des
pertes dinertie est gale linertie totale.
Cette mthode est donc complmentaire de lanalyse en composantes
principales et repose sur un critre doptimisation assez naturel.
Elle constitue notre avis la meilleure mthode de classification
hirarchique sur donnes euclidiennes.
Il ne faut pas oublier cependant que le choix de la mtrique dans lespace
des individus conditionne galement les rsultats.
23
III.
LA PRATIQUE DE LA CLASSIFICATION
1.
Les mthodes mixtes
En prsence dun grand nombre dindividus (>103), il est impossible

dutiliser directement les mthodes de classification hirarchique.
On combine les techniques non hirarchiques et hirarchiques.
Etape 1 : Mthode centres mobiles ou nues dynamiques . On
forme par exemple 50 classes.

Etape 2 : Construction dun arbre partir des k classes formes
ltape 1. Coupure de larbre en un nombre judicieux de

classes.
Etape 3 : Consolidation de la partition obtenue ltape 2
(mthode de type centres mobiles ).
24
2.
Interprtation dune partition

2-1.
Utilisation des outils de base de la statistique
Pour chaque variable :
Calcul de paramtres caractristiques de chaque classe

(moyenne, cart-type, min, max...)
Reprsentations graphiques : botes moustaches, intervalle de

confiance pour les moyennes.
Analyse de la variance un facteur pour chaque variable (on

peut ainsi classer les variables par ordre de contribution la
cration des classes).
2-2.
En liaison avec une analyse factorielle (A.C.P.
dans le cas de variables quantitatives)
On peut reprer les classes formes dans le plan des individus.
Projeter les points moyens reprsentant chaque classe.
Utiliser les valeurs-tests pour chaque classe sur les axes

interprts.
2-3.
Les deux approches sont complmentaires, la
premire approche peut tre longue mettre en oeuvre si le nombre

de variables est lev.
25
IV.
LA CLASSIFICATION DE DONNES QUALITATIVES

1. Les n individus classer sont dcrits par des variables
qualitatives
a.
Donnes de prsence - absence
On utilise un des indices de dissimilarit dduit des indices de

similarit proposs qui combinent de diverses manires les quatre
nombres suivants associs un couple dindividus.
a = nombre de caractristiques communes
b = nombre de caractristiques possdes par i et pas par j
c = nombre de caractristiques possdes par j et pas par i
d = nombre de caractristiques que ne possdent ni i, ni j.
Les indices compris entre 0 et 1 sont aisment transformables en
dissimilarit par complmentation 1.
Jaccard
a
a+b+c
Dice ou Czekanowski
Ochia
2a
2a + b + c
a
(a + b) (a + c)
Russel et Rao
a
a+b+c+d
Rogers et Tanimoto
a+d
a + d + 2( b + c)
26
b.
Individus dcrits par des variables qualitatives m1
m2 ... mp modalits
On utilise la reprsentation disjonctive complte et la
distance du 2 entre lignes du tableau.

np x x ij
d (i, i) = ij
p
j n j
2
2
(Elle traduit le fait que deux individus ayant en commun une

modalit rare sont plus proches que deux individus ayant en
commun une modalit frquente).
On utilise alors la mthode de Ward (puisque la distance du 2
est euclidienne) sur le tableau des distances.
Autre solution : Classification hirarchique sur le tableau
des coordonnes factorielles des n individus aprs A.C.M. de X.

Les deux approches sont quivalentes si on utilise tous les
facteurs de lA.C.M. soit
normalisation de chaque axe
mi p ,
en conservant la
27
2. Classification hirarchique des lignes (ou des

colonnes) dun tableau de contingence
Elle seffectue avec la mthode de Ward et la distance du 2 entre lignes

(ou entre colonnes).
Cette mthode revient regrouper les catgories dune variable
qualitative de la faon suivante : chaque tape, on runit les deux
catgories (en sommant les effectifs) qui font diminuer le moins possible
2
.
le puisque linertie totale est ici gale
n
2
28

Classification 2008 2

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Classification 2008 2

Transféré par

Droits d'auteur :

Formats disponibles

MTHODES

Oprer des regroupements en classes homognes dun

Les donnes se prsentent en gnral sous la forme dun

classification : critre de classification.

Avantages : Permettent la classification densembles volumineux.

Inconvnients : On impose au dpart le nombre de classes.

: suites de partitions embotes

Avantages : La lecture de larbre permet de dterminer le nombre

Inconvnients : Coteux en temps de calcul.

Le terme classification en anglais fait rfrence laffectation dun

E : ensemble des n objets classer

Pn, k = nombre de partitions en k classes de n individus

(nombre de Stirling de 2me espce)

Pn = nombre total de partitions

Ncessit dalgorithmes pour trouver une bonne partition.

Comment dfinir la qualit dune partition ?

Inertie intra-classe et Inertie inter-classe

n points dans un espace euclidien

Soit une partition en k classes de poids Pi

g = centre de gravit des n individus

Comparaison de deux partitions en k classes : La meilleure est celle

Mthode des centres mobiles

1re tape : choix de centres ci et partition associe (les ci sont

que de tout autre centre.

2me tape : calcul des centres de gravit de chaque classe

Linertie intra-classe diminue chaque tape.

Daprs le thorme de Konig-Huygens, g i ntant pas le centre de

i est suprieur linertie intra-classe de la

Il suffit de montrer alors que :

Or, si on considre un point quelconque, il figurera dans le membre

il figurera avec sa distance un g i qui ne sera pas forcment le plus

Le nuage tant fini, lalgorithme converge.

EXEMPLE : Mthode des Centres Mobiles

Choix des centres

Constitution de classes autour des centres c1 et c 2

Classe 1 : points plus proches de c1 que de c 2

Calcul des centres de gravit

des 2 classes formes l ' tape 1

C alcul des centres de gravit

Gnralisation : nues dynamiques

Lide est dassocier une classe un reprsentant diffrent de son centre

un ensemble dindividus (noyau form de q points appels les

Il faut faire dcrotre le critre U mesurant ladquation entre les

Pour chaque individu, dterminer la classe laquelle on doit

Pour chaque classe dfinie, calculer le nouveau noyau.

La convergence vers un minimum local est obtenue si chaque tape fait

quand la dcroissance atteint un seuil fix a

Comme la partition finale peut dpendre de linitialisation, on

Ces trois partitions sont ensuite croises entre elles

7 formes fortes deffectifs importants

Variantes des mthodes centres mobiles

K-means (Mac Queen 1967)

Elle consiste fournir un ensemble de partitions de E en classes de

Dmarche : Cet arbre est obtenu dans la plupart des mthodes de

On regroupe dabord les deux individus les plus proches qui

Il ne reste plus que (n-1) objets et on itre le processus jusqu

Un des problmes consiste dfinir une mesure de dissimilarit entre

Stratgies dagrgation sur dissimilarits

Le problme est de dfinir la dissimilarit entre la runion de deux

Cette mthode (connue sous le nom de single linkage en

La distance entre parties est donc la plus petite distance entre

Le diamtre ( complete linkage )

On prend ici comme distances entre parties la plus grande

saut minimum (plus proche)