Vous êtes sur la page 1sur 44

La classification

Fabien Chevalier
Jrme Le Bellac
2012-2013
La Classification
Introduction :
Classification : mthode danalyse de donnes


Objectif : Obtenir une reprsentation schmatique simple d'un
tableau de donnes complexe partir dune typologie
(segmentation), cest dire dune partition des n individus dans
des classes, dfinies par lobservations de p variables.


2
La Classification
Introduction :
3
Mthode : Classifier, c'est regrouper entre eux des objets
similaires selon certains critres. Les diverses techniques
de classification visent toutes rpartir n individus,
caractriss par p variables X1, X2, ..., Xp en un certain
nombre m de sous-groupes aussi homognes que possible,
chaque groupe tant bien diffrenci des autres.

Deux grandes techniques de classification :
Le partitionnement
La classification hirarchique


La Classification
Introduction :
Prsentation partir dun jeu de donnes

22 rgions de France mtropolitaine

5 variables (voir si on garde les 10)
Densit

Criminalit

Esprance de vie

Pauvret

Enseignement


4
La Classification
Plan
CAH
Prsentation de la mthode
Importance du choix de la distance
Exemple sur donnes relles
Limites de la mthode

Mthode de partitionnement
Centres Mobiles
Variantes (Prsentation et exemple)
Limites des mthodes


Classification mixte
Principe de la mthode
Exemple

Validation et slection de la classification optimale

5
La Classification
Objectif: obtenir une hirarchie,
cest--dire une collection de
groupes dobservations.

Ne pas confondre hirarchie et
typologie. Une typologie est la
partition de l'ensemble des
donnes.

Plusieurs typologies peuvent donc
tre dfinies partir dune seule
hirarchie.


6
La classification Ascendante Hirarchique
A) prsentation de lalgorithme

La Classification
La classification Ascendante Hirarchique
A) prsentation de lalgorithme
1
re
phase: Initialisation de lalgorithme.
Les classes initiales = n singletons individus.

Calcul de la matrice des distances des individus 2 2

2
me
phase : Itration des tapes suivantes.
Regrouper les 2 lments (individus ou groupes) les plus proches au sens dun critre chosi.

Mise jour du tableau des distances en remplaant les deux lments regroups par le nouveau et
en recalculant sa distance avec les autres classes.

Fin de litration : agrgation de tous les individus en une seule classe.

7
La Classification
Rflexions pr-algorithme

Ncessit de dfinir une distance entre les individus

Dfinir un critre de regroupement des individus minimiser aussi appel
stratgie dagrgation.

Stratgie pour dfinir la meilleure typologie finale.
8
La classification Ascendante Hirarchique
A) prsentation de lalgorithme

La Classification
4 grandes tapes

Prparation des donnes

Choix de lindice de dissimilarit entre les individus

Choix de lindice dagrgation

Choix de la partition finale

9
La classification Ascendante Hirarchique
A) prsentation de lalgorithme

La Classification
Choix de lindice de dissimilarit entre les individus

Le choix de la mesure de distance entre individus dpend des donnes tudies et des
objectifs.

Exemples :
Distance Euclidienne : le type de distance le plus couramment utilis. Il s'agit d'une distance
gomtrique dans un espace multidimensionnel. distance(x,y) = {
i
(x
i
- y
i
)
2
}



Distance Euclidienne au carr : Permet de "sur-pondrer" les objets atypiques (loigns), en
levant la distance euclidienne au carr. distance(x,y) =
i
(x
i
- y
i
)
2


Distance du City-block (Manhattan) : cette distance est simplement la somme des diffrences
entre les dimension. distance(x,y) =
i
|x
i
- y
i
|
10
La classification Ascendante Hirarchique
A) prsentation de lalgorithme

La Classification
Choix de lindice dagrgation
On regroupe les lments en minimisant lindice dagrgation
Plusieurs mthodes encore, mais la mthode la plus connu : Mthode de ward

autres stratgies :
stratgie du saut minimum ou single linkage :
On regroupe les 2 lments prsentant la plus petite distance entre lments des deux classes.

stratgie du saut maximum ou du diamtre ou complete linkage :
On regroupe les 2 lments prsentant la plus grande distance entre lments des deux classes.

11
La classification Ascendante Hirarchique
A) prsentation de lalgorithme

La Classification
Mthode de Ward

Objectif : gain minimum dinertie intra-classe chaque agrgation

perte dinertie interclasse due cette agrgation

Calcul : utilise une analyse de la variance approche afin d'valuer les
distances entre classes.

Minimisation de la Somme des Carrs (SC) de tous les couples hypothtiques de classes :
agrgation

Les indices d'agrgation sont recalculs l'aide de la rgle suivante :
si une classe M est obtenue en regroupant les classes K et L, sa distance la classe J est donne
par la distance entre les barycentres de la classe M et de J.

12
La classification Ascendante Hirarchique
A) prsentation de lalgorithme

La Classification
Choix de la partition finale
On dfini un ensemble de parties, ou classes de l'ensemble des
individus tel que :

toute classe soit non vide

deux classes distinctes sont disjointes

tout individu appartient une classe.

Rappel :

13
La classification Ascendante Hirarchique
A) prsentation de lalgorithme

La Classification
Choix de la partition finale

Graphique de l'indice de niveau

l'utilisateur doit reprer des sauts extrmement importants dans les valeurs, en analysant
l'histogramme des indices de niveau
Si ces sauts concernent les k derniers nuds de l'arbre, alors un dcoupage en (k+1) classes sera
pertinent.

La hauteur dune branche est proportionnelle la distance entre 2 classes
On coupe au niveau dune longue branche
coup avant une forte perte dinertie dans le cas de la mthode de Ward
14
La classification Ascendante Hirarchique
A) prsentation de lalgorithme

La Classification
Calcul de la 1
re
matrice de distance

Distance Euclidienne

Distance Alsace - Aquitaine

15
La classification Ascendante Hirarchique
B) Importance du choix des distances


Distance de Manhattan

Distance Alsace - Aquitaine

La Classification
La classification Ascendante Hirarchique
B) Importance du choix des distances

Calcul de la 1
re
matrice de distance
2 matrices des distance totalement diffrentes
16
Distance Euclidienne
Distance Manhattan
La Classification
Obtention des hirarchies
Fait avec densite esprance de vie enseigment criminalite pauvrete
17
La classification Ascendante Hirarchique
B) Importance du choix des distances

La Classification
Choix du nombres daxes
18
La classification Ascendante Hirarchique
B) Importance du choix des distances

4 classes
2 classes
La Classification

19
La classification Ascendante Hirarchique
C) application sur donnes relles

4 classes
La Classification
20
La classification Ascendante Hirarchique
C) application sur donnes relles

La Classification
Rsultats diffrents en fonction de la paramtrisation
Distances diffrentes
Choix dagrgation diffrents
Lourdeur des calculs ds quon a un nombre de donnes important

les regroupements sont dfinitifs, ce qui ne permet pas d'optimisation
postrieure au clustering

21
La classification Ascendante Hirarchique
D) Limites

La Classification

Mthode partitionnement


La structure classificatoire recherche est la partition.

Objectif :
Trouver, parmi lensemble fini de toutes les partitions possibles, une partition qui
optimise un critre dfini a priori.

Problme :
En pratique approche irralisable, car pour N objets et K classes on a:
partition possibles.

22
! / K k
N
La Classification

Mthode partitionnement


Logique des methodes de partitionnement
Une approche typique des methodes de partionnement est lutilisation de methodes
iteratives.

Produir une classification par partionnement revient produir plusieurs classes non vide
(leur nombre tant souvent dfine lavance).


Critre doptimisation
lalgorithme a pour objectif de minimiser ce critre U defini a priori.

23
La Classification
Mthode partitionnement
A) Centres Mobiles

Critre doptimisation
Diffrentes approches :
Approche gomtrique : une distance.
Approche probabiliste : une vraissemblance.
Approche prototype : une fonction D quelconque qui depend du type de donnes
dont on dispose.

Approche retenu ici : approche gomtrique



Mesure lhomognit de chaque classe.


24
2
1
2
1
|| || ) , (
i C
K
i i C
K
i
i i
d U m x m x
x x


La Classification
Mthode partitionnement
A) Centres Mobiles

Algorithme
Etape 1 :
On choisit alatoirement k individus comme centres initiaux des classes.
Etape 2 :
On attribue chaque objet la classe la plus proche, ce qui dfinit k classes
Etape 3 :
Connaissant les membres de chaque classe on recalcule les centres dinertie de chaque
classe.
Etape 4 :
On redistribue les objets dans la classe qui leur est la plus proche en tenant des
nouveaux centre de classe calculs ltape prcdente.
Etape 5 :
On retourne ltape 3 jusqu ce quil y ai convergence, c'est--dire jusqu ce quil
ny ai plus aucun individu changer de classe.


25
La Classification
Mthode partitionnement
B) Variantes

K-Means
Principe
le barycentre de chaque groupe est recalcul chaque nouvel individu introduit
dans le groupe, au lieu dattendre laffectation de tous les individus.


Avantage
la convergence est parfois possible en une seule itration => plus grande
rapidit.


26
La Classification
Mthode partitionnement
B) Variantes

K-Means
Exemple
4 types de medicaments avec chacun deux modalits
La concentration et lefficacit, on veut crer deux
classes => K=2.



27
La Classification
Mthode partitionnement
B) Variantes

K-Means
Exemple

Etape 1 : On dsigne alatoirement A et B comme
centre de classes.
C1 = A C2 = B

Etape 2 : On assigne chaque point une des classes.

On commence par D :





28
24 . 4 ) 1 4 ( ) 2 5 ( ) , (
5 ) 1 4 ( ) 1 5 ( ) , (
2 2
2
2 2
1


c D d
c D d
La Classification
Mthode partitionnement
B) Variantes

K-Means
Exemple

Etape 3 : Calcul les nouveaux centres de classe
compte tenu de la nouvelle classification.







=> C1 = (1 , 1) et C2 = (3.67 , 2.67)


29
La Classification
Mthode partitionnement
B) Variantes

K-Means
Exemple

Nous voil nouveau ltape 1. On commence
la deuxime itration de lalgorithme.

On rasigne chaque mdicament une classe en
calculant la distance les sparant des nouveaux
centres de classe .

On repart ltape 2.



30
La Classification
Mthode partitionnement
B) Variantes

K-Means
Exemple

On rpte les tapes jusqu convergence.

Connaissant les membres de chaque classe, on
recalcule leur centres de classe pour chacun de
leur nouveau membre.





31
La Classification
Mthode partitionnement
B) Variantes

K-Means
Exemple

Le rsultat final est donc:

Classe1 = {A , B} avec comme centre de
classe c1 = (1.5 , 1).

Classe2 = {C , D} avec comme centre de
classe c2 = (4.5 , 3.5).




32
La Classification
Mthode partitionnement
B) Variantes

K-Means
Application nos donnes

A partir des observations de la classification Ascendante Hirarchique, on fixe le
nombre de classe K = 4.

Les centres dinertie initiaux tirs aux hazard sont :





33
La Classification
Mthode partitionnement
B) Variantes

K-Means
Rsultat aprs 5 itrations






34
La Classification
Mthode partitionnement
B) Variantes

Nue dynamique
Principe
chaque classe nest plus reprsente par son barycentre (ventuellement extrieur a la
population), mais par un sous-ensemble de la classe, appel noyau.

Le noyau est forms des formes fortes. Cest un petit groupe dobservation quon
retrouve systmatiquement dans chaque classe quelque soit le centres dinertie initiaux.

Avantage
sil est bien compose (des individus les plus centraux, par exemple), sera plus reprsentatif
de la classe que son barycentre.




35
La Classification
Mthode partitionnement
C) Limites des mthodes

Obliger de fixer a priori le nombre de classe.

Dpendance au choix des centres ou noyaux initiaux.

Manque de flexibilit
Bien adapte des donnes numriques , mais moins
flexible que la classification Ascendante Hirarchique pour
des donnes plus originales.




36
La Classification
Classification mixte
A) prsentation
Objectifs:
Combiner les avantages des 2 types de mthodes vues et permettre d'en
annuler les inconvnients

Principe :
Raliseation dune CAH
dfinie le nombres de classes optimales
Donne les barycentres des classes
On lance les centres mobiles partir des barycentres des K classes
Obtention dun optimum local

Avantage :
On ne part de centres de classes dfinis au hasard
On autorise quelques raffectations individuelles

37
La Classification
38
Classification mixte
B) application
La Classification
Validation et slection
A) Validation
Mesure de la qualit
R :proportion de la variance explique par les classes

0 < R < 1

Pseudo F = mesure la sparation entre toutes les classes

n=observations
k=classes


39
La Classification
Mesure de la qualit
Cubic clustering criterion (CCC)
H0 = Les donnes sont issues dune distribution uniforme (pas de classes)

K est une constante (voir Sarle (1983))

CCC > 2 : bonne classification
0< CCC<2 : classification peut tre OK mais vrifier
CCC< 0 : prsence doutliers gnant (surtout si CCC < -30)

On trace CCC versus le nombre de classes. Un creux pour k classes suivi
dun pic pour k+1 classes indique une bonne classification en k+1 classes
(surtout si on a une croissance ou dcroissance douce partir de k+2 classes)
40
Validation et slection
A) Validation
La Classification
Mesure de la qualit
Cubic clustering criterion (CCC)
On trace le CCC en fonction du nombre de classes.







Un creux pour k classes suivi dun pic pour k+1 classes indique une bonne
classification en k+1 classes (surtout si on a une croissance ou dcroissance douce
partir de k+2 classes)

41
Validation et slection
A) Validation
La Classification
42
Validation et slection
B) Slection sur les exemples
-1
-0,5
0
0,5
1
1 2 3 4
C
C
C

nombres d'axes
0
5
10
15
1 2 3 4
P
s
e
u
d
o

F

nombres d'axes
CAH
K-Means
0
1
2
3
4
5
6
1 2 3 4
C
C
C

nombres d'axes
0
5
10
15
1 2 3 4
P
s
e
u
d
o
-
F

nombres d'axes
0
0,2
0,4
0,6
0,8
1 2 3 4
R


nombres d'axes
0
0,2
0,4
0,6
1 2 3 4
R


nombres d'axes
La Classification
43
On compare nos modle avec 4 classes.

Comparaison des statistiques





Mixte est meilleure => pseudo-F le plus grand
=> CCC plus grand


Validation et slection
B) Slection sur les exemples
La Classification
Conclusion
Multitude de technique de classification
Attention au distance
Bien rflchir la dmarche
Ne pas oublier de valider sa classification

Ouverture
Technique de mlange
Ouverture de la classification au donnes multimdias (classification de
texts par exemple)
44