Vous êtes sur la page 1sur 11

ECOLE SUPERIEURE POLYTECHNIQUE-ESP MAURITANIE-SEMESTRE 2- ANNEE 2019-2020

TC222 : Analyse et traitement de données.

Chapitre 5- Méthodes de classification

1. Introduction
Les méthodes de classification cherchent à regrouper les individus en classes, suivant ce
qu’ils ont en commun. Partant d’un tableau individus-variable, on cherche une partition
des individus (répartition de la population en groupes disjoints) optimisant un critère
qui tend :
- à ne regrouper deux individus que s’ils sont semblables,
- à ne séparer des individus que s’ils sont suffisamment différents.
Il s’agit en claire, d’une façon de décrire ou de résumer les données en ressortant le
comportement des individus par l’intermédiaire de la description des groupes auxquels
ils ont été affectés. A priori, le nombre de classes à retenir n’est pas fixé. Cependant, si
les données présentent des classes naturelles, alors la classification aura pour but de les
identifier. Mais, lorsque le nombre de classes n’est pas connu à priori, il peut exister
plusieurs choix possibles suivant l’exigence de l’homogénéité des classes.
Pour effectuer une classification, il faut au départ se donner un indice de proximité qui
mesure la distance entre les individus. La démarche consiste à :
- choisir un critère qui mesure la qualité d’une partition,
- essayer de trouver une partition qui optimise ce critère,
- caractériser les éléments de chaque classe de la partition.

2. Notions générales

Les méthodes de classification reposent sur la définition d’un indice de proximité entre
les individus et d’une mesure de la proximité entre les classes.
2.1. Indices de proximité entre les individus ou indice de dissimilarité
Soit N l’ensemble des individus à classifier. Un indice de proximité sur N est une
application de ℕ × ℕ → 𝑅+ qui vérifie les propriétés suivantes :
- ∀ 𝑖 ∈ ℕ, 𝑑 (𝑖, 𝑖) = 0
- ∀ 𝑖 ∈ ℕ, 𝑖 ′ ∈ ℕ, 𝑑 (𝑖, 𝑖 ′ ) = 𝑑(𝑖 ′ , 𝑖)
L’indice de proximité permet de mesurer à quel point deux individus se ressemblent ou
non.

Enseignant : M. SEMEVO T. Célestin, Ingénieur Statisticien Economiste


ECOLE SUPERIEURE POLYTECHNIQUE-ESP MAURITANIE-SEMESTRE 2- ANNEE 2019-2020
TC222 : Analyse et traitement de données.

Exemples :

a) La distance euclidienne : 𝑑(𝐼𝑖 , 𝐼𝑗 ) = √∑𝑘(𝑥𝑖𝑘 − 𝑥𝑗𝑘 )2

b) La distance euclidienne au carré : 𝑑(𝐼𝑖 , 𝐼𝑗 ) = ∑𝑘(𝑥𝑖𝑘 − 𝑥𝑗𝑘 )2


c) La distance de city-block : 𝑑(𝐼𝑖 , 𝐼𝑗 ) = ∑𝑘 | 𝑥𝑖𝑘 − 𝑥𝑗𝑘 |
d) La distance de Tchebychev : 𝑑(𝐼𝑖 , 𝐼𝑗 ) = Max |𝑥𝑖𝑘 − 𝑥𝑗𝑘 |

2.2. Indice de proximité entre les classes ou indice d’agrégation


Pour réunir deux classes en une seule, il faut disposer d’un indice de proximité défini
sur l’ensemble des classes. Cet indice est appelé indice d’agrégation. Il est construit à
partir de l’indice de proximité des individus.
Soit 𝑑 l’indice de proximité sur ℕ. On appelle indice d’agrégation 𝐷 défini sur 𝒫 (ℕ),
une application qui vérifie les propriétés suivantes :
- ∀ 𝐴, 𝐵 ∈ 𝒫 (ℕ), 𝐷 (𝐴, 𝐵) = 𝐷(𝐵, 𝐴) ≥ 0
- ∀ 𝑖 ∈ ℕ, 𝑖 ′ ∈ ℕ, 𝐷 ({𝑖}, {𝑖 ′ }) = 𝑑(𝑖, 𝑖 ′ )
Exemples :
a) 𝐷2 (𝐴, 𝐵) = 𝑀𝑎𝑥{𝑑 (𝑎, 𝑏), 𝑎 ∈ 𝐴, 𝑏 ∈ 𝐵}
𝐷2 est appelé « distance du saut maximum » ou « complète linkage » en anglais
b) 𝐷1 (𝐴, 𝐵) = 𝑀𝑖𝑛{𝑑 (𝑎, 𝑏), 𝑎 ∈ 𝐴, 𝑏 ∈ 𝐵}
𝐷1 est appelé « distance du saut minimum » ou « single linkage » en anglais
∑ 𝑑(𝑎,𝑏)
c) 𝐷3 (𝐴, 𝐵) = C’est la distance moyenne ou « average linkage »
𝐶𝑎𝑟𝑑 𝐴+𝑐𝑎𝑟𝑑 𝐵

𝑃𝐴 ∗𝑃𝐵
d) 𝐷4 (𝐴, 𝐵) = 𝑑 2 (𝑔𝐴 , 𝑔𝐵 ) où 𝑑 2 est la distance euclidienne au carré ;
𝑃𝐴 +𝑃𝐵
𝑔𝐴 𝑒𝑡 𝑔𝐵 les centres de gravité des classes ; 𝑃𝐴 𝑒𝑡 𝑃𝐵 les poids des classes.
𝐷4 est appelé « distance de l’inertie »

2.3. Notion de nœud et de niveau

On appelle nœud d’agrégation de deux classe 𝐺1 et 𝐺2 représentées par leur centre de


gravité 𝑔1 et 𝑔2 , le centre de gravité 𝑔12 de 𝐺1 𝑈𝐺2 .
On appelle niveau de nœud, la valeur de l’indice d’agrégation des différentes classes qui
le compose.
On appelle aîné et benjamin, les deux éléments groupés constituant un nœud.

Enseignant : M. SEMEVO T. Célestin, Ingénieur Statisticien Economiste


ECOLE SUPERIEURE POLYTECHNIQUE-ESP MAURITANIE-SEMESTRE 2- ANNEE 2019-2020
TC222 : Analyse et traitement de données.

Exemple
Dans la figure ci-dessous, les objets ou individus (1, 2, 3, 4, 5) sont des éléments
terminaux de l’arbre de classification (ou de la hiérarchie). Les classes 6, 7, 8, 9 sont les
nœuds de l’arbre : ce sont les classes issues des regroupements de deux éléments
(terminaux ou non) numérotés à la suite des éléments terminaux et dont chacun
détermine une nouvelle partition.

3. Méthodes de classification ascendante hiérarchique (CAH)


Ces méthodes fournissent une typologie des individus à classer. Elles sont toujours
précédées d’une analyse factorielle (ACP, AFC, ACM), car elles utilisent les coordonnées
factorielles des individus et non les données brutes. On dit que ce sont des méthodes
de classification sur facteur. Chacun des indices d’agrégation 𝐷1 , 𝐷2 , 𝐷3 , 𝐷4 correpond
à une méthode de classification ascendante hiérarchique. La méthode la plus utilisée
(sous SPAD et R par exemple) est la méthode de WARD. Cette méthode utilise l’indice
d’agrégation 𝐷4 et repose sur le critère de l’inertie entre deux classes.

3.1. La méthode de WARD


Dans une classification ascendante hiérarchique, la méthode d’agrégation des classes
la plus utilisée est la méthode dite de WARD. Elle est associée au critère 𝐷4 . Ce critère
utilisé pour calculer l’écart entre deux sous-ensembles disjoints s’interprète comme la
perte d’inertie (interclasse) minimum résultant d’une agrégation.
En effet, Si on considère l’ensemble des individu E comme un nuage d’un espace 𝑅𝑝 , on
agrège les individus qui font le moins varier l’inertie intra-classe. A chaque pas, on
cherche à obtenir un minimum local de l’inertie intra-classe ou un maximum de l’inertie
inter-classe. L’indice de dissimilarité entre deux classes (ou niveau d’agrégation de ces

Enseignant : M. SEMEVO T. Célestin, Ingénieur Statisticien Economiste


ECOLE SUPERIEURE POLYTECHNIQUE-ESP MAURITANIE-SEMESTRE 2- ANNEE 2019-2020
TC222 : Analyse et traitement de données.

deux classes) est alors égal à la perte d’inertie inter-classe résultant de leur
regroupement. Et cela se démontre comme suit :
Considérons deux classes A et B agrégées en AUB. Si 𝑔𝐴 est le centre de gravité de la
classe A, 𝑔𝐵 le centre de gravité de la classe B, 𝑃𝐴 le poids de la classe A et 𝑃𝐵 celui de la
𝑃𝐴∗ 𝑔𝐴 +𝑃𝐵 ∗𝑔𝐵
classe B, le centre de gravité de l’agrégation est donc 𝑔𝐴𝑈𝐵 =
𝑃𝐴 +𝑃𝐵

L’inertie inter-classe étant la moyenne des carrés des distances des centres de gravité
des classes au centre de gravité total, la variation d’inertie inter-classe, lors du
regroupement de A et B est égale à :
∆𝐼 = 𝑃𝐴 𝑑 2 (𝑔𝐴 , 𝑔) + 𝑃𝐵 𝑑 2 (𝑔𝐵 , 𝑔) − (𝑃𝐴 + 𝑃𝐵 )𝑑 2 (𝑔𝐴𝑈𝐵 , 𝑔)
Elle vaut :
𝑃𝐴 𝑃𝐵 2
∆𝐼 = 𝑑 (𝑔𝐴 , 𝑔𝐵 )
𝑃𝐴 + 𝑃𝐵

3.2. Algorithme de classification


L’algorithme de classification se présente comme suit :
Etape 1 : Il y a n éléments à classifier (qui sont des individus)
Etape 2 : on construit la matrice de distance entre les n éléments et l’on cherche les
deux éléments les plus proches que l’on agrège en un nouvel élément. On obtient une
première partition à n-1 classes ;
Etape 3 : on construit une nouvelle matrice des distances qui résultent de l’agrégation
en calculant les distances entre les nouveaux éléments et les éléments restants (les
autres distances sont inchangées).
On se trouve dans les mêmes conditions qu’à l’étape 1 mais avec seulement n-1
éléments à classifier et ayant choisi un critère d’agrégation, on cherche de nouveau les
deux éléments les plus proches que l’on agrège. On obtient une deuxième partition avec
n-2 classes et qui englobe la première…
Etape m : On calcule les nouvelles distances et l’on réitère le processus jusqu’à n’avoir
qu’un seul élément regroupant tous les objets et qui constitue la dernière partition

Exemple : On considère 8 points A, B,C,…., H et les coordonnées de ces points sur deux
dimensions. On peut ainsi représenter les points dans un plan afin de visualiser les
distance entre les points. La matrice de distance est donnée dans le tableau ci-dessous.
Utilisons la distance du saut minimum pour construire un arbre hiérarchique

Enseignant : M. SEMEVO T. Célestin, Ingénieur Statisticien Economiste


ECOLE SUPERIEURE POLYTECHNIQUE-ESP MAURITANIE-SEMESTRE 2- ANNEE 2019-2020
TC222 : Analyse et traitement de données.

Enseignant : M. SEMEVO T. Célestin, Ingénieur Statisticien Economiste


ECOLE SUPERIEURE POLYTECHNIQUE-ESP MAURITANIE-SEMESTRE 2- ANNEE 2019-2020
TC222 : Analyse et traitement de données.

Les regroupements successifs peuvent être représenté par un arbre de classification


appelé dendrogramme, comme construit dans l’exemple ci-dessus. On porte en
ordonné les valeurs des indices d’agrégation ou encore les distances correspondant
aux différents nœuds d’agrégation.
Si on classifie n individus, alors le dendrogramme sera constitué de n-1 nœuds
d’agrégation. Il est d’usage de commencer par numéroter ces nœuds à partir de n+1,
n+2, …
On appelle histogramme des niveaux, le graphique donnant l’évolution des niveaux
des nœuds au cours des différentes agrégations. Les niveaux des nœuds forment une
suite croissante.

Exemple d’histogramme des indices de niveau (à droite)

3.3. Coupure d’un arbre et recherche des meilleures partitions

L’arbre de classification fournit une suite de partitions qui peuvent être obtenues par
désagrégation ou par coupure des différents nœuds. En définissant un niveau de
coupure de l’arbre, on construit une partition. Cependant, toutes les partitions ne sont
pas bonnes.

Enseignant : M. SEMEVO T. Célestin, Ingénieur Statisticien Economiste


ECOLE SUPERIEURE POLYTECHNIQUE-ESP MAURITANIE-SEMESTRE 2- ANNEE 2019-2020
TC222 : Analyse et traitement de données.

La meilleure partition est obtenue en coupant le nœud de l’arbre dont le niveau forme
un saut maximal (brutal) dans l’histogramme des niveaux. Plus ce niveau de nœud est
élevé comparativement au nœud inférieur, moins la partition suivante se justifie. Ainsi,
la partition en deux classes sera d’autant meilleure que le dernier nœud a un niveau
élevé. Il est alors métriquement préférable de ne pas agréger ces deux classes.

3.4. Caractérisation des classes

a) Caractérisation des classes par les parangons


Après une classification, il est d’usage d’énumérer l’ensemble des éléments
appartenant à une classe. Cette tâche devient plus difficile lorsque le nombre
d’individus à classer devient important. Cependant, il est possible d’énumérer les
individus les plus représentatifs de chaque classe. Ces individus représentatifs sont
appelés parangons, et sont en fait les points les plus proches du centre de gravité des
classes ou individus moyens de chaque classe. On peut ainsi énumérer le 1er, 2ème, 3ème,
…parangons. Par défaut, le logiciel SPAD édite les 10 premiers parangons de chaque
classe (les 10 individus les plus caractéristiques de chaque classe).
Notons que sur un plan factoriel, un parangon peut sembler plus éloigné par rapport au
point moyen de la classe (centre de gravité) qu’un individu non parangon. Cela est dû à
l’effet d’altération lié à la projection.

b) Caractérisation d’une classe par les variables


Lorsque les variables sont quantitatives, l’idée la plus simple pour caractériser les classes
est de comparer les moyennes des variables dans ces classes avec les moyennes
généralisées.
Lorsqu’on est en présence d’une variable nominale (qualitative), on peut caractériser
une classe par les modalités les plus fréquentes dans la classe. Sous le logiciel SPAD, cela
correspond au paramétrage MOD/CLASS.
On peut aussi caractériser une classe par les modalités qui sont bien représentées dans
la classe et très peu représentées en dehors de la classe (paramétrage CLASS/MOD)
c) Notion de valeurs-tests
Comme mentionner précédemment, pour caractériser une classe, l’idée la plus simple
est de comparer les moyennes des variables relatives à chaque classe avec la moyenne
généralisée sur l’ensemble de la population. Pour les variables nominales, on compare
à l’aide du Khi-deux le profil de la variable dans la classe au profil global de la même
variable dans la population.

Enseignant : M. SEMEVO T. Célestin, Ingénieur Statisticien Economiste


ECOLE SUPERIEURE POLYTECHNIQUE-ESP MAURITANIE-SEMESTRE 2- ANNEE 2019-2020
TC222 : Analyse et traitement de données.

En pratique, on utilise la valeur-test pour mesurer statistiquement la dépendance ou la


liaison entre les variables et les classes. Cette valeur-test permet de trier par ordre
d’importance les modalités et les variables les plus caractéristiques d’une classe. Une
variable ou une modalité sera d’autant plus intéressante pour une classe, que la la
valeur-test correspondante sera significative, c’est-à-dire supérieure à 2 en valeur
absolue pour un seuil de significativité usuel de 5%.

4. Méthodes de classification descendante hiérarchique (CDH)


Ces méthodes utilisent des algorithmes divisifs. Le principe est le suivant :
- On part de la partition initiale 𝑃0 où tous les individus forment une même classe,
c’est-à-dire que 𝑃0 = {1,2,3, … , 𝑛} ; alors qu’en CAH on part de la partition où
chaque élément constitue une classe
- pour chaque variable décrivant les individus, on calcule la valeur d’un critère 𝐶
et on sélectionne les variables qui optimisent ce critère (ces variables sont
qualitatives).
Le critère 𝐶 peut être soit la liaison globale entre une variable et les autres
variables (méthode de Williams-Lambert), soit la liaison entre une variable et une
autre Y à expliquer (méthode de segmentation).
- On subdivise 𝑃0 en classes suivant les modalités de la variable qui optimise le
critère,
- On réitère la procédure pour chacune des sous-populations.
Puisque les méthodes descendantes (ou algorithmes divisifs) sont pratiquement
inutilisées dans le cadre de la classification non supervisée, nous n’irons pas en
profondeur dans la présentation de ces méthodes.

5. Méthode de classification non hiérarchiques : méthodes de partitionnement


Les méthodes de partitionnement cherchent directement à construire les partitions.
Elles demandent que l’on se fixe au préalable le nombre de classe à obtenir. On
distingue trois méthodes de partitionnement :
- la méthode d’échange,
- la méthode des centres mobiles et des nuées dynamiques,
- la méthode des K-means

5.1. La méthode d’échange (REGNIER)


Cette méthode cherche à améliorer une partition de départ 𝑃0 . Ainsi, si on construit
une partition en q classes de l’ensemble de la population, on considère l’élément 𝑖 et
on regarde si en lui changeant de classe on améliore l’inertie inter-classe. Si oui, on lui

Enseignant : M. SEMEVO T. Célestin, Ingénieur Statisticien Economiste


ECOLE SUPERIEURE POLYTECHNIQUE-ESP MAURITANIE-SEMESTRE 2- ANNEE 2019-2020
TC222 : Analyse et traitement de données.

change de classe. Si non, on le laisse. On balaie l’ensemble des n éléments jusqu’à ce


qu’il y ait convergence.

5.2. La méthode des centres mobiles et des nuées dynamiques

La méthode des centres mobiles procède comme suit :


Etape 0 : On choisit q centres parmi les n individus. Ces centres sont notés 𝐶10 , 𝐶20 , …,
𝐶𝑞0 . On affecte chaque individu au centre le plus proche. Et on constitue de cette façon
q classes provisoires notées 𝑁10 , 𝑁20 , 𝑁30 ,…, 𝑁𝑞0 .

Etape 1 : on détermine q nouveaux centres de classes en prenant les centres de


gravité des classes précédentes. Ces q nouveaux centres sont notés 𝐶11 , 𝐶21 , …, 𝐶𝑞1 . Et
on affecte chaque individu au centre le plus proche.
On réitère l’algorithme jusqu’à la convergence.
Exemple pour 2 classes à construire

La méthode des nuées dynamiques généralise et accélère la méthode des centres


mobiles. Ainsi, au lieu de caractériser une classe par son centre de gravité, on la
caractérise par des points qu’on appelle noyaux.
La différence avec la méthode des nuées dynamiques se situe donc au niveau de la
réaffectation des individus à chaque classe. Après avoir déterminé les centres de
gravité, un noyau est déterminé pour chaque classe comme étant l'individu le plus

Enseignant : M. SEMEVO T. Célestin, Ingénieur Statisticien Economiste


ECOLE SUPERIEURE POLYTECHNIQUE-ESP MAURITANIE-SEMESTRE 2- ANNEE 2019-2020
TC222 : Analyse et traitement de données.

proche du centre de gravité de chaque classe. La réaffectation se fait alors en fonction


de la distance des autres individus aux noyaux de chaque classe. Ce formalisme a permis
plusieurs généralisations de la méthode.

5.3. La méthode des k-means

Cette méthode est une variante de la méthode des nuées dynamique. On effectue un
tirage aléatoire des centres initiaux, puis on procède aux affectations. Mais les centres
des classes ne sont pas recalculés à la fin des affectations, mais à la fin de chaque
allocation d’un individu à une classe (on recalcule le centre de chaque classe dès lors
qu'un individu y est affecté). La position du centre est donc modifiée à chaque
affectation, ce qui permet d'avoir une bonne partition en peu d'itérations. L’algorithme
est ainsi plus rapide, mais l'ordre d'apparition des individus dans le fichier n'est pas
neutre.

Remarque générale sur les méthodes de partitionnement :


Les algorithmes de partitionnement présentent les inconvénients ci-après :
- Instabilité : la répartition en classes dépend du choix initial des centres (il
convient donc de faire tourner l’algorithme plusieurs fois pour identifier des
formes fortes)
- Le nombre de classes est fixé par avance, ce qui est assez arbitraire, à moins
qu’on dispose d’informations auxiliaires sur le nombre de classes naturelles
existant au sein de la population à classer. On peut aussi s’aider d’une ACP pour
le déterminer

6. Les méthodes mixtes

Alors que les méthodes hiérarchiques constituent une famille d’algorithme permettant
de construire un nombre de classes non fixé au préalable, à partir d’une population
donnée, elles présentent l’inconvénient de ne pas s’adapter aux vastes recueils de
données (tableaux de données comportant des milliers d'individus). Par contre, les
méthodes non hiérarchiques (centres mobiles et nuées dynamiques en particulier)
offrent l’avantage incontestable d’obtenir une partition sur un ensemble volumineux de
données. Mais elles présentent l’inconvénient de produire des partitions qui dépendent
des premiers centres choisis et celui de fixer à priori le nombre de classes.
De fait, l’algorithme de classification idéal au partitionnement d’un ensemble contenant
des milliers ou des dizaines de milliers d’individus est l’algorithme mixte qui combine les
deux techniques (les méthodes hiérarchiques et non hiérarchiques)

Enseignant : M. SEMEVO T. Célestin, Ingénieur Statisticien Economiste


ECOLE SUPERIEURE POLYTECHNIQUE-ESP MAURITANIE-SEMESTRE 2- ANNEE 2019-2020
TC222 : Analyse et traitement de données.

Les étapes de l’algorithme de classification mixte sont :


a- L’ensemble des éléments à classifier subi d’abord un partitionnement local par
la méthode non hiérarchique (notamment la méthode des centres mobiles) de
façon à obtenir quelques dizaines, voire quelques centaines de groupes
homogènes : 𝑘 groupes tel que 𝑠 < 𝑘 < 𝑛 avec 𝑠 le nombre de classes désiré et
𝑛 le nombre d’éléments,
b- Ensuite on procède à une agrégation hiérarchique dont le dendrogramme et la
courbe des indices permet de définir le nombre de classe final à retenir. La
méthode hiérarchique utilisée à cette étape est la méthode ascendante où les
éléments terminaux sont les 𝑘 classes de la partition initiale,
c- Une fois ce nombre déterminé, afin d'optimiser la classification, la méthode des
centres mobiles est de nouveau appliquée à l'ensemble des individus de départ
pour obtenir une partition correspondant à celle trouvée par le dendrogramme.
Dans cette dernière étape les centres mobiles initiaux peuvent être considérés
comme étant les centres des classes issues de la partition réalisée par la
classification hiérarchique afin d'obtenir une convergence plus rapide.

Enseignant : M. SEMEVO T. Célestin, Ingénieur Statisticien Economiste

Vous aimerez peut-être aussi