Académique Documents
Professionnel Documents
Culture Documents
1. Introduction
Les méthodes de classification cherchent à regrouper les individus en classes, suivant ce
qu’ils ont en commun. Partant d’un tableau individus-variable, on cherche une partition
des individus (répartition de la population en groupes disjoints) optimisant un critère
qui tend :
- à ne regrouper deux individus que s’ils sont semblables,
- à ne séparer des individus que s’ils sont suffisamment différents.
Il s’agit en claire, d’une façon de décrire ou de résumer les données en ressortant le
comportement des individus par l’intermédiaire de la description des groupes auxquels
ils ont été affectés. A priori, le nombre de classes à retenir n’est pas fixé. Cependant, si
les données présentent des classes naturelles, alors la classification aura pour but de les
identifier. Mais, lorsque le nombre de classes n’est pas connu à priori, il peut exister
plusieurs choix possibles suivant l’exigence de l’homogénéité des classes.
Pour effectuer une classification, il faut au départ se donner un indice de proximité qui
mesure la distance entre les individus. La démarche consiste à :
- choisir un critère qui mesure la qualité d’une partition,
- essayer de trouver une partition qui optimise ce critère,
- caractériser les éléments de chaque classe de la partition.
2. Notions générales
Les méthodes de classification reposent sur la définition d’un indice de proximité entre
les individus et d’une mesure de la proximité entre les classes.
2.1. Indices de proximité entre les individus ou indice de dissimilarité
Soit N l’ensemble des individus à classifier. Un indice de proximité sur N est une
application de ℕ × ℕ → 𝑅+ qui vérifie les propriétés suivantes :
- ∀ 𝑖 ∈ ℕ, 𝑑 (𝑖, 𝑖) = 0
- ∀ 𝑖 ∈ ℕ, 𝑖 ′ ∈ ℕ, 𝑑 (𝑖, 𝑖 ′ ) = 𝑑(𝑖 ′ , 𝑖)
L’indice de proximité permet de mesurer à quel point deux individus se ressemblent ou
non.
Exemples :
𝑃𝐴 ∗𝑃𝐵
d) 𝐷4 (𝐴, 𝐵) = 𝑑 2 (𝑔𝐴 , 𝑔𝐵 ) où 𝑑 2 est la distance euclidienne au carré ;
𝑃𝐴 +𝑃𝐵
𝑔𝐴 𝑒𝑡 𝑔𝐵 les centres de gravité des classes ; 𝑃𝐴 𝑒𝑡 𝑃𝐵 les poids des classes.
𝐷4 est appelé « distance de l’inertie »
Exemple
Dans la figure ci-dessous, les objets ou individus (1, 2, 3, 4, 5) sont des éléments
terminaux de l’arbre de classification (ou de la hiérarchie). Les classes 6, 7, 8, 9 sont les
nœuds de l’arbre : ce sont les classes issues des regroupements de deux éléments
(terminaux ou non) numérotés à la suite des éléments terminaux et dont chacun
détermine une nouvelle partition.
deux classes) est alors égal à la perte d’inertie inter-classe résultant de leur
regroupement. Et cela se démontre comme suit :
Considérons deux classes A et B agrégées en AUB. Si 𝑔𝐴 est le centre de gravité de la
classe A, 𝑔𝐵 le centre de gravité de la classe B, 𝑃𝐴 le poids de la classe A et 𝑃𝐵 celui de la
𝑃𝐴∗ 𝑔𝐴 +𝑃𝐵 ∗𝑔𝐵
classe B, le centre de gravité de l’agrégation est donc 𝑔𝐴𝑈𝐵 =
𝑃𝐴 +𝑃𝐵
L’inertie inter-classe étant la moyenne des carrés des distances des centres de gravité
des classes au centre de gravité total, la variation d’inertie inter-classe, lors du
regroupement de A et B est égale à :
∆𝐼 = 𝑃𝐴 𝑑 2 (𝑔𝐴 , 𝑔) + 𝑃𝐵 𝑑 2 (𝑔𝐵 , 𝑔) − (𝑃𝐴 + 𝑃𝐵 )𝑑 2 (𝑔𝐴𝑈𝐵 , 𝑔)
Elle vaut :
𝑃𝐴 𝑃𝐵 2
∆𝐼 = 𝑑 (𝑔𝐴 , 𝑔𝐵 )
𝑃𝐴 + 𝑃𝐵
Exemple : On considère 8 points A, B,C,…., H et les coordonnées de ces points sur deux
dimensions. On peut ainsi représenter les points dans un plan afin de visualiser les
distance entre les points. La matrice de distance est donnée dans le tableau ci-dessous.
Utilisons la distance du saut minimum pour construire un arbre hiérarchique
L’arbre de classification fournit une suite de partitions qui peuvent être obtenues par
désagrégation ou par coupure des différents nœuds. En définissant un niveau de
coupure de l’arbre, on construit une partition. Cependant, toutes les partitions ne sont
pas bonnes.
La meilleure partition est obtenue en coupant le nœud de l’arbre dont le niveau forme
un saut maximal (brutal) dans l’histogramme des niveaux. Plus ce niveau de nœud est
élevé comparativement au nœud inférieur, moins la partition suivante se justifie. Ainsi,
la partition en deux classes sera d’autant meilleure que le dernier nœud a un niveau
élevé. Il est alors métriquement préférable de ne pas agréger ces deux classes.
Cette méthode est une variante de la méthode des nuées dynamique. On effectue un
tirage aléatoire des centres initiaux, puis on procède aux affectations. Mais les centres
des classes ne sont pas recalculés à la fin des affectations, mais à la fin de chaque
allocation d’un individu à une classe (on recalcule le centre de chaque classe dès lors
qu'un individu y est affecté). La position du centre est donc modifiée à chaque
affectation, ce qui permet d'avoir une bonne partition en peu d'itérations. L’algorithme
est ainsi plus rapide, mais l'ordre d'apparition des individus dans le fichier n'est pas
neutre.
Alors que les méthodes hiérarchiques constituent une famille d’algorithme permettant
de construire un nombre de classes non fixé au préalable, à partir d’une population
donnée, elles présentent l’inconvénient de ne pas s’adapter aux vastes recueils de
données (tableaux de données comportant des milliers d'individus). Par contre, les
méthodes non hiérarchiques (centres mobiles et nuées dynamiques en particulier)
offrent l’avantage incontestable d’obtenir une partition sur un ensemble volumineux de
données. Mais elles présentent l’inconvénient de produire des partitions qui dépendent
des premiers centres choisis et celui de fixer à priori le nombre de classes.
De fait, l’algorithme de classification idéal au partitionnement d’un ensemble contenant
des milliers ou des dizaines de milliers d’individus est l’algorithme mixte qui combine les
deux techniques (les méthodes hiérarchiques et non hiérarchiques)