Vous êtes sur la page 1sur 1

L'algorithme des k-moyennes, également connu sous le nom de k-means, est un algorithme de

regroupement non supervisé largement utilisé dans l'analyse de données. Son objectif est de diviser
un ensemble de données en k groupes, où k est un nombre prédéfini.

L'algorithme des k-moyennes fonctionne de la manière suivante :

1. Initialisation : Sélectionner k centres de cluster initiaux, appelés centroides, de manière aléatoire


ou en utilisant une heuristique.

2. Attribution des points au cluster le plus proche : Pour chaque point de données, calculer la
distance entre le point et tous les centroides. Attribuer le point au cluster dont le centroïde est le
plus proche, en utilisant généralement la distance euclidienne.

3. Mise à jour des centroides : Une fois que tous les points de données ont été attribués à des
clusters, mettre à jour les positions des centroides en calculant la moyenne des points dans chaque
cluster. Le centroïde devient le nouveau centre de gravité de son cluster.

4. Répéter les étapes 2 et 3 : Répéter les étapes 2 et 3 jusqu'à ce qu'il n'y ait plus de changement
dans les attributions de points aux clusters ou jusqu'à ce qu'un critère d'arrêt prédéfini soit atteint,
tel que le nombre maximal d'itérations.

5. Résultats : Les centres de cluster finaux et les points attribués à chaque cluster sont les résultats de
l'algorithme.

L'algorithme des k-moyennes vise à minimiser la somme des distances entre chaque point de
données et son centroïde assigné, ce qui est souvent appelé l'objectif de minimisation de l'inertie
intra-cluster. Cependant, il ne garantit pas de trouver la solution globale optimale, car il peut
converger vers des optima locaux en fonction de l'initialisation des centroides.

L'algorithme des k-moyennes est utilisé dans de nombreux domaines, tels que la segmentation
d'images, l'analyse de données, la classification de documents et bien d'autres. Il est relativement
simple à implémenter et à comprendre, mais il peut être sensible au choix du nombre de clusters k et
à l'initialisation des centroides, ce qui peut nécessiter des essais différents pour obtenir les meilleurs
résultats.

Vous aimerez peut-être aussi