Vous êtes sur la page 1sur 3

Machine Learning et Deep Learning

« Espace dépôt de l'Activité de


prétraitement de données»

Elaboré par :

CHEBBI MEJDI

ISI- Sécurité des Systèmes d’Informations et des infrastructures


(SSII), M1 FAD - Promotion 9 – 2022-
Tout d’abord, nous devons normaliser les données pour que les deux variables aient la même
importance dans le calcul de la distance. Cela peut être fait en utilisant la formule de normalisation
min-max.

La fomule de normalisation min-max est la suivante :

X_norm = (x-min(x))/(max(x)-min(x))

Appliquons cette formule aux données de poids et de prix pour les normaliser :

Exemple :

Pour les poids , le minimum est 0,1 et le maximum est 1,8

Pour les prix : le minimum est 700 et le maximum est 2100

X1_poids=(0.1-0.1)/(1.8-0.1)= 0

X1_prix = (2000-700)/(2100-700) = 0.92

Poids Prix
A 0.00 0.92
D 1.00 0.0000
E 0.89 0.2857
B 0.47 0.2857
C 0.06 1.0000

Maintenant que les données sont normalisées, nous pouvons utiliser l’algorithme K-means pour créer
des clusters. Supposons que nous choisissons K=2 pour commencer.

Nous choisissons deux points de départ au hasard, qui peuvent être n’importe quelles observations
de données. Disons que nous choisissons les observations A et D comme points de départ.

Nous calculons ensuite les distances euclidiennes entre ces deux points de départ et toutes les autres
observations de données normalisées. Les distances son ensuite utilisées pour affecter chaque
observation au cluster le plus proche.

Ensuite, nous calculons les moyennes des données normalisées pour chaque cluster et utilisons ces
moyennes comme nouveaux points de départ pour la prochaine itération. Nous continuons ce
processus jusqu’ à ce que les points de départ ne changent plus de manière significative.

1. Points de départ initiaux : A et D

2. itération 1 :

Distance euclidienne

U1 =A et U2 = D

A B C D E
U1 0 1.05 0.83 1.38 1.2
U2 1.3 1.1 1.39 0 0.62

D(A, U2) =sqrt((1-0)2+(0-0.92)2)=sqrt(1.92) =1.3


- Cluster 1 : A, B, C ;

- Cluster 2: D, E

- Nouveaux point de départ : moyenne des données normalisées pour chaque cluster

- Nouveau point de départ pour cluster 1 : (0.177,0.666)

- Nouveau point de départ pour cluster 2 :(0.945, 0.143)

3.Itération 2 :

- Cluster 1 : A, B, C ; Cluster 2 : D, E

- Nouveaux points de départ : moyenne des données normalisées pour cluster

- Nouveau point de départ pour Cluster 1 : (0.177,0.666)

- Nouveau point de départ pour Cluster 2 :(0.945,0.143)

Les points de départ ne changent plus de manière significative, nous pouvons donc conclure que
nous avons convergé vers une solution. Le cluster 1 contient les articles A, B et C, tandisque le cluster
2 contient les articles D et E.

Vous aimerez peut-être aussi