Vous êtes sur la page 1sur 1

Entrepôts de données Master 2

& Datamining Clustering Option: SID

Exercice 1:

1. Étudier la compléxité de l’algorithme K−means.


2. Supposons qu’on veut utliser des données binaires dans un processus de clustering.
(a) Proposer une mesure de distance.
(b) Calculer une valeur de similarité (distance) entre les objets x = 0101010001 et
y = 0100011000
3. Soit un ensemble de requêtes SQL pour lequel on veut chercher un ensemble optimisé
d’index (ou de fragments). Une solution possible consiste à regrouper les requêtes en
classes homogènes pour une meilleure recommandation d’index (ou de fragments).
Proposer une mesure de similarité entre les requêtes qui permet d’atteindre l’objectif
visé.

Exercice 2:

1. Soit l’ensemble de points un-idimensionnel : {5, 11, 17, 23, 29, 43, 47}.
(a) En appliquant l’algorithme k-means (distance euclidiènne) regrouper les points
en deux clusters C1 et C2 pour les deux initialisations suivantes (ne pas écrire
le détail des calculs) :
i. Les centroides sont : 17 et 43
ii. Les centroides sont : 11 et 29
(b) Les centroides choisis représentent-ils des solutions stables ?
2. Considérons les données uni-dimensionelles {A(2), B(4), C(5), D(9), E(10)}. Suppo-
sons que les données sont divisées en deux clusters C1 = {A, B, C} et C2 = {D, E}.
(a) En utilisant la distance Euclidienne, calculer la distance minimale, maximale,
et moyenne entre les deux clusters.
(b) A votre avis pourquoi le point A n’est pas considéré comme un cluster a part ?

Exercice 3:

1. Le tableau suivant présente un ensemble de 8 objets décrit chacun par 2 attributs


X et Y (o4 , o6 et o8 représentent les centres initiaux).

o1 o2 o3 o4 o5 o6 o7 o8
X 2 2 8 5 7 6 1 4
Y 10 5 4 8 5 4 2 9
(a) En utilisant la distance Euclidienne, générer trois clusters possibles.
(b) Sur un dessin à deux dimensions indiquer l’évolution des clusters.

Vous aimerez peut-être aussi