Vous êtes sur la page 1sur 2

Université Sorbonne Paris Nord Ingénieur 3ème année - spécialité Informatique

Institut Galilée Année 2022-2023

Partiel de Data Mining (partie 1) du vendredi 16 décembre 2022


(Durée : 1h30 - barème indicatif sur 30 - l’énoncé comporte 2 pages)
Téléphones portables éteints et rangés - Documents autorisés : 1 recto-verso A4
Appareils électroniques interdits à l’exception d’une calculatrice

Exercice 1 (20-25 minutes ; 4 points = 2 + 2)

1. L’algorithme des k-moyennes (kmeans), utilisé avec la distance euclidienne entre les points du plan,
permet-il d’identifier les clusters des trois jeux de données présentés à la figure 1 ? Justifier la réponse.
Le cas échéant, comment pourrait-on procéder pour déterminer le nombre le nombre k de clusters ? (une
1/2 page maximum)

2. La Classification Ascendante Hiérarchique (CAH), utilisée avec la distance euclidienne entre les points
du plan et le saut minimum comme critère d’aggrégation, permet-elle d’identifier les clusters des trois
jeux de données présentés à la figure 1 ? Justifier la réponse. Le cas échéant, comment déterminer, sans
calculs supplémentaires, le nombre le nombre k de clusters ? (une 1/2 page maximum).

Figure 1 – Le jeu de données représenté en haut à gauche comporte trois clusters ; les points appartenant à ces
clusters sont respectivement identifiés par des carrés « □ », des points « • » et des croix « × ». Le jeu de données
représenté en haut à droite comporte quatre clusters ; les points appartenant à ces clusters sont respectivement
identifiés par des carrés « □ », des ronds « o », des points « • » et des croix « × ». Le jeu de données représenté
en bas comporte cinq clusters qui pourraient être les cinq anneaux olympiques ; les points appartenant à ces
clusters sont respectivement identifiés par des carrés « □ », des ronds « o », des triangles « ∆ », des points « • »
et des croix « × ».
Exercice 2 (65-70 minutes ; 11 points = 2 + (1 + 2) + 3 × 2)
Dans cet exercice, on considère un jeu de données qui présente les températures minimales, maximales et
moyennes quotidiennes (en degré celsius), par département administratif français en métropole, du 1er janvier
2018 au 31 janvier 2022 ; il est basé sur les mesures officielles du réseau de stations météorologiques françaises.
Ce jeu de données comporte 1 492 enregistrements pour chacun des 96 départements de métropole, soit un total
de 143 232 enregistrements ; chaque enregistrement est décrits par 5 attributs : une date, un lieu (département),
les températures minimale, maximale et moyenne de la journée.
On souhaite prédire les températures minimales, maximales et moyennes quotidiennes des 7 prochains jours à
partir des relevés, d’au plus, les 14 derniers jours ; l’historique complet des relevés peut bien entendu être utilisé
pour construire le modèle prédictif.

1. À partir des données disponibles, Adèle a préparé une matrice comportant 141 312 ∗ lignes et 63 † colonnes :
pour chaque jour de la période allant du 15 janvier 2018 au 24 janvier 2022 et pour chaque département,
Adèle a regroupé les températures minimales, maximales et moyennes relevées de (J − 13) à (J + 7).
Adèle souhaite normaliser ses données, ligne par ligne, de sorte qu’elles ne représentent plus une tempé-
rature brute mais un écart par rapport à la moyenne des températures sur la période considérée. Adèle
se pose deux questions :
■ Devrait-elle calculer séparemment la moyenne des trois attributs originaux (températures quotidiennes

minimale, maximale et moyenne) ?


■ Devrait-elle calculer cette/ces moyenne(s) sur les 21 jours de la période (J − 13)-(J + 7) ou seulement

sur une partie de cette période ?


Pourriez-vous l’aider en lui apportant une réponse argumentée (une 1/2 page maximum) ?

2. Bastien, le binôme d’Adèle, souhaite utiliser la méthode des k-plus-proches-voisins pour prédire les tem-
pératures minimales, maximales et moyennes quotidiennes à (J + 1) à (J + 7) en utilisant les valeurs
connues de (J − 13) à J.
(a) Pourriez-vous rappeler à Bastien le principe de la méthode des k-plus-proches-voisins en lui expliquant
comment l’appliquer sur son problème de prédiction (une 1/2 page maximum) ? N’abordez pas ici le
choix du nombre de voisins k pris en compte.

(b) Proposer une méthode à Bastien qui lui permettrait de déterminer une valeur de k permettant d’ob-
tenir des prédictions de « bonne qualité ». Tenez compte de la nature temporelle des données dans
votre réponse : aucun relevé postérieur à la date J ne peut être utilisés pour prédire les valeurs sur la
période (J + 1) - (J + 7).

3. Cyrielle et Daryl, un autre binôme, souhaiteraient procéder différemment : ils pensent que les dimensions
temporelle et spatiale sont importantes. En d’autres termes, ils pensent que la période de l’année et les
lieux pourraient avoir un inflence importante sur les relevés de températures.
(a) Proposez-leur une méthodologie qui permettrait d’évaluer l’impact de la période de l’année sur les
valeurs des relevés (une page maximum).

(b) Proposez-leur une méthodologie qui permettrait d’évaluer l’impact du lieu sur les valeurs des relevés
(une page maximum). Vous pourrez supposer que les distances entre les départements sont disponibles
si cela vous est utile.

(c) Expliquez à Cyrielle et Daryl comment ils pourraient mettre en place un modèle de prédiction qui
prenne en compte la nature spatio-temporelle des données (une page maximum).

∗. 141 312 = (1492 − 21 + 1) × 96


†. 63 = 21 × 3

Vous aimerez peut-être aussi