Concours de Doctorat Mo 2019/2020
Epreuve :.. DATAMINING ( Partie 1/Variante 02)
Filiére : INFORMATIQUE Spécialité : G4DM
Exercice (07 Points)
Dans le but ‘appliquer/une évaluation semi globale (ou locale) d'un modéle de classification ‘
sur une base de test donnée, la matrice de confusion générée est la suivante : \
he Bae 6 wl
Mat-conf= ([25 |i 07 0) af: oa Ones )
Bia f2fo [oe foo Ye is
FS a RR
o[o So 0 2310) oN 0) ae @
rat) eo (14 |0 40 [9p Be
ez oO 10, a 23 |9) aa
oD 2 0 0 12 [0 120
P 4-Que représente un élément de cette matrice Mat-conf [ij] (1. pt) \
2- Déterminer dans ce cas:
ala taille de la base de test. (1 pt) U7 By Qusse
b- Le nombre de classes traitées par ce classifieur. (0.5 ma as 00
c Le nombre déchantillons dans chaque classe. (1 pt) BdignrtnXer
d- la classe la plus performante ou plus représentative (1.5 pts).
e- la classe qui génére le plus de confusion (1 pt).
F Quelle modifications peut on apporter afin d’améliorer la performance de ce classifieur
(1 pt)Exercice 2: (6.5 pts)
‘On veut faire un clustering en utilisant la méthode de Kmeans pour ‘ensemble de données
D = {1,3,6,8,10,11,12,22,24,26,31,57). Supposant que les centres initiaux sont : 6, 12,2631
pour les 4 clusters.
1, Sachant que la distance utilisée est une distance euclidienne, appliquer V'algorithme de
Kmeans pour une seule itération. (4 pts)
2. Combien d’itérations sont-elles nécessaires pour arriver & une stabilisation ? (0.5 pt)
3. Donner le résultat final du clustering Kmeans. (1 pt)
4, Quels sont les centres de clusters finaux ? (1 pt)Filiére : Informatique
Exercice3 : (6,5 pts)
Partiel (2,5pts)
Le tableau suivant représente des transactions avec la liste des items correspondants,
Transactions Liste d'items
TL Ty, 12, 18, 14
T2 Tl, 18, 13, 15, 14
13 14, 16, Ti, 18, 15,
14 18, 12,17
a5: 16, 14,17, 3
‘Trouvez l'ensemble des motifs (items) fréquents dont le seuil = 0,6 en appliquant I’algorithme
Apriori.
Partie2 (4pts)
On considére que le fichier des transactions est trés volumineux et on souhaite le traiter en.
utilisant le paradigme MapReduce de Big Data.
Question: (0,5pt)
Quel est le réle de MapReduce ?
keg
Qe ae Kuso
Question? : (0,5pt)
Comment sont organisées les machines dans un cluster Hadoop ?
Question3: (3pts)
Donner le schéma (patron) qui permet d’illustrer les étapes de MapReduce de iteration] de
Palgorithme Apriori, en détaillant les entrées, traitement et sorties de chaque étape. On
suppose que notre fichier est découpé en deux fragments et qu’on dispose de deux Datanodes.
Appliquer comme exemple le méme fichier des transactions de la partiel,