Vous êtes sur la page 1sur 3
Concours de Doctorat Mo 2019/2020 Epreuve :.. DATAMINING ( Partie 1/Variante 02) Filiére : INFORMATIQUE Spécialité : G4DM Exercice (07 Points) Dans le but ‘appliquer/une évaluation semi globale (ou locale) d'un modéle de classification ‘ sur une base de test donnée, la matrice de confusion générée est la suivante : \ he Bae 6 wl Mat-conf= ([25 |i 07 0) af: oa Ones ) Bia f2fo [oe foo Ye is FS a RR o[o So 0 2310) oN 0) ae @ rat) eo (14 |0 40 [9p Be ez oO 10, a 23 |9) aa oD 2 0 0 12 [0 120 P 4-Que représente un élément de cette matrice Mat-conf [ij] (1. pt) \ 2- Déterminer dans ce cas: ala taille de la base de test. (1 pt) U7 By Qusse b- Le nombre de classes traitées par ce classifieur. (0.5 ma as 00 c Le nombre déchantillons dans chaque classe. (1 pt) BdignrtnXer d- la classe la plus performante ou plus représentative (1.5 pts). e- la classe qui génére le plus de confusion (1 pt). F Quelle modifications peut on apporter afin d’améliorer la performance de ce classifieur (1 pt) Exercice 2: (6.5 pts) ‘On veut faire un clustering en utilisant la méthode de Kmeans pour ‘ensemble de données D = {1,3,6,8,10,11,12,22,24,26,31,57). Supposant que les centres initiaux sont : 6, 12,2631 pour les 4 clusters. 1, Sachant que la distance utilisée est une distance euclidienne, appliquer V'algorithme de Kmeans pour une seule itération. (4 pts) 2. Combien d’itérations sont-elles nécessaires pour arriver & une stabilisation ? (0.5 pt) 3. Donner le résultat final du clustering Kmeans. (1 pt) 4, Quels sont les centres de clusters finaux ? (1 pt) Filiére : Informatique Exercice3 : (6,5 pts) Partiel (2,5pts) Le tableau suivant représente des transactions avec la liste des items correspondants, Transactions Liste d'items TL Ty, 12, 18, 14 T2 Tl, 18, 13, 15, 14 13 14, 16, Ti, 18, 15, 14 18, 12,17 a5: 16, 14,17, 3 ‘Trouvez l'ensemble des motifs (items) fréquents dont le seuil = 0,6 en appliquant I’algorithme Apriori. Partie2 (4pts) On considére que le fichier des transactions est trés volumineux et on souhaite le traiter en. utilisant le paradigme MapReduce de Big Data. Question: (0,5pt) Quel est le réle de MapReduce ? keg Qe ae Kuso Question? : (0,5pt) Comment sont organisées les machines dans un cluster Hadoop ? Question3: (3pts) Donner le schéma (patron) qui permet d’illustrer les étapes de MapReduce de iteration] de Palgorithme Apriori, en détaillant les entrées, traitement et sorties de chaque étape. On suppose que notre fichier est découpé en deux fragments et qu’on dispose de deux Datanodes. Appliquer comme exemple le méme fichier des transactions de la partiel,

Vous aimerez peut-être aussi