Vous êtes sur la page 1sur 6

UNIVERSITE DR « YAHIA FARES » DE MEDEA

Faculté des Sciences


Département Génie Electrique et Informatique Année universitaire : 2016-2017
1ère année Master Informatique ISTW Date : 05/01/2017

EFS S1 : Théorie et pratique du Datamining

Exercice 01 (05,50 Pts) : Répondez brièvement aux questions suivantes :


1. Expliquez brièvement les étapes du niveau analyse du processus ECD ?
2. Quelles sont les trois motivations principales qui poussent à garder des données très anciennes ?
3. Donner trois méthodes de calcul de distances entre clusters.
4. Expliquez brièvement le fonctionnement des méthodes hiérarchiques dans le clustering
5. Quelle sont les avantages et inconvénients des arbres de décision ?

Exercice 02 (10,50 Pts) : N° Age Sexe Spécialité Sportive

Une étude sur un ensemble de personnes a permet 1 19 F IT Oui


d’établir la BDD suivante représentant l’état 2 21 F IT Oui

« sportivité » de chaque personne par rapport aux 3 20 M Médecine Non

trois attributs (Age, sexe et spécialité). 4 35 M Engineering Non

1. Représenter ces données par un arbre de 5 34 M Médecine Oui


6 28 M Sociologie Non
décision en utilisant l’indice GINI comme
7 35 F IT Oui
critère de séparation.
8 40 F Médecine Non
9 35 M IT Oui
NB : le split utilisé pour l’attribut Age est le
10 23 M IT Non
même dans toutes les branches de l’arbre de
11 24 F Engineering Non
décision (Age ≥ 30 et Age < 30).
12 23 F Médecine Non
13 24 F Sociologie Oui

2. Calculer les performances sur l'ensemble test T ci-dessous en construisant la matrice de confusion
associée à cet énoncé. N° Age Sexe Specialité Sportive
14 24 F IT Oui
15 29 M Sociologie Non
16 45 F Engineering Non
17 35 M IT Non
Ensemble Test T : 18 21 M Médecine Non
19 26 M Sociologie Non
20 46 F IT Oui
21 40 M IT Oui

Enseignant : Mr K. Boudjebbour Page 1 / 2


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département Génie Electrique et Informatique Année universitaire : 2016-2017
3. Donner les principaux indicateurs synthétiques, en déduisant le taux d’erreur.
4. En utilisant la distance normalisée pour l’attribut Age et en supposant que l’attribut «Sexe » est
énumératif (variable discrète), dites lequel des clients de l’ensemble test T est plus proche du client
N°1 en utilisant la distance de Manhattan entre les trois attributs (spécifiez les formules de calcul)?
Que représentent ces calculs ?
Si on généralise ces traitements sur un ensemble de données, quelle est le but principal de cette
approche ? Citez le nom de trois méthodes (types) utilisées pour appliquer cette approche ?

Exercice 03 (04 Pts) : Une société de production artistique désire faire une enquête de satisfaction sur
l’ensemble des spectacles de théâtre qu’elle a produit cette année pour prévoir le programme de travail
de la prochaine année. La base de données intègre des données sur les spectacles (artistes, lieu de
représentation, période, durée, sujet,…etc) et sur les spectateurs (sexe, niveau,…etc). Bien sûr,
l’appréciation donnée par les spectateurs représente la variable classe qu’on veut prédire. Le modèle de
classification est construit avec 32000 enregistrements. L’évaluation a permet de donner les résultats
suivants :
• Le nombre de personnes qui ont répondus négativement (non satisfait) alors que l’évaluation
leur a donné une réponse positif (satisfait) est de 2400.
• Précision = 0,60
• Taux d’erreur = 20 %
 Construisez la matrice de confusion associée à cet exercice sachant le modèle est construit avec les
2/3 de l’ensemble des données historisées.
 Supposant un cas général avec N classes, On peut bien sûr normaliser la matrice de confusion pour
en simplifier la lecture. Donnez le type que doit rapprocher la matrice de confusion pour que le taux
d’erreur soit le plus faible possible (un meilleur système de classification).

☺ Un tiens dans la main vaut mieux que deux tu l'auras ☺


☺ A bird in the hand is worth two in the bush ☺

☺ ‫ﻋﺼﻔﻮر ﰲ اﻟﻴﺪ ﺧﲑ ﻣﻦ ﻋﴩة ﻋﲆ اﻟﺸﺠﺮة‬ ☺

Enseignant : Mr K. Boudjebbour Page 2 / 2


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département Informatique Année universitaire : 2016-2017
Corrigé type de l’EFS S1 : Théorie et pratique du Datamining
Exercice 01 (05,50 Pts) :
1. Les quatre étapes du processus ECD sont :
• Phase d’acquisition des données : Selection, Nettoyage, Intégration 2 Pt
• Phase Préparation des données : Transformation, Mise en forme, construction attributs
• Phase fouille de données : Datamining.
• Phase Gestion de connaissances : Evaluation, simplification, Mise en forme et présentation.
2. les trois motivations principales qui poussent à garder des données très anciennes sont :
• Développement des technologies de récupération et de stockage de données.
0,75 Pt • Réduction du coût de stockage des données pour garder des téra-octets de données.

• L’existence d’une véritable mine d’or dedans qu’on appelle connaissances.


3. Les trois méthodes de calcul de distances entre clusters sont :
- Distance minimale entre toutes les paires de données des deux clusters (single link method)
- Distance maximale entre toutes les paires de données des 2 clusters (Complete Link Method)
- Distance moyenne entre toutes la paires d’enregistrements (Average Linkage) 0,75 Pt
4. Le fonctionnement des méthodes hiérarchiques suit globalement l’algorithme suivant :
En entrée: un échantillon de m enregistrements x1, …, xm
1. On commence avec m clusters (cluster = 1 enregistrement)
1 Pt
2. Grouper les deux clusters les plus «proches».
3. S’arrêter lorsque tous les enregistrements sont membres d’un seul groupe
4. Aller en 2.
5. Les avantages des arbres de décision sont :
• Compréhensible pour tout utilisateur (lisibilité du résultat)
• Tout type de données
• Robuste au bruit et aux valeurs manquantes
• Classification rapide (parcours d’un chemin dans un arbre) (racine feuille)
• Outils disponibles dans la plupart des environnements de data mining 1 Pt
Les inconvénients des arbres de décision sont :
• Sensibles au nombre de classes: performances se dégradent
• Si les données évoluent dans le temps, il est nécessaire de relance la phase d’apprentissage
Exercice 02 (11,50 Pts) :
1) Indice GINI sur un seul ensemble est :1 − ∑
  0,5 Pt
Tel que : S représente l’ensemble des données et Pi est la fréquence relative de la classe c dans S
Gini(S1,S2,..,Si)= ∑ / Gini(Si) tel que Ni représente le nombre d’instances du sous ensemble Si
selon un test donné.

Enseignant : Mr K. Boudjebbour Page 1 / 4


- Il faut trouver le branchement (split-point) qui minimise l’indice Gini pour les trois attributs (Age, sexe
et Spécialité) :
a) Age : <30 ≥30
GINI(Age) = 8/13*(1-(3/8)2-(5/8)2) + 5/13 (1-(3/5)2-(2/5)2=0,47307692 Oui 3 3
Non 5 2
b) Sexe :
M F
GINI(Sexe) = 6/13*(1-(2/6)2-(4/6)2) + 7/13 (1-(4/7)2-(3/7)2)=0,42490843 1,5 Pt
Oui 2 4
c) Spécialité : Non 4 3

GINI(Sexe) = 5/13*(1-(4/5)2-(1/5)2)+4/13*(1-(1/4)2- IT Médecine Engineering Sociologie


Oui 4 1 0 1
(3/4)2)+2/13*(1-(0/2)2-(2/2)2)+2/13*(1-(1/2)2-(1/2)2)
Non 1 3 2 1
= 0,31538462
Donc on choisit l’attribut « spécialité » avec l’indice GINI le plus bas (GINI=0.31538462) qui
représente la racine de l’arbre, Donc l’arbre initial sera : Spécialité
0,5 Pt IT Sociologie
Médecine Engineering
Sous arbre IT : ???
Non ???
a) Age : ???
<30 ≥30
GINI(Age) = 3/5*(1-(2/3)2-(1/3)2)
Oui 2 2
+ 2/5 (1-(2/2)2-(0/2)2)=0,26666666
Non 1 0
b) Sexe : 1 Pt
GINI(Sexe) = 3/5*(1-(0/3)2-(3/3)2) M F
Oui 1 3
+ 2/5 (1-(1/2)2-(1/2)2)=0,2 Non 1 0
Donc on choisit l’attribut « Sexe» avec l’indice GINI le plus bas , Donc l’arbre sera :

Spécialité
IT
Médecine Engineering Sociologie
0,5 Pt Sexe
M F ??? Non ???
Age Oui
<30 ≥30
Sous arbre Médecine :
Non Oui
a) Age :
GINI(Age) = 2/4*(1-(0/2)2-(2/2)2) <30 ≥30
Oui 0 1
+ 2/4 (1-(1/2)2-(1/2)2)=2/4*0,5=0,25 Non 2 1
0,5 Pt
b) Sexe :
GINI(Sexe) = 2/4*(1-(0/2)2-(2/2)2) + M F
Oui 1 0 Spécialité
2/4 (1-(1/2)2-(1/2)2)=2/4*0,5=0,25 IT
Non 1 2 Médecine Sociologie
Les deux attributs ont la même valeur du GINI, Sexe Engineering
Age ???
M F
Donc on choisit l’un d’eux et l’arbre sera : <30 ≥30 Non
Age 0,5 Pt
Oui Sexe
Non
<30 ≥30
M F
Non Oui Non Oui
Enseignant : Mr K. Boudjebbour Page 2 / 4
Sous arbre Sociologie :
a) Age :
GINI(Age) = 2/2 (1-(1/2)2-(1/2)2)=2/2*0,5=0,5 <30 ≥30
b) Sexe : Oui 1 0
Non 1 0
GINI(Sexe) = 0 M F 0,5 Pt
Donc on choisit l’attribut « Sexe» avec l’indice Oui 0 1
Non 1 0
GINI le plus bas , Donc l’arbre final sera :

Spécialité
IT
Médecine Sociologie
Sexe Engineering
0,5 Pt Age Sexe
M F
<30 ≥30 Non M F
Age Oui Non Sexe Non Oui
<30 ≥30
M F
Non Oui Non Oui
2) On applique l’ensemble test T sur l’arbre de décision et on trouve la classe prédite :

N° Age Sexe Specialité Classe réelle Classe prédite


14 24 F IT Oui Oui
15 29 M Sociologie Non Non
16 45 F Engineering Non Non
17 35 M IT Non Oui 0,5 Pt

18 21 F Médecine Non Non


19 26 M Sociologie Non Non
20 46 F IT Oui Oui
21 40 M IT Oui Oui
0,5 Pt
• Matrice de confusion : Prédite (Oui) Prédite (Non) Total
Classe réelle (Oui) a=3 b=0 3
Classe réelle (Non) c=1 d=4 5
3) Indicateurs synthétiques : Total 4 4 8

• Vrais Positifs VP = 3 • Faux Positifs FP = 1 • Taux de VP = a/(a+b) = 100 % 0,5 Pt


• Taux de FP = c/(c+d) = 20 % • Précision = a/(a+c) =75 % • Spécificité = d/(c+d) = 80 %
• Taux d’erreur = b+c / n, Donc le taux d’erreur est : 1/8 = 0,125 = 12,5 % 0,5 Pt
4) Il faut calculer la distance de manhattan entre l’instance N°1 et toutes les autres instances de T :
Distance de manhattan : D(X,Y)= ∑
| − |, Distance normalisée : D(Xi,Yi)= (Xi-Yi)/Dmax 0,5 Pt
Distance entre variable discrètes : D(X,Y)= (P-M) / P , tel que : P est le nombre total d’attributs et M
le nombre de ressemblance
Dmax = 46-19=27

Enseignant : Mr K. Boudjebbour Page 3 / 4


|
|
 
D(1,14) =

+ (2 − 2)/2 =0,185 ; D(1,15) = + 1=1,37 ; D(1,16) = + 0,5=1,463
 

  
D(1,17) = + 0,5=1,093 ; D(1,18) = + 1=1,074 ; D(1,19) = + 1=1,259 1 Pt
  
 

D(1,20) = + 0=1 ; D(1,21) = + 0,5=1,277


 
Donc, l’instance la plus proche de l’instance N°1 est : l’instance N° 14. 0,5 Pt
Ces calculs représentent le calcul de la distance entre instances (similarité) 0,5 Pt
C’est une technique d’apprentissage non supervisée de Datamining appelée Clustering (segmentation)
qui sert à déterminer des groupes de ressemblances entre les instances de la BDD. 0,5 Pt
Les méthodes sont : - Méthode de partitionnement (K-means), les Méthodes hiérarchiques (par
agglomération) et les méthodes par voisinage dense. 0,5 Pt
Exercice 03 (04 Pts) :
Ensemble modèle = 32000 = 2/3 * BDD => BDD =48000. 0.5 Pt
Ensemble test = 1/3 * BDD = 16000=N. 0.5 Pt
Nombre de personnes non satisfaits alors que leur évaluation est positif =c =2400 0,25 Pt
Precision = 0.60 donc a/(a+c) =0.60 alors 0.40 *a = 0.60 * c => a = 3600 0,25 Pt
Taux d’erreur =0.20 donc (c+b)/N=0.20 alors b=0.20 * N – c => b=800 0,25 Pt
N = a+b+c+d donc d=N-(b+c+a)=16000-(800+2400+3600) => d= 9200 0,25 Pt
Positif Négatif Total
Satisfait (Vrai) a=3600 b=800 a+b=4400
1 Pt
Non Satisfait (Faux) c= 2400 d=9200 c+d=11600
Total a+c=6000 b+d=10000 N=16000
Pour que le taux d’erreur soit le plus faible possible (un meilleur système de classification), la matrice
de confusion doit être une matrice diagonale. 1 Pt

Enseignant : Mr K. Boudjebbour Page 4 / 4

Vous aimerez peut-être aussi