Vous êtes sur la page 1sur 8

UNIVERSITE DR « YAHIA FARES » DE MEDEA

Faculté des Sciences


Département de Mathématique et Informatique Année universitaire : 2018-2019
Interrogatoire : Théorie et pratique du Datamining Durée : 75 mn

Exercice 01 (03 pts : 10 Mn) : Répondez brièvement aux questions suivantes :


1. Expliquer le fonctionnement de la méthode de rééchantionnage Bootstrap ?.
2. Plusieurs domaines sont la base des techniques de Datamining. Citez cinq domaines ?
3. Es ce qu’une règle d’association avec un support et une confiance acceptable veut dire que cette règle
est pertinente ? expliquez notamment avec des exemples ?
Exercice 02 (08 pts : 40 Mn) :
Le tableau suivant contient des données sur les
N° Doublant Série Mention Classe
résultats obtenus par des étudiants de Tronc Commun 01 Non Maths ABien Admis
(première année à l'Université). Chaque étudiant est 02 Non Techniques ABien Admis
décrit par 3 attributs : Est-il doublant ou non, la série 03 Oui Sciences ABien Non Admis
du Baccalauréat obtenu et la mention. Les étudiants 04 Oui Sciences Bien Admis
sont répartis en deux classes : Admis et Non Admis. 05 Non Maths Bien Admis
On veut construire un arbre de décision à partir des 06 Non Techniques Bien Admis
données du tableau, pour rendre compte des éléments 07 Oui Sciences Passable Non Admis
qui influent sur les résultats des étudiants en Tronc 08 Oui Maths Passable Non Admis
Commun. Les lignes de 1 à 12 sont utilisées comme 09 Oui Techniques Passable Non Admis
données d'apprentissage. Les lignes restantes (de 13 à 10 Oui Maths TBien Admis
11 Oui Techniques TBien Admis
16) sont utilisées comme données de tests.
12 Non Sciences TBien Admis
1. Utiliser les données d’apprentissage pour 13 Oui Maths Bien Admis
construire l'(les) arbre(s) de décision en utilisant 14 Non Sciences ABien Non Admis
l'algorithme ID3. Montrez toutes les étapes et 15 Non Maths TBien Admis
formules de calcul. Dessinez l’arbre final. 16 Non Maths Passable Non Admis
2. Déduire de l'arbre trouvé la petite règle correspondante.
3. Classer l’instance N°17: Doublant=Oui, Série=Maths, Mention=ABien. Que remarquez-vous ?
4. Quels sont les résultats de test de l'arbre obtenu sur les données de tests ? déduisez le taux d’erreur ? En
comparant les résultats obtenus, que suggérez-vous concernant l’arbre résultante ?
5. En se basant sur la comparaison et la suggestion de la question 5, que pouvez dire sur la prédiction de
l’avenir des étudiants de tronc commun par rapport aux résultats obtenus au baccalauréat.
Exercice 03 (04 pts : 10 Mn) :
Soit l'ensemble D des entiers suivants : D= { 2, 5, 8, 10, 11, 18, 20 }. On veut répartir les données de D en
trois (3) clusters en utilisant l'algorithme Kmeans et la distance de manhathan
1/ Appliquez Kmeans en choisissant comme centres initiaux des 3 clusters respectivement : 8, 10 et 11.
Montrez toutes les étapes de calcul.
2/ Donnez le résultat final et précisez le nombre d'itérations qui ont été nécessaires.
3/ Peut-on avoir un nombre d'itérations inférieur pour ce problème ? Discutez.

☺ To succeed in life one must have the courage to pursue what he wants ☺

Enseignant : Mr K. Boudjebbour Page 1 / 1


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématiques et Informatique Année universitaire : 2018-2019

Corrigé type EFS S1 : Théorie et pratique du Datamining

Exercice 01 (06 Pts) :


a) Appliquer la classification hiérarchique ascendante sur l’ensemble X
X 1 2 9 12 20
On va utilisé la distance de Manhattan entre instances : D(X,Y) = ∑
| − |
Et la distance minimale entre toutes les paires de données des 2 clusters (single link method) :
DSingle(i,j) = Minx€i y€j D(X,Y) 0,5 Pt
Les tableaux suivants représentent les différentes distances DSingle entre différents clusters :
Etape 1 :
1 2 9 12 20
1 1 8 11 19
2 7 10 18  Regroupement des clusters {1} et {2} en {1,2}
9 3 11
12 8
Etape 2 :
1,2 9 12 20
3 Pt 1,2 7 10 18
 Regroupement des clusters {9} et {12} en {9,12}
9 3 11
12 8
Etape 3 :
1,2 9,12 20
1,2 7 18  Regroupement des clusters {1,2} et {9,12} en {1,2,9,12}
9,12 8
Etape 4 :
1,2,9,12 20
 Regroupement des clusters {1,2,9,12} et {20} en {1,2,9,12,20}
1,2,9,12 8
 {1,2,9,12,20} D
Single Dendrogramme :

 {
b) L’inertie intra-cluster IA = ∑

∑
²(, )

i : instance ; Gk : centroid du groupe k ;


Nk : Nombre d’instance du groupe k
1 Pt
- Un regroupement en 2 clusters :
C1={1,2,9,12} centroid C1 = 6
C2={20} centroid C2 = 20
1,5 Pt IA= ((1-6)²+ (2-6)²+ (9-6)²+ (12-6)²)+ (20-20)²=86 Données
- Un regroupement en 3 clusters : 1 2 9 12 20  {1,2
C1={1,2}centroid C1=1,5 C2={9,12}centroid C2 = 10,5 et C3={20}centroid C3 = 20
IA= ((1-1,5)²+ (2-1,5)²)+((9-10,5)²+ (12-10,5)²)+ (20-20)²=5
Donc le meilleur regroupement est celui de 3 clusters car son inertie intra-cluster IA est la plus petite.

Enseignant : Mr K. Boudjebbour Page 1 / 4


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématiques et Informatique Année universitaire : 2018-2019
Exercice 02 (09 Pts) :

 
1) On calcul l’entropie sur l’ensemble des données : I(11,7)= - log - log = 0,964 0,5 Pt





Ensuite on calcul le gain de chaque attribut :
  
Gain (DegStr)= I(11,7)-E(DegStr)=0,964-( I(3, 3)+ I(3,3) + I(5,1))= 0,081




  
Gain (HrSom)= I(11,7)-E(HrSom)=0,964-( I(6,0)+ I(1,5) + I(4,2))= 0,441 1 Pt




 
Gain (Fum)= I(11,7)-E(Fum)=0,964-( I(4,5)+ I(7,2))= 0,086




Donc on choisit l’attribut « HrSom » avec le gain le plus grand (Gain=0.411) qui représente la racine
de l’arbre, Donc l’arbre initial sera : HrSom
Egal 0,5 Pt
Supérieur
Moins
Inst : 5, à 12 ??? Inst : 13 à 18
Yes ???

Les valeurs Egal et Supérieur donnent deux valeurs de la classe, donc, il faut refaire le même travail
(calcul du gain) pour l’ensemble des données SEg={3,4,9,10,15,16} et SSup={5,6,11,12,17,18}.
• I(SEg) =I(1,5)=0,650
  
Gain (SEg, DegStr)= I(1,5)-E(SEg, DegStr)= 0,650-( I(0,2)+ I(0,2) + I(1,1))= 0,317
  
 
1 Pt Gain (SEg, Fum)= I(1,5)-E(SEg, Fum)= 0,650-( I(0,3)+ I(1,2))= 0,191
  HrSom
Donc on choisit l’attribut « DegStr » avec Egal Supérieur
le gain le plus grand (Gain=0.317), et l’arbre devient : Moins
DegStr
???
Petit ou Normal Fort Yes Inst : 13 à 18
or
No Fum
Non Oui
• I(SSup) =I(4,2)=0,919
 No Yes
Gain (SSup, DegStr)= I(4,2)-E(SSup, DegStr)= 0,919-( I(1,1)

 
+ I(1,1)+ I(2,0))= 0,252 HrSom
 
Gain (SSup, Fum)= I(4,2)-E(SSup, Fum) 1 Pt Egal Supérieur
  Moins
= 0,919-( I(1,2)+ I(3,0))= 0,495 DegStr Fum
 
Petit ou Normal Fort Yes Oui Non
Donc on choisit l’attribut « Fum » avec
le gain le plus grand (Gain=0.495), No Fum Yes DegStr
et l’arbre final devient : Non Oui Petit ou Normal Fort
No Yes No Yes
2) Règle :
(HrSom = Moins) ou ((HrSom ≠ Moins) et (DegStr=Fort) et ((Fum=Oui) ou ((Fum=Non) et
(DegStr=Fort)))) 1 Pt

Enseignant : Mr K. Boudjebbour Page 2 / 4


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématiques et Informatique Année universitaire : 2018-2019
3) On applique l’ensemble test T sur l’arbre de décision et on trouve la classe prédite :

Instance DegStr HrSom Fum Classe réelle Classe prédite


19 Petit Supérieur Oui Yes Yes
20 Fort Superieur Non Yes Yes
21 Petit Egal Non No No
22 Fort Egal Non Yes No
23 Normal Supérieur Oui No Yes
24 Petit Egal Oui No No

• Matrice de 1 Pt
Prédite (Yes) Prédite (No) Total
confusion :
Classe réelle (Yes) 2 1 3
Classe réelle (No) 1 2 3
Total 3 3 6
• Taux d’erreur = b+c / n, Donc le taux d’erreur est : 2/6 = 0,3333 = 33,33 %
0,5 Pt • Précision = a/(a+c) = 66,66 % : représente le pourcentage des colopathies positivement prédites
par rapport aux total des colopathies prédites
0,5 Pt • Spécificité = d/(c+d) = 66,66 % représente le pourcentage des non colopathies positivement

prédite par rapport aux total des non colopathies réelles.


4) Il faut calculer la distance entre l’instance N°19 et les 18 autres instances tel que :
D1(Xi,Yi)= (P-M) / P tel que : P est le nombre total d’attributs (=2) et M le nombre de
ressemblance entre les deux attributs énumératifs « DegStr » et « HrSom »
D2(Xi,Yi)= 0 si Xi = Yi
Concerne l’attribut binaire « Fum »
0,5 Pt 1 sinon
Ensuite, calculer la distance global D avec une distance d’attributs numériques par exemple
avec la distance de manhattan : D(X,Y)= ∑
| − |
Donc : D(X,Y)=D1(Xi,Yi) + D2(Xi,Yi)
Instance 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
D1 0,5 0,5 0,5 0,5 0 0 1 1 1 1 0,5 0,5 1 1 1 1 0,5 0,5
D2 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0
D 1,5 0,5 1,5 0,5 1 0 2 1 2 1 1,5 0,5 2 1 2 1 1,5 0,5
rang 4 2 4 2 3 1 5 3 5 3 4 2 5 3 5 3 4 2

1,5 Pt

Enseignant : Mr K. Boudjebbour Page 3 / 4


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématiques et Informatique Année universitaire : 2018-2019
Exercice 03 (06 Pts) :
- On génère d’abord les itemsets fréquents de support minimum = 2 :
C1 itemset {A} {B} {C} {D} {E}
Card 1

Support 3 3 4 1 4
F1 itemset Oui Oui Oui Non Oui

2 Pt
C2 itemset {A,B} {A,C} {A,E} {B,C} {B,E} {C,E}
Card 2

Support 1 3 2 2 3 3
F2 itemset Non Oui Oui Oui Oui Oui

C3 itemset {A,B,C} {A,B,E} {A,C,E} {B,C,E} C4 itemset {A,B,C,E}


Support / / 2 2 Support /
Card 3

Card 4
F3 itemset Non Non Oui Oui F4 itemset Non
Cause {A,B} non Fréquent {A,B,C}
Cause
non Fréquent
- On génère maintenant les règles d’associations d’une confiance minimale = 60 % pour tout sous
ensembles non vides fréquents :
- Pour l’itemset fréquent {A,C,E}
Règle {A,C}E {A,E}C {C,E}A A{C,E} C{A,E} E{A,C}
Confiance 66,66 % 100 % 66,66 % 66,66 % 50 % 50 % 1 Pt
Conclusion Acceptée Acceptée Acceptée Acceptée Rejetée Rejetée
- Pour l’itemset fréquent {B,C,E}
Règle {B,C}E {B,E}C {C,E}B B{C,E} C{B,E} E{B,C}
Confiance 100 % 66,66 % 66,66 % 66,66 % 50 % 50 % 1 Pt
Conclusion Acceptée Acceptée Acceptée Acceptée Rejetée Rejetée
- Pour les autres itemset
- AC , AE sont redondantes par rapport à A{C,E}
- BC , BE sont redondantes par rapport à B{C,E} 1 Pt

Règle CA EA CB EB CE EC


Confiance 75 % 50 % 50 % 75 % 75 % 75 %
Conclusion Acceptée Rejetée Rejetée Acceptée Acceptée Acceptée

- Un motif fréquent est dit fermé s’il ne possède aucun sur-motif qui a le même support, exp : {A,C} 1 Pt
- Un motif fréquent est dit Maximal si aucun de ses sur-motifs immédiats n’est fréquent, exp:{A,C,E}

Enseignant : Mr K. Boudjebbour Page 4 / 4


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématique et Informatique Année universitaire : 2017-2018

Interrogatoire : Théorie et pratique du Datamining

Exercice 01 (02 pts) : Supposons qu’on veut utiliser des données binaires dans un processus de
clustering. Citer (ou proposer) une (des) mesure(s) de similarité (distance(s)) pour ce type de données.
Evaluer la (les) distance(s) entre les objets X = 0101010001 et Y = 0100011000. Que remarquez-vous ?
Déduisez la distance de Hamming associée. A quoi la valeur trouvée correspond-elle ?

Exercice 02 (03 pts) : Répondez brièvement aux questions suivantes :


1. Que signifie l’élagage et quel est son objectif ?
2. Quelle est la différence entre les techniques descriptives et les techniques prédictives de datamining ?
3. Dans le processus ECD, une phase de préparation des données est nécessaire. Que signifie la
transformation des données ? expliquer en donnant des exemples

Exercice 03 (05 pts) : Soit l’ensemble d’apprentissage ci-dessous. La classe est « Edible ».
N° Shape Color Odor Edible
1 C B 1 Y
2 D B 1 Y
3 D W 1 Y
4 D W 2 Y
5 C B 2 Y
6 D B 2 N
7 D G 2 N
8 C U 2 N
9 C B 3 N
10 C W 3 N
11 D W 3 N
1. En utilisant l’algorithme ID3 et le gain d’information, construire l’arbre de décision du dataset. Donner
les détails des calculs.
2. Déduire de l'arbre trouvé une seule règle comportant 2 disjonctions et 2 conjonctions au maximum.
3. En utilisant l’arbre construit, classer l’instance N°12: Shape=C, Color=G, Odor=2.
4. En utilisant l’ensemble des onze instances, et en supposant que les attributs « Color » et « Odor » sont
des variables énumératives, dites lequel des instances est plus proche de l’instance N° 12 ? quelle est la
distance utilisée ? Que représentent ces calculs (donner le nom de ces calculs) ?
☺ To succeed in life one must have the courage to pursue what he wants ☺

Enseignant : Mr K. Boudjebbour Page 1 / 1


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématique et Informatique Année universitaire : 2017-2018

Corrigé Interrogatoire : Théorie et pratique du Datamining

Exercice 01 (02,50 Pts): il faut dessiner la table de dissimilarité (contingence) : Y


0,5 Pt
on a trois cas possibles :
1 0
1. Similarité invariante, si toutes les variables sont symétriques (Coefficient de
correspondance simple) :
  1 2 2
D1(X,Y) ===0,3 0,5 Pt X
2. Similarité non invariante, si toutes les variables sont asymétriques (Coefficient 0 1 5
de Jaccard):
 
D2(X,Y) = = =0,6 0,5 Pt

3. Si les variables sont symétriques et asymétriques : il faut spécifier la nature de chaque variable. 0,25 Pt

0,5 Pt Malgré que D1 et D2 représentent deux distances entre les mêmes instances, on remarque que qu’elles
sont très éloignées car D2=2*D1
Distance de hamming = b+c = 3. Elle représente le nombre de caractéristiques différentes entre x et y. 0,25 Pt
Exercice 02 (03 Pts) :
1. L’élagage est la suppression de quelques sous-arbres dans la l’arbre de décision. Son objectif
principal est la réduction de l’arbre afin d’améliorer le taux d’erreur.
2. les techniques descriptives de datamining visent à mettre en évidence des informations présentes
mais cachées par le volume de données alors que les techniques prédictives visent à extrapoler de
nouvelles informations à partir des informations présentes. Elles se basent essentiellement sur des
modèles qui utilisent des données présentes ou passées pour construire des scénarios futurs.
3. La transformation des données est la transformation d’un attribut A en une autre variable A’ qui
serait selon les objectifs de l’étude, plus appropriée.
Exp 1 : Variable continue en variable discrète et vice versa
Exp 2 : La construction d’agrégats par exemple, le prix au mètre-carré d’un appartement
Exercice 03 (05,50 Pts):
 
1) On calcul l’entropie sur l’ensemble des données : I(5,6)= - log - log = 0,994 0,5 Pt
   
Ensuite on calcul le gain de chaque attribut :

Gain (Shape)= I(5,6)-E(Shape)= I(5,6)-( I(2,3)+ I(3,3))=0,008
 
  
Gain (Color)= I(5,6)-E(Color)= I(5,6)-( I(3,2)+ I(2,2)+ I(0,1)+ I(0,1)=0,189
   
 
Gain (Odor)= I(5,6)-E(Odor)= I(5,6)-( I(3,0)+ I(2,3)+ I(0,3))=0,553
  
Donc on choisit l’attribut « Odor » avec le gain le plus grand (Gain=0.553) qui représente le nœud la
racine de l’arbre, Donc l’arbre initial sera : Odor 1 Pt
2 3
1
????? N
Y
Instances : 4,5,6,7,8 Instance : 9,10,11
Instances : 1,2,3 Page 1 / 2
UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématique et Informatique Année universitaire : 2017-2018
La valeur Odor = 2 donne plusieurs valeurs de l’attribut classe, donc, il faut refaire le même travail
(calcul du gain) pour l’ensemble des données S2 ={4,5,6,7,8}. I(S2) =I(2,3)=0,971
   
Gain (S2, Color)= I(2, 3)-E(S2, Color)=0,971-( I(1,0) + I(1,1)+ I(0,1)+ I(0,1))=0,571

 
Gain (S2, Shape)= I(2, 3)-E(S2, Shape)=0,971-( I(1,2) + I(1,1))=0,020

Donc on choisit l’attribut « Color» avec le gain le plus grand (Gain=0,571). On aura deux branches
avec des nœuds terminaux et la branche B qui sera nécessairement départagée par le seul attribut
restant à savoir «Shape» et l’arbre final sera : Odor
2 3
1
Color N
Y Instance : 9,10,11
B G ou U W Instances : 1,2,3

Shape N Y 1 Pt
C D Instances : 7,8 Instance : 4

Y N
Instance : 5 Instance : 6
2) La règle qu’on peut déduire est :
(Odor = 1) ⋁ ((Odor = 2) ∧ ((Color = W) ⋁ ((Color = B) ∧ (Shape = C))) 1 Pt
3) La classe est : N 0,25 Pt
4) Il faut calculer la distance entre l’instance N°12 et les 11 autres instances :
D(X,Y)=D1(Xi,Yi) + D2(Xi,Yi)
D1(Xi,Yi)= (P-M) / P tel que : P est le nombre total d’attributs et M le nombre de ressemblance
Qui concerne les deux attributs énumératifs « Odor » et « Color »
D2(Xi,Yi)= 0 si Xi = Yi ; 1 sinon Concerne l’attribut binaire « Shape » 01 Pt

N° Instance D1 D2 D N° Instance D1 D2 D
1 1 1 2 7 0,5 0 0,5
2 1 0 1 8 0 1 1
3 1 0 1 9 1 1 2
4 0,5 0 0,5 10 1 1 2
5 0,5 1 1,5 11 1 0 1
6 0,5 0 0,5
Donc, les instances les plus proches de l’instance N°12 sont : l’instance N° 4, N° 6 et N° 7. 0,25 Pt
La distance utilisée est la distante mixte entre deux type d’attributs (dans notre cas, on a utilisé la
distance de Manhattan) qui représente un calcul de similarité entre instantes afin d’appliquer une
méthode de clustering. 0,5 Pt

Page 2 / 2

Vous aimerez peut-être aussi