Output 15

UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences

Département de Mathématique et Informatique Année universitaire : 2018-2019
Interrogatoire : Théorie et pratique du Datamining Durée : 75 mn
Exercice 01 (03 pts : 10 Mn) : Répondez brièvement aux questions suivantes :

1. Expliquer le fonctionnement de la méthode de rééchantionnage Bootstrap ?.
2. Plusieurs domaines sont la base des techniques de Datamining. Citez cinq domaines ?
3. Es ce qu’une règle d’association avec un support et une confiance acceptable veut dire que cette règle
est pertinente ? expliquez notamment avec des exemples ?
Exercice 02 (08 pts : 40 Mn) :
Le tableau suivant contient des données sur les
N° Doublant Série Mention Classe
résultats obtenus par des étudiants de Tronc Commun 01 Non Maths ABien Admis
(première année à l'Université). Chaque étudiant est 02 Non Techniques ABien Admis
décrit par 3 attributs : Est-il doublant ou non, la série 03 Oui Sciences ABien Non Admis
du Baccalauréat obtenu et la mention. Les étudiants 04 Oui Sciences Bien Admis
sont répartis en deux classes : Admis et Non Admis. 05 Non Maths Bien Admis
On veut construire un arbre de décision à partir des 06 Non Techniques Bien Admis
données du tableau, pour rendre compte des éléments 07 Oui Sciences Passable Non Admis
qui influent sur les résultats des étudiants en Tronc 08 Oui Maths Passable Non Admis
Commun. Les lignes de 1 à 12 sont utilisées comme 09 Oui Techniques Passable Non Admis
données d'apprentissage. Les lignes restantes (de 13 à 10 Oui Maths TBien Admis
11 Oui Techniques TBien Admis
16) sont utilisées comme données de tests.
12 Non Sciences TBien Admis
1. Utiliser les données d’apprentissage pour 13 Oui Maths Bien Admis
construire l'(les) arbre(s) de décision en utilisant 14 Non Sciences ABien Non Admis
l'algorithme ID3. Montrez toutes les étapes et 15 Non Maths TBien Admis
formules de calcul. Dessinez l’arbre final. 16 Non Maths Passable Non Admis
2. Déduire de l'arbre trouvé la petite règle correspondante.
3. Classer l’instance N°17: Doublant=Oui, Série=Maths, Mention=ABien. Que remarquez-vous ?
4. Quels sont les résultats de test de l'arbre obtenu sur les données de tests ? déduisez le taux d’erreur ? En
comparant les résultats obtenus, que suggérez-vous concernant l’arbre résultante ?
5. En se basant sur la comparaison et la suggestion de la question 5, que pouvez dire sur la prédiction de
l’avenir des étudiants de tronc commun par rapport aux résultats obtenus au baccalauréat.
Exercice 03 (04 pts : 10 Mn) :
Soit l'ensemble D des entiers suivants : D= { 2, 5, 8, 10, 11, 18, 20 }. On veut répartir les données de D en
trois (3) clusters en utilisant l'algorithme Kmeans et la distance de manhathan
1/ Appliquez Kmeans en choisissant comme centres initiaux des 3 clusters respectivement : 8, 10 et 11.
Montrez toutes les étapes de calcul.
2/ Donnez le résultat final et précisez le nombre d'itérations qui ont été nécessaires.
3/ Peut-on avoir un nombre d'itérations inférieur pour ce problème ? Discutez.
☺ To succeed in life one must have the courage to pursue what he wants ☺
Enseignant : Mr K. Boudjebbour Page 1 / 1

Département de Mathématiques et Informatique Année universitaire : 2018-2019
Corrigé type EFS S1 : Théorie et pratique du Datamining
Exercice 01 (06 Pts) :

a) Appliquer la classification hiérarchique ascendante sur l’ensemble X
X 1 2 9 12 20
On va utilisé la distance de Manhattan entre instances : D(X,Y) = ∑
| − |
Et la distance minimale entre toutes les paires de données des 2 clusters (single link method) :
DSingle(i,j) = Minx€i y€j D(X,Y) 0,5 Pt
Les tableaux suivants représentent les différentes distances DSingle entre différents clusters :
Etape 1 :
1 2 9 12 20
1 1 8 11 19
2 7 10 18 Regroupement des clusters {1} et {2} en {1,2}
9 3 11
12 8
Etape 2 :
1,2 9 12 20
3 Pt 1,2 7 10 18
Regroupement des clusters {9} et {12} en {9,12}
9 3 11
12 8
Etape 3 :
1,2 9,12 20
1,2 7 18 Regroupement des clusters {1,2} et {9,12} en {1,2,9,12}
9,12 8
Etape 4 :
1,2,9,12 20
Regroupement des clusters {1,2,9,12} et {20} en {1,2,9,12,20}
1,2,9,12 8
{1,2,9,12,20} D
Single Dendrogramme :

{
b) L’inertie intra-cluster IA = ∑

∑
²(, )
i : instance ; Gk : centroid du groupe k ;

Nk : Nombre d’instance du groupe k
1 Pt
- Un regroupement en 2 clusters :
C1={1,2,9,12} centroid C1 = 6
C2={20} centroid C2 = 20
1,5 Pt IA= ((1-6)²+ (2-6)²+ (9-6)²+ (12-6)²)+ (20-20)²=86 Données
- Un regroupement en 3 clusters : 1 2 9 12 20 {1,2
C1={1,2}centroid C1=1,5 C2={9,12}centroid C2 = 10,5 et C3={20}centroid C3 = 20
IA= ((1-1,5)²+ (2-1,5)²)+((9-10,5)²+ (12-10,5)²)+ (20-20)²=5
Donc le meilleur regroupement est celui de 3 clusters car son inertie intra-cluster IA est la plus petite.


1) On calcul l’entropie sur l’ensemble des données : I(11,7)= - log - log = 0,964 0,5 Pt

Ensuite on calcul le gain de chaque attribut :

Gain (DegStr)= I(11,7)-E(DegStr)=0,964-( I(3, 3)+ I(3,3) + I(5,1))= 0,081

Gain (HrSom)= I(11,7)-E(HrSom)=0,964-( I(6,0)+ I(1,5) + I(4,2))= 0,441 1 Pt

Gain (Fum)= I(11,7)-E(Fum)=0,964-( I(4,5)+ I(7,2))= 0,086

Donc on choisit l’attribut « HrSom » avec le gain le plus grand (Gain=0.411) qui représente la racine
de l’arbre, Donc l’arbre initial sera : HrSom
Egal 0,5 Pt
Supérieur
Moins
Inst : 5, à 12 ??? Inst : 13 à 18
Yes ???
Les valeurs Egal et Supérieur donnent deux valeurs de la classe, donc, il faut refaire le même travail
(calcul du gain) pour l’ensemble des données SEg={3,4,9,10,15,16} et SSup={5,6,11,12,17,18}.
• I(SEg) =I(1,5)=0,650

Gain (SEg, DegStr)= I(1,5)-E(SEg, DegStr)= 0,650-( I(0,2)+ I(0,2) + I(1,1))= 0,317

1 Pt Gain (SEg, Fum)= I(1,5)-E(SEg, Fum)= 0,650-( I(0,3)+ I(1,2))= 0,191
HrSom
Donc on choisit l’attribut « DegStr » avec Egal Supérieur
le gain le plus grand (Gain=0.317), et l’arbre devient : Moins
DegStr
???
Petit ou Normal Fort Yes Inst : 13 à 18
or
No Fum
Non Oui
• I(SSup) =I(4,2)=0,919
No Yes
Gain (SSup, DegStr)= I(4,2)-E(SSup, DegStr)= 0,919-( I(1,1)

+ I(1,1)+ I(2,0))= 0,252 HrSom

Gain (SSup, Fum)= I(4,2)-E(SSup, Fum) 1 Pt Egal Supérieur
Moins
= 0,919-( I(1,2)+ I(3,0))= 0,495 DegStr Fum

Petit ou Normal Fort Yes Oui Non
Donc on choisit l’attribut « Fum » avec
le gain le plus grand (Gain=0.495), No Fum Yes DegStr
et l’arbre final devient : Non Oui Petit ou Normal Fort
No Yes No Yes
2) Règle :
(HrSom = Moins) ou ((HrSom ≠ Moins) et (DegStr=Fort) et ((Fum=Oui) ou ((Fum=Non) et
(DegStr=Fort)))) 1 Pt

3) On applique l’ensemble test T sur l’arbre de décision et on trouve la classe prédite :
Instance DegStr HrSom Fum Classe réelle Classe prédite

19 Petit Supérieur Oui Yes Yes
20 Fort Superieur Non Yes Yes
21 Petit Egal Non No No
22 Fort Egal Non Yes No
23 Normal Supérieur Oui No Yes
24 Petit Egal Oui No No
• Matrice de 1 Pt
Prédite (Yes) Prédite (No) Total
confusion :
Classe réelle (Yes) 2 1 3
Classe réelle (No) 1 2 3
Total 3 3 6
• Taux d’erreur = b+c / n, Donc le taux d’erreur est : 2/6 = 0,3333 = 33,33 %
0,5 Pt • Précision = a/(a+c) = 66,66 % : représente le pourcentage des colopathies positivement prédites
par rapport aux total des colopathies prédites
0,5 Pt • Spécificité = d/(c+d) = 66,66 % représente le pourcentage des non colopathies positivement
prédite par rapport aux total des non colopathies réelles.

4) Il faut calculer la distance entre l’instance N°19 et les 18 autres instances tel que :
D1(Xi,Yi)= (P-M) / P tel que : P est le nombre total d’attributs (=2) et M le nombre de
ressemblance entre les deux attributs énumératifs « DegStr » et « HrSom »
D2(Xi,Yi)= 0 si Xi = Yi
Concerne l’attribut binaire « Fum »
0,5 Pt 1 sinon
Ensuite, calculer la distance global D avec une distance d’attributs numériques par exemple
avec la distance de manhattan : D(X,Y)= ∑
| − |
Donc : D(X,Y)=D1(Xi,Yi) + D2(Xi,Yi)
Instance 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
D1 0,5 0,5 0,5 0,5 0 0 1 1 1 1 0,5 0,5 1 1 1 1 0,5 0,5
D2 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0
D 1,5 0,5 1,5 0,5 1 0 2 1 2 1 1,5 0,5 2 1 2 1 1,5 0,5
rang 4 2 4 2 3 1 5 3 5 3 4 2 5 3 5 3 4 2
1,5 Pt

- On génère d’abord les itemsets fréquents de support minimum = 2 :
C1 itemset {A} {B} {C} {D} {E}
Card 1
Support 3 3 4 1 4
F1 itemset Oui Oui Oui Non Oui
2 Pt
C2 itemset {A,B} {A,C} {A,E} {B,C} {B,E} {C,E}
Card 2
Support 1 3 2 2 3 3
F2 itemset Non Oui Oui Oui Oui Oui
C3 itemset {A,B,C} {A,B,E} {A,C,E} {B,C,E} C4 itemset {A,B,C,E}

Support / / 2 2 Support /
Card 3
Card 4
F3 itemset Non Non Oui Oui F4 itemset Non
Cause {A,B} non Fréquent {A,B,C}
Cause
non Fréquent
- On génère maintenant les règles d’associations d’une confiance minimale = 60 % pour tout sous
ensembles non vides fréquents :
- Pour l’itemset fréquent {A,C,E}
Règle {A,C}E {A,E}C {C,E}A A{C,E} C{A,E} E{A,C}
Confiance 66,66 % 100 % 66,66 % 66,66 % 50 % 50 % 1 Pt
Conclusion Acceptée Acceptée Acceptée Acceptée Rejetée Rejetée
- Pour l’itemset fréquent {B,C,E}
Règle {B,C}E {B,E}C {C,E}B B{C,E} C{B,E} E{B,C}
Confiance 100 % 66,66 % 66,66 % 66,66 % 50 % 50 % 1 Pt
Conclusion Acceptée Acceptée Acceptée Acceptée Rejetée Rejetée
- Pour les autres itemset
- AC , AE sont redondantes par rapport à A{C,E}
- BC , BE sont redondantes par rapport à B{C,E} 1 Pt
Règle CA EA CB EB CE EC

Confiance 75 % 50 % 50 % 75 % 75 % 75 %
Conclusion Acceptée Rejetée Rejetée Acceptée Acceptée Acceptée
- Un motif fréquent est dit fermé s’il ne possède aucun sur-motif qui a le même support, exp : {A,C} 1 Pt
- Un motif fréquent est dit Maximal si aucun de ses sur-motifs immédiats n’est fréquent, exp:{A,C,E}

Interrogatoire : Théorie et pratique du Datamining
Exercice 01 (02 pts) : Supposons qu’on veut utiliser des données binaires dans un processus de
clustering. Citer (ou proposer) une (des) mesure(s) de similarité (distance(s)) pour ce type de données.
Evaluer la (les) distance(s) entre les objets X = 0101010001 et Y = 0100011000. Que remarquez-vous ?
Déduisez la distance de Hamming associée. A quoi la valeur trouvée correspond-elle ?
Exercice 02 (03 pts) : Répondez brièvement aux questions suivantes :

1. Que signifie l’élagage et quel est son objectif ?
2. Quelle est la différence entre les techniques descriptives et les techniques prédictives de datamining ?
3. Dans le processus ECD, une phase de préparation des données est nécessaire. Que signifie la
transformation des données ? expliquer en donnant des exemples
Exercice 03 (05 pts) : Soit l’ensemble d’apprentissage ci-dessous. La classe est « Edible ».
N° Shape Color Odor Edible
1 C B 1 Y
2 D B 1 Y
3 D W 1 Y
4 D W 2 Y
5 C B 2 Y
6 D B 2 N
7 D G 2 N
8 C U 2 N
9 C B 3 N
10 C W 3 N
11 D W 3 N
1. En utilisant l’algorithme ID3 et le gain d’information, construire l’arbre de décision du dataset. Donner
les détails des calculs.
2. Déduire de l'arbre trouvé une seule règle comportant 2 disjonctions et 2 conjonctions au maximum.
3. En utilisant l’arbre construit, classer l’instance N°12: Shape=C, Color=G, Odor=2.
4. En utilisant l’ensemble des onze instances, et en supposant que les attributs « Color » et « Odor » sont
des variables énumératives, dites lequel des instances est plus proche de l’instance N° 12 ? quelle est la
distance utilisée ? Que représentent ces calculs (donner le nom de ces calculs) ?
☺ To succeed in life one must have the courage to pursue what he wants ☺

Corrigé Interrogatoire : Théorie et pratique du Datamining
Exercice 01 (02,50 Pts): il faut dessiner la table de dissimilarité (contingence) : Y

0,5 Pt
on a trois cas possibles :
1 0
1. Similarité invariante, si toutes les variables sont symétriques (Coefficient de
correspondance simple) :
1 2 2
D1(X,Y) ===0,3 0,5 Pt X
2. Similarité non invariante, si toutes les variables sont asymétriques (Coefficient 0 1 5
de Jaccard):

D2(X,Y) = = =0,6 0,5 Pt

3. Si les variables sont symétriques et asymétriques : il faut spécifier la nature de chaque variable. 0,25 Pt
0,5 Pt Malgré que D1 et D2 représentent deux distances entre les mêmes instances, on remarque que qu’elles
sont très éloignées car D2=2*D1
Distance de hamming = b+c = 3. Elle représente le nombre de caractéristiques différentes entre x et y. 0,25 Pt
1. L’élagage est la suppression de quelques sous-arbres dans la l’arbre de décision. Son objectif
principal est la réduction de l’arbre afin d’améliorer le taux d’erreur.
2. les techniques descriptives de datamining visent à mettre en évidence des informations présentes
mais cachées par le volume de données alors que les techniques prédictives visent à extrapoler de
nouvelles informations à partir des informations présentes. Elles se basent essentiellement sur des
modèles qui utilisent des données présentes ou passées pour construire des scénarios futurs.
3. La transformation des données est la transformation d’un attribut A en une autre variable A’ qui
serait selon les objectifs de l’étude, plus appropriée.
Exp 1 : Variable continue en variable discrète et vice versa
Exp 2 : La construction d’agrégats par exemple, le prix au mètre-carré d’un appartement
Exercice 03 (05,50 Pts):

1) On calcul l’entropie sur l’ensemble des données : I(5,6)= - log - log = 0,994 0,5 Pt

Ensuite on calcul le gain de chaque attribut :

Gain (Shape)= I(5,6)-E(Shape)= I(5,6)-( I(2,3)+ I(3,3))=0,008

Gain (Color)= I(5,6)-E(Color)= I(5,6)-( I(3,2)+ I(2,2)+ I(0,1)+ I(0,1)=0,189

Gain (Odor)= I(5,6)-E(Odor)= I(5,6)-( I(3,0)+ I(2,3)+ I(0,3))=0,553

Donc on choisit l’attribut « Odor » avec le gain le plus grand (Gain=0.553) qui représente le nœud la
racine de l’arbre, Donc l’arbre initial sera : Odor 1 Pt
2 3
1
????? N
Y
Instances : 4,5,6,7,8 Instance : 9,10,11
Instances : 1,2,3 Page 1 / 2
La valeur Odor = 2 donne plusieurs valeurs de l’attribut classe, donc, il faut refaire le même travail
(calcul du gain) pour l’ensemble des données S2 ={4,5,6,7,8}. I(S2) =I(2,3)=0,971

Gain (S2, Color)= I(2, 3)-E(S2, Color)=0,971-( I(1,0) + I(1,1)+ I(0,1)+ I(0,1))=0,571

Gain (S2, Shape)= I(2, 3)-E(S2, Shape)=0,971-( I(1,2) + I(1,1))=0,020

Donc on choisit l’attribut « Color» avec le gain le plus grand (Gain=0,571). On aura deux branches
avec des nœuds terminaux et la branche B qui sera nécessairement départagée par le seul attribut
restant à savoir «Shape» et l’arbre final sera : Odor
2 3
1
Color N
Y Instance : 9,10,11
B G ou U W Instances : 1,2,3
Shape N Y 1 Pt
C D Instances : 7,8 Instance : 4
Y N
Instance : 5 Instance : 6
2) La règle qu’on peut déduire est :
(Odor = 1) ⋁ ((Odor = 2) ∧ ((Color = W) ⋁ ((Color = B) ∧ (Shape = C))) 1 Pt
3) La classe est : N 0,25 Pt
4) Il faut calculer la distance entre l’instance N°12 et les 11 autres instances :
D(X,Y)=D1(Xi,Yi) + D2(Xi,Yi)
D1(Xi,Yi)= (P-M) / P tel que : P est le nombre total d’attributs et M le nombre de ressemblance
Qui concerne les deux attributs énumératifs « Odor » et « Color »
D2(Xi,Yi)= 0 si Xi = Yi ; 1 sinon Concerne l’attribut binaire « Shape » 01 Pt
N° Instance D1 D2 D N° Instance D1 D2 D
1 1 1 2 7 0,5 0 0,5
2 1 0 1 8 0 1 1
3 1 0 1 9 1 1 2
4 0,5 0 0,5 10 1 1 2
5 0,5 1 1,5 11 1 0 1
6 0,5 0 0,5
Donc, les instances les plus proches de l’instance N°12 sont : l’instance N° 4, N° 6 et N° 7. 0,25 Pt
La distance utilisée est la distante mixte entre deux type d’attributs (dans notre cas, on a utilisé la
distance de Manhattan) qui représente un calcul de similarité entre instantes afin d’appliquer une
méthode de clustering. 0,5 Pt
Page 2 / 2

Output 15

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Output 15

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSITE DR « YAHIA FARES » DE MEDEA

Faculté des Sciences

Exercice 01 (03 pts : 10 Mn) : Répondez brièvement aux questions suivantes :

Enseignant : Mr K. Boudjebbour Page 1 / 1

Corrigé type EFS S1 : Théorie et pratique du Datamining

Exercice 01 (06 Pts) :

i : instance ; Gk : centroid du groupe k ;

Enseignant : Mr K. Boudjebbour Page 1 / 4

Enseignant : Mr K. Boudjebbour Page 2 / 4

Instance DegStr HrSom Fum Classe réelle Classe prédite

prédite par rapport aux total des non colopathies réelles.

Enseignant : Mr K. Boudjebbour Page 3 / 4

C3 itemset {A,B,C} {A,B,E} {A,C,E} {B,C,E} C4 itemset {A,B,C,E}

Règle CA EA CB EB CE EC

Enseignant : Mr K. Boudjebbour Page 4 / 4

Interrogatoire : Théorie et pratique du Datamining

Exercice 02 (03 pts) : Répondez brièvement aux questions suivantes :

Enseignant : Mr K. Boudjebbour Page 1 / 1

Corrigé Interrogatoire : Théorie et pratique du Datamining

Exercice 01 (02,50 Pts): il faut dessiner la table de dissimilarité (contingence) : Y

Vous aimerez peut-être aussi