Vous êtes sur la page 1sur 6

UNIVERSITE DR « YAHIA FARES » DE MEDEA

Faculté des Sciences


Département Informatique Année universitaire : 2016-2017
1ère année Master ISTW Date : 04/12/2016

Interrogatoire : Théorie et pratique du Datamining

Exercice 01 : Soient les deux individus suivants correspondant à des séquences ADN :
X = AGGGTGGC et Y = AGGCGTAA
1. Dans quel espace « vivent » les points X et Y ? a quelle dimension ?
2. Si on code : A=0, G=1, C=2 et T=3, quelle est la distance euclidienne d(X,Y) ?
Cela a-t-il un sens en terme de similitude entre les séquences ADN X et Y? Expliquez notamment en
comparant d(A,G) et d(A,T) ?
3. Calculer la matrice de contingence associée A(X,Y). En déduire la distance de Hamming associée. A
quoi la valeur trouvée correspond-elle pratiquement ?
Exercice 02 : Répondez brièvement aux questions suivantes :
1. Le Datamining est un processus inductif, itératif et/ou Interactif de découverte dans les bases de
données larges de modèles de données valides, nouveaux, utiles et compréhensibles. Expliquez ?
2. Que représentent les méthodes Stepdisk, Wrapper, FCBF et pour quelle raison elles sont utilisées ?
3. Quelle est la différence entre les méthodes de partitionnement et les méthodes hiérarchiques ?
Exercice 03 : On considère les données suivantes :
N° cheveux taille poids crème solaire classe
1 blond moyenne léger non Oui = coup de soleil
2 blond grande moyen oui Non = bronzé
3 brun petite moyen oui Non = bronzé
4 blond petite moyen non Oui = coup de soleil
5 roux moyenne lourd non Oui = coup de soleil
6 brun grande lourd non Non = bronzé
7 brun moyenne lourd non Non = bronzé
8 blond petite léger oui Non = bronzé
1. On suppose que les individus sont décrits à l'aide des quatre attributs cheveux, taille, poids et crème
solaire. Construire l'arbre de décision produit par l'algorithme d'apprentissage ID3 en utilisant la
fonction Entropie et la fonction gain associée (lors de l’égalité des gains, le choix des attributs est dans
l’ordre: cheveux, taille, poids et crème solaire). Détailler les calculs pour le choix des attributs.
2. Déduire de l'arbre trouvé une seule règle comportant une disjonction, une conjonction et une négation.
3. En utilisant l’arbre construit, classer l’instance N°9: blond, moyenne, lourd, non.
4. En utilisant l’ensemble des huit instances, et en supposant que l’attribut crème solaire est énumératif,
dites lequel des instances est plus proche de l’instance N° 9 ? que représentent ces calculs (donner le
nom de ces calculs) ?
☺ To succeed in life one must have the courage to pursue what he wants ☺

Enseignant : Mr K. Boudjebbour Page 1 / 1


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département Informatique Année universitaire : 2016-2017
1ère année Master ISTW
Corrigé type de l’interrogatoire : DataMining
Exercice 01 (05 Pts) : Soient les deux individus suivants correspondant à des séquences ADN :
X = AGGGTGGC et Y = AGGCGTAA
1. les points X et Y vivent dans l’espace {A, C, G, T}, la dimension représente le nombre
1 Pt
d’attributs qui est égal à 8.
2. Si on code : A=0, G=1, C=2 et T=3, la distance euclidienne d(X,Y) = ∑
( − ) =√14
1 Pt

Cela n’a pas de sens en terme de similitude entre les séquences ADN X et Y, car ce n’est pas une
1 Pt
distance qui convient à un tel espace discret (variables discrètes), notamment si on calcul d(A,G)=1 et
d(A,T)=3 et pourtant a priori A est aussi différent de G que de T.
3. la matrice de contingence associée A(X,Y), en considérant X selon les lignes et Y selon les
colonnes dans l’ordre A, C, G, et T est :
   
 1 0 0 0  1 Pt
A=  1 0 0 0
 1 1 2 1
 0 0 1 0
Donc, la distance de Hamming associée est dHamming(X,Y)=5.
1 Pt
Elle correspond pratiquement au nombre de coordonnées différentes entre les deux vecteurs X et Y.
Exercice 02 (5 Pts) :
1.
Inductif : Généralisation d’une observation ou d’un raisonnement établis à partir de cas singuliers.
Itératif : Nécessite plusieurs passes (instructions).
Interactif : L’utilisateur est dans la boucle du processus.
2 Pt
Valides : Valable dans le futur.
Nouveaux : Non prévisibles.
Utiles : Permettent à l’utilisateur de prendre des décisions.
Compréhensibles : Présentation simple.
2. Les méthodes Stepdisk, Wrapper, FCBF sont des méthodes de Sélection de variables (attributs)
- Elles sont utilisées pour réduire le nombre d’attributs (variables) 1 Pt
3. Dans les méthodes de partitionnement le nombre de cluster est définit avant le lancement de
1 Pt l’algortihme contrairement aux méthodes hiérarchique. Aussi les méthodes de partitionnement ne
travaillent qu’avec des données numériques seulement.

Exercice 03(10 Pts) :

log - log = 0,954


  # #
   
1) On calcul l’entropie sur l’ensemble des données : I(3,5)= - 1 Pt

Enseignant : Mr K. Boudjebbour Page 1 / 2


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département Informatique Année universitaire : 2016-2017

Gain (cheveux)= I(3,5)-E(cheveux)= I(3,5)-( I(2,2)+ I(0,3)+ I(1,0)=0,454


% 
Ensuite on calcul le gain de chaque attribut :

  
Gain (taille)= I(3,5)-E(taille)= I(3,5)-( I(2,1)+ I(0,2)+ I(1,2)=0,266
 
  
Gain (poids)= I(3,5)-E(poids)= I(3,5)-( I(1,1)+ I(1,2) )+ I(2,1))=)=0,0155
 
1 Pt

  
Gain (crème solaire)= I(3,5)-E(crème solaire)= I(3,5)-( I(3,2)+ I(0,3))=0,347
# 
 
Donc on choisit l’attribut « cheveux » avec le gain le plus grand (Gain=0.454) qui représente le nœud
la racine de l’arbre, Donc l’arbre initial sera : Cheveux
Blond Roux
Brun 1 Pt
????????? Coup de soleil
Instances : 1,2,4,8 Bronzé Instance : 5
Instances : 3,6,7
La valeur cheveux = blond donne plusieurs valeurs de l’attribut classe, donc, il faut refaire le mème
travail (calcul du gain) pour l’ensemble des données Sblond ={1,2,4,8}.

Gain (Sblond , taille)= I(2,2)-E(Sblond ,taille)= 1-( I(1,0)+ I(0,1)+ I(1,1)=0,5



I(Sblond) =I(2,2)=1

% % %
Gain (Sblond , poids)= I(2,2)-E(Sblond ,poids)= 1-( I(1,1)+ I(1,1))=0

1 Pt

% %
Gain (Sblond , crème solaire)= I(2,2)-E(Sblond ,crème solaire)=1-( I(2,0)+ I(0,2))=1

% %
Donc on choisit l’attribut « crème solaire » avec le gain le plus grand (Gain=1) et l’arbre final sera :
Cheveux
Blond Brun Roux

1 Pt Crème solaire Bronzé Coup de soleil

Oui Instances : 3,6,7 Instance : 5


Non

Bronzé Coup de soleil


Instances : 2,8 Instances : 1,4

((cheveux = Blanc) ∧¬ crème solaire) 1 Pt


2) La règle qu’on peut déduire est :
(cheveux = Roux) ⋁
3) La classe est : coup de soleil 1 Pt
4) Il faut calculer la distance entre l’instance N°9 et les 8 autres instances :

1 Pt D(X,Y)= (P-M) / P tel que : P est le nombre total d’attributs et M le nombre de ressemblance
 % 
% % % % % % % %
D(9,1) = ; D(9,2) = ; D(9,3) = ; D(9,4) = ; D(9,5) = ; D(9,6) = ; D(9,7) = ; D(9,8) = ;
2 Pts
Donc, les instances les plus proches de l’instance N°9 sont : l’instance N° 1, N° 5 et N° 7.

Enseignant : Mr K. Boudjebbour Page 2 / 2


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématique et Informatique Année universitaire : 2017-2018

Interrogatoire : Théorie et pratique du Datamining

Exercice 01 (02 pts) : Supposons qu’on veut utiliser des données binaires dans un processus de
clustering. Citer (ou proposer) une (des) mesure(s) de similarité (distance(s)) pour ce type de données.
Evaluer la (les) distance(s) entre les objets X = 0101010001 et Y = 0100011000. Que remarquez-vous ?
Déduisez la distance de Hamming associée. A quoi la valeur trouvée correspond-elle ?

Exercice 02 (03 pts) : Répondez brièvement aux questions suivantes :


1. Que signifie l’élagage et quel est son objectif ?
2. Quelle est la différence entre les techniques descriptives et les techniques prédictives de datamining ?
3. Dans le processus ECD, une phase de préparation des données est nécessaire. Que signifie la
transformation des données ? expliquer en donnant des exemples

Exercice 03 (05 pts) : Soit l’ensemble d’apprentissage ci-dessous. La classe est « Edible ».
N° Shape Color Odor Edible
1 C B 1 Y
2 D B 1 Y
3 D W 1 Y
4 D W 2 Y
5 C B 2 Y
6 D B 2 N
7 D G 2 N
8 C U 2 N
9 C B 3 N
10 C W 3 N
11 D W 3 N
1. En utilisant l’algorithme ID3 et le gain d’information, construire l’arbre de décision du dataset. Donner
les détails des calculs.
2. Déduire de l'arbre trouvé une seule règle comportant 2 disjonctions et 2 conjonctions au maximum.
3. En utilisant l’arbre construit, classer l’instance N°12: Shape=C, Color=G, Odor=2.
4. En utilisant l’ensemble des onze instances, et en supposant que les attributs « Color » et « Odor » sont
des variables énumératives, dites lequel des instances est plus proche de l’instance N° 12 ? quelle est la
distance utilisée ? Que représentent ces calculs (donner le nom de ces calculs) ?
☺ To succeed in life one must have the courage to pursue what he wants ☺

Enseignant : Mr K. Boudjebbour Page 1 / 1


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématique et Informatique Année universitaire : 2017-2018

Corrigé Interrogatoire : Théorie et pratique du Datamining

Exercice 01 (02,50 Pts): il faut dessiner la table de dissimilarité (contingence) : Y


0,5 Pt
on a trois cas possibles :
1 0
1. Similarité invariante, si toutes les variables sont symétriques (Coefficient de
correspondance simple) :
  1 2 2
D1(X,Y) ===0,3 0,5 Pt X
2. Similarité non invariante, si toutes les variables sont asymétriques (Coefficient 0 1 5
de Jaccard):
 
D2(X,Y) = = =0,6 0,5 Pt

3. Si les variables sont symétriques et asymétriques : il faut spécifier la nature de chaque variable. 0,25 Pt

0,5 Pt Malgré que D1 et D2 représentent deux distances entre les mêmes instances, on remarque que qu’elles
sont très éloignées car D2=2*D1
Distance de hamming = b+c = 3. Elle représente le nombre de caractéristiques différentes entre x et y. 0,25 Pt
Exercice 02 (03 Pts) :
1. L’élagage est la suppression de quelques sous-arbres dans la l’arbre de décision. Son objectif
principal est la réduction de l’arbre afin d’améliorer le taux d’erreur.
2. les techniques descriptives de datamining visent à mettre en évidence des informations présentes
mais cachées par le volume de données alors que les techniques prédictives visent à extrapoler de
nouvelles informations à partir des informations présentes. Elles se basent essentiellement sur des
modèles qui utilisent des données présentes ou passées pour construire des scénarios futurs.
3. La transformation des données est la transformation d’un attribut A en une autre variable A’ qui
serait selon les objectifs de l’étude, plus appropriée.
Exp 1 : Variable continue en variable discrète et vice versa
Exp 2 : La construction d’agrégats par exemple, le prix au mètre-carré d’un appartement
Exercice 03 (05,50 Pts):
 
1) On calcul l’entropie sur l’ensemble des données : I(5,6)= - log - log = 0,994 0,5 Pt
   
Ensuite on calcul le gain de chaque attribut :

Gain (Shape)= I(5,6)-E(Shape)= I(5,6)-( I(2,3)+ I(3,3))=0,008
 
  
Gain (Color)= I(5,6)-E(Color)= I(5,6)-( I(3,2)+ I(2,2)+ I(0,1)+ I(0,1)=0,189
   
 
Gain (Odor)= I(5,6)-E(Odor)= I(5,6)-( I(3,0)+ I(2,3)+ I(0,3))=0,553
  
Donc on choisit l’attribut « Odor » avec le gain le plus grand (Gain=0.553) qui représente le nœud la
racine de l’arbre, Donc l’arbre initial sera : Odor 1 Pt
2 3
1
????? N
Y
Instances : 4,5,6,7,8 Instance : 9,10,11
Instances : 1,2,3 Page 1 / 2
UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématique et Informatique Année universitaire : 2017-2018
La valeur Odor = 2 donne plusieurs valeurs de l’attribut classe, donc, il faut refaire le même travail
(calcul du gain) pour l’ensemble des données S2 ={4,5,6,7,8}. I(S2) =I(2,3)=0,971
   
Gain (S2, Color)= I(2, 3)-E(S2, Color)=0,971-( I(1,0) + I(1,1)+ I(0,1)+ I(0,1))=0,571

 
Gain (S2, Shape)= I(2, 3)-E(S2, Shape)=0,971-( I(1,2) + I(1,1))=0,020

Donc on choisit l’attribut « Color» avec le gain le plus grand (Gain=0,571). On aura deux branches
avec des nœuds terminaux et la branche B qui sera nécessairement départagée par le seul attribut
restant à savoir «Shape» et l’arbre final sera : Odor
2 3
1
Color N
Y Instance : 9,10,11
B G ou U W Instances : 1,2,3

Shape N Y 1 Pt
C D Instances : 7,8 Instance : 4

Y N
Instance : 5 Instance : 6
2) La règle qu’on peut déduire est :
(Odor = 1) ⋁ ((Odor = 2) ∧ ((Color = W) ⋁ ((Color = B) ∧ (Shape = C))) 1 Pt
3) La classe est : N 0,25 Pt
4) Il faut calculer la distance entre l’instance N°12 et les 11 autres instances :
D(X,Y)=D1(Xi,Yi) + D2(Xi,Yi)
D1(Xi,Yi)= (P-M) / P tel que : P est le nombre total d’attributs et M le nombre de ressemblance
Qui concerne les deux attributs énumératifs « Odor » et « Color »
D2(Xi,Yi)= 0 si Xi = Yi ; 1 sinon Concerne l’attribut binaire « Shape » 01 Pt

N° Instance D1 D2 D N° Instance D1 D2 D
1 1 1 2 7 0,5 0 0,5
2 1 0 1 8 0 1 1
3 1 0 1 9 1 1 2
4 0,5 0 0,5 10 1 1 2
5 0,5 1 1,5 11 1 0 1
6 0,5 0 0,5
Donc, les instances les plus proches de l’instance N°12 sont : l’instance N° 4, N° 6 et N° 7. 0,25 Pt
La distance utilisée est la distante mixte entre deux type d’attributs (dans notre cas, on a utilisé la
distance de Manhattan) qui représente un calcul de similarité entre instantes afin d’appliquer une
méthode de clustering. 0,5 Pt

Page 2 / 2

Vous aimerez peut-être aussi