Vous êtes sur la page 1sur 5

UNIVERSITE DR « YAHIA FARES » DE MEDEA

Faculté des Sciences


Département de Mathématiques et Informatique Année universitaire : 2017-2018
1ère année Master Informatique ISTW Date : 11/01/2018

EFS S1 : Théorie et pratique du Datamining

Exercice 01 (04,50 Pts): (Répondre sur le sujet)


Répondez brièvement aux questions suivantes :
1. En Classification, quelle est la différence principale entre l’erreur en resubstitution, l’erreur en test
et l’erreur calculée avec les méthodes de rééchantillonage. ?
………………………………………………………………………………………………..….……
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………..….……
………………………………………………………………………………………………………
………………………………………………………………………………………………………

2. Quelle est la stratégie utilisée pour éviter le sur-apprentissage lors de l'apprentissage d'arbres de
décision ? que signifie cette stratégie ?
La stratégie s’appelle ……………………………………….………………………………………
Elle …………………………………………………………………………………………………
………………………………………………………………………………………………………

3. Qu’es ce qu’un motif (itemset) fréquent ?


………………………………………………………………………………………………..….……
………………………………………………………………………………………………………
………………………………………………………………………………………………………

Exercice 02 (3+2,5 = 05,50 Pts) : Utiliser l’algorithme k-means et la distance de Manhattan pour
classer l’ensemble de données en 3 groupes : A(-2,0,1) ; B(0,2,2) ; C(-1,2,-1) ; D(1,-1,1) ; E(1,-1,-1) ;
F(1,1,2) ; G(1,-1,0) ; H(0,1,2)

1. On suppose que les centroïdes initiaux sont B, D et G. Donner le résultat d’exécution de k-means
pour deux (2) boucles (itérations) seulement.

2. Soit la donnée P (-1,1,0). En utilisant la distance de Manhattan, proposer une méthode simple pour
affecter P dans l’un des 3 groupes. A quel groupe sera affectée la donnée P ?

Remarques : - Donner la formule de calcul de la distance


- Donner les détails de calcul pour la première boucle seulement (choix de
l’affectation du point).

Enseignant : Mr K. Boudjebbour Page 1 / 2


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématiques et Informatique Année universitaire : 2017-2018

Exercice 03 (5+1+3+1 = 10 Pts) : N° Age S1 S2 Risque

Dans un hôpital, on souhaite construire un arbre de décision 1 Jeune F V F


pour prédire le risque des patients d’avoir une certaine 2 Jeune V V E

maladie en fonction de leur âge et les deux symptômes 3 Adulte F F F

booléens appelés S1 et S2. L’âge est discrétisé selon trois 4 Senior V F E


5 Senior F V M
valeurs (jeune, adulte et senior) et le risque est évalué selon
6 Jeune F F F
trois classes F (faible), M (Moyen) et E (élève).
7 Adulte V F M
1. Construire l’arbre de décision correspondant à cet
8 Adulte V V M
ensemble de données en utilisant l’algorithme ID3
9 Senior F F F
(détailler les calculs).
10 Senior V V E

2. Donner le risque du patient ayant les valeurs d’attributs (Age=Jeune, S1=V, S2=F)

3. Soit l’ensemble test T ci-contre :


N° Age S1 S2 Risque
• Construisez la matrice de confusion associée à cet
11 Adulte F V F
ensemble T par rapport au modèle généré.
12 Jeune V F F
• Déduisez le pourcentage de classification correcte 13 Senior V F E
(PCC) ainsi que le taux d’erreur 14 Adulte V F M
15 Senior F V M

4. Supposant un cas général avec N classes, On peut bien sûr normaliser la matrice de confusion pour
en simplifier la lecture. Donnez le type que doit rapprocher la matrice de confusion pour que le taux
d’erreur soit le plus faible possible (un meilleur système de classification).

Remarques : La calculatrice personnelle est autorisée, cependant, il est strictement interdit


d’utiliser le téléphone mobile.

☺ Un tiens dans la main vaut mieux que deux tu l'auras ☺

☺ A bird in the hand is worth two in the bush ☺

☺ ‫ﻋﺼﻔﻮر ﰲ اﻟﻴﺪ ﺧﲑ ﻣﻦ ﻋﴩة ﻋﲆ اﻟﺸﺠﺮة‬ ☺

Enseignant : Mr K. Boudjebbour Page 2 / 2


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématiques et Informatique Année universitaire : 2017-2018
EFS S1 : Théorie et pratique du Datamining

Exercice 01 (04,50 Pts): Répondez brièvement aux questions suivantes : 1,5 Pt


1. L’erreur en resubstitution est l’erreur calculée à partir du même ensemble de données qui a servis à la
construction du modèle de classification alors que l’erreur en test est l’erreur calculée à partir d’une
partie distincte de la partie qui à servis à la construction du modèle de classification. L’erreur calculée
avec les méthodes de rééchantiollnage est utiliséé lorsque la BDD est de petite taille, c’est une
combinaison de l’erreur en resubstitution et en test appliquées plusieurs fois sur la BDD.

2. La stratégie s’appelle L’élagage. Elle Supprime les sous-arbres qui n’améliorent pas l’erreur de la
classification 1,5 Pt
1,5 Pt
3. Un motif fréquent est un ensemble d’items qui interviennent fréquemment ensemble dans une BDD.

Exercice 02 (3+2,5 = 05,50 Pts) :


1. K-Means sur l’ensemble des données A,B,C,D,E,F,G,H et B, D et G comme centres initiaux pour
générer 3 clusters avec la distance de Manhattan : d(X,Y) = ∑
| − |
Calculs :
Centres B(0,2,2) J(0,3/2,5/4) d(A,B) =|−2 − 0|+|0 − 2|+|1 − 2|=5
D(1,-1,1) K(-1/2,-1/2,1) d(A,D) =|−2 − 1|+|0 + 1|+|1 − 1|=4
Données G(1,-1,0 ) L(1,-1,-1/2) d(A,G) =|−2 − 1|+|0 + 1|+|1 − 0|=5
A(-2,0,1) D K donc A est plus proche de D.
B(0,2,2) B J
ARRET

d(C,B) =|−1 − 0|+|2 − 2|+|−1 − 2|=4


C(-1,2,-1 ) B J d(C,D) =|−1 − 1|+|2 + 1|+|−1 − 1|=7 3 Pt
D(1,-1,1 ) D L d(C,G) =|−1 − 1|+|2 + 1|+|−1 − 0|=6
donc C est plus proche de B.
E(1,-1,-1 ) G L
F(1,1,2 ) B J d(E,B) =|1 − 0|+|−1 − 2|+|−1 − 2|=7
d(E,D) =|1 − 1|+|−1 + 1|+|−1 − 1|=2
G(1,-1,0 ) G L
d(E,G) =|1 − 1|+|−1 + 1|+|−1 − 0|=1
H(0,1,2 ) B J donc E est plus proche de G.
d(F,B) =|1 − 0|+|1 − 2|+|2 − 2|=2 ; d(F,D) =|1 − 1|+|1 + 1|+|2 − 1|=3 ;
d(F,G) =|1 − 1|+|1 + 1|+|2 − 0|=4 donc F est plus proche de B.
d(H,B) =|0 − 0|+|1 − 2|+|2 − 2|=1 ; d(H,D) =|0 − 1|+|1 + 1|+|2 − 1|=4 ;
d(H,G) =|0 − 1|+|1 + 1|+|2 − 0|=5 donc H est plus proche de B.
Ensuite on calcule les nouveaux centres :
J =((0-1+1+0)/4,(2+2+1+1)/4,(2-1+2+2)/4)=(0,3/2,5/4) ; K =((-2+1)/2,(0-1)/2,(1+1)/2)=(-1/2,-1/2,1) et
H =((1+1)/2,(-1-1)/2,(-1+0)/2)=(1,-1,-1/2)
Et on refait les mêmes calculs pour les nouveaux centres avec les huit données pour la 2ème boucle.

2. La méthode la plus évidente est le calcule de la similarité entre P et les centres des nouveaux groupes
a) Centroïde du 1er groupe (A) : X1(-2,0,1)
1,5 Pt
b) Centroïde du 2ème groupe (B,C,F,H) : X2(0,3/2,5/4)
c) Centroïde du 3ème groupe (D,E,G) : X3(1,-1,0)
D(P,X1)=3 ; D(P,X2)=11/4 ; D(P,X3)=4 ; Donc P est affectée au groupe de la donnée A. 1 Pt
Exercice 03 (5+1+3+1 = 10 Pts) :
1) On calcul l’entropie sur l’ensemble des données :
     
I(4,3,4)= - log - log - log =1,571 1 Pt







Ensuite on calcul le gain de chaque attribut :
  
Gain (Age)= I(4,3,4)-E(Age)= I(4,3,4)-( I(2,0,1)+ I(1,2,0)+ I(1,1,2))= 1,571-1,154=0,417




 
Gain (S1)= I(4,3,4)-E(S1)= I(4,3,4)-( I(4,1,0)+ I(0,2,3))= 1,571-0,847=0,724 1,5 Pt



 
Gain (S2)= I(4,3,4)-E(S2)= I(4,3,4)-( I(1,2,2)+ I(3,1,1))= 1,571-1,446=0,125



Donc on choisit l’attribut « S1 » avec le gain le plus grand (Gain=0.724) qui représente le nœud la racine
de l’arbre, Donc l’arbre initial sera : S1
V F
Instances : 2,4,7,8,10 ??? ??? Instances : 1,3,5,6,9
il faut refaire le même travail (calcul du gain) pour l’ensemble des données S1V ={2,4,7,8,10}.
I(S1V) =I(0,2,3)=0,971

 
Gain (S1V,Age)= I(0,2,3)-E(S1V,Age)=0,971-( I(0,0,1) + I(0,0,2)+ I(0,2,0))=0,971 1 Pt
  
 
Gain (S1V,S2)= I(0,2,3)-E(S1V,S2)=0,971-( I(0,1,2) + I(0,1,1))=0,020
 
Et faire le même travail (calcul du gain) pour l’ensemble des données S1F ={1,3,5,6,9}.
I(S1F) =I(4,1,0)=0,722


Gain (S1F,Age)= I(4,1,0)-E(S1F,Age)=0,722-( I(2,0,0) + I(1,0,0)+ I(1,1,0))=0,322 1 Pt
  
 
Gain (S1F,S2)= I(4,1,0)-E(S1F,S2)=0,722-( I(3,0,0) + I(1,1,0))=0,322
 
Donc on choisit l’un des deux attributs car les deux gains sont égaux et l’arbre final sera :
S1
V F
Age Age
0,5 Pt
Senior ou Jeune Adulte Adulte ou jeune Senior

E M F S2
Instances : 2,4,10 Instances : 7,8 Instances : 1,3,6 V F

M F
Instance : 5 Instance : 9
2) Le risque du patient ayant les valeurs d’attributs (Age=Jeune, S1=V, S2=F) est : Elevé (E). 1 Pt
3) On applique l’ensemble test T sur l’arbre de décision et on trouve le risque prédit :

N° Age S1 S2 Risque Réel Risque Prédit Prédiction


11 Adulte F V F F Juste
12 Jeune V F F E Fausse
13 Senior V F E E Juste 1 Pt
14 Adulte V F M M Juste
15 Senior F V M M Juste
• Matrice de confusion :

Classe prédite (Risque prédit)


1 Pt Faible(F) Moyen (M) Elevé (E) Total
Classe réelle Faible(F) 1 0 1 2
(Risque réel) Moyen (M) 0 2 0 2
Elevé (E) 0 0 1 1
Total 1 2 2 5

• PCC = Nombre d’instances correctement classées/nombre total d’instances test=4/5 =0,8


• Taux d’erreur = 1-PCC = 0,2= 20% 1 Pt

4) Supposant un cas général avec N classes, la matrice de confusion se rapproche d’une matrice
diagonale afin que le modèle de classification soit le meilleur (taux d’erreur faible). 1 Pt

Vous aimerez peut-être aussi