2. Quelle est la stratégie utilisée pour éviter le sur-apprentissage lors de l'apprentissage d'arbres de
décision ? que signifie cette stratégie ?
La stratégie s’appelle ……………………………………….………………………………………
Elle …………………………………………………………………………………………………
………………………………………………………………………………………………………
Exercice 02 (3+2,5 = 05,50 Pts) : Utiliser l’algorithme k-means et la distance de Manhattan pour
classer l’ensemble de données en 3 groupes : A(-2,0,1) ; B(0,2,2) ; C(-1,2,-1) ; D(1,-1,1) ; E(1,-1,-1) ;
F(1,1,2) ; G(1,-1,0) ; H(0,1,2)
1. On suppose que les centroïdes initiaux sont B, D et G. Donner le résultat d’exécution de k-means
pour deux (2) boucles (itérations) seulement.
2. Soit la donnée P (-1,1,0). En utilisant la distance de Manhattan, proposer une méthode simple pour
affecter P dans l’un des 3 groupes. A quel groupe sera affectée la donnée P ?
2. Donner le risque du patient ayant les valeurs d’attributs (Age=Jeune, S1=V, S2=F)
4. Supposant un cas général avec N classes, On peut bien sûr normaliser la matrice de confusion pour
en simplifier la lecture. Donnez le type que doit rapprocher la matrice de confusion pour que le taux
d’erreur soit le plus faible possible (un meilleur système de classification).
2. La stratégie s’appelle L’élagage. Elle Supprime les sous-arbres qui n’améliorent pas l’erreur de la
classification 1,5 Pt
1,5 Pt
3. Un motif fréquent est un ensemble d’items qui interviennent fréquemment ensemble dans une BDD.
2. La méthode la plus évidente est le calcule de la similarité entre P et les centres des nouveaux groupes
a) Centroïde du 1er groupe (A) : X1(-2,0,1)
1,5 Pt
b) Centroïde du 2ème groupe (B,C,F,H) : X2(0,3/2,5/4)
c) Centroïde du 3ème groupe (D,E,G) : X3(1,-1,0)
D(P,X1)=3 ; D(P,X2)=11/4 ; D(P,X3)=4 ; Donc P est affectée au groupe de la donnée A. 1 Pt
Exercice 03 (5+1+3+1 = 10 Pts) :
1) On calcul l’entropie sur l’ensemble des données :
I(4,3,4)= - log - log - log =1,571 1 Pt
Ensuite on calcul le gain de chaque attribut :
Gain (Age)= I(4,3,4)-E(Age)= I(4,3,4)-( I(2,0,1)+ I(1,2,0)+ I(1,1,2))= 1,571-1,154=0,417
Gain (S1)= I(4,3,4)-E(S1)= I(4,3,4)-( I(4,1,0)+ I(0,2,3))= 1,571-0,847=0,724 1,5 Pt
Gain (S2)= I(4,3,4)-E(S2)= I(4,3,4)-( I(1,2,2)+ I(3,1,1))= 1,571-1,446=0,125
Donc on choisit l’attribut « S1 » avec le gain le plus grand (Gain=0.724) qui représente le nœud la racine
de l’arbre, Donc l’arbre initial sera : S1
V F
Instances : 2,4,7,8,10 ??? ??? Instances : 1,3,5,6,9
il faut refaire le même travail (calcul du gain) pour l’ensemble des données S1V ={2,4,7,8,10}.
I(S1V) =I(0,2,3)=0,971
Gain (S1V,Age)= I(0,2,3)-E(S1V,Age)=0,971-( I(0,0,1) + I(0,0,2)+ I(0,2,0))=0,971 1 Pt
Gain (S1V,S2)= I(0,2,3)-E(S1V,S2)=0,971-( I(0,1,2) + I(0,1,1))=0,020
Et faire le même travail (calcul du gain) pour l’ensemble des données S1F ={1,3,5,6,9}.
I(S1F) =I(4,1,0)=0,722
Gain (S1F,Age)= I(4,1,0)-E(S1F,Age)=0,722-( I(2,0,0) + I(1,0,0)+ I(1,1,0))=0,322 1 Pt
Gain (S1F,S2)= I(4,1,0)-E(S1F,S2)=0,722-( I(3,0,0) + I(1,1,0))=0,322
Donc on choisit l’un des deux attributs car les deux gains sont égaux et l’arbre final sera :
S1
V F
Age Age
0,5 Pt
Senior ou Jeune Adulte Adulte ou jeune Senior
E M F S2
Instances : 2,4,10 Instances : 7,8 Instances : 1,3,6 V F
M F
Instance : 5 Instance : 9
2) Le risque du patient ayant les valeurs d’attributs (Age=Jeune, S1=V, S2=F) est : Elevé (E). 1 Pt
3) On applique l’ensemble test T sur l’arbre de décision et on trouve le risque prédit :
4) Supposant un cas général avec N classes, la matrice de confusion se rapproche d’une matrice
diagonale afin que le modèle de classification soit le meilleur (taux d’erreur faible). 1 Pt