Ilovepdf Merged

Université Mohamed Khider-Biskra
Faculté des sciences exactes et des sciences de la nature et de la vie

Département d’informatique
Master IDM Fouille de Données Avancée

28 Jan 2013 10:00-11:30, Salle 5
Corrigé type de l’examen
Questions de cours (4 pts)

1. En apprentissage supervisé, la différence fondamentale entre classification et régression
est que la classification est utilisée pour prédire les classes discrètes (catégorielles) tandis
que la régression est utilisée pour prédire les classes continues (numériques).
2. Le phénomène de sur-apprentissage apparait lorsqu’on obtient des modèles qui recon-
naissent parfaitement les exemples utilisés lors de l’apprentissage et échouent face aux
nouveaux exemples.
3. La stratégie utilisée pour éviter le sur-apprentissage lors de l’apprentissage d’arbres de
décision est l’élagage.
4. Les méthode d’évaluation des techniques d’apprentissage sont diverses telles que la vali-
dation croisée, le bootstrap, leave one out, ...etc. (voir le cours pour les principes)
Exercice 1 Motifs fréquents (10.5 pts : 4 + 2.5 + 2.5 + 1.5)
1. Les motifs fréquents :

F1={ Lait,Couches,Pain,,Beurre,Jus,Sucre }
F2= { Lait Couches,Lait Pain, Lait Beurre,Couches Pain,Couches Beurre,Couches Jus,
Couches Sucre, Pain Beurre,Jus Sucre }
F3= {Lait Couches Pain, Lait Couches Beurre, Lait Pain Beurre,Couches Pain Beurre }
F4= { Lait Couches Pain Beurre }
Motifs fréquents = { F1 ∪ F2 ∪ F3 ∪ F4 }
2. Motifs fréquents fermés = { Lait,Couches, Jus, Sucre, Lait Couches, Couches Jus, Couches
Sucre, Pain Beurre, Jus Sucre , Lait Pain Beurre, Couches Pain Beurre, Lait Couches Pain
Beure }
3. Motifs fréquents maximaux = { Couches Jus, Couches Sucre, Jus Sucre, Lait Couches
Pain Beure }
4. Les règles solides d’association de type A, B ⇒ C sont :
Lait Beurre ⇒ Pain
Lait Pain ⇒ Beurre
Couches Beurre ⇒ Pain
Couches Pain ⇒ Beurre
Exercice 2 Classification (5.5 pts : 4 + 0.5 + 1)
1. L’arbre souhaité en utilisant l’algorithme ID3 :
1
2. Le risque du patient ayant les attributs (Jeune,V,F) selon l’arbre construit est E.
3. Le risque du même patient en utilisant la classification bayésienne naı̈ve :
X = (Jeune,V,F)
P(X/Risque=F) = P(Age=Jeune/Risque=F)xP(S1=V/Risque=F)xP(S2=F/Risque=F)
x P(P(Risque=F)
= 0.5 x 0 x ... = 0
P(X/Risque=E) = P(Age=Jeune/Risque=E)xP(S1=V/Risque=E)xP(S2=F/Risque=E)
x P(P(Risque=E)
= 1/3 x 3/3 x 1/3 x 3/10 = 9/90 = 0.1
P(X/Risque=M) = P(Age=Jeune/Risque=M)xP(S1=V/Risque=M)xP(S2=F/Risque=M)
x P(P(Risque=M)
= 0 x ... = 0
Le risque est celui de la classe de probabilité max c-à-d E.
Dr A.Djeffal
2
Université Med Boudiaf -M’sila M’sila, le 01/02/2011
Faculté des Mathématiques et d’Informatique
Département d’Informatique
Module : Data Mining et Recherche d’Information
Master 2/ S.I. Avancés
Durée : 1h 30
Examen Semestriel
Exercice 1 (2 points)
En utilisant Google, vous tapez le mot « souvenir » puis le mot « qouvenir ». Quelle est la réponse de Google
pour le premier et le 2ème mot ? Expliquez.
Etant données les valeurs tf et df du tableau ci-contre, Terme df Doc1-tf Doc2-tf Doc3-tf
calculer pour chaque document, le tf*idf des termes Car 200 1 100 10
suivants: car, auto, assurance, bon. auto 20 1 10 1
assurance 2 000 100 10 1
Il y a au total 200 000 documents. On utilisera bon 20 000 100 1 000 10
le logarithme base 10.
a b c d e
Considérer la matrice de dissimilarité suivante P.
0 4 9 6 5
Déterminer les dendrogrammes résultants de l’application du
« single link algorithm », puis du « complete link algorithm » sur 4 0 3 8 7
P et commentez. 9 3 0 3 2
6 8 3 0 1
5 7 2 1 0
Soit le tableau de données suivant.
Les valeurs possibles des attributs du N° Humidité Climat Température Golf
tableau sont : 1 haute soleil chaud NePasJouer
Humidité : normale, haute 2 haute soleil chaud NePasJouer
Climat : soleil, couvert, pluie 3 haute couvert chaud Jouer
Température : chaud, bon, frais 4 haute pluie bon Jouer
5 normale pluie frais Jouer
La colonne « Golf » donne les classes : 6 normale pluie frais NePasJouer
Jouer, NePasJouer. 7 normale couvert frais Jouer
8 haute soleil bon NePasJouer
En utilisant l’entropie comme critère de sélection, 9 normale soleil frais Jouer
déterminer l’attribut qui sera la racine de l’arbre 10 normale pluie bon Jouer
de décision. 11 normale soleil bon Jouer
N.B. On pourra utiliser la formule : 12 haute couvert on Jouer
log2(x) = log10(x) / log10(2). 13 normale couvert chaud Jouer
14 haute pluie bon NePasJouer
Soit la table suivante des transactions d’un magasin. Transaction ID Items

En utilisant l’algorithme Apriori, déterminer l’ensemble des 001 A, C, D
itemset fréquents et extraire les différentes règles possibles. 002 B, C, E
(Support Minimum=10%). 003 A, B, C, E
004 B, E
Bonne réussite
T. Mehenni
DATA MINING ET RECHERCHE D’INFORMATION Responsable du cours :
CORRECTION DE L’EXAMEN (2010/2011) T. Mehenni
Le moteur Google affichera les résultats de recherche du mot « souvenir ».

Pour le mot « qouvenir », Google affichera un message que le mot correct est peut être « souvenir », et donne
les résultats du mot « souvenir » car il ne peut pas trouver des résultats correspondants au mot « qouvenir ».
Google est muni de cette fonctionnalité qui propose à l’utilisateur des mots proches du mot tapé, quand celui-
ci est incorrect, mal orthographié ou non familier. Pour le mot « qouvenir », Google estime qu’il y a eu peut
être une erreur de frappe et que l’utilisateur au lieu de taper le mot « souvenir », a tapé le mot « qouvenir » car
les deux lettres « s » et « q » sont proches sur le clavier.
On a tf*idf=tf*log(d/df).
- Mot « car » : idf=log(200 000/200)=3 …………………………………….(4* 0.25 pt)
- Doc1 : tf*idf = 1 * 3 = 3
- Doc2 : tf*idf = 100 * 3 = 300
- Doc3 : tf*idf = 10 * 3 = 30
- Mot « auto » : idf=log(200 000/20)=4 …………………………………….(4* 0.25 pt)
- Doc1 : tf*idf = 1 * 4 = 4
- Doc2 : tf*idf = 10 * 4 = 40
- Doc3 : tf*idf = 1* 4 = 4
- Mot « assurance » : idf=log(200 000/2000)=2 ……………………………….(4* 0.25 pt)
- Doc1 : tf*idf = 100 * 2 = 200
- Doc2 : tf*idf = 10 * 2 = 20
- Doc3 : tf*idf = 1 * 2 = 2
- Mot « bon » : idf=log(200 000/20 000)=1 …………………………….(4* 0.25 pt)
- Doc1 : tf*idf = 100 * 1 =100
- Doc2 : tf*idf = 1000 * 1 = 1000
- Doc3 : tf*idf = 10 * 1 = 10
- Simple link algorithm : ………………………………………………………….(4* 0.25 pt)
a b c d e
a 0 a b c de
b 4 0 a 0 a b Cde
c 9 3 0 b 4 0 a 0 a bcde
d 6 8 3 0 c 9 3 0 b 4 0 a 0
e 5 7 2 1 0 de 5 7 2 0 cde 5 3 0 bcde 4 0
grouper (a, b) grouper (c, de) grouper (b, cde) grouper(a, bcde)
- Complete link algorithm : ……………………………………………………….(4 * 0.25 pt)
a b c d e
a 0 a b c de
b 4 0 a 0 a b cde
c 9 3 0 b 4 0 a 0 ab cde
d 6 8 3 0 c 9 3 0 b 4 0 ab 0
e 5 7 2 1 0 de 6 8 3 0 cde 9 8 0 cde 9 0
grouper (a, b) grouper (c, de) grouper (a, b) grouper(a, bcde)
1/4
Les dendrogrammes : ……………………………………………………….(2 pts)
4 4
3 3
2
1 1
a b c d e a b c d e
single link complete link
Entropie =-p(c1) log(p(c1)) - p(c1) log(p(c1))

Gain=Entropie-n1/n [p(c1) log(p(c1))] – n2/n [p(c1) log(p(c1))]
Calcul de l’entropie des données initiales :

C1 : 9 lignes concernant la classe « Jouer »
C2 : 5 lignes concernant la classe « NePasJouer »
Total=14
Entropie = -9/14 log(9/14) - 5/14 log(5/14) = 0.123 + 0.159 = 0.282 …………………..……….(1 pt)
Calcul du gain de l’attribut Humidité :

Répartition des classes selon les valeurs de l’attribut : ………………………………………….(0.5 pt)
Jouer NePasJouer ni/n
P1 (haute) 3 4 7/14
P2 (normale) 6 1 7/14
Entropie(P1)= - 3/7 log(3/7) - 4/7 log(4/7) = 0.157 + 0.138 = 0.259

Gain(Humidité)= 0.282 – 7/14 * 0.259 – 7/14 * 0.177 = 0.046 ……………….……….……….(0.5 pt)
Calcul du gain de l’attribut Climat :

Répartition des classes selon les valeurs de l’attribut : ………………………………………….( 0.5 pt)
P1 (soleil) 2 3 5/14
P2 (couvert 4 0 4/14
P3 (pluie) 3 2 5/14

Entropie(P2)= - 4/4 log(4/4) = 0
Gain(Climat)= 0.282 – 5/14 * 0.292 – 5/14 * 0.292 = 0.073 …………………………………….(0.5 pt)
Calcul du gain de l’attribut Température :

Répartition des classes selon les valeurs de l’attribut : ………………………………………….(0.5 pt)
P1 (chaud) 2 2 4/14
P2 (bon) 4 2 6/14
P3(frais) 3 1 4/14
2/4
Entropie(P1)= - 2/4 log(2/4) - 2/4 log(2/4) = 0.301
Gain(Température)= 0.282 – 4/14 * 0.301 – 6/14 * 0.276 – 4/14 * 0.243 = 0.001 …………….(0.5 pt)
L’attribut choisi pour la racine de l’arbre de décision est donc « Climat ». …………………….(1 pt)
1-Itemset : ………………………………………………………...........................................(0.5 pt)

Item Fréquence Support
A 2 2/5=0.5 (50%)
B 3 3/5=0.6 (60%)
C 3 0.6 (60%)
D 1 0.25 (25%)
E 3 0.6 (60%)
On garde tous les 1-itemset car ils ont un support > 10%.
2-Itemset : ………………………………………..…………………………….…………….(0.5 pt)

A B C D E
A X 1 2 1 1
B X X 2 0 2
C X X X 1 2
D X X X X 0
On garde les 2-itemset suivants : AB, AC,AD, AE, BC, BE, CD et CE (8 2-itemset).
3-Itemset : …………………………………………………………………………..………….(1 pt)

AB AC AD AE BC BE CD CE
AB X 1 0 1 Déjà vu Déjà vu X X
AC X X 1 1 Déjà vu X Déjà vu Déjà vu
AD X X X 0 X X Déjà vu X
AE X X X X X Déjà vu X Déjà vu
BC X X X X X 2 0 Déjà vu
BE X X X X X X X Déjà vu
CD X X X X X X X 0
On garde les 5 3-itemset suivants : ABC, ABE, ACD, ACE, BCE.
4- Itemset : …………………………………………………………………………………….(1 pt)

ABC ABE ACD ACE BCE
ABC X 1 0 Déjà vu Déjà vu
ABE X X X Déjà vu Déjà vu
ACD X X X 0 X
ACE X X X X Déjà vu
Un seul 4-itemset, ABCE.
3/4
Générations des règles :
1- Règles générées à partir des 2-itemset : il y a 8 * 2 = 16 règles au total. …………….(0.5 pt)
Si A Alors B Si B Alors A
Si A Alors C Si C Alors A
Si A Alors D Si D Alors A
Si A Alors E Si E Alors A
Si B Alors C Si C Alors B
Si B Alors E Si E Alors B
Si C Alors D Si D Alors C
Si C Alors E Si E Alors C
1- Règles générées à partir des 3-itemset : il y a 3 *5 *2 = 30 règles au total. ……..….(0.75 pt)
Si A Alors BC Si BC Alors A
Si A Alors BE Si BE Alors A
Si A Alors CD Si CD Alors A
Si A Alors CE Si CE Alors A
Si B Alors CE Si CE Alors B
Si B Alors AC Si AC Alors B
Si B Alors AE Si AE Alors B
Si C Alors AD Si AD Alors C
Si C Alors AE Si AE Alors C
Si C Alors BE Si BE Alors C
Si C Alors AB Si AB Alors C
Si E Alors AB Si AB Alors E
Si D Alors AC Si AC Alors D
Si E Alors AC Si AC Alors E
Si E Alors BC Si BC Alors E
2- Règles générées à partir du 4-itemset : il y a 14 règles au total. …………………….(0.75 pt)
Si A Alors BCE Si BCE Alors A

Si B Alors ACE Si ACE Alors B
Si C Alors ABE Si ABE Alors C
Si E Alors ABC Si ABC Alors E
Si AB Alors CE Si CE Alors AB
Si AC Alors BE Si BE Alors AC
Si AE Alors BC Si BC Alors AE
4/4
I.U.T de Caen STID 2ème année Problème
Département STID Année Universitaire 2007-2008
Partie A - Profiling
Responsable de cours : Alain LUCAS
• Etude de la variable Credit.
1. On obtient :
XX
Correction Examen Data Mining XXX Credit
XXX Yes No Total
Insur. XX
Yes 5 3 8
No 1 6 7
Questions de cours Total 6 9 15
2. On obtient :
1. Le terme « data mining » est traduit par « fouille de données » en France. π(Credit = Y es) = 83, 33%
2. Le « data mining » consiste en l’exploration de vastes bases de données dans le but d’en extraire une information et donc
pertinente, inconnue jusqu’à présent, et à forte valeur ajoutée. π(Credit = Y es)
Odds(Credit = Y es) = =5
1 − π(Credit = Y es)
3. Le sigle CRISP-DM signifie CRoss Industry Standard Process for Data Mining.
4. Un système opérationnel est basé sur une architecture relationnelle dont l’objectif consiste à stocker efficacement 3. On obtient :
des données, et à permettre un accès optimisé pour des requêtes prédéfinies. A contrario, un système décisionnel π(Credit = N o) = 33, 33%
est généralement basé sur une architecture en étoile dont l’objectif consiste à permettre une exploration efficace et donc
au sein d’un grand volume de données. π(Credit = N o)
Odds(Credit = N o) = = 0, 5
5. Les trois approches que l’on peut rencontrer sont : 1 − π(Credit = N o)
– le reporting Finalement, on trouve OR(Y es|N o) = 10.
– l’analyse multidimensionnelle
– le data mining 4. Il ressort de l’OR que les clients possédant un crédit en cours ont 10 fois plus de chance d’avoir souscrit le produit
d’assurance que ceux n’ayant pas de crédit en cours. Clairement, cette variable présente un impact significatif
6. Les phases du processus CRISP-DM sont : sur la variable cible puisque l’OR est nettement différent de 1.
– « Business Understanding » qui consiste à cerner précisément la problématique, et à la transformer en projet
« Data Mining » ; • Etude de la variable Sex.
– « Data Understanding » qui consiste à prendre connaissance des données, et à en faire un premier bilan ; 1. On obtient :
– « Data Preparation » qui consiste à préparer les données en vue de l’étape de modélisation ; PP
PP Sex Male Female Total
– « Modeling » qui consiste à faire usage d’outils appropriés en vue de la modélisation des données ; Insur. PPP
– « Evaluation » qui consiste à évaluer la performance du ou des modèles, puis à sélectionner le cas échéant le P
Yes 3 5 8
meilleur ;
No 5 2 7
– « Deployment » qui consiste à mettre en oeuvre le modèle sélectionner sur des données vierges.
Total 8 7 15
7. Les trois sous-échantillons sont :
– le « training data set » dont l’objectif est de permettre l’apprentissage de l’algorithme 2. On obtient :
– le « test data set » dont l’objectif consiste à éviter le sur ou le sous apprentissage π(Sex = F emale) = 71, 43%
– le « validation data set » dont l’objectif consiste à comparer les performances de plusieurs modèles
et donc
8. L’expression « underfitting » correspond à la notion de sous-apprentissage laquelle traduit le fait que le modèle π(Sex = F emale)
Odds(Sex = F emale) = = 2, 5
est trop simple dans le sens qu’il ne capture pas toute la structure interne des données. A contrario, l’expression 1 − π(Sex = F emale)
« overfitting » correspond à la notion de sur-apprentissage laquelle traduit le fait que le modèle est trop complexe
dans le sens qu’il capture non seulement la structure interne des données, mais aussi le bruit. 3. On obtient :
π(Sex = M ale) = 37, 5%
9. L’intérêt d’élaguer un arbre est d’éviter le phénomène de sur-apprentissage.
et donc
10. La sensibilité représente la proportion de positifs bien classés parmi les positifs disponibles. La spécificité π(Sex = M ale)
représente la proportion de négatifs bien classés parmi les négatifs disponibles. Odds(Sex = M ale) = = 0, 6
1 − π(Sex = M ale)
Finalement, on trouve OR(F |M ) = 4, 17.
4. Il ressort de l’OR que les clients de sexe féminin ont 4,17 fois plus de chance d’avoir souscrit le produit d’assurance
que ceux de sexe masculin. Clairement, cette variable présente un impact significatif sur la variable cible puisque
l’OR est nettement différent de 1.
2
• Etude de la variable Income. Partie B - Arbre de décision
1. On obtient :
• Division 1.
XX
XX Income 1. Les variables Credit et Sex étant binaires, on peut constituer une seule division admissible pour chacune de
XXX 20-30 30-40 40-60 Total
Insur. XXX ces variables. La variable Income étant ordinale à quatre modalités, on peut constituer au plus trois divisions
Yes 2 3 3 8 admissibles. Enfin, la variable Age étant continue avec 12 valeurs distinctes, on peut constituer 11 divisions
No 2 2 3 7 admissibles distinctes.
Total 4 5 6 15 2. On obtient :
2. On obtient : Insur. Racine
π(Income = 20 − 30) = 50% Yes 8
No 7
et donc
π(Income = 20 − 30) Gini 0,498
Odds(Income = 20 − 30) = =1
1 − π(Income = 20 − 30) 3. Un tel indice mesure l’impureté à l’intérieur d’un segment. Ses valeurs extrêmes sont respectivement 0 et 0,5. La
3. On obtient : valeur 0 est obtenue lorsque le segment est pur, tandis que la valeur 0,5 est obtenue lorsque l’on est en présence
π(Income = 30 − 40) = 60% d’une distribution uniforme des deux modalités.
4. On obtient
et donc
π(Income = 30 − 40)
Odds(Income = 30 − 40) = = 1, 5 XX XX
1 − π(Income = 30 − 40) XX Credit
XXXSex
XX
XXX Yes No M F
Insur. XX Insur. XX
On obtient :
Yes 5 3 Yes 3 5
π(Income = 40 − 60) = 50%
No 1 6 No 5 2
et donc Gini 0,278 0,444 Gini 0,469 0,408
π(Income = 40 − 60) Gini Tot. 0.378 Gini Tot. 0,441
Odds(Income = 40 − 60) = =1
1 − π(Income = 40 − 60)
Finalement, on trouve OR(30 − 40|20 − 30) = 1, 5 et OR(40 − 60|20 − 30) = 1.
XX
4. En comparant ces deux OR avec ceux calculés précédemment, il ressort clairement que la variable Income ne XX Income
XXX 20-30 30-60 20-40 40-60 20-50 50-60
présente pas un impact significatif sur la variable cible car les coefficients sont très proches, voir identiques à la Insur. XX
valeur référente 1. Yes 2 6 5 3 6 2
No 2 5 4 3 7 0
• Etude de la variable Age.
Gini 0,500 0,496 0,494 0,500 0,497 0
1. Avec ces valeurs, il semble assez clair que la variable Age présente un impact significatif sur la variable cible (il Gini Tot. 0,497 0,496 0,431
faut tout de même vérifier que l’écart n’est pas du à une ou plusieurs valeurs atypiques ! !).
2. Le graphique confirme la première analyse : la variable Age présente bien un impact significatif sur la variable XXX
Insurance. En effet, on observe clairement une distribution différente de la variable Age selon que les clients ont X Age 23 28 32 36.5 38.5 39.5
Insur. XXX
souscrit ou non une assurance. En particulier, les clients d’âge médian semblent les plus appétents à ce produit Modalités
X
< ≥ < ≥ < ≥ < ≥ < ≥ < ≥
d’assurance. Yes 1 7 1 7 2 6 3 5 4 4 5 3
• Bilan. No 0 7 1 6 1 6 1 6 1 6 1 6
Gini 0 0,500 0,500 0,497 0,444 0,500 0,375 0,496 0,32 0,48 0,278 0,444
1. Via l’analyse précédente, on obtient :
Gini Tot. 0,467 0,497 0,489 0,464 0,427 0,378
XXX
Variable Statut X Age 40.5 41.5 42.5 44 50
Insur. XXX
Credit pertinente X
< ≥ < ≥ < ≥ < ≥ < ≥
Sex pertinente Yes 5 3 6 2 6 2 8 0 8 0
Income non pertinente No 2 5 2 5 3 4 4 3 5 2
Age pertinente Gini 0,408 0,469 0,375 0,408 0,444 0,444 0,444 0 0,473 0
Gini Tot. 0,441 0,390 0,444 0,355 0,410
2. Afin d’améliorer la vente du produit, il importe de cibler en particulier : les clients ayant un crédit, les clients
de sexe féminin, et les clients d’âge médian (30-40).
5. La meilleure division globale étant obtenue pour la valeur de l’indice de Gini total la plus faible, on déduit des
tableaux précédent que cette division est réalisée par la variable Age, avec la condition < ou ≥ à 44 ans.
3 4
6. On obtient le graphique suivant : 2. Clairement, la meilleure division globale est obtenue pour la variable Credit. On peut noter que cette meilleure
division est également obtenue avec la variable Sex ainsi que la variable Age.
3. On obtient le graphique suivant :

Α ≥

Α ≥

4. Clairement, aucun des deux segments ne sera déclaré comme terminal puisqu’aucune des deux contraintes n’est
satisfaite. Les deux segments seront donc déclarés comme segments intermédiaires.
• Division 3.
1. Clairement, on travaille ici sur le segment Credit=Yes.
7. Le premier segment ne vérifie aucune des deux conditions d’arrêt puisqu’il n’est pas pur et que le nombre 2. On obtient :
d’unités le composant est égal à 12. Par conséquent, ce segment est un segment intermédiaire. Par contre le
second segment est clairement pur, il sera donc déclaré comme terminal. XX
XXXSex
XX XX
• Division 2. M F XX Income
Insur. XXX 20-30 30-50 20-40 40-50
XX Insur. XX
1. On obtient : Yes 3 2 Yes 2 3 4 1
No 0 1 No 0 1 1 0
XX
XX Credit
XX Gini 0 0,444
XX Sex Gini 0 0,375 0,32 0
XX
XX Yes No M F Gini Tot. 0,222
Insur. XXX Insur. XXX Gini Tot. 0,25 0,267
Yes 5 3 Yes 3 5
No 1 3 No 3 1
XX
Gini 0,278 0,5 Gini 0,5 0,278 XX Age 24 32 37.5 41.5
Insur. XXX
Gini Tot. 0,389 Gini Tot. 0,389 X
Modalités < ≥ < ≥ < ≥ < ≥
XXX Yes 1 4 2 3 3 2 3 2
XXIncome 20-30 30-60 20-40 40-60 20-50 50-60 No 0 1 0 1 0 1 1 0
Insur. XX Gini 0 0,32 0 0,375 0 0,444 0,375 0
XX
Yes 2 6 5 3 6 2 Gini Tot. 0,267 0,25 0,222 0,25
No 1 3 3 1 4 0
3. Clairement, la meilleure division globale est obtenue avec la variable Sex. En effet, l’indice de Gini associé à cette
Gini 0,444 0,444 0,469 0,375 0,48 0
division est seulement de 0,222.
Gini Tot. 0,444 0,438 0,400
4. On obtient

XXX

X Age 23 28 32 36.5 38.5

Insur. XXXX Α ≥
Modalités < ≥ < ≥ < ≥ < ≥ < ≥
Yes 1 7 1 7 2 6 3 5 4 4

No 0 4 1 3 1 3 1 3 1 3

Gini 0 0,463 0,5 0,42 0,444 0,444 0,375 0,469 0,32 0,49

Gini Tot. 0,424 0,433 0,444 0,438 0,419
XX
XX Age 39.5 40.5 41.5 42.5
Insur. XXX X

< ≥ < ≥ < ≥ < ≥

Yes 5 3 5 3 6 2 6 2
No 1 3 2 2 2 2 3 1

Gini 0,278 0,5 0,408 0,48 0,375 0,5 0,444 0,444

Gini Tot. 0,389 0,438 0,417 0,444
5 6
5. Le premier segment est déclaré comme terminal car il est pur. Par contre, le second est déclaré comme terminal
car le nombre d’unités est inférieur à 5.
• Division 4.
1. On obtient :
XX
XX Sex
XX
M F
Insur. XXX
Yes 0 3
No 3 0
Gini 0 0
Gini Tot. 0
2. Clairement, il est inutile de continuer les calculs puisque d’une part cette division amène des segments purs,
et que d’autre part, c’est la première variable disponible dans le tableau de données. Par conséquent, c’est
nécessairement cette division qui sera choisie sous les contraintes spécifiées.

Α ≥

4. Les deux segments obtenus étant pur, ils sont déclarés terminaux.
• Prévisions.
1. En choisissant la modalité de fréquence maximale, on obtient pour chacun des segments terminaux les valeurs
allouées suivantes :
– Segment 2 = No
– Segment 5 = Yes
– Segment 6 = Yes
– Segment 7 = No
– Segment 8 = Yes
2. On obtient finalement :
ID Credit Sex Income Age Insurance
1 Yes Male 50-60 46 No
2 No Female 20-30 18 Yes
3 No Male 40-50 42 No
7
I.U.T de Caen STID 2ème année Problème
Département STID Année Universitaire 2007-2008
Partie A - Profiling
Responsable de cours : Alain LUCAS
• Etude de la variable Credit.
1. On obtient :
XX
Correction Examen Data Mining XXX Credit
XXX Yes No Total
Insur. XX
Yes 5 3 8
No 1 6 7
Questions de cours Total 6 9 15
2. On obtient :
1. Le terme « data mining » est traduit par « fouille de données » en France. π(Credit = Y es) = 83, 33%
2. Le « data mining » consiste en l’exploration de vastes bases de données dans le but d’en extraire une information et donc
pertinente, inconnue jusqu’à présent, et à forte valeur ajoutée. π(Credit = Y es)
Odds(Credit = Y es) = =5
1 − π(Credit = Y es)
3. Le sigle CRISP-DM signifie CRoss Industry Standard Process for Data Mining.
4. Un système opérationnel est basé sur une architecture relationnelle dont l’objectif consiste à stocker efficacement 3. On obtient :
des données, et à permettre un accès optimisé pour des requêtes prédéfinies. A contrario, un système décisionnel π(Credit = N o) = 33, 33%
est généralement basé sur une architecture en étoile dont l’objectif consiste à permettre une exploration efficace et donc
au sein d’un grand volume de données. π(Credit = N o)
Odds(Credit = N o) = = 0, 5
5. Les trois approches que l’on peut rencontrer sont : 1 − π(Credit = N o)
– le reporting Finalement, on trouve OR(Y es|N o) = 10.
– l’analyse multidimensionnelle
– le data mining 4. Il ressort de l’OR que les clients possédant un crédit en cours ont 10 fois plus de chance d’avoir souscrit le produit
d’assurance que ceux n’ayant pas de crédit en cours. Clairement, cette variable présente un impact significatif
6. Les phases du processus CRISP-DM sont : sur la variable cible puisque l’OR est nettement différent de 1.
– « Business Understanding » qui consiste à cerner précisément la problématique, et à la transformer en projet
« Data Mining » ; • Etude de la variable Sex.
– « Data Understanding » qui consiste à prendre connaissance des données, et à en faire un premier bilan ; 1. On obtient :
– « Data Preparation » qui consiste à préparer les données en vue de l’étape de modélisation ; PP
PP Sex Male Female Total
– « Modeling » qui consiste à faire usage d’outils appropriés en vue de la modélisation des données ; Insur. PPP
– « Evaluation » qui consiste à évaluer la performance du ou des modèles, puis à sélectionner le cas échéant le P
Yes 3 5 8
meilleur ;
No 5 2 7
– « Deployment » qui consiste à mettre en oeuvre le modèle sélectionner sur des données vierges.
Total 8 7 15
7. Les trois sous-échantillons sont :
– le « training data set » dont l’objectif est de permettre l’apprentissage de l’algorithme 2. On obtient :
– le « test data set » dont l’objectif consiste à éviter le sur ou le sous apprentissage π(Sex = F emale) = 71, 43%
– le « validation data set » dont l’objectif consiste à comparer les performances de plusieurs modèles
et donc
8. L’expression « underfitting » correspond à la notion de sous-apprentissage laquelle traduit le fait que le modèle π(Sex = F emale)
Odds(Sex = F emale) = = 2, 5
est trop simple dans le sens qu’il ne capture pas toute la structure interne des données. A contrario, l’expression 1 − π(Sex = F emale)
« overfitting » correspond à la notion de sur-apprentissage laquelle traduit le fait que le modèle est trop complexe
dans le sens qu’il capture non seulement la structure interne des données, mais aussi le bruit. 3. On obtient :
π(Sex = M ale) = 37, 5%
9. L’intérêt d’élaguer un arbre est d’éviter le phénomène de sur-apprentissage.
et donc
10. La sensibilité représente la proportion de positifs bien classés parmi les positifs disponibles. La spécificité π(Sex = M ale)
représente la proportion de négatifs bien classés parmi les négatifs disponibles. Odds(Sex = M ale) = = 0, 6
1 − π(Sex = M ale)
Finalement, on trouve OR(F |M ) = 4, 17.
4. Il ressort de l’OR que les clients de sexe féminin ont 4,17 fois plus de chance d’avoir souscrit le produit d’assurance
que ceux de sexe masculin. Clairement, cette variable présente un impact significatif sur la variable cible puisque
l’OR est nettement différent de 1.
2
• Etude de la variable Income. Partie B - Arbre de décision
1. On obtient :
• Division 1.
XX
XX Income 1. Les variables Credit et Sex étant binaires, on peut constituer une seule division admissible pour chacune de
XXX 20-30 30-40 40-60 Total
Insur. XXX ces variables. La variable Income étant ordinale à quatre modalités, on peut constituer au plus trois divisions
Yes 2 3 3 8 admissibles. Enfin, la variable Age étant continue avec 12 valeurs distinctes, on peut constituer 11 divisions
No 2 2 3 7 admissibles distinctes.
Total 4 5 6 15 2. On obtient :
2. On obtient : Insur. Racine
π(Income = 20 − 30) = 50% Yes 8
No 7
et donc
π(Income = 20 − 30) Gini 0,498
Odds(Income = 20 − 30) = =1
1 − π(Income = 20 − 30) 3. Un tel indice mesure l’impureté à l’intérieur d’un segment. Ses valeurs extrêmes sont respectivement 0 et 0,5. La
3. On obtient : valeur 0 est obtenue lorsque le segment est pur, tandis que la valeur 0,5 est obtenue lorsque l’on est en présence
π(Income = 30 − 40) = 60% d’une distribution uniforme des deux modalités.
4. On obtient
et donc
π(Income = 30 − 40)
Odds(Income = 30 − 40) = = 1, 5 XX XX
1 − π(Income = 30 − 40) XX Credit
XXXSex
XX
XXX Yes No M F
Insur. XX Insur. XX
On obtient :
Yes 5 3 Yes 3 5
π(Income = 40 − 60) = 50%
No 1 6 No 5 2
et donc Gini 0,278 0,444 Gini 0,469 0,408
π(Income = 40 − 60) Gini Tot. 0.378 Gini Tot. 0,441
Odds(Income = 40 − 60) = =1
1 − π(Income = 40 − 60)
Finalement, on trouve OR(30 − 40|20 − 30) = 1, 5 et OR(40 − 60|20 − 30) = 1.
XX
4. En comparant ces deux OR avec ceux calculés précédemment, il ressort clairement que la variable Income ne XX Income
XXX 20-30 30-60 20-40 40-60 20-50 50-60
présente pas un impact significatif sur la variable cible car les coefficients sont très proches, voir identiques à la Insur. XX
valeur référente 1. Yes 2 6 5 3 6 2
No 2 5 4 3 7 0
• Etude de la variable Age.
Gini 0,500 0,496 0,494 0,500 0,497 0
1. Avec ces valeurs, il semble assez clair que la variable Age présente un impact significatif sur la variable cible (il Gini Tot. 0,497 0,496 0,431
faut tout de même vérifier que l’écart n’est pas du à une ou plusieurs valeurs atypiques ! !).
2. Le graphique confirme la première analyse : la variable Age présente bien un impact significatif sur la variable XXX
Insurance. En effet, on observe clairement une distribution différente de la variable Age selon que les clients ont X Age 23 28 32 36.5 38.5 39.5
Insur. XXX
souscrit ou non une assurance. En particulier, les clients d’âge médian semblent les plus appétents à ce produit Modalités
X
< ≥ < ≥ < ≥ < ≥ < ≥ < ≥
d’assurance. Yes 1 7 1 7 2 6 3 5 4 4 5 3
• Bilan. No 0 7 1 6 1 6 1 6 1 6 1 6
Gini 0 0,500 0,500 0,497 0,444 0,500 0,375 0,496 0,32 0,48 0,278 0,444
1. Via l’analyse précédente, on obtient :
Gini Tot. 0,467 0,497 0,489 0,464 0,427 0,378
XXX
Variable Statut X Age 40.5 41.5 42.5 44 50
Insur. XXX
Credit pertinente X
< ≥ < ≥ < ≥ < ≥ < ≥
Sex pertinente Yes 5 3 6 2 6 2 8 0 8 0
Income non pertinente No 2 5 2 5 3 4 4 3 5 2
Age pertinente Gini 0,408 0,469 0,375 0,408 0,444 0,444 0,444 0 0,473 0
Gini Tot. 0,441 0,390 0,444 0,355 0,410
2. Afin d’améliorer la vente du produit, il importe de cibler en particulier : les clients ayant un crédit, les clients
de sexe féminin, et les clients d’âge médian (30-40).
5. La meilleure division globale étant obtenue pour la valeur de l’indice de Gini total la plus faible, on déduit des
tableaux précédent que cette division est réalisée par la variable Age, avec la condition < ou ≥ à 44 ans.
3 4
6. On obtient le graphique suivant : 2. Clairement, la meilleure division globale est obtenue pour la variable Credit. On peut noter que cette meilleure
division est également obtenue avec la variable Sex ainsi que la variable Age.

Α ≥

Α ≥

4. Clairement, aucun des deux segments ne sera déclaré comme terminal puisqu’aucune des deux contraintes n’est
satisfaite. Les deux segments seront donc déclarés comme segments intermédiaires.
• Division 3.
1. Clairement, on travaille ici sur le segment Credit=Yes.
7. Le premier segment ne vérifie aucune des deux conditions d’arrêt puisqu’il n’est pas pur et que le nombre 2. On obtient :
d’unités le composant est égal à 12. Par conséquent, ce segment est un segment intermédiaire. Par contre le
second segment est clairement pur, il sera donc déclaré comme terminal. XX
XXXSex
XX XX
• Division 2. M F XX Income
Insur. XXX 20-30 30-50 20-40 40-50
XX Insur. XX
1. On obtient : Yes 3 2 Yes 2 3 4 1
No 0 1 No 0 1 1 0
XX
XX Credit
XX Gini 0 0,444
XX Sex Gini 0 0,375 0,32 0
XX
XX Yes No M F Gini Tot. 0,222
Insur. XXX Insur. XXX Gini Tot. 0,25 0,267
Yes 5 3 Yes 3 5
No 1 3 No 3 1
XX
Gini 0,278 0,5 Gini 0,5 0,278 XX Age 24 32 37.5 41.5
Insur. XXX
Gini Tot. 0,389 Gini Tot. 0,389 X
Modalités < ≥ < ≥ < ≥ < ≥
XXX Yes 1 4 2 3 3 2 3 2
XXIncome 20-30 30-60 20-40 40-60 20-50 50-60 No 0 1 0 1 0 1 1 0
Insur. XX Gini 0 0,32 0 0,375 0 0,444 0,375 0
XX
Yes 2 6 5 3 6 2 Gini Tot. 0,267 0,25 0,222 0,25
No 1 3 3 1 4 0
3. Clairement, la meilleure division globale est obtenue avec la variable Sex. En effet, l’indice de Gini associé à cette
Gini 0,444 0,444 0,469 0,375 0,48 0
division est seulement de 0,222.
Gini Tot. 0,444 0,438 0,400
4. On obtient

XXX

X Age 23 28 32 36.5 38.5

Insur. XXXX Α ≥
Modalités < ≥ < ≥ < ≥ < ≥ < ≥
Yes 1 7 1 7 2 6 3 5 4 4

No 0 4 1 3 1 3 1 3 1 3

Gini 0 0,463 0,5 0,42 0,444 0,444 0,375 0,469 0,32 0,49

Gini Tot. 0,424 0,433 0,444 0,438 0,419
XX
XX Age 39.5 40.5 41.5 42.5
Insur. XXX X

< ≥ < ≥ < ≥ < ≥

Yes 5 3 5 3 6 2 6 2
No 1 3 2 2 2 2 3 1

Gini 0,278 0,5 0,408 0,48 0,375 0,5 0,444 0,444

Gini Tot. 0,389 0,438 0,417 0,444
5 6
5. Le premier segment est déclaré comme terminal car il est pur. Par contre, le second est déclaré comme terminal
car le nombre d’unités est inférieur à 5.
• Division 4.
1. On obtient :
XX
XX Sex
XX
M F
Insur. XXX
Yes 0 3
No 3 0
Gini 0 0
Gini Tot. 0
2. Clairement, il est inutile de continuer les calculs puisque d’une part cette division amène des segments purs,
et que d’autre part, c’est la première variable disponible dans le tableau de données. Par conséquent, c’est
nécessairement cette division qui sera choisie sous les contraintes spécifiées.

Α ≥

4. Les deux segments obtenus étant pur, ils sont déclarés terminaux.
• Prévisions.
1. En choisissant la modalité de fréquence maximale, on obtient pour chacun des segments terminaux les valeurs
allouées suivantes :
– Segment 2 = No
– Segment 5 = Yes
– Segment 6 = Yes
– Segment 7 = No
– Segment 8 = Yes
2. On obtient finalement :
ID Credit Sex Income Age Insurance
3 No Male 40-50 42 No
7
Université de Chlef Janvier 2018
Département Informatique
ème
Filière : 2 Année Master - ISIA et IL
Examen semestriel
Modules "Fouille et extraction de données" & "Datamining"
Durée : 01H30
Exercice 1 (10 points) :

Soit l'ensemble D des entiers suivants :
D= { 2, 5, 8, 10, 11, 18, 20 }
On veut répartir les données de D en trois (3) clusters, en utilisant l'algorithme Kmeans. La distance d entre deux
nombres a et b est calculée ainsi :
d(a , b) = |a - b| (la valeur absolue de a moins b)
Travail à faire :
1/ Appliquez Kmeans en choisissant comme centres initiaux des 3 clusters respectivement : 8, 10 et 11. Montrez
toutes les étapes de calcul.
2/ Donnez le résultat final et précisez le nombre d'itérations qui ont été nécessaires.
3/ Peut-on avoir un nombre d'itérations inférieur pour ce problème ? Discutez.

Le tableau suivant contient des données sur les résultats obtenus par des étudiants de Tronc Commun (première
année à l'Université). Chaque étudiant est décrit par 3 attributs : Est-il doublant ou non, la série du Baccalauréat
obtenu et la mention. Les étudiants sont répartis en deux classes : Admis et Non Admis.
On veut construire un arbre de décision à partir des données du tableau, pour rendre compte des éléments qui
influent sur les résultats des étudiants en Tronc Commun. Les lignes de 1 à 12 sont utilisées comme données
d'apprentissage. Les lignes restantes ( de 13 à 16) sont utilisées comme données de tests.
Doublant Série Mention Classe

1 Non Maths ABien Admis
2 Non Techniques ABien Admis
3 Oui Sciences ABien Non Admis
4 Oui Sciences Bien Admis
5 Non Maths Bien Admis
6 Non Techniques Bien Admis
7 Oui Sciences Passable Non Admis
8 Oui Maths Passable Non Admis
9 Oui Techniques Passable Non Admis
10 Oui Maths TBien Admis
11 Oui Techniques TBien Admis
12 Non Sciences TBien Admis
13 Oui Maths Bien Admis
14 Non Sciences ABien Non Admis
15 Non Maths TBien Admis
1/2
16 Non Maths Passable Non Admis
Travail à faire :
1/ Utiliser les données des lignes de 1 à 12 pour construire l'arbre en utilisant l'algorithme ID3. Montrez toutes les
étapes de calcul. Dessinez l'arbre final.
2/ Quels sont les résultats de test de l'arbre obtenu sur les données des lignes de 13 à 16 ?.
2/2
ème
Examen semestriel Modules "Fouille et extraction de données" & "Datamining"

Durée : 01H30
Corrigé

Soit l'ensemble D des entiers suivants :
D= { 2, 5, 8, 10, 11, 18, 20 }
On veut répartir les données de D en trois (3) clusters, en utilisant l'algorithme Kmeans. La distance d entre deux
nombres a et b est calculée ainsi :
d(a , b) = |a - b| (la valeur absolue de a moins b)
Travail à faire :
1/ Appliquez Kmeans en choisissant comme centres initiaux des 3 clusters respectivement : 8, 10 et 11. Montrez
toutes les étapes de calcul.
Réponse :
Initialisation :
des centres de gravité : µ1=8 µ2=10 µ3=11
des clusters : C1=Ø C2=Ø C3=Ø
Itération 1 :
Calcul des distances
Nombre 2 :
d(2, µ1)=|2-8|=6
d(2, µ2)=|2-10|=8
d(2, µ3)=|2-11|=9
2 est affecté au cluster C1.
Nombre 5 :
d(5, µ1)=|5-8|=3
d(5, µ2)=|5-10|=5
d(5, µ3)=|5-11|=6
Nombre 8 :
d(8, µ1)=|8-8|=0
d(8, µ2)=|8-10|=2
d(8, µ3)=|8-11|=3
1/9
Nombre 10 :
d(10, µ1)=|10-8|=2
d(10, µ2)=|10-10|=0
d(10, µ3)=|10-11|=1
Nombre 11 :
d(11, µ1)=|11-8|=3
d(11, µ2)=|11-10|=1
d(11, µ3)=|11-11|=0
Nombre 18 :
d(18, µ1)=|18-8|=10
d(18, µ2)=|18-10|=8
d(18, µ3)=|18-11|=7
Nombre 20 :
d(20, µ1)=|20-8|=12
d(20, µ2)=|20-10|=10
d(20, µ3)=|20-11|=9
Mise à jour des clusters :

C1={ 2, 5, 8} C2={10} C3={11, 18, 20}
R- estimation des centres de gravité :

µ1= (2+5+8)/3 µ2=10/1 µ3=(11+18+20)/3
µ1=5 µ2=10 µ3=16.33
(2 points)
Itération 2 :
Nombre 2 :
d(2, µ1)=|2-5|=3
d(2, µ2)=|2-10|=8
d(2, µ3)=|2-16.33|=14.33
Nombre 5 :
2/9
d(5, µ1)=|5-5|=0
d(5, µ2)=|5-10|=5
d(5, µ3)=|5-16.33|=11.33
Nombre 8 :
d(8, µ1)=|8-5|=3
d(8, µ2)=|8-10|=2
d(8, µ3)=|8-16.33|=8.33
Nombre 10 :
d(10, µ1)=|10-5|=5
d(10, µ2)=|10-10|=0
d(10, µ3)=|10-16.33|=6.33
Nombre 11 :
d(11, µ1)=|11-5|=6
d(11, µ2)=|11-10|=1
d(11, µ3)=|11-16.33|=5.33
Nombre 18 :
d(18, µ1)=|18-5|=13
d(18, µ2)=|18-10|=8
d(18, µ3)=|18-16.33|=1.67
Nombre 20 :
d(20, µ1)=|20-5|=15
d(20, µ2)=|20-10|=10
d(20, µ3)=|20-16.33|=3.67

C1={ 2, 5} C2={8, 10, 11} C3={18, 20}

µ1= (2+5)/2 µ2=(8+10+11)/3 µ3=(18+20)/2
µ1=3.5 µ2=9.66 µ3=19
3/9
(2 points)
Itération 3 :
Nombre 2 :
d(2, µ1)=|2-3.5|=1.5
d(2, µ2)=|2-9.66|=7.66
d(2, µ3)=|2-19|=17
Nombre 5 :
d(5, µ1)=|5-3.5|=1.5
d(5, µ2)=|5-9.66|=4.66
d(5, µ3)=|5-19|=14
Nombre 8 :
d(8, µ1)=|8-3.5|=4.5
d(8, µ2)=|8-9.66|=1.66
d(8, µ3)=|8-19|=11
Nombre 10 :
d(10, µ1)=|10-3.5|=6.5
d(10, µ2)=|10-9.66|=0.34
d(10, µ3)=|10-19|=9
Nombre 11 :
d(11, µ1)=|11-3.5|=7.5
d(11, µ2)=|11-9.66|=1.34
d(11, µ3)=|11-19|=8
Nombre 18 :
d(18, µ1)=|18-3.5|=14.5
d(18, µ2)=|18-9.66|=8.34
d(18, µ3)=|18-19|=1
Nombre 20 :
4/9
d(20, µ1)=|20-3.5|=16.5
d(20, µ2)=|20-9.66|=10.34
d(20, µ3)=|20-19|=1

C1={ 2, 5} C2={8, 10, 11} C3={18, 20}

µ1= (2+5)/2 µ2=(8+10+11)/3 µ3=(18+20)/2
µ1=3.5 µ2=9.66 µ3=19
Stabilité : Les centres de gravité n'ont pas changé. L'algorithme s'arrête
(2 points)
Réponse :
Les clusters résultats :
C1={ 2, 5} C2={8, 10, 11} C3={18, 20}
Nombre d'itérations = 3
(2 points)

Réponse :
Dans ce problème, les données sont ordonnées et restreintes dans un intervalle (de 2 à 20). Comme on veut
construire 3 clusters, on est sûr que la borne inférieure (2) sera dans le cluster 1, et la borne supérieure (20) sera
dans le cluster 3. Il est donc intéressant de choisir comme centres de gravité initiaux : la borne inférieure (2)
pour le cluster 1, la borne supérieure (20) pour le cluster 3, et le milieu de l'intervalle (9) comme centre pour le
cluster 2. Avec une telle initialisation, l'algorithme convergera après seulement 2 itérations.
(2 points)

Le tableau suivant contient des données sur les résultats obtenus par des étudiants de Tronc Commun (première
année à l'Université). Chaque étudiant est décrit par 3 attributs : Est-il doublant ou non, la série du Baccalauréat
obtenu et la mention. Les étudiants sont répartis en deux classes : Admis et Non Admis.
On veut construire un arbre de décision à partir des données du tableau, pour rendre compte des éléments qui
influent sur les résultats des étudiants en Tronc Commun. Les lignes de 1 à 12 sont utilisées comme données
d'apprentissage. Les lignes restantes ( de 13 à 16) sont utilisées comme données de tests.
Doublant Série Mention Classe

1 Non Maths ABien Admis
2 Non Techniques ABien Admis
3 Oui Sciences ABien Non Admis
4 Oui Sciences Bien Admis
5 Non Maths Bien Admis
5/9
6 Non Techniques Bien Admis
7 Oui Sciences Passable Non Admis
8 Oui Maths Passable Non Admis
9 Oui Techniques Passable Non Admis
10 Oui Maths TBien Admis
13 Oui Maths Bien Admis
14 Non Sciences ABien Non Admis
15 Non Maths TBien Admis
16 Non Maths Passable Non Admis
Travail à faire :
1/ Utiliser les données des lignes de 1 à 12 pour construire l'arbre en utilisant l'algorithme ID3. Montrez toutes les
étapes de calcul. Dessinez l'arbre final.
Réponse :
On remarque que sur les 12 lignes des données d'apprentissage, 8 correspondent à la classe "Admis" et 4 à la classe "Non
admis". L'entropie de l'ensemble S (à la racine de l'arbre) est donc égale à :
Entropie (S)= - (8/12) * Log2 (8/12) - (4/12) * Log2 (4/12)

Entropie (S)= 0.92
(0.5 point)
Pour connaitre quel attribut on doit choisir comme test au niveau de la racine de l'arbre, il faut calculer le gain d'entropie
sur chacun des attributs : "Doublant", "Série" et "Mention".
Calcul du gain d'entropie sur l'attribut "Doublant" :

Gain(S, Doublant) = Entropie(S) - 7/12 * Entropie(SOui) - 5/12 * Entropie(SNon)
avec Entropie(SOui)= -3/7*Log2(3/7) - 4/7*Log2(4/7)
et Entropie(SNon)= -5/5*log2(5/5)
Gain(S, Doublant) =0.34
(0.5 point)
Calcul du gain d'entropie sur l'attribut "Série" :

Gain(S, Série) = Entropie(S) - 4/12 * Entropie(SMaths) - 4/12 * Entropie(STechniques) - 4/12 * Entropie(SSciences)
Gain(S, Série) = 0.04
(0.5 point)
Calcul du gain d'entropie sur l'attribut "Mention" :

Gain(S, Série) = Entropie(S) - 3/12 * Entropie(SPassable) - 3/12 * Entropie(SABien) - 3/12 * Entropie(SBien) - 3/12 *
Entropie(STBien)
Gain(S, Mention) = 0.69
(0.5 point)
6/9
On constate que le plus grand gain d'entropie est obtenu sur l'attribut "Mention". C'est donc cet attribut qui est choisi
comme test à la racine de l'arbre. Nous obtenons l'arbre partiel suivant :
(1 point)
Admis 8
Non Admis 4
Mention ?
Passable ABien Bien TBien
Admis 0 Admis 2 Admis 3 Admis 3

Non Admis 3 Non Admis 1 Non Admis 0 Non Admis 0
(1 point)
On voit que mettre l'attribut "Mention" à la racine de l'arbre permet d'obtenir 4 branches dont 3 produisent des noeuds
purs (finaux). Il ne reste à traiter que le nœud présentant un mélange correspondant à la branche "ABien". Ce nœud
comporte un ensemble (que nous noterons S2) ayant 2 individus appartenant à la classe "Admis" et 1 individu de la classe
"Non Admis". L'entropie de l'ensemble S2 est donc égale à :
Entropie (S2)= - (2/3) * Log2 (2/3) - (1/3) * Log2 (1/3)

Entropie (S2)= 0.92
(0.5 point)
Pour connaitre quel attribut on doit choisir comme test au niveau du nœud impur, il faut calculer le gain d'entropie sur
chacun des attributs restants : "Doublant" et "Série".
Calcul du gain d'entropie sur l'attribut "Doublant" :

Gain(S2, Doublant) = Entropie(S2) - 1/3 * Entropie(SOui) -2/3 * Entropie(SNon)
Gain(S2, Doublant) =0.92
(0.5 point)
Calcul du gain d'entropie sur l'attribut "Série" :

Gain(S2, Série) = Entropie(S2) - 1/3 * Entropie(SMaths) - 1/3 * Entropie(STechniques) - 1/3 * Entropie(SSciences)
Gain(S2, Série) = 0.92
(0.5 point)
On constate que les deux attributs "Doublant" et "Série" procurent le même gain d'entropie. Nous pouvons donc choisir l'un
ou l'autre comme test au niveau du nœud courant. Nous avons donc deux arbres de décision possibles :
7/9
(1 point)
Premier arbre :
Mention ?
Non Admis Doublant ? Admis Admis
Oui Non
Non Admis Admis

(1 point)
Deuxième arbre :
Mention ?
Non Admis Série ? Admis Admis
Maths Techniques Sciences
Admis Admis Non Admis

(1 point)
2/ Quels sont les résultats de test de l'arbre obtenu sur les données des lignes de 13 à 16 ?.
Test de l'arbre 1 Test de l'arbre 2

Classe Classe
Doublant Série Mention Classe déduite de Observation déduite de Observation
l'arbre 1 l'arbre 2
13 Oui Maths Bien Admis Admis Correct Admis Correct
14 Non Sciences ABien Non Admis Admis Erreur Non Admis Correct
15 Non Maths TBien Admis Admis Correct Admis Correct
16 Non Maths Passable Non Admis Non Admis Correct Non Admis Correct
8/9
On remarque que l'arbre 1 a donné un taux d'erreur de 1/4 soit 25%, alors que l'arbre 2 présente un taux de succès de
100%. Cela suggère de retenir en définitif l'arbre 2 qui conforte l'idée suivante :
Les résultats obtenus par les étudiants de tronc commun sont déterminés par deux éléments : la mention obtenue de leur
baccalauréat et la série. Les étudiants ayant une bonne mention (ABien ou plus) ou issus des filières Maths et Techniques
ne trouvent pas de difficultés à passer la première année à l'Université.
(1.5 points)
9/9
Université de Chlef Février 2019
ème
Examen semestriel
Modules "Fouille et extraction de données" & "Datamining"
Durée : 01H30 Corrigé

On veut appliquer le modèle des "Règles d'association" à un problème de TextMining.
Le tableau suivant représente les mots-clés (les mots les plus importants) extraits à partir de 7 textes.
N° Texte Mots clés
01 Finance, Marché, Budget, Economie
02 Ouverture, Finance, Economie
03 Ouverture, Assemblée, Handball, Sport
04 Directeur, Budget, Finance, Economie
05 Directeur, Assemblée, Handball, Sport
06 Ouverture, Marché, Economie
07 Ouverture, Assemblée, Directeur, Handball, Sport
A/ D'après-vous quel est l'objectif recherché de l'application des "Règles d'association" à ce problème ?.
Réponse :
L'analyse de texte (TextMining) vise, entre autres, à trouver les mots-clés qui apparaissent ensemble dans
les textes : C'est à dire les mots-clés liés par une relation de co-occurence.
(2 points)
B/ Sans faire de calcul, donnez une règle d'association du tableau dont la confiance est égale à 100%. Justifiez.
Réponse :
Exemple de règle d'association ayant une confiance 100% : Finance →
Justification : A chaque apparition du mot-clé "Finance" dans un texte, il y'a aussi l'occurrence du mot-
clé "Economie".
(1 point)
C/ Réécrivez le tableau précédent en gardant uniquement la première lettre de chaque mot-clé (pour simplifier la
notation) . Appliquez l'algorithme a priori pour trouver toutes les règles d'association qui vérifient minsup >=40% et
donnez leur confiance. Détaillez toutes les étapes.
Réponse :
Pour une simplification de la notation en vue de l'application de l'algorithme Apriori, on a remplacé
(comme cela a été recommandé) chaque mot par sa première lettre.
1/6
N° Texte Mots clés
01 F, M, B, E
02 O, F, E
03 O, A, H, S
04 D, B, F, E
05 D, A, H, S
06 O, M, E
07 O, A, D, H, S
Ensembles d'items de taille 1 Ensembles d'items fréquents de taille 1:
Ensemble support Ensemble

{F} 3/7 =42,8 % {F}
{M} 2/7=28,6% {E}
{B} 2/7=28,6% {O}
{E} 4/7=57,1% {A}
{O} 4/7=57,1% {H}
{A} 3/7=42,8% {S}
{H} 3/7=42,8% {D}
{S} 3/7=42,8%
{D} 3/7=42,8%
Ensembles d'items de taille 2 Ensembles d'items fréquents de

taille 2:
Ensemble
Ensemble support
{F, E}
{F, E} 3/7=42,8%
{A, H}
{F, O} 1/7=14,3%
{A, S}
{F, A} 0%
{H, S}
{F, H} 0%
{F, S} 0%
{F, D} 1/7=14,3%
{E, O} 2/7=28,6%
{E, A} 0%
{E, H} 0%
{E, S} 0%
{E, D} 1/7=14,3%
{O, A} 2/7=28,6%
{O, H} 2/7=28,6%
{O, S} 2/7=28,6%
{O, D} 1/7=14,3%
{A, H} 3/7=42,8%
{A, S} 3/7=42,8%
{A, D} 2/7=28,6%
{H, S} 3/7=42,8%
{H, D} 1/7=14,3%
{S, D} 2/7=14,3%
2/6
Ensembles d'items de taille 3 Ensembles d'items fréquents de
taille 3:
Ensemble
Ensemble support
{A, H, S}
{F, E, A} 0%
{F, E, H} 0%
{F, E, S} 0%
{A, H, F} 0%
{A, H, E} 0%
{A, H, S} 3/7=42,8%
{A, S, F} 0%
{A, S, E} 0%
{H, S, F} 0%
{H, S, E} 0%
(3 points)
Les règles d'association générées et leurs confiances

N° Règle Confiance
1 Handball → Assemblée 100%
2 Assemblée → Handball 100%
3 Sport → Assemblée 100%
4 Assemblée → Sport 100%
5 Finance → Economie 100%
6 Sport → Handball 100%
7 Handball → Sport 100%
8 Handball, Sport → Assemblée 100%
9 Assemblée, Sport → Handball 100%
10 Assemblée, Handball → Sport 100%
11 Sport → Assemblée, Handball 100%
12 Handball → Assemblée, Sport 100 %
13 Assemblée → Handball, Sport 100%
14 Economie → Finance 75%
(3.5 points)
D/ On considère maintenant les données d'apprentissage d'un problème de classification en utilisant les "Règles
d'association" (Remarquez la similitude avec le tableau précédent) :
N° Texte Mots clés Classe
01 Finance, Marché, Budget Economie
02 Ouverture, Finance Economie
03 Ouverture, Assemblée, Handball Sport
04 Directeur, Budget, Finance Economie
05 Directeur, Assemblée, Handball Sport
06 Ouverture, Marché Economie
07 Ouverture, Assemblée, Directeur, Handball Sport
D'après-vous comment peut-on utiliser les résultats de la question C pour répondre à ce problème de classification
: Etant donné un ou plusieurs mots-clés, on veut savoir à quelle classe ils renvoient ?.
3/6
Réponse :
Notons qu'il y'a 2 classes possibles : Economie et Sport. Pour utiliser les résultats obtenus à la question C
dans ce problème de classification, il est proposé de :
1/ considérer toutes les règles d'associations, dont le 2ème membre (partie droite) est l'une des classes
recherchées (Sport ou Economie).
2/ prendre la confiance calculée comme une mesure probabilité.
Les règles retenues :

N° Règle Confiance (Probabilité)
1 Assemblée → Sport 100%
2 Finance → Economie 100%
3 Handball → Sport 100%
4 Assemblée, Handball → Sport 100%
Ainsi, à partir des données du problème et des résultats obtenus on peut dire :
Si on trouve le mot-clé "Assemblé" ou "Handball" , ou les deux ensemble, dans un texte, celui-ci sera classé
dans "Sport" avec une probabilité de 100%.
Si on trouve le mot-clé "Finance" , le texte sera mis dans la classe "Economie", avec la probabilité de
100%.
Pour les autres mots-clés, on ne peut pas se prononcer.
(2.5 points)
Le graphique suivant représente les résultats d'une comparaison des performances de deux classifieurs C1 et C2.
Les deux classifieurs sont basés sur le modèle KNN (K Nearest Neighbors), mais le premier utilise la règle du
"vote majoritaire", alors que le second utilise la règle de "l'inverse de la distance au carré". L'évaluation a été faite
sur les mêmes données (leur nombre est 15), et en utilisant la même distance.
4/6
A/ Expliquez comment a-t-on obtenu les résultats de l'évaluation de ces classifieurs (les étapes qui ont été suivies)
?.
Réponse :
• Le modèle KNN étant un modèle à apprentissage supervisé, il faut disposer d'un ensemble
d'apprentissage étiqueté par un expert (les 15 données sont classées au préalable).
• On exécute le programme correspondant à chacun des deux classifieurs ("vote majoritaire" et
"inverse de la distance au carré") en faisant varier le paramètre K , et en reportant à chaque fois
le nombre d'erreurs commises (il y'a erreur lorsque le modèle renvoie pour une donnée une classe
différente de la classe contenue dans les données d'apprentissage).
• Les résultats obtenus sont consignés dans un graphique.
(2 points)
B/ Dans les deux courbes (C1 et C2), il y'a une tendance commune caractéristique du modèle KNN. Expliquez-la
brièvement.
Réponse :
Il y'a 4 stades dans chaque courbe
• Un stade correspondant à un K petit où le nombre d'erreurs est élevé
• Un stade correspondant à un K moyen où le nombre d'erreurs est plus faible
• Un stade correspondant à un K élevé , où le nombre d'erreurs redevient élevé
• Un stade correspondant à une valeur de K >=N (la taille des données), où le nombre d'erreurs
reste constant
5/6
Ces courbes confirment une caractéristique connue des modèles KNN : il est recommandé de choisir le
paramètre K , ni trop grand ni trop petit.
(2 points)
C/ D'après le graphique, quel est le meilleur classifieur ? . Comment pouvez-vous l'expliquer ?

Le meilleur classifieur, qui provoque en moyenne moins d'erreurs, est C2 (celui basé sur "l'inverse de la
distance au carré 1/d2).
Explication :
Le choix de "l'inverse de la distance au carré" peut être plus pertinent que le "vote majritaire", car les
voisins peuvent avoir une "influence" inversement proportionnelle à la distance qui les séparent de
l'objet à classer.
(2 points)
D/ Peut-on généraliser ce résultat ? Justifiez.

Non, on ne peut pas dire que l'option de "l'inverse de la distance au carré 1/d2du modèle KNN est
meilleure dans tous les cas. Cela dépend de la nature des données utilisées et de la distance retenue.
(2 points)
6/6
ème
Filière : 2 Année Master - ISIA - IL
Examen semestriel
Module "Datamining" -"Modèles pour le Datamining"

Durée : 01H30

Représentez sous forme d'un arbre de décision l'expression logique suivante : A et (B ou C).

La figure suivante représente la classification par SVM d'un ensemble de données. On y a représenté l'hyperplan
séparateur entre les deux classes C1 et C2. Mais, deux points ont été volontairement masqués (cachés) : un point de
la classe C1 et un point de la classe C2.
Question 1 : Donnez l'équation de l'hyperplan séparateur de la figure.

Question 2 : Pouvez-vous deviner quel est le point qui a été masqué de la classe C1 ? . Si oui, donnez ses
coordonnées exactes, sinon situez-le approximativement .
Question 3 : Même question pour le point masqué de la classe C2.

La figure suivante représente le taux d'erreurs de classification, en utilisant l'algorithme KNN, en fonction de K sur un
ensemble de N données.
1/2
Question : La courbe vous semble-t-elle normale ? Si oui donnez une explication de ses variations, sinon expliquez ce
qui est anormal.
Dans un magasin de produits informatiques, on a enregistré les achats suivants faits par les clients (transactions) :
N° Articles
01 CD, DVD, Jeu, Antivirus
02 CD, Jeu, Souris, Caméra, Antivirus
03 Antivirus, FlashDisk, CD, Jeu, Caméra
04 Jeu, DVD, Tablette
05 FlashDisk, Antivirus, Tablette, Souris
1/ Trouver tous les ensembles d'items fréquents vérifiant minsup >=60%, en appliquant l'algorithme Apriori .
2/ Déduire toutes les règles d'associations .
3/ Quelles dont les règles ayant une confiance >= 75% ?.
2/2
ème
Filière : 2 Année Master - ISIA - IL
Examen semestriel
Module "Datamining" -"Modèles pour le Datamining"

Durée : 01H30

Représentez sous forme d'un arbre de décision l'expression logique suivante : A et (B ou C).
Réponse :
(4 points)

La figure suivante représente la classification par SVM d'un ensemble de données. On y a représenté l'hyperplan
séparateur entre les deux classes C1 et C2. Mais, deux points ont été volontairement masqués (cachés) : un point de
la classe C1 et un point de la classe C2.
1
Question 1 : Donnez l'équation de l'hyperplan séparateur de la figure.
Réponse :
y=-x+9
(1 point)
Question 2 : Pouvez-vous deviner quel est le point qui a été masqué de la classe C1 ? . Si oui, donnez ses
coordonnées exactes, sinon situez-le approximativement .
Réponse :
Le point masqué de la classe C1 ne peut pas être situé exactement. Néanmoins , on peut donner l'équation
qu'il doit vérifier :
Constatons que le point le plus proche de la classe C2 à l'hyperplan séparateur (support vecteur) est le point
(4, 4). Logiquement, le point masqué de la classe C1 est celui qui doit jouer le rôle du "vecteur support" de
cette classe. Il doit appartenir à la droite parallèle à l'hyperplan, son équation est : y = -x +10. Il peut être
n'importe où sur cette droite.
(1.5 point)
Question 3 : Même question pour le point masqué de la classe C2.
Réponse :
Le point masqué de la classe C2 ne peut pas être situé exactement. Il peut être n'importe où dans la région
située en dessous de la droite y = -x +8 (droite qui passe par le support vecteur de la classe C2, et parallèle à
l'hyperplan).
(1.5 point)
2
La figure suivante représente le taux d'erreurs de classification, en utilisant l'algorithme KNN, en fonction de K sur un
ensemble de N données.
Question : La courbe vous semble-t-elle normale ? Si oui donnez une explication de ses variations, sinon expliquez ce
qui est anormal.
Réponse :
Cette courbe comporte une anomalie dans sa dernière partie. Pour K supérieur à N , la courbe devrait
normalement être constante : on doit avoir le même taux d'erreur pour toutes les valeurs de K avec K>=N.
(4 points)
Dans un magasin de produits informatiques, on a enregistré les achats suivants faits par les clients (transactions) :
N° Articles
01 CD, DVD, Jeu, Antivirus
02 CD, Jeu, Souris, Caméra, Antivirus
03 Antivirus, FlashDisk, CD, Jeu, Caméra
04 Jeu, DVD, Tablette
05 FlashDisk, Antivirus, Tablette, Souris
1/ Trouver tous les ensembles d'items fréquents vérifiant minsup >=60%, en appliquant l'algorithme Apriori .
Réponse :
3
C1
Ensemble items Support % Observation F1 : Ensemble fréquent de taille 1
{ CD }
{ Jeu }
{ CD } 03 60%
{ Antivirus }
{ DVD } 02 40% Non retenu
{ Jeu } 04 80%
{ Souris } 02 40% Non retenu (1 point)
{Caméra} 02 40% Non retenu
{Tablette} 02 40% Non retenu
{Antivirus} 04 80%
{FlashDisk} 02 40% Non retenu
C2 F2 : Ensemble fréquent de taille 2

Ensemble items Support % Observation { CD, Jeu }
{ CD, Antivirus }
{ Jeu, Antivirus }
{ CD, Jeu } 03 60%
(1 point)
{ CD, Antivirus } 03 60%
{ Jeu, Antivirus } 03 60%
C3
Ensemble items Support % Observation F3 : Ensemble fréquent de taille 3
{ CD, Jeu, Antivirus }
{ CD, Jeu, 03 60% (1 point)
Antivirus }
C4
Ensemble items Support % Observation
F4 : Ensemble fréquent de taille 4
Ø Ø
Les ensembles fréquents sont :

{ CD }, { Jeu }, { Antivirus }, { CD, Jeu }, { CD, Antivirus }, { Jeu, Antivirus }, { CD, Jeu, Antivirus }
2/ Déduire toutes les règles d'associations .

Réponse :
Les ensemble fréquents Règles Confiance
{ CD, Jeu } CD → Jeu 3/3, soit 100%
Jeu → CD 3/4, soit 75%
{ CD, Antivirus } CD → Antivirus 3/3, soit 100%
Antivirus → CD 3/4, soit 75%
{ Jeu, Antivirus } Jeu → Antivirus 3/4, soit 75%
Antivirus → Jeu 3/4, soit 75%
{ CD, Jeu, Antivirus } CD → Jeu, Antivirus 3/3, soit 100%
Jeu → CD, Antivirus 3/4, soit 75%
Antivirus → CD, Jeu 3/4, soit 75%
CD, Jeu → Antivirus 3/3, soit 100%
CD, Antivirus → jeu 3/3, soit 100%
jeu, Antivirus → CD 3/3, soit 100%
(3 points)
4
3/ Quelles sont les règles ayant une confiance >= 75% ?.
Réponse :
Toutes les règles construites ont une confiance >=75%
N° Règles
01 CD → Jeu
02 Jeu → CD
03 CD → Antivirus
04 Antivirus → CD
05 Jeu → Antivirus
06 Antivirus → Jeu
07 CD → Jeu, Antivirus
08 Jeu → CD, Antivirus
09 Antivirus → CD, Jeu
10 CD, Jeu → Antivirus
11 CD, Antivirus → jeu
12 jeu, Antivirus → CD
(2 points)
5

28 Jan 2013 10:00-11:30, Salle 5
Examen

1. En apprentissage supervisé, quelle est la différence fondamentale entre classification et
régression ?
2. Expliquer en quelques mots ce qu’est le phénomène de sur-apprentissage.
3. Donner une stratégie pour éviter le sur-apprentissage lors de l’apprentissage d’arbres de
décision.
4. Donner une méthode d’évaluation des techniques d’apprentissage et expliquer , en quelques
lignes, son principe.
Exercice 1 Motifs fréquents (10.5 pts : 4 + 2.5 + 2.5 + 1.5)

Dans un supermarché, on dispose de la base de transactions suivante :
TID Items TID Items

T1 Lait, Jus, Couches T6 Lait, Couches, Pain, Beurre
T2 Pain, Beurre, Lait T7 Pain, Beurre, Couches
T3 Lait, Couches, Sucre T8 Jus, Couches
T4 Pain, Beurre, Sucre T9 Lait, Couches, Pain, Beurre
T5 Jus, Sucre, Couches T10 Jus, Sucre
En utilisant l’algorithme Apriori avec un support minimum de 20% et une confiance minimale
de 75%, trouver :
1. Les motifs fréquents,
2. Les motifs fréquents fermés,
3. Les motifs fréquents maximaux,
4. Les règles solides d’association de type A, B ⇒ C.
Exercice 2 Classification (5.5 pts : 4 + 0.5 + 1)

Dans un hôpital, on souhaite construire un arbre de décision pour la prédiction du risque des
patients d’avoir une certaine maladie en fonction de leur age et de deux symptômes booléens
(vrai ou faux) appelés S1 et S2. Le risque est évalué selon trois valeurs F (faible), M (moyen)
et E (élevé), l’age est discrétisé selon trois classes (jeune, adulte et senior).
L’hôpital dispose de la table suivante :
1
N˚ Age S1 S2 Risque N˚ Age S1 S2 Risque
1 Jeune F V F 6 Jeune F F F
2 Jeune V V E 7 Adulte V F M
3 Adulte F F F 8 Adulte V V M
4 Senior V F E 9 Senior F F F
5 Senior F V M 10 Senior V V E
Questions :
1. Construire l’arbre souhaité en utilisant l’algorithme ID3.

2. Donner le risque du patient ayant les attributs (Jeune,V,F) selon l’arbre construit.
3. Trouver le risque du même patient en utilisant la classification bayésienne naı̈ve.
FFF Bonne chance FFF
Dr A.Djeffal
2

27 Jan 2014 10:00-11:30, Salle 4
Examen
1. Expliquer le principe de la méthode Bootstrap.

2. Donner la différence et la relation entre un motif fréquent, un motif fréquent fermé et un
motif fréquent maximal.
3. Expliquer comment peut-on obtenir les règles de décision après la construction d’un arbre
de décision.
Exercice 1 Motifs fréquents (8 pts : 4 + 2 + 2)

Soit les transactions suivantes :
TID Items
T1 Pain, Lait, Beurre, Couches, Formage
T2 Pain, Beurre, Eau, Confiture, Fromage
T3 Fromage, Couches, Pain, Beurre, Confiture
T4 Beurre, Lait, Jus
T5 Couches, Fromage, Jus, Eau
1. Avec un support minimum de 60%, trouver l’ensemble des motifs fréquents.

2. Trouver les motifs fréquents fermés et les motifs fréquents maximaux.
3. Avec un minimum de confidence de 70%, trouver les règles d’association de la forme
A ⇒ B, C.
Exercice 2 Classification (9 pts : 4 + 2 + 3)

Nous considérerons l’ensemble E d’exemples suivant ayant les attributs A,B,C et D :
E1 E2 E3 E4 E5 E6 E7 E8 E9 E10
A a1 a1 a1 a2 a2 a2 a1 a2 a3 a3
B b1 b2 b2 b1 b2 b2 b1 b1 b1 b2
C c1 c2 c3 c1 c1 c1 c1 c2 c3 c2
D d2 d2 d1 d1 d1 d2 d1 d2 d1 d2
Classe + + - - - + + - + +
1. Construire l’arbre de décision correspondant à l’ensemble E en utilisant l’algorithme ID3.
1
2. Donner la précision de l’arbre obtenu sur la table d’entrainement. Calculer la moyenne
harmonique sur la même table.
3. Trouver la classe de l’exemple ayant les attributs (a2 ,b1 ,c3 ,d1 ) en utilisant la classification
bayésienne naı̈ve.
NB : On donne le tableau suivant représentant les valeurs de la fonctions
x x y y
H(x, y) = − x+y log2 ( x+y ) − x+y log2 ( x+y )
x\y 1 2 3 4 5 6
6 0,592 0,811 0,918 0,971 0,994 1
5 0,650 0,863 0,954 0,991 1
4 0,722 0,918 0,985 1
3 0,811 0,971 1
2 0,918 1
1 1
Dr A.Djeffal
2
Corrigé type
1. Voir le cours
Motifs fréquents (8 pts : 4 + 2 + 2)
1. Avec un support minimum de 60%, trouver l’ensemble des motifs fréquents.

– Taille 1 :
F1 ={Beurre,Couches,Fromage,Pain}
Support = {4/5,3/5,4/5,3/5} (1pt)
– Taille 2 :
F2 ={Beurre Fromage,Beurre Pain,Couches Fromage, Fromage Pain}
Support = {3/5,3/5,3/5,3/5} (1pt)
– Taille 3 :
F3 ={Beurre Fromage Pain}
Support = {3/5} (1pt)
Ensemble des motifs fréquents = { F 1 ∪ F 2 ∪ F 3 } (1pt)
2. Trouver les motifs fréquents fermés et les motifs fréquents maximaux.
– Motifs fréquents fermés : {Beurre, Fromage, Couches Fromage, Beurre Fromage Pain }
(1pt)
– Motifs fréquents maximaux : { Couches Fromage, Beurre Fromage Pain } (1pt)
3. Avec un minimum de confidence de 70%, trouver les règles d’association de la forme
A ⇒ B, C.
– Pain ⇒ Beurre Fromage (100 %)
– Beurre ⇒ Pain Fromage (75 %)
– Fromage ⇒ Pain Beurre (75 %) (2pts)
Classification (9 pts : 4 + 2 + 3)
(a) Construire l’arbre de décision correspondant à l’ensemble E en utilisant l’algorithme

ID3. (4pts)
(b) La précision de l’arbre obtenu sur la table d’entrainement = 100 % (1pt)

Moyenne harmonique
sv = 66 = 1
3
sp = 44 = 2
2×1×1
Moyenne harminique = 1+1
=1 (1pt)
(c) Trouver la classe de l’exemple ayant les attributs (a2 ,b1 ,c3 ,d1 ) en utilisant la classi-
fication bayésienne naı̈ve.
6
P (+) = 10 × 16 × 63 × 16 × 62 = 0.0027 (1pt)
P (−) = 10 × 34 × 24 × 14 × 34 = 0.02
4
(1pt)
Donc l’exemple appartient à la classe négative. (1pt)
4

4 Fév 2015 16:00-17:30, Salles S1, S2
Examen
Questions de cours (4 pts : 2 + 1 + 1)
1. Dans la classification supervisée (l’apprentissage), l’évaluation de la qualité du modèle

construit peut être effectuée en calculant son taux de reconnaissance sur les données
d’entrainement elles-mêmes ou sur des données écartées dès le départ des données d’en-
trainement appelées données de test. A votre avis, comment peut-ont évaluer la qualité
d’un clustering ?
2. A quoi sert la méthode de Bagging.
3. Justifier l’utilisation des noyaux dans l’apprentissage par machines à vecteurs supports.
Exercice 1 Motifs fréquents (8 pts : 2 + 2 + 2 + 2)
Supposons qu’il exite 6 articles numérotés de 1 à 6 (a1 , ..., a6 ), et 12 paniers numérotés de 1 à

12 (p1 , ..., p12 ). L’article ai est ans le panier pj si et seulement si i divise j, par conséquent, a1
est dans tous les paniers et a2 est dans les paniers de numéro pair, et ainsi de suite. Avec un
support minimum de 25% et une confidence minimale de 90%, donner :
1. La base de données formelle.
2. L’ensemble des motifs fréquents.
3. Les motifs fréquents fermés et les motifs fréquents maximaux.
4. Les règles solides.
Nous considérerons l’ensemble d’exemples représentant la nature de différents échantillons de

champignons : toxique ou non selon les critères de couleur, taille, forme et le milieu de crois-
sance :
Coleur Taille Forme Milieu Toxique

marron petit plat terre oui
jaune petit sphère terre oui
marron moyen conique bois non
blanc moyen sphère terre non
blanc grand plat terre non
1. Construire l’arbre de décision correspondant à cet ensemble en utilisant l’algorithme ID3.

Tournez la page ...
1
2. Donner la précision de l’arbre et sa moyenne harmonique sur la table de test suivante :

marron grand plat bois non
blanc moyen conique terre oui
jaune moyen sphère terre oui
jaune petit plat terre oui
3. Dites si le champignon blanc sphérique qui pousse sur le bois est toxique ou non, en
utilisant la classification bayésienne naı̈ve.
Dr A.Djeffal
2
Corrigé type
1. En utilisant les distances intra et inter-clusters permettant de mesurer respectivement le

rapprochement des exemples de chaque cluster et l’éloignement des clusters les uns des
autres. 2 pts
2. La méthode de Bagging se base sur le Bootstrap. Elle subdivise l’ensemble D d’exemples
en n sous-ensembles. À partir de chaque sous-ensemble Di , on apprend un modèle Mi en
utilisant la méthode Bootstrap. L’ensemble de ces modèles forme un modèle composé M∗ .
Pour classiffier un nouvel exemple, il est exposé à chaque modèle Mi pour obtenir une
classe cMi . Chaque décision est considérée comme un vote. La classe de décision est prise
comme la classe la plus votée. 1 pt
3. Les noyaux sont utilisés dans les SVMs pour trouver un espace où les données sont
linéairement séparables. 1 pt
Motifs fréquents (8 pts : 2 + 2 + 2 + 2)
1. La base formelle
a1 a2 a3 a4 a5 a6
p1 1 0 0 0 0 0
p2 1 1 0 0 0 0
p3 1 0 1 0 0 0
p4 1 1 0 1 0 0
p5 1 0 0 0 1 0
p6 1 1 1 0 0 1
p7 1 0 0 0 0 0
p8 1 1 0 1 0 0
p9 1 0 1 0 0 0
p1 0 1 1 0 0 1 0
p1 1 1 0 0 0 0 0
p1 2 1 1 1 1 0 1
2 pts
2. Motifs fréquents = {F1 ∪ F2 ∪ F3 }
– F1 = {a1 , a2 , a3 , a4 }
– F2 = {a1 a2 , a1 a3 , a1 a4 , a2 a4 }
– F3 = {a1 a2 a4 }
2 pts
3. – Motifs fréquents fermés = {a1 , a1 a2 , a1 a3 , a1 a2 a4 } 1 pt
– Motifs fréquents maximaux = {a1 a3 , a1 a2 a4 } 1 pt
4. Les règles solides :
(a) a2 ⇒ a1
(b) a3 ⇒ a1
(c) a4 ⇒ a1
3
(d) a4 ⇒ a2
(e) a2 a4 ⇒ a1
(f) a1 a4 ⇒ a2
1. Arbre construit par l’algorithme ID3
4 pts
2. – Précision = 35 = 60% 1 pt
– Moyenne harmonique :
Sv = CPCP 1
= 13

+F N
= 1+2
CN 2
Sp = CN +F P = 2+0
=1
2 × Sv × Sp 1/3 × 1
M oyenne harmonique = = = 0.25
Sv + Sp 1/3 + 1
1 pt
3. Classification bayésienne
– P (T oxique = oui) = 52 = 0.4
– P (Couleur = blac/T oxique = oui) = 02
– P (T aille = ∀/T oxique = oui) = 1
– P (F orme = Sphere/T oxique = oui) = 12
– P (M ilieu = bois/T oxique = oui) = 02
– On utilise l’estimateur de Laplace : ajouter 1 aux numérateurs et le
nombre de valeurs distincts de l’attribut aux dénominateurs :
– P (Couleur = blac/T oxique = oui) = 0+12+3
= 15
– P (F orme = Sphere/T oxique = oui) = 12
– P (M ilieu = bois/T oxique = oui) = 0+1
2+2
= 14
– P (T oxique = oui/Couleur = blanc ∧ F orme = Sphere ∧ M ilieu = bois) = 15 × 21 ×
1
4
× 0.4 = 0.01
– P (T oxique = non) = 53 = 0.6
– P (Couleur = blac/T oxique = non) = 32
– P (T aille = ∀/T oxique = oui) = 1
– P (F orme = Sphere/T oxique = non) = 13
4
– P (M ilieu = bois/T oxique = non) = 13
– P (T oxique = non/Couleur = blanc ∧ F orme = Sphere ∧ M ilieu = bois) = 32 × 13 ×
1
3
× 0.6 = 0.13
– Donc le champignon blanc sphérique qui pousse sur le bois n’est pas toxique.
2 pts
5

10 Jan 2016 10:00-11:30, S6
Examen
Questions de cours (4.5 pts : 1.5 + 1.5 + 1.5)
1. Expliquer comment peut-on utiliser les règles d’association pour la classification super-
visée.
2. Expliquer comment peut-on utiliser l’algorithme Apriori pour l’obtention des motifs rares.
3. Expliquer comment peut-on étendre la méthode SVM binaire pour résoudre les cas multi-
classes.
Exercice 1 (15.5 pts : 6 + 4 + 3.5 + 2)
Une banque dispose des informations suivantes sur un ensemble de clients :
client M A R E I
01 moyen moyen village oui oui
02 élevé moyen bourg non non
03 faible âgé bourg non non
04 faible moyen bourg oui oui
05 moyen jeune ville oui oui
06 élevé âgé ville oui non
07 moyen âgé ville oui non
08 faible moyen village non non
L’attribut client indique le numéro du client ; l’attribut M indique la moyenne des crédits sur
le compte du client ; l’attribut A donne la tranche d’âge ; l’attribut R décrit la localité du
client ; l’attribut E possède la valeur oui si le client possède un niveau d’études supérieur au
bac ; l’attribut I (la classe) indique si le client effectue ses opérations de gestion de compte via
Internet.
A. Règles d’association (6 pts :1 + 2 + 1.5 + 0.5)
1. Donner la base de données formelle correspondant à cette base.
2. Calculer les motifs fréquents correspondant à un minimum de support σs = 0.4
3. Calculer les règles solides correspondant à un seuil de confidence = 0.9
4. En déduire un modèle de décision.
B. Arbre de décision (4 pts :3 + 1)
1. Construire l’arbre de décision correspondant à cette base en utilisant l’algorithme
ID3.
2. Donner la précision de l’arbre construit sur la base suivante :
1
client M A R E I
01 moyen âgé village oui oui
02 élevé jeune ville non oui
03 faible âgé village non non
04 moyen moyen bourg oui non
B. Classification bayésiènne (3.5 pts :2 + 1.5)

1. Donner le modèle de décision deduit de cette base en utilisant la classification
bayésiènne naı̈ve.
2. Trouver les classes des exemples suivants :
client M A R E
01 ? âgé ? oui
02 élevé ? ville ?
03 faible ? ? ?
04 ? moyen bourg ?
B. Combinaison de modèles (2 pts)

1. Utiliser le modèle combiné par vote des trois modèles précédents pour trouver
les classes des exemples suivants :
client M A R E
01 moyen jeune bourg oui
02 élevé moyen village oui
03 faible jeune ville non
04 moyen jeune bourg non
Bonne Chance
Dr A.Djeffal
2
Corrigé type
Questions de cours (4.5 pts)
1. L’idée est de rechercher les règles solides contenant dans leur partie droite l’attribut classe,
c-à-d de la forme :
Attribut1 = vatt1 ∧ Attribut2 = vatt2 ∧ ... ∧ Attributn = vattn ⇒ Classe = vclasse
Plusieurs études ont montré que cette technique est plus précise que certaines méthodes
traditionnelles tel que les arbres de décision.
L’un des premiers algorithmes de classification associative est l’algorithme CBA (Classification-
Based Association). Il utilise l’algorithme Apriori pour générer les règles d’association puis
utilise une heuristique pour construire le classiffieur. Les règles sont ordonnées selon leurs
supports et confidences. Si plusieurs règles ont la même partie gauche, la règle de la confi-
dence la plus élevée est utilisée dans le classifieur. Pour classer un nouveau tuplet, la
première règle le satisfaisant est utilisée. Le classifieur contient aussi une règle par défaut
pour classer les tuplet dont une règles satisfaisante n’existe pas. 1.5pt
2. Une légère modification d’Apriori suffit pour conserver les MRM. Si le support d’un
candidat est inférieur au support minimum, alors à la place de l’effacer nous l’enregistrons
dans l’ensemble des motifs rares minimaux
Tous les motifs rares sont retrouvés à partir des motifs rares minimaux. Pour cela nous
avons besoin de générer tous les sur-motifs possibles des MRM. 1.5pt
3. Les méthodes des machines à vecteur support multiclasse, réduisent le problème mul-
ticlasse à une composition de plusieurs hyperplans biclasses permettant de tracer les
frontières de décision entre les différentes classes. Ces méthodes décomposent l’ensemble
d’exemples en plusieurs sous ensembles représentant chacun un problème de classification
binaire. Pour chaque problème un hyperplan de séparation est déterminé par la méthode
SVM binaire. On construit lors de la classification une hiérarchie des hyperplans binaires
qui est parcourue de la racine jusqu’à une feuille pour décider de la classe d’un nouvel
exemple. On trouve dans la littérature plusieurs méthodes de décomposition : 1vs1, 1vsR,
DAG, ...etc. 1.5pt
A. Règles d’association (6 pts :2 + 2 + 1.5 + 0.5)

1. Donner la base de données formelle correspondant à cette base. 2pt
a :M=moyen, b :M=faible, c :M=élevé, d :A=âgé, e :A=moyen, f :A=jeune, g :R=village,
h :R=ville, i :R=bourg, j :E=oui, k :E=non, l :I=oui, m :I=non
La base formelle
a b c d e f g h i j k l m
1 1 0 0 0 1 0 1 0 0 1 0 1 0
2 0 0 1 0 1 0 0 0 1 0 1 0 1
3 0 1 0 1 0 0 0 0 1 0 1 0 1
4 0 1 0 0 1 0 0 0 1 1 0 1 0
5 1 0 0 0 0 1 0 1 0 1 0 1 0
6 0 0 1 1 0 0 0 1 0 1 0 0 1
7 1 0 0 1 0 0 0 1 0 1 0 0 1
8 0 1 0 0 1 0 1 0 0 0 1 0 1
3
2. Calculer les motifs fréquents correspondant à un minimum de support σs = 0.4 2pts
• Selon Weka : σs = 0.4 ⇒ 3 instances, les motifs fréquents :
F 1 = {a, b, d, e, h, i, j, k, l, m}
F 2 = {aj, dm, hj, jl, km}
F3 = φ
F = F1 ∪ F2
• Selon un calcul dur : σs = 0.4 ⇒ 4 instances
F 1 = {e, j, m}
F2 = φ
F = F1
3. Calculer les règles solides correspondant à un seuil de confidence = 0.9 1.5pt
• Selon Weka : σs = 0.4 ⇒ 3 instances, les règles solides :
- a ⇒ j, d ⇒ m, h ⇒ j, l ⇒ j, k ⇒ m
• Selon un calcul dur : σs = 0.4 ⇒ 4 instances, les règles solides :
Aucune
4. En déduire un modèle de décision. 0.5pt
• Selon Weka : σs = 0.4 ⇒ 3 instances, le modèle :
-d⇒m
-k⇒m
- m (par défaut)
• Selon un calcul dur : σs = 0.4 ⇒ 4 instances, le modèle :
- m (par défaut : la classe la plus fréquente.
ID3. 3pts
ou
4
2. Donner la précision de l’arbre construit sur la base suivante : 1pt
client M A R E I
01 moyen âgé village oui oui
02 élevé jeune ville non oui
03 faible âgé village non non
04 moyen moyen bourg oui non
2
Précision = 4
= 50%
B. Classification bayésiènne (3.5 pts :2 + 1.5)
bayésiènne naı̈ve. 2pts
I oui (3/8) non (5/8)

M moyen 2/3 1/5
élevé 0 2/5
faible 1/3 2/5
A moyen 2/3 2/5
âgé 0 3/5
jeune 1/3 0
R village 1/3 1/5
ville 1/3 2/5
bourg 1/3 2/5
E oui 3/3 2/5
non 0 3/5
En utilisant l’estimateur de Laplace :
5
I oui (3/8) non (5/8)
M moyen 3/6 1/5
élevé 1/6 2/5
faible 2/6 2/5
A moyen 3/6 3/8
âgé 1/6 4/8
jeune 2/6 1/8
R village 1/3 1/5
ville 1/3 2/5
bourg 1/3 2/5
E oui 4/5 2/5
non 1/5 3/5
client M A R E
01 ? âgé ? oui
02 élevé ? ville ?
03 faible ? ? ?
04 ? moyen bourg ?
– Exemple 1 :
P(X/I=oui) = P(A=âgé/I=oui).P(E=oui/I=oui).P(I=oui)
=1/6 . 4/5 . 3/8 = 0,05
P(X/I=non) = P(A=âgé/I=non).P(E=oui/I=non).P(I=non)
=4/8 . 2/5 . 5/8 = 0,125
Classe = non 0.5pt
– Exemple 2 :
P(X/I=oui) = P(M=élevé/I=oui).P(A=ville/I=oui).P(I=oui)
=1/6 . 1/3 . 3/8 = 0,02
P(X/I=non) = P(M=élevé/I=non).P(A=ville/I=non).P(I=non)
=2/5 . 2/5 . 5/8 = 0,1
Classe = non 0.5pt
– Exemple 3 :
P(X/I=oui) = P(M=faible/I=oui).P(I=oui)
=2/6 . 3/8 = 0,125
P(X/I=non) = P(M=faible/I=non).P(I=non)
=2/5 . 5/8 = 0,25
Classe = non 0.5pt
– Exemple 4 :
P(X/I=oui) = P(A=moyen/I=oui).P(R=bourg/I=oui).P(I=oui)
=3/6 . 1/3 . 3/8 = 0,06
P(X/I=non) = P(A=moyen/I=non).P(R=bourg/I=non).P(I=non)
=3/8 . 2/5 . 5/8 = 0,09
Classe = non 0.5pt
6
client M A R E
01 moyen jeune bourg oui
02 élevé moyen village oui
03 faible jeune ville non
04 moyen jeune bourg non
– Exemple 1 :
- Modèle associatif : Non
- Modèle d’arbre de décision : Oui
- Modèle bayésien :
P(X/oui) = P(oui).P(moyen/oui).P(jeune/oui).P(bourg/oui).P(oui/oui)
= 3/8 . 3/6 . 2/6 . 1/3 . 4/5 = 72/4320 = 0,016
P(X/non) = P(non).P(moyen/non).P(jeune/non).P(bourg/non).P(oui/non)
= 5/8 . 1/5 . 1/8 . 2/5 . 2/5 = 20/8000 = 0,0025
Classe : Oui
-Classe = Oui 0.5pt
– Exemple 2 :
- Modèle associatif : Non
- Modèle d’arbre de décision : Oui
P(X/oui) = P(oui).P(élevé/oui).P(moyen/oui).P(village/oui).P(oui/oui)
= 3/8 . 1/6 . 3/6 . 1/3 . 4/5 = 36/4320 = 0,0083
P(X/non) = P(non).P(élevé/non).P(moyen/non).P(village/non).P(oui/non)
= 5/8 . 2/5 . 3/8 . 1/5 . 2/5 = 60/8000 = 0,0075
Classe : Oui
- Classe = Oui 0.5pt
– Exemple 3 :
- Modèle associatif : non
- Modèle d’arbre de décision : oui
P(X/oui) = P(oui).P(faible/oui).P(jeune/oui).P(ville/oui).P(non/oui)
= 3/8 . 2/6 . 2/6 . 1/3 . 1/5 = 12/4320 = 0,0027
P(X/non) = P(non).P(faible/non).P(jeune/non).P(ville/non).P(non/non)
= 5/8 . 2/5 . 1/8 . 2/5 . 3/5 = 60/8000 = 0,0075
Classe : non
- Classe = non 0.5pt
– Exemple 4 :
- Modèle associatif : non
- Modèle d’arbre de décision : oui
- Modèle bayésien : Oui
P(X/oui) = P(oui).P(moyen/oui).P(jeune/oui).P(bourg/oui).P(non/oui)
= 3/8 . 3/6 . 2/6 . 1/3 . 1/5 = 18/4320 = 0,0041
P(X/non) = P(non).P(moyen/non).P(jeune/non).P(bourg/non).P(non/non)
= 5/8 . 1/5 . 1/8 . 2/5 . 3/5 = 30/8000 = 0,0038
Classe : Oui
- Classe = Oui 0.5pt
7
23 Fév 2016 16:30-18:00, S3
Examen de rattrapage
On considère les données suivantes :

N˚ Cheveux Taille Poids Crème solaire Classe
1 blond moyenne léger non coup de soleil
2 blond grande moyen oui bronzé
3 brun petite moyen oui bronzé
4 blond petite moyen non coup de soleil
5 roux moyenne lourd non coup de soleil
6 brun grande lourd non bronzé
7 brun moyenne lourd non bronzé
8 blond petite léger oui bronzé
A. Règles d’association (8 pts)

1. Donner la base de données formelle correspondant à cette base.
3. Calculer les règles solides correspondant à un seuil de confidence = 0.9
4. En déduire un modèle de décision.
B. Arbre de décision (5 pts)
ID3.
2. Donner la précision de l’arbre construit sur la base suivante :

1 blond petite léger oui coup de soleil
2 roux grande moyen non bronzé
3 brun moyenne moyen non bronzé
4 blond petite lourd oui coup de soleil
C. Classification bayésiènne (4 pts)

bayésiènne naı̈ve.
N˚ Cheveux Taille Poids Crème solaire

1 ? petite ? oui
2 ? grande moyen ?
3 brun ? ? non
4 ? ? lourd ?
1
D. Combinaison de modèles (3 pts)
1. Utiliser le modèle combiné par vote des trois modèles précédents pour trouver les
classes des exemples suivants :

1 blond moyenne léger oui
2 roux grande moyen non
3 roux moyenne lourd non
4 brun petite moyen oui
Bonne Chance
Dr A.Djeffal
2
Corrigé type
A. Règles d’association (8 pts :3 + 2 + 2 + 1)
1. Donner la base de données formelle correspondant à cette base. 3pts
a :Cheveux=blond, b :Cheveux=brun, c :Cheveux=roux, d :Taille=moyenne,
e :Taille=grande, f :Taille=petite, g :Pois=léger, h :Pois=moyen, i :Pois=lourd,
j :Crème solaire=non, k :Crème solaire=oui, l :Classe=coup de soleil,
m :Classe=bronzé
La base formelle
a b c d e f g h i j k l m
1 1 0 0 1 0 0 1 0 0 1 0 1 0
2 1 0 0 0 1 0 0 1 0 0 1 0 1
3 0 1 0 0 0 1 0 1 0 0 1 0 1
4 1 0 0 0 0 1 0 1 0 1 0 1 0
5 0 0 1 1 0 0 0 0 1 1 0 1 0
6 0 1 0 0 1 0 0 0 1 1 0 0 1
7 0 1 0 1 0 0 0 0 1 1 0 0 1
8 1 0 0 0 0 1 1 0 0 0 1 0 1

2pts
F 1 = {a, b, d, f, h, i, j, k, l, m}
F 2 = {bm, dk, ik, km, jl}
F3 = φ
F = F1 ∪ F2
3. Calculer les règles solides correspondant à un seuil de confidence = 0.9 2pts
- b ⇒ m, d ⇒ j, i ⇒ j, k ⇒ m, l ⇒ j
4. En déduire un modèle de décision. 1pt
-b⇒m
-k⇒m
- m (par défaut)
ID3. 3pts
3
2. Donner la précision de l’arbre construit sur la base suivante : 2pts

1 blond petite léger oui coup de soleil
2 roux grande moyen non bronzé
3 brun moyenne moyen non bronzé
4 blond petite lourd oui coup de soleil
1
Précision = 4
= 25%
B. Classification bayésiènne (4 pts :2 + 2)
1. Donner le modèle de décision déduit de cette base en utilisant la classification
bayésiènne naı̈ve. 2pts
I coup de soleil (3/8) bronzé (5/8)

Cheveux blond 3/6 3/8
brun 1/6 4/8
roux 2/6 1/8
Taille moyenne 3/6 1/5
grande 1/6 2/5
petite 2/6 2/5
Poids léger 1/3 1/5
moyen 1/3 2/5
lourd 1/3 2/5
Crème oui 1/5 3/5
non 4/5 2/5

1 ? petite ? oui
2 ? grande moyen ?
3 brun ? ? non
4 ? ? lourd ?
– Exemple 1 :
P(X/Classe=soleil) =
P(Taille=petite/Classe=soleil).P(Crème=oui/Classe=soleil).P(Classe=soleil)
=2/6 . 4/5 . 3/8 = 0,1
P(X/Classe=bronzé) =
P(Taille=petite/Classe=bronzé).P(Crème=oui/Classe=bronzé).
P(Classe=bronzé) = 2/5 . 3/5 . 5/8 = 0,15
Classe = bronzé 0.5pt
– Exemple 2 :
P(Taille=grande/Classe=soleil).P(Poids=moyen/Classe=soleil).P(Classe=soleil)
=1/6 . 1/3 . 3/8 = 0,02
P(Taille=grande/Classe=bronzé).P(Poids=moyen/Classe=bronzé).
4
P(Classe=bronzé) =2/5 . 2/5 . 5/8 = 0,1
– Exemple 3 :
P(Cheveux=brun/Classe=soleil).P(Crème=non/Classe=soleil).P(Classe=soleil)
=1/6 . 1/5 . 3/8 = 0,0125
P(Cheveux=brun/Classe=bronzé).P(Crème=non/Classe=bronzé).
P(Classe=bronzé) = 4/8 . 2/5 . 5/8 = 0,125
– Exemple 4 :
P(Poids=lourd/Classe=soleil).P(Classe=soleil)
=1/3 . 3/8 = 0,125
P(Poids=lourd/Classe=bronzé).P(Classe=bronzé)
= 2/5 . 5/8 = 0,25

1 blond moyenne léger oui
2 roux grande moyen non
3 roux moyenne lourd non
4 brun petite moyen oui
– Exemple 1 :
- Modèle associatif : Classe = bronzé
- Modèle d’arbre de décision : Classe = bronzé
P(X/Classe = soleil) = 3/6 . 3/6 . 1/3 . 4/5 . 3/8 = 0.008
P(X/Classe = bronzé) = 3/8 . 1/5 . 1/5 . 3/5 . 5/8 = 0.005
Classe = soleil
-Classe = bronzé 0.75pt
– Exemple 2 :
- Modèle d’arbre de décision : Classe = soleil
P(X/Classe = soleil) = 2/6 . 1/6 . 1/3 . 1/5 . 3/8 = 0.001
P(X/Classe = bronzé) = 1/8 . 2/5 . 2/5 . 2/5 . 5/8 = 0.003
Classe = bronzé
– Exemple 3 :
- Modèle d’arbre de décision : Classe = soleil
5
P(X/Classe = soleil) = 2/6 . 3/6 . 1/3 . 1/5 . 3/8 = 0.004
P(X/Classe = bronzé) = 1/8 . 1/5 . 2/5 . 2/5 . 5/8 = 0.0025
Classe = soleil
-Classe = soleil 0.75pt
– Exemple 4 :
- Modèle d’arbre de décision : Classe = bronzé
P(X/Classe = soleil) = 1/6 . 2/6 . 1/3 . 4/5 . 3/8 = 0.005
P(X/Classe = bronzé) = 4/8 . 2/5 . 2/5 . 3/5 . 5/8 = 0.03
Classe = bronzé
6
8 Mars 2015 14:50-16:20, S4
1. Deux classes d’algorithmes sont utilisées dans le clustering hiérarchique : les algorithmes
divisibles et les algorithmes aglomératifs. Quelle différence existe entre les deux ?
2. Dire comment peut-on obtenir les règles de décisions à partir d’un arbre de décision.
3. Dire comment peut-on obtenir les règles de décision à partir des règles solides.
Exercice 1 Motifs fréquents (8 pts : 2 + 2 + 2 + 2)
Soit le treillis suivant représentant les motifs obtenus à partir des items A,B,C et E avec leurs
fréquences :
En supposant que la fréquence minimale est de 3 et que la confidence minimale et de 0.8,

donner :
1. L’ensemble des motifs fréquents.
2. Les motifs fréquents fermés et les motifs fréquents maximaux.
3. Les motifs rares.
4. Les règles solides obtenus à partir du motif fréquent maximal le plus long.
Tournez la page ...
1
Nous considérerons l’ensemble suivant d’exemples caractérisé par les attributs : Forme, Taille
et Couleur.
Forme Taille Coleur Classe

rond petit bleu oui
carré grand rouge non
rond ? blanc oui
carré petit bleu oui
rond grand bleu oui
carré grand blanc non
carré ? blanc oui
carré grand bleu non
carré petit rouge oui
rond grand blanc oui
1. Remplacer les données manquantes par le mode de l’attribut correspondant.

2. Construire l’arbre de décision correspondant par l’algorithme ID3.
3. Donner le taux de reconnaissance de l’arbre construit sur la table suivante :

carré petit blanc non
carré grand bleu oui
rond petit rouge oui
Dr A.Djeffal
2
Corrigé type
1. Les algorithmes agglomératifs considèrent chaque exemple dans un cluster propore puis
les regroupent d’étape en étape jusqu’à arriver à un seul cluster.
Les algorithmes divisible font l’inverse : ils considèrent tous les exemples dans un seul
cluster puis les subdivisent d’étape en étape jusqu’à arriver à un cluster par exemple.
2. En prenant chaque chemin de la racine à une feuille en considérant les arcs comme des
tests et la feuille comme décision.
3. En prenant les règles solides dont la partie droite égale à la classe.
h Motifs fréquents (8 pts : 2 + 2 + 2 + 2)
1. Motifs fréquents = {A, B, C, E, AC, BE, BC, CE, BCE}

2. Motifs fréquents fermés = {C, E, AC, BCE}
3. Motifs fréquents maximaux = {AC, BCE}
4. Motifs rares = {AB, AE, ABC, ABE, ACE, ABCE}
5. Les règles solides :
(a) BC ⇒ E
(b) BE ⇒ C
(c) CE ⇒ B
1. Remplacement des données manquantes :

rond petit bleu oui
carré petit bleu oui
rond grand bleu oui
carré grand blanc non
carré grand blanc oui
carré grand bleu non
carré petit rouge oui
3
2. Arbre de décision
2
3. Précision = 4
= 50%
4
Master IOD Fouille de Données Avancée

25 Fév 2017 10:00-11:30, S4
Exercice 1 Motifs fréquents (8 pts)
Nous considérerons l’ensemble d’exemples représentant la nature de différents échantillons

de champignons : toxique ou non selon les critères de couleur, taille, forme et le milieu de
croissance :

marron petit plat terre oui
jaune petit sphère terre oui
blanc moyen sphère terre non
blanc grand plat terre non
1. Transformer la table en une base formelle

2. En considérant un support minimum de 40 %, trouver :
– les motifs fréquents,
– Les motifs fréquents fermés,
– Les motifs fréquents maximaux,
– Les motifs rares minimaux.
3. En déduire un modèle de décision sachant que la classe est l’attribut ”Toxique”
Exercice 2 Classifcation supervisée (12 pts)
1. Donner le modèle de décision construit en utilisant la méthode ZeroR,

2. Donner le modèle de décision construit en utilisant la méthode OneR,
3. Donner le modèle de décision construit en utilisant la méthode ID3,
4. Donner le modèle construit en utilisant une combinaison des trois modèles précédents
par la méthode Stacking à base d’une classification bayésiènne naı̈ve.
Bonne Chance
Dr A.Djeffal
Corrigé type
Exercice 1 (8 pts)
1. Table formelle : (1 pts)
Couleur Taille Forme Milieu Toxique

marron jaune blan petit moyen grand plat sphere conique terre bois oui non
01 1 0 0 1 0 0 1 0 0 1 0 1 0
02 0 1 0 1 0 0 0 1 0 1 0 1 0
03 1 0 0 0 1 0 0 0 1 0 1 0 1
04 0 0 1 0 1 0 1 0 0 1 0 0 1
05 0 0 1 0 0 1 0 0 1 1 0 0 1
2. F1 = {Coleur=marron, Coleur=blanc, Taille=petit, Taille=moyen, Forme=plat, Forme=sphere,

Milieu=terre, Toxique=oui, Toxique=non },
F2 = { Coleur=blanc Milieu=terre, Coleur=blanc Toxique=non, Taille=petit Mi-
lieu=terre, Taille=petit Toxique=oui, Taille=moyen Toxique=non, Forme=plat Mi-
lieu=terre, Forme=sphere Milieu=terre, Milieu=terre Toxique=oui, Milieu=terre Toxique=non
}
F3 = {Coleur=blanc Milieu=terre Toxique=non, Taille=petit Milieu=terre Toxique=oui

},
– Motifs fréquents : F1 ∪ F2 ∪ F3 (2 pts)

– Motifs fréquents fermés : {Coleur=marron, Toxique=non, Taille=moyen Toxique=non,
Forme=plat Milieu=terre, Forme=sphere Milieu=terre, Coleur=blanc Milieu=terre
Toxique=non, Taille=petit Milieu=terre Toxique=oui } (1 pt)
– Motifs fréquents maximaux : {Coleur=marron, Taille=moyen Toxique=non, Forme=plat
Milieu=terre, Forme=sphere Milieu=terre, Coleur=blanc Milieu=terre Toxique=non,
Taille=petit Milieu=terre Toxique=oui } (1 pt)
– Motifs rares minimaux : {... } (2 pt)
Exercice 2 (12 pts)
1. Modèle ZeroR : Toxique = non ; (2 pt)
2. Modèle OneR :
– Si Taille = petit alors Toxique = Oui
– Si Taille = moyen ou grand alors Toxique = Non
(3 pt)
3. Modèle ID3 : (4 pts)
– Si Taille = petit alors Toxique = Oui
– Si Taille = moyen ou grand alors Toxique = Non
4. Table de décision des modèles : (1.5 pt)
Patient ZeroR OneR ID3 Infection

01 non oui oui oui
02 non oui oui oui
03 non non non non
04 non non non non
05 non non non non
Modèle Stacking par naı̈ve bayes : (1.5 pt)
Toxique
Attribut oui (2/5) non (3/5)
ZeroR
oui 0/5 0/5
non 2/5 3/5
OneR
oui 2/2 0/2
non 0/3 3/3
ID3
oui 2/2 0/2
non 0/3 3/3
UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département Informatique Année universitaire : 2016-2017
1ère année Master ISTW Date : 04/12/2016
Interrogatoire : Théorie et pratique du Datamining
Exercice 01 : Soient les deux individus suivants correspondant à des séquences ADN :
X = AGGGTGGC et Y = AGGCGTAA
1. Dans quel espace « vivent » les points X et Y ? a quelle dimension ?
2. Si on code : A=0, G=1, C=2 et T=3, quelle est la distance euclidienne d(X,Y) ?
Cela a-t-il un sens en terme de similitude entre les séquences ADN X et Y? Expliquez notamment en
comparant d(A,G) et d(A,T) ?
3. Calculer la matrice de contingence associée A(X,Y). En déduire la distance de Hamming associée. A
quoi la valeur trouvée correspond-elle pratiquement ?
Exercice 02 : Répondez brièvement aux questions suivantes :
1. Le Datamining est un processus inductif, itératif et/ou Interactif de découverte dans les bases de
données larges de modèles de données valides, nouveaux, utiles et compréhensibles. Expliquez ?
2. Que représentent les méthodes Stepdisk, Wrapper, FCBF et pour quelle raison elles sont utilisées ?
3. Quelle est la différence entre les méthodes de partitionnement et les méthodes hiérarchiques ?
Exercice 03 : On considère les données suivantes :
N° cheveux taille poids crème solaire classe
1 blond moyenne léger non Oui = coup de soleil
2 blond grande moyen oui Non = bronzé
3 brun petite moyen oui Non = bronzé
4 blond petite moyen non Oui = coup de soleil
5 roux moyenne lourd non Oui = coup de soleil
6 brun grande lourd non Non = bronzé
7 brun moyenne lourd non Non = bronzé
8 blond petite léger oui Non = bronzé
1. On suppose que les individus sont décrits à l'aide des quatre attributs cheveux, taille, poids et crème
solaire. Construire l'arbre de décision produit par l'algorithme d'apprentissage ID3 en utilisant la
fonction Entropie et la fonction gain associée (lors de l’égalité des gains, le choix des attributs est dans
l’ordre: cheveux, taille, poids et crème solaire). Détailler les calculs pour le choix des attributs.
2. Déduire de l'arbre trouvé une seule règle comportant une disjonction, une conjonction et une négation.
3. En utilisant l’arbre construit, classer l’instance N°9: blond, moyenne, lourd, non.
4. En utilisant l’ensemble des huit instances, et en supposant que l’attribut crème solaire est énumératif,
dites lequel des instances est plus proche de l’instance N° 9 ? que représentent ces calculs (donner le
nom de ces calculs) ?
☺ To succeed in life one must have the courage to pursue what he wants ☺
Enseignant : Mr K. Boudjebbour Page 1 / 1

1ère année Master ISTW
Corrigé type de l’interrogatoire : DataMining
Exercice 01 (05 Pts) : Soient les deux individus suivants correspondant à des séquences ADN :
1. les points X et Y vivent dans l’espace {A, C, G, T}, la dimension représente le nombre
1 Pt
d’attributs qui est égal à 8.
2. Si on code : A=0, G=1, C=2 et T=3, la distance euclidienne d(X,Y) = ∑
( − ) =√14
1 Pt
Cela n’a pas de sens en terme de similitude entre les séquences ADN X et Y, car ce n’est pas une
1 Pt
distance qui convient à un tel espace discret (variables discrètes), notamment si on calcul d(A,G)=1 et
d(A,T)=3 et pourtant a priori A est aussi différent de G que de T.
3. la matrice de contingence associée A(X,Y), en considérant X selon les lignes et Y selon les
colonnes dans l’ordre A, C, G, et T est :

1 0 0 0 1 Pt
A= 1 0 0 0
1 1 2 1
0 0 1 0
Donc, la distance de Hamming associée est dHamming(X,Y)=5.
1 Pt
Elle correspond pratiquement au nombre de coordonnées différentes entre les deux vecteurs X et Y.
Exercice 02 (5 Pts) :
1.
Inductif : Généralisation d’une observation ou d’un raisonnement établis à partir de cas singuliers.
Itératif : Nécessite plusieurs passes (instructions).
Interactif : L’utilisateur est dans la boucle du processus.
2 Pt
Valides : Valable dans le futur.
Nouveaux : Non prévisibles.
Utiles : Permettent à l’utilisateur de prendre des décisions.
Compréhensibles : Présentation simple.
2. Les méthodes Stepdisk, Wrapper, FCBF sont des méthodes de Sélection de variables (attributs)
- Elles sont utilisées pour réduire le nombre d’attributs (variables) 1 Pt
3. Dans les méthodes de partitionnement le nombre de cluster est définit avant le lancement de
1 Pt l’algortihme contrairement aux méthodes hiérarchique. Aussi les méthodes de partitionnement ne
travaillent qu’avec des données numériques seulement.
Exercice 03(10 Pts) :
log - log = 0,954

# #

1) On calcul l’entropie sur l’ensemble des données : I(3,5)= - 1 Pt

Gain (cheveux)= I(3,5)-E(cheveux)= I(3,5)-( I(2,2)+ I(0,3)+ I(1,0)=0,454

%
Ensuite on calcul le gain de chaque attribut :

Gain (taille)= I(3,5)-E(taille)= I(3,5)-( I(2,1)+ I(0,2)+ I(1,2)=0,266

Gain (poids)= I(3,5)-E(poids)= I(3,5)-( I(1,1)+ I(1,2) )+ I(2,1))=)=0,0155

1 Pt

Gain (crème solaire)= I(3,5)-E(crème solaire)= I(3,5)-( I(3,2)+ I(0,3))=0,347
#

Donc on choisit l’attribut « cheveux » avec le gain le plus grand (Gain=0.454) qui représente le nœud
la racine de l’arbre, Donc l’arbre initial sera : Cheveux
Blond Roux
Brun 1 Pt
????????? Coup de soleil
Instances : 1,2,4,8 Bronzé Instance : 5
Instances : 3,6,7
La valeur cheveux = blond donne plusieurs valeurs de l’attribut classe, donc, il faut refaire le mème
travail (calcul du gain) pour l’ensemble des données Sblond ={1,2,4,8}.
Gain (Sblond , taille)= I(2,2)-E(Sblond ,taille)= 1-( I(1,0)+ I(0,1)+ I(1,1)=0,5

I(Sblond) =I(2,2)=1
% % %
Gain (Sblond , poids)= I(2,2)-E(Sblond ,poids)= 1-( I(1,1)+ I(1,1))=0

1 Pt
% %
Gain (Sblond , crème solaire)= I(2,2)-E(Sblond ,crème solaire)=1-( I(2,0)+ I(0,2))=1

% %
Donc on choisit l’attribut « crème solaire » avec le gain le plus grand (Gain=1) et l’arbre final sera :
Cheveux
Blond Brun Roux
1 Pt Crème solaire Bronzé Coup de soleil
Oui Instances : 3,6,7 Instance : 5

Non
Bronzé Coup de soleil

Instances : 2,8 Instances : 1,4
((cheveux = Blanc) ∧¬ crème solaire) 1 Pt

2) La règle qu’on peut déduire est :
(cheveux = Roux) ⋁
3) La classe est : coup de soleil 1 Pt
4) Il faut calculer la distance entre l’instance N°9 et les 8 autres instances :
1 Pt D(X,Y)= (P-M) / P tel que : P est le nombre total d’attributs et M le nombre de ressemblance
%
% % % % % % % %
D(9,1) = ; D(9,2) = ; D(9,3) = ; D(9,4) = ; D(9,5) = ; D(9,6) = ; D(9,7) = ; D(9,8) = ;
2 Pts
Donc, les instances les plus proches de l’instance N°9 sont : l’instance N° 1, N° 5 et N° 7.

Département de Mathématique et Informatique Année universitaire : 2017-2018
Exercice 01 (02 pts) : Supposons qu’on veut utiliser des données binaires dans un processus de
clustering. Citer (ou proposer) une (des) mesure(s) de similarité (distance(s)) pour ce type de données.
Evaluer la (les) distance(s) entre les objets X = 0101010001 et Y = 0100011000. Que remarquez-vous ?
Déduisez la distance de Hamming associée. A quoi la valeur trouvée correspond-elle ?
Exercice 02 (03 pts) : Répondez brièvement aux questions suivantes :

1. Que signifie l’élagage et quel est son objectif ?
2. Quelle est la différence entre les techniques descriptives et les techniques prédictives de datamining ?
3. Dans le processus ECD, une phase de préparation des données est nécessaire. Que signifie la
transformation des données ? expliquer en donnant des exemples
Exercice 03 (05 pts) : Soit l’ensemble d’apprentissage ci-dessous. La classe est « Edible ».
N° Shape Color Odor Edible
1 C B 1 Y
2 D B 1 Y
3 D W 1 Y
4 D W 2 Y
5 C B 2 Y
6 D B 2 N
7 D G 2 N
8 C U 2 N
9 C B 3 N
10 C W 3 N
11 D W 3 N
1. En utilisant l’algorithme ID3 et le gain d’information, construire l’arbre de décision du dataset. Donner
les détails des calculs.
2. Déduire de l'arbre trouvé une seule règle comportant 2 disjonctions et 2 conjonctions au maximum.
3. En utilisant l’arbre construit, classer l’instance N°12: Shape=C, Color=G, Odor=2.
4. En utilisant l’ensemble des onze instances, et en supposant que les attributs « Color » et « Odor » sont
des variables énumératives, dites lequel des instances est plus proche de l’instance N° 12 ? quelle est la
distance utilisée ? Que représentent ces calculs (donner le nom de ces calculs) ?

Corrigé Interrogatoire : Théorie et pratique du Datamining
Exercice 01 (02,50 Pts): il faut dessiner la table de dissimilarité (contingence) : Y

0,5 Pt
on a trois cas possibles :
1 0
1. Similarité invariante, si toutes les variables sont symétriques (Coefficient de
correspondance simple) :
1 2 2
D1(X,Y) ===0,3 0,5 Pt X
2. Similarité non invariante, si toutes les variables sont asymétriques (Coefficient 0 1 5
de Jaccard):

D2(X,Y) = = =0,6 0,5 Pt

3. Si les variables sont symétriques et asymétriques : il faut spécifier la nature de chaque variable. 0,25 Pt
0,5 Pt Malgré que D1 et D2 représentent deux distances entre les mêmes instances, on remarque que qu’elles
sont très éloignées car D2=2*D1
Distance de hamming = b+c = 3. Elle représente le nombre de caractéristiques différentes entre x et y. 0,25 Pt
1. L’élagage est la suppression de quelques sous-arbres dans la l’arbre de décision. Son objectif
principal est la réduction de l’arbre afin d’améliorer le taux d’erreur.
2. les techniques descriptives de datamining visent à mettre en évidence des informations présentes
mais cachées par le volume de données alors que les techniques prédictives visent à extrapoler de
nouvelles informations à partir des informations présentes. Elles se basent essentiellement sur des
modèles qui utilisent des données présentes ou passées pour construire des scénarios futurs.
3. La transformation des données est la transformation d’un attribut A en une autre variable A’ qui
serait selon les objectifs de l’étude, plus appropriée.
Exp 1 : Variable continue en variable discrète et vice versa
Exp 2 : La construction d’agrégats par exemple, le prix au mètre-carré d’un appartement
Exercice 03 (05,50 Pts):

1) On calcul l’entropie sur l’ensemble des données : I(5,6)= - log - log = 0,994 0,5 Pt


Gain (Shape)= I(5,6)-E(Shape)= I(5,6)-( I(2,3)+ I(3,3))=0,008

Gain (Color)= I(5,6)-E(Color)= I(5,6)-( I(3,2)+ I(2,2)+ I(0,1)+ I(0,1)=0,189

Gain (Odor)= I(5,6)-E(Odor)= I(5,6)-( I(3,0)+ I(2,3)+ I(0,3))=0,553

Donc on choisit l’attribut « Odor » avec le gain le plus grand (Gain=0.553) qui représente le nœud la
racine de l’arbre, Donc l’arbre initial sera : Odor 1 Pt
2 3
1
????? N
Y
Instances : 4,5,6,7,8 Instance : 9,10,11
Instances : 1,2,3 Page 1 / 2
La valeur Odor = 2 donne plusieurs valeurs de l’attribut classe, donc, il faut refaire le même travail
(calcul du gain) pour l’ensemble des données S2 ={4,5,6,7,8}. I(S2) =I(2,3)=0,971

Gain (S2, Color)= I(2, 3)-E(S2, Color)=0,971-( I(1,0) + I(1,1)+ I(0,1)+ I(0,1))=0,571

Gain (S2, Shape)= I(2, 3)-E(S2, Shape)=0,971-( I(1,2) + I(1,1))=0,020

Donc on choisit l’attribut « Color» avec le gain le plus grand (Gain=0,571). On aura deux branches
avec des nœuds terminaux et la branche B qui sera nécessairement départagée par le seul attribut
restant à savoir «Shape» et l’arbre final sera : Odor
2 3
1
Color N
Y Instance : 9,10,11
B G ou U W Instances : 1,2,3
Shape N Y 1 Pt
C D Instances : 7,8 Instance : 4
Y N
Instance : 5 Instance : 6
(Odor = 1) ⋁ ((Odor = 2) ∧ ((Color = W) ⋁ ((Color = B) ∧ (Shape = C))) 1 Pt
3) La classe est : N 0,25 Pt
D(X,Y)=D1(Xi,Yi) + D2(Xi,Yi)
D1(Xi,Yi)= (P-M) / P tel que : P est le nombre total d’attributs et M le nombre de ressemblance
Qui concerne les deux attributs énumératifs « Odor » et « Color »
D2(Xi,Yi)= 0 si Xi = Yi ; 1 sinon Concerne l’attribut binaire « Shape » 01 Pt
N° Instance D1 D2 D N° Instance D1 D2 D
1 1 1 2 7 0,5 0 0,5
2 1 0 1 8 0 1 1
3 1 0 1 9 1 1 2
4 0,5 0 0,5 10 1 1 2
5 0,5 1 1,5 11 1 0 1
6 0,5 0 0,5
Donc, les instances les plus proches de l’instance N°12 sont : l’instance N° 4, N° 6 et N° 7. 0,25 Pt
La distance utilisée est la distante mixte entre deux type d’attributs (dans notre cas, on a utilisé la
distance de Manhattan) qui représente un calcul de similarité entre instantes afin d’appliquer une
méthode de clustering. 0,5 Pt
Page 2 / 2
Département Génie Electrique et Informatique Année universitaire : 2016-2017
1ère année Master Informatique ISTW Date : 05/01/2017
EFS S1 : Théorie et pratique du Datamining
Exercice 01 (05,50 Pts) : Répondez brièvement aux questions suivantes :

1. Expliquez brièvement les étapes du niveau analyse du processus ECD ?
2. Quelles sont les trois motivations principales qui poussent à garder des données très anciennes ?
3. Donner trois méthodes de calcul de distances entre clusters.
4. Expliquez brièvement le fonctionnement des méthodes hiérarchiques dans le clustering
5. Quelle sont les avantages et inconvénients des arbres de décision ?
Exercice 02 (10,50 Pts) : N° Age Sexe Spécialité Sportive
Une étude sur un ensemble de personnes a permet 1 19 F IT Oui

d’établir la BDD suivante représentant l’état 2 21 F IT Oui
« sportivité » de chaque personne par rapport aux 3 20 M Médecine Non
trois attributs (Age, sexe et spécialité). 4 35 M Engineering Non
1. Représenter ces données par un arbre de 5 34 M Médecine Oui

6 28 M Sociologie Non
décision en utilisant l’indice GINI comme
7 35 F IT Oui
critère de séparation.
8 40 F Médecine Non
9 35 M IT Oui
NB : le split utilisé pour l’attribut Age est le
10 23 M IT Non
même dans toutes les branches de l’arbre de
11 24 F Engineering Non
décision (Age ≥ 30 et Age < 30).
13 24 F Sociologie Oui
2. Calculer les performances sur l'ensemble test T ci-dessous en construisant la matrice de confusion
associée à cet énoncé. N° Age Sexe Specialité Sportive
14 24 F IT Oui
17 35 M IT Non
Ensemble Test T : 18 21 M Médecine Non
20 46 F IT Oui
21 40 M IT Oui

3. Donner les principaux indicateurs synthétiques, en déduisant le taux d’erreur.
4. En utilisant la distance normalisée pour l’attribut Age et en supposant que l’attribut «Sexe » est
énumératif (variable discrète), dites lequel des clients de l’ensemble test T est plus proche du client
N°1 en utilisant la distance de Manhattan entre les trois attributs (spécifiez les formules de calcul)?
Que représentent ces calculs ?
Si on généralise ces traitements sur un ensemble de données, quelle est le but principal de cette
approche ? Citez le nom de trois méthodes (types) utilisées pour appliquer cette approche ?
Exercice 03 (04 Pts) : Une société de production artistique désire faire une enquête de satisfaction sur
l’ensemble des spectacles de théâtre qu’elle a produit cette année pour prévoir le programme de travail
de la prochaine année. La base de données intègre des données sur les spectacles (artistes, lieu de
représentation, période, durée, sujet,…etc) et sur les spectateurs (sexe, niveau,…etc). Bien sûr,
l’appréciation donnée par les spectateurs représente la variable classe qu’on veut prédire. Le modèle de
classification est construit avec 32000 enregistrements. L’évaluation a permet de donner les résultats
suivants :
• Le nombre de personnes qui ont répondus négativement (non satisfait) alors que l’évaluation
leur a donné une réponse positif (satisfait) est de 2400.
• Précision = 0,60
• Taux d’erreur = 20 %
Construisez la matrice de confusion associée à cet exercice sachant le modèle est construit avec les
2/3 de l’ensemble des données historisées.
Supposant un cas général avec N classes, On peut bien sûr normaliser la matrice de confusion pour
en simplifier la lecture. Donnez le type que doit rapprocher la matrice de confusion pour que le taux
d’erreur soit le plus faible possible (un meilleur système de classification).
☺ Un tiens dans la main vaut mieux que deux tu l'auras ☺

☺ A bird in the hand is worth two in the bush ☺
☺ ‫ﻋﺼﻔﻮر ﰲ اﻟﻴﺪ ﺧﲑ ﻣﻦ ﻋﴩة ﻋﲆ اﻟﺸﺠﺮة‬ ☺

Corrigé type de l’EFS S1 : Théorie et pratique du Datamining
Exercice 01 (05,50 Pts) :
1. Les quatre étapes du processus ECD sont :
• Phase d’acquisition des données : Selection, Nettoyage, Intégration 2 Pt
• Phase Préparation des données : Transformation, Mise en forme, construction attributs
• Phase fouille de données : Datamining.
• Phase Gestion de connaissances : Evaluation, simplification, Mise en forme et présentation.
2. les trois motivations principales qui poussent à garder des données très anciennes sont :
• Développement des technologies de récupération et de stockage de données.
0,75 Pt • Réduction du coût de stockage des données pour garder des téra-octets de données.
• L’existence d’une véritable mine d’or dedans qu’on appelle connaissances.

3. Les trois méthodes de calcul de distances entre clusters sont :
- Distance minimale entre toutes les paires de données des deux clusters (single link method)
- Distance maximale entre toutes les paires de données des 2 clusters (Complete Link Method)
- Distance moyenne entre toutes la paires d’enregistrements (Average Linkage) 0,75 Pt
4. Le fonctionnement des méthodes hiérarchiques suit globalement l’algorithme suivant :
En entrée: un échantillon de m enregistrements x1, …, xm
1. On commence avec m clusters (cluster = 1 enregistrement)
1 Pt
2. Grouper les deux clusters les plus «proches».
3. S’arrêter lorsque tous les enregistrements sont membres d’un seul groupe
4. Aller en 2.
5. Les avantages des arbres de décision sont :
• Compréhensible pour tout utilisateur (lisibilité du résultat)
• Tout type de données
• Robuste au bruit et aux valeurs manquantes
• Classification rapide (parcours d’un chemin dans un arbre) (racine feuille)
• Outils disponibles dans la plupart des environnements de data mining 1 Pt
Les inconvénients des arbres de décision sont :
• Sensibles au nombre de classes: performances se dégradent
• Si les données évoluent dans le temps, il est nécessaire de relance la phase d’apprentissage
1) Indice GINI sur un seul ensemble est :1 − ∑
0,5 Pt
Tel que : S représente l’ensemble des données et Pi est la fréquence relative de la classe c dans S
Gini(S1,S2,..,Si)= ∑ / Gini(Si) tel que Ni représente le nombre d’instances du sous ensemble Si
selon un test donné.

- Il faut trouver le branchement (split-point) qui minimise l’indice Gini pour les trois attributs (Age, sexe
et Spécialité) :
a) Age : <30 ≥30
GINI(Age) = 8/13*(1-(3/8)2-(5/8)2) + 5/13 (1-(3/5)2-(2/5)2=0,47307692 Oui 3 3
Non 5 2
b) Sexe :
M F
GINI(Sexe) = 6/13*(1-(2/6)2-(4/6)2) + 7/13 (1-(4/7)2-(3/7)2)=0,42490843 1,5 Pt
Oui 2 4
c) Spécialité : Non 4 3
GINI(Sexe) = 5/13*(1-(4/5)2-(1/5)2)+4/13*(1-(1/4)2- IT Médecine Engineering Sociologie

Oui 4 1 0 1
(3/4)2)+2/13*(1-(0/2)2-(2/2)2)+2/13*(1-(1/2)2-(1/2)2)
Non 1 3 2 1
= 0,31538462
Donc on choisit l’attribut « spécialité » avec l’indice GINI le plus bas (GINI=0.31538462) qui
représente la racine de l’arbre, Donc l’arbre initial sera : Spécialité
0,5 Pt IT Sociologie
Médecine Engineering
Sous arbre IT : ???
Non ???
a) Age : ???
<30 ≥30
GINI(Age) = 3/5*(1-(2/3)2-(1/3)2)
Oui 2 2
+ 2/5 (1-(2/2)2-(0/2)2)=0,26666666
Non 1 0
b) Sexe : 1 Pt
GINI(Sexe) = 3/5*(1-(0/3)2-(3/3)2) M F
Oui 1 3
+ 2/5 (1-(1/2)2-(1/2)2)=0,2 Non 1 0
Donc on choisit l’attribut « Sexe» avec l’indice GINI le plus bas , Donc l’arbre sera :
Spécialité
IT
Médecine Engineering Sociologie
0,5 Pt Sexe
M F ??? Non ???
Age Oui
<30 ≥30
Sous arbre Médecine :
Non Oui
a) Age :
GINI(Age) = 2/4*(1-(0/2)2-(2/2)2) <30 ≥30
Oui 0 1
+ 2/4 (1-(1/2)2-(1/2)2)=2/4*0,5=0,25 Non 2 1
0,5 Pt
b) Sexe :
GINI(Sexe) = 2/4*(1-(0/2)2-(2/2)2) + M F
Oui 1 0 Spécialité
2/4 (1-(1/2)2-(1/2)2)=2/4*0,5=0,25 IT
Non 1 2 Médecine Sociologie
Les deux attributs ont la même valeur du GINI, Sexe Engineering
Age ???
M F
Donc on choisit l’un d’eux et l’arbre sera : <30 ≥30 Non
Age 0,5 Pt
Oui Sexe
Non
<30 ≥30
M F
Non Oui Non Oui
Sous arbre Sociologie :
a) Age :
GINI(Age) = 2/2 (1-(1/2)2-(1/2)2)=2/2*0,5=0,5 <30 ≥30
b) Sexe : Oui 1 0
Non 1 0
GINI(Sexe) = 0 M F 0,5 Pt
Donc on choisit l’attribut « Sexe» avec l’indice Oui 0 1
Non 1 0
GINI le plus bas , Donc l’arbre final sera :
Spécialité
IT
Médecine Sociologie
Sexe Engineering
0,5 Pt Age Sexe
M F
<30 ≥30 Non M F
Age Oui Non Sexe Non Oui
<30 ≥30
M F
Non Oui Non Oui
2) On applique l’ensemble test T sur l’arbre de décision et on trouve la classe prédite :
N° Age Sexe Specialité Classe réelle Classe prédite

14 24 F IT Oui Oui
15 29 M Sociologie Non Non
16 45 F Engineering Non Non
17 35 M IT Non Oui 0,5 Pt
18 21 F Médecine Non Non

20 46 F IT Oui Oui
21 40 M IT Oui Oui
0,5 Pt
• Matrice de confusion : Prédite (Oui) Prédite (Non) Total
Classe réelle (Oui) a=3 b=0 3
Classe réelle (Non) c=1 d=4 5
3) Indicateurs synthétiques : Total 4 4 8
• Vrais Positifs VP = 3 • Faux Positifs FP = 1 • Taux de VP = a/(a+b) = 100 % 0,5 Pt

• Taux de FP = c/(c+d) = 20 % • Précision = a/(a+c) =75 % • Spécificité = d/(c+d) = 80 %
• Taux d’erreur = b+c / n, Donc le taux d’erreur est : 1/8 = 0,125 = 12,5 % 0,5 Pt
4) Il faut calculer la distance de manhattan entre l’instance N°1 et toutes les autres instances de T :
Distance de manhattan : D(X,Y)= ∑
| − |, Distance normalisée : D(Xi,Yi)= (Xi-Yi)/Dmax 0,5 Pt
Distance entre variable discrètes : D(X,Y)= (P-M) / P , tel que : P est le nombre total d’attributs et M
le nombre de ressemblance
Dmax = 46-19=27

|
|

D(1,14) =

+ (2 − 2)/2 =0,185 ; D(1,15) = + 1=1,37 ; D(1,16) = + 0,5=1,463

D(1,17) = + 0,5=1,093 ; D(1,18) = + 1=1,074 ; D(1,19) = + 1=1,259 1 Pt

D(1,20) = + 0=1 ; D(1,21) = + 0,5=1,277

Donc, l’instance la plus proche de l’instance N°1 est : l’instance N° 14. 0,5 Pt
Ces calculs représentent le calcul de la distance entre instances (similarité) 0,5 Pt
C’est une technique d’apprentissage non supervisée de Datamining appelée Clustering (segmentation)
qui sert à déterminer des groupes de ressemblances entre les instances de la BDD. 0,5 Pt
Les méthodes sont : - Méthode de partitionnement (K-means), les Méthodes hiérarchiques (par
agglomération) et les méthodes par voisinage dense. 0,5 Pt
Ensemble modèle = 32000 = 2/3 * BDD => BDD =48000. 0.5 Pt
Ensemble test = 1/3 * BDD = 16000=N. 0.5 Pt
Nombre de personnes non satisfaits alors que leur évaluation est positif =c =2400 0,25 Pt
Precision = 0.60 donc a/(a+c) =0.60 alors 0.40 *a = 0.60 * c => a = 3600 0,25 Pt
Taux d’erreur =0.20 donc (c+b)/N=0.20 alors b=0.20 * N – c => b=800 0,25 Pt
N = a+b+c+d donc d=N-(b+c+a)=16000-(800+2400+3600) => d= 9200 0,25 Pt
Positif Négatif Total
Satisfait (Vrai) a=3600 b=800 a+b=4400
1 Pt
Non Satisfait (Faux) c= 2400 d=9200 c+d=11600
Total a+c=6000 b+d=10000 N=16000
Pour que le taux d’erreur soit le plus faible possible (un meilleur système de classification), la matrice
de confusion doit être une matrice diagonale. 1 Pt

1ère année Master ISTW Date : 04/12/2016
Exercice 01 : Soient les deux individus suivants correspondant à des séquences ADN :
1. Dans quel espace « vivent » les points X et Y ? a quelle dimension ?
2. Si on code : A=0, G=1, C=2 et T=3, quelle est la distance euclidienne d(X,Y) ?
Cela a-t-il un sens en terme de similitude entre les séquences ADN X et Y? Expliquez notamment en
comparant d(A,G) et d(A,T) ?
3. Calculer la matrice de contingence associée A(X,Y). En déduire la distance de Hamming associée. A
quoi la valeur trouvée correspond-elle pratiquement ?
Exercice 02 : Répondez brièvement aux questions suivantes :
1. Le Datamining est un processus inductif, itératif et/ou Interactif de découverte dans les bases de
données larges de modèles de données valides, nouveaux, utiles et compréhensibles. Expliquez ?
2. Que représentent les méthodes Stepdisk, Wrapper, FCBF et pour quelle raison elles sont utilisées ?
3. Quelle est la différence entre les méthodes de partitionnement et les méthodes hiérarchiques ?
Exercice 03 : On considère les données suivantes :
N° cheveux taille poids crème solaire classe
1 blond moyenne léger non Oui = coup de soleil
2 blond grande moyen oui Non = bronzé
3 brun petite moyen oui Non = bronzé
4 blond petite moyen non Oui = coup de soleil
5 roux moyenne lourd non Oui = coup de soleil
6 brun grande lourd non Non = bronzé
7 brun moyenne lourd non Non = bronzé
8 blond petite léger oui Non = bronzé
1. On suppose que les individus sont décrits à l'aide des quatre attributs cheveux, taille, poids et crème
solaire. Construire l'arbre de décision produit par l'algorithme d'apprentissage ID3 en utilisant la
fonction Entropie et la fonction gain associée (lors de l’égalité des gains, le choix des attributs est dans
l’ordre: cheveux, taille, poids et crème solaire). Détailler les calculs pour le choix des attributs.
2. Déduire de l'arbre trouvé une seule règle comportant une disjonction, une conjonction et une négation.
3. En utilisant l’arbre construit, classer l’instance N°9: blond, moyenne, lourd, non.
4. En utilisant l’ensemble des huit instances, et en supposant que l’attribut crème solaire est énumératif,
dites lequel des instances est plus proche de l’instance N° 9 ? que représentent ces calculs (donner le
nom de ces calculs) ?

1ère année Master ISTW
Corrigé type de l’interrogatoire : DataMining
Exercice 01 (05 Pts) : Soient les deux individus suivants correspondant à des séquences ADN :
1. les points X et Y vivent dans l’espace {A, C, G, T}, la dimension représente le nombre
1 Pt
d’attributs qui est égal à 8.
2. Si on code : A=0, G=1, C=2 et T=3, la distance euclidienne d(X,Y) = ∑
( − ) =√14
1 Pt
Cela n’a pas de sens en terme de similitude entre les séquences ADN X et Y, car ce n’est pas une
1 Pt
distance qui convient à un tel espace discret (variables discrètes), notamment si on calcul d(A,G)=1 et
d(A,T)=3 et pourtant a priori A est aussi différent de G que de T.
3. la matrice de contingence associée A(X,Y), en considérant X selon les lignes et Y selon les
colonnes dans l’ordre A, C, G, et T est :

1 0 0 0 1 Pt
A= 1 0 0 0
1 1 2 1
0 0 1 0
Donc, la distance de Hamming associée est dHamming(X,Y)=5.
1 Pt
Elle correspond pratiquement au nombre de coordonnées différentes entre les deux vecteurs X et Y.
1.
Inductif : Généralisation d’une observation ou d’un raisonnement établis à partir de cas singuliers.
Itératif : Nécessite plusieurs passes (instructions).
Interactif : L’utilisateur est dans la boucle du processus.
2 Pt
Valides : Valable dans le futur.
Nouveaux : Non prévisibles.
Utiles : Permettent à l’utilisateur de prendre des décisions.
Compréhensibles : Présentation simple.
2. Les méthodes Stepdisk, Wrapper, FCBF sont des méthodes de Sélection de variables (attributs)
- Elles sont utilisées pour réduire le nombre d’attributs (variables) 1 Pt
3. Dans les méthodes de partitionnement le nombre de cluster est définit avant le lancement de
1 Pt l’algortihme contrairement aux méthodes hiérarchique. Aussi les méthodes de partitionnement ne
travaillent qu’avec des données numériques seulement.
Exercice 03(10 Pts) :
log - log = 0,954

# #

1) On calcul l’entropie sur l’ensemble des données : I(3,5)= - 1 Pt

Gain (cheveux)= I(3,5)-E(cheveux)= I(3,5)-( I(2,2)+ I(0,3)+ I(1,0)=0,454

%

Gain (taille)= I(3,5)-E(taille)= I(3,5)-( I(2,1)+ I(0,2)+ I(1,2)=0,266

Gain (poids)= I(3,5)-E(poids)= I(3,5)-( I(1,1)+ I(1,2) )+ I(2,1))=)=0,0155

1 Pt

Gain (crème solaire)= I(3,5)-E(crème solaire)= I(3,5)-( I(3,2)+ I(0,3))=0,347
#

Donc on choisit l’attribut « cheveux » avec le gain le plus grand (Gain=0.454) qui représente le nœud
la racine de l’arbre, Donc l’arbre initial sera : Cheveux
Blond Roux
Brun 1 Pt
????????? Coup de soleil
Instances : 1,2,4,8 Bronzé Instance : 5
Instances : 3,6,7
La valeur cheveux = blond donne plusieurs valeurs de l’attribut classe, donc, il faut refaire le mème
travail (calcul du gain) pour l’ensemble des données Sblond ={1,2,4,8}.
Gain (Sblond , taille)= I(2,2)-E(Sblond ,taille)= 1-( I(1,0)+ I(0,1)+ I(1,1)=0,5

I(Sblond) =I(2,2)=1
% % %
Gain (Sblond , poids)= I(2,2)-E(Sblond ,poids)= 1-( I(1,1)+ I(1,1))=0

1 Pt
% %
Gain (Sblond , crème solaire)= I(2,2)-E(Sblond ,crème solaire)=1-( I(2,0)+ I(0,2))=1

% %
Donc on choisit l’attribut « crème solaire » avec le gain le plus grand (Gain=1) et l’arbre final sera :
Cheveux
Blond Brun Roux
1 Pt Crème solaire Bronzé Coup de soleil
Oui Instances : 3,6,7 Instance : 5

Non
Bronzé Coup de soleil

Instances : 2,8 Instances : 1,4
((cheveux = Blanc) ∧¬ crème solaire) 1 Pt

(cheveux = Roux) ⋁
3) La classe est : coup de soleil 1 Pt
1 Pt D(X,Y)= (P-M) / P tel que : P est le nombre total d’attributs et M le nombre de ressemblance
%
% % % % % % % %
D(9,1) = ; D(9,2) = ; D(9,3) = ; D(9,4) = ; D(9,5) = ; D(9,6) = ; D(9,7) = ; D(9,8) = ;
2 Pts
Donc, les instances les plus proches de l’instance N°9 sont : l’instance N° 1, N° 5 et N° 7.

1ère année Master Informatique ISTW Date : 05/01/2017
EFS S1 : Théorie et pratique du Datamining
Exercice 01 (05,50 Pts) : Répondez brièvement aux questions suivantes :

1. Expliquez brièvement les étapes du niveau analyse du processus ECD ?
2. Quelles sont les trois motivations principales qui poussent à garder des données très anciennes ?
3. Donner trois méthodes de calcul de distances entre clusters.
4. Expliquez brièvement le fonctionnement des méthodes hiérarchiques dans le clustering
5. Quelle sont les avantages et inconvénients des arbres de décision ?
Exercice 02 (10,50 Pts) : N° Age Sexe Spécialité Sportive
Une étude sur un ensemble de personnes a permet 1 19 F IT Oui

d’établir la BDD suivante représentant l’état 2 21 F IT Oui
« sportivité » de chaque personne par rapport aux 3 20 M Médecine Non
trois attributs (Age, sexe et spécialité). 4 35 M Engineering Non
1. Représenter ces données par un arbre de 5 34 M Médecine Oui

décision en utilisant l’indice GINI comme
7 35 F IT Oui
critère de séparation.
9 35 M IT Oui
NB : le split utilisé pour l’attribut Age est le
10 23 M IT Non
même dans toutes les branches de l’arbre de
décision (Age ≥ 30 et Age < 30).
13 24 F Sociologie Oui
2. Calculer les performances sur l'ensemble test T ci-dessous en construisant la matrice de confusion
associée à cet énoncé. N° Age Sexe Specialité Sportive
14 24 F IT Oui
17 35 M IT Non
Ensemble Test T : 18 21 M Médecine Non
20 46 F IT Oui
21 40 M IT Oui

3. Donner les principaux indicateurs synthétiques, en déduisant le taux d’erreur.
4. En utilisant la distance normalisée pour l’attribut Age et en supposant que l’attribut «Sexe » est
énumératif (variable discrète), dites lequel des clients de l’ensemble test T est plus proche du client
N°1 en utilisant la distance de Manhattan entre les trois attributs (spécifiez les formules de calcul)?
Que représentent ces calculs ?
Si on généralise ces traitements sur un ensemble de données, quelle est le but principal de cette
approche ? Citez le nom de trois méthodes (types) utilisées pour appliquer cette approche ?
Exercice 03 (04 Pts) : Une société de production artistique désire faire une enquête de satisfaction sur
l’ensemble des spectacles de théâtre qu’elle a produit cette année pour prévoir le programme de travail
de la prochaine année. La base de données intègre des données sur les spectacles (artistes, lieu de
représentation, période, durée, sujet,…etc) et sur les spectateurs (sexe, niveau,…etc). Bien sûr,
l’appréciation donnée par les spectateurs représente la variable classe qu’on veut prédire. Le modèle de
classification est construit avec 32000 enregistrements. L’évaluation a permet de donner les résultats
suivants :
• Le nombre de personnes qui ont répondus négativement (non satisfait) alors que l’évaluation
leur a donné une réponse positif (satisfait) est de 2400.
• Précision = 0,60
• Taux d’erreur = 20 %
Construisez la matrice de confusion associée à cet exercice sachant le modèle est construit avec les
2/3 de l’ensemble des données historisées.
Supposant un cas général avec N classes, On peut bien sûr normaliser la matrice de confusion pour
en simplifier la lecture. Donnez le type que doit rapprocher la matrice de confusion pour que le taux
d’erreur soit le plus faible possible (un meilleur système de classification).
☺ Un tiens dans la main vaut mieux que deux tu l'auras ☺

☺ A bird in the hand is worth two in the bush ☺
☺ ‫ﻋﺼﻔﻮر ﰲ اﻟﻴﺪ ﺧﲑ ﻣﻦ ﻋﴩة ﻋﲆ اﻟﺸﺠﺮة‬ ☺

Corrigé type de l’EFS S1 : Théorie et pratique du Datamining
1. Les quatre étapes du processus ECD sont :
• Phase d’acquisition des données : Selection, Nettoyage, Intégration 2 Pt
• Phase Préparation des données : Transformation, Mise en forme, construction attributs
• Phase fouille de données : Datamining.
• Phase Gestion de connaissances : Evaluation, simplification, Mise en forme et présentation.
2. les trois motivations principales qui poussent à garder des données très anciennes sont :
• Développement des technologies de récupération et de stockage de données.
0,75 Pt • Réduction du coût de stockage des données pour garder des téra-octets de données.
• L’existence d’une véritable mine d’or dedans qu’on appelle connaissances.

3. Les trois méthodes de calcul de distances entre clusters sont :
- Distance minimale entre toutes les paires de données des deux clusters (single link method)
- Distance maximale entre toutes les paires de données des 2 clusters (Complete Link Method)
- Distance moyenne entre toutes la paires d’enregistrements (Average Linkage) 0,75 Pt
4. Le fonctionnement des méthodes hiérarchiques suit globalement l’algorithme suivant :
En entrée: un échantillon de m enregistrements x1, …, xm
1. On commence avec m clusters (cluster = 1 enregistrement)
1 Pt
2. Grouper les deux clusters les plus «proches».
3. S’arrêter lorsque tous les enregistrements sont membres d’un seul groupe
4. Aller en 2.
5. Les avantages des arbres de décision sont :
• Compréhensible pour tout utilisateur (lisibilité du résultat)
• Tout type de données
• Robuste au bruit et aux valeurs manquantes
• Classification rapide (parcours d’un chemin dans un arbre) (racine feuille)
• Outils disponibles dans la plupart des environnements de data mining 1 Pt
Les inconvénients des arbres de décision sont :
• Sensibles au nombre de classes: performances se dégradent
• Si les données évoluent dans le temps, il est nécessaire de relance la phase d’apprentissage
1) Indice GINI sur un seul ensemble est :1 − ∑
0,5 Pt
Tel que : S représente l’ensemble des données et Pi est la fréquence relative de la classe c dans S
Gini(S1,S2,..,Si)= ∑ / Gini(Si) tel que Ni représente le nombre d’instances du sous ensemble Si
selon un test donné.

- Il faut trouver le branchement (split-point) qui minimise l’indice Gini pour les trois attributs (Age, sexe
et Spécialité) :
a) Age : <30 ≥30
GINI(Age) = 8/13*(1-(3/8)2-(5/8)2) + 5/13 (1-(3/5)2-(2/5)2=0,47307692 Oui 3 3
Non 5 2
b) Sexe :
M F
GINI(Sexe) = 6/13*(1-(2/6)2-(4/6)2) + 7/13 (1-(4/7)2-(3/7)2)=0,42490843 1,5 Pt
Oui 2 4
c) Spécialité : Non 4 3
GINI(Sexe) = 5/13*(1-(4/5)2-(1/5)2)+4/13*(1-(1/4)2- IT Médecine Engineering Sociologie

Oui 4 1 0 1
(3/4)2)+2/13*(1-(0/2)2-(2/2)2)+2/13*(1-(1/2)2-(1/2)2)
Non 1 3 2 1
= 0,31538462
Donc on choisit l’attribut « spécialité » avec l’indice GINI le plus bas (GINI=0.31538462) qui
représente la racine de l’arbre, Donc l’arbre initial sera : Spécialité
0,5 Pt IT Sociologie
Médecine Engineering
Sous arbre IT : ???
Non ???
a) Age : ???
<30 ≥30
GINI(Age) = 3/5*(1-(2/3)2-(1/3)2)
Oui 2 2
+ 2/5 (1-(2/2)2-(0/2)2)=0,26666666
Non 1 0
b) Sexe : 1 Pt
GINI(Sexe) = 3/5*(1-(0/3)2-(3/3)2) M F
Oui 1 3
+ 2/5 (1-(1/2)2-(1/2)2)=0,2 Non 1 0
Donc on choisit l’attribut « Sexe» avec l’indice GINI le plus bas , Donc l’arbre sera :
Spécialité
IT
Médecine Engineering Sociologie
0,5 Pt Sexe
M F ??? Non ???
Age Oui
<30 ≥30
Sous arbre Médecine :
Non Oui
a) Age :
GINI(Age) = 2/4*(1-(0/2)2-(2/2)2) <30 ≥30
Oui 0 1
+ 2/4 (1-(1/2)2-(1/2)2)=2/4*0,5=0,25 Non 2 1
0,5 Pt
b) Sexe :
GINI(Sexe) = 2/4*(1-(0/2)2-(2/2)2) + M F
Oui 1 0 Spécialité
2/4 (1-(1/2)2-(1/2)2)=2/4*0,5=0,25 IT
Non 1 2 Médecine Sociologie
Les deux attributs ont la même valeur du GINI, Sexe Engineering
Age ???
M F
Donc on choisit l’un d’eux et l’arbre sera : <30 ≥30 Non
Age 0,5 Pt
Oui Sexe
Non
<30 ≥30
M F
Non Oui Non Oui
Sous arbre Sociologie :
a) Age :
GINI(Age) = 2/2 (1-(1/2)2-(1/2)2)=2/2*0,5=0,5 <30 ≥30
b) Sexe : Oui 1 0
Non 1 0
GINI(Sexe) = 0 M F 0,5 Pt
Donc on choisit l’attribut « Sexe» avec l’indice Oui 0 1
Non 1 0
GINI le plus bas , Donc l’arbre final sera :
Spécialité
IT
Médecine Sociologie
Sexe Engineering
0,5 Pt Age Sexe
M F
<30 ≥30 Non M F
Age Oui Non Sexe Non Oui
<30 ≥30
M F
Non Oui Non Oui
N° Age Sexe Specialité Classe réelle Classe prédite

14 24 F IT Oui Oui
16 45 F Engineering Non Non
17 35 M IT Non Oui 0,5 Pt
18 21 F Médecine Non Non

20 46 F IT Oui Oui
21 40 M IT Oui Oui
0,5 Pt
• Matrice de confusion : Prédite (Oui) Prédite (Non) Total
Classe réelle (Oui) a=3 b=0 3
Classe réelle (Non) c=1 d=4 5
3) Indicateurs synthétiques : Total 4 4 8
• Vrais Positifs VP = 3 • Faux Positifs FP = 1 • Taux de VP = a/(a+b) = 100 % 0,5 Pt

• Taux de FP = c/(c+d) = 20 % • Précision = a/(a+c) =75 % • Spécificité = d/(c+d) = 80 %
• Taux d’erreur = b+c / n, Donc le taux d’erreur est : 1/8 = 0,125 = 12,5 % 0,5 Pt
4) Il faut calculer la distance de manhattan entre l’instance N°1 et toutes les autres instances de T :
Distance de manhattan : D(X,Y)= ∑
| − |, Distance normalisée : D(Xi,Yi)= (Xi-Yi)/Dmax 0,5 Pt
Distance entre variable discrètes : D(X,Y)= (P-M) / P , tel que : P est le nombre total d’attributs et M
le nombre de ressemblance
Dmax = 46-19=27

|
|

D(1,14) =

+ (2 − 2)/2 =0,185 ; D(1,15) = + 1=1,37 ; D(1,16) = + 0,5=1,463

D(1,17) = + 0,5=1,093 ; D(1,18) = + 1=1,074 ; D(1,19) = + 1=1,259 1 Pt

D(1,20) = + 0=1 ; D(1,21) = + 0,5=1,277

Donc, l’instance la plus proche de l’instance N°1 est : l’instance N° 14. 0,5 Pt
Ces calculs représentent le calcul de la distance entre instances (similarité) 0,5 Pt
C’est une technique d’apprentissage non supervisée de Datamining appelée Clustering (segmentation)
qui sert à déterminer des groupes de ressemblances entre les instances de la BDD. 0,5 Pt
Les méthodes sont : - Méthode de partitionnement (K-means), les Méthodes hiérarchiques (par
agglomération) et les méthodes par voisinage dense. 0,5 Pt
Ensemble modèle = 32000 = 2/3 * BDD => BDD =48000. 0.5 Pt
Ensemble test = 1/3 * BDD = 16000=N. 0.5 Pt
Nombre de personnes non satisfaits alors que leur évaluation est positif =c =2400 0,25 Pt
Precision = 0.60 donc a/(a+c) =0.60 alors 0.40 *a = 0.60 * c => a = 3600 0,25 Pt
Taux d’erreur =0.20 donc (c+b)/N=0.20 alors b=0.20 * N – c => b=800 0,25 Pt
N = a+b+c+d donc d=N-(b+c+a)=16000-(800+2400+3600) => d= 9200 0,25 Pt
Positif Négatif Total
Satisfait (Vrai) a=3600 b=800 a+b=4400
1 Pt
Non Satisfait (Faux) c= 2400 d=9200 c+d=11600
Total a+c=6000 b+d=10000 N=16000
Pour que le taux d’erreur soit le plus faible possible (un meilleur système de classification), la matrice
de confusion doit être une matrice diagonale. 1 Pt

Interrogatoire : Théorie et pratique du Datamining Durée : 75 mn
Exercice 01 (03 pts : 10 Mn) : Répondez brièvement aux questions suivantes :

1. Expliquer le fonctionnement de la méthode de rééchantionnage Bootstrap ?.
2. Plusieurs domaines sont la base des techniques de Datamining. Citez cinq domaines ?
3. Es ce qu’une règle d’association avec un support et une confiance acceptable veut dire que cette règle
est pertinente ? expliquez notamment avec des exemples ?
Exercice 02 (08 pts : 40 Mn) :
Le tableau suivant contient des données sur les
N° Doublant Série Mention Classe
résultats obtenus par des étudiants de Tronc Commun 01 Non Maths ABien Admis
(première année à l'Université). Chaque étudiant est 02 Non Techniques ABien Admis
décrit par 3 attributs : Est-il doublant ou non, la série 03 Oui Sciences ABien Non Admis
du Baccalauréat obtenu et la mention. Les étudiants 04 Oui Sciences Bien Admis
sont répartis en deux classes : Admis et Non Admis. 05 Non Maths Bien Admis
On veut construire un arbre de décision à partir des 06 Non Techniques Bien Admis
données du tableau, pour rendre compte des éléments 07 Oui Sciences Passable Non Admis
qui influent sur les résultats des étudiants en Tronc 08 Oui Maths Passable Non Admis
Commun. Les lignes de 1 à 12 sont utilisées comme 09 Oui Techniques Passable Non Admis
données d'apprentissage. Les lignes restantes (de 13 à 10 Oui Maths TBien Admis
16) sont utilisées comme données de tests.
1. Utiliser les données d’apprentissage pour 13 Oui Maths Bien Admis
construire l'(les) arbre(s) de décision en utilisant 14 Non Sciences ABien Non Admis
l'algorithme ID3. Montrez toutes les étapes et 15 Non Maths TBien Admis
formules de calcul. Dessinez l’arbre final. 16 Non Maths Passable Non Admis
2. Déduire de l'arbre trouvé la petite règle correspondante.
3. Classer l’instance N°17: Doublant=Oui, Série=Maths, Mention=ABien. Que remarquez-vous ?
4. Quels sont les résultats de test de l'arbre obtenu sur les données de tests ? déduisez le taux d’erreur ? En
comparant les résultats obtenus, que suggérez-vous concernant l’arbre résultante ?
5. En se basant sur la comparaison et la suggestion de la question 5, que pouvez dire sur la prédiction de
l’avenir des étudiants de tronc commun par rapport aux résultats obtenus au baccalauréat.
Exercice 03 (04 pts : 10 Mn) :
Soit l'ensemble D des entiers suivants : D= { 2, 5, 8, 10, 11, 18, 20 }. On veut répartir les données de D en
trois (3) clusters en utilisant l'algorithme Kmeans et la distance de manhathan
1/ Appliquez Kmeans en choisissant comme centres initiaux des 3 clusters respectivement : 8, 10 et 11.
Montrez toutes les étapes de calcul.

Département de Mathématiques et Informatique Année universitaire : 2018-2019
Corrigé type EFS S1 : Théorie et pratique du Datamining

a) Appliquer la classification hiérarchique ascendante sur l’ensemble X
X 1 2 9 12 20
On va utilisé la distance de Manhattan entre instances : D(X,Y) = ∑
| − |
Et la distance minimale entre toutes les paires de données des 2 clusters (single link method) :
DSingle(i,j) = Minx€i y€j D(X,Y) 0,5 Pt
Les tableaux suivants représentent les différentes distances DSingle entre différents clusters :
Etape 1 :
1 2 9 12 20
1 1 8 11 19
2 7 10 18 Regroupement des clusters {1} et {2} en {1,2}
9 3 11
12 8
Etape 2 :
1,2 9 12 20
3 Pt 1,2 7 10 18
Regroupement des clusters {9} et {12} en {9,12}
9 3 11
12 8
Etape 3 :
1,2 9,12 20
1,2 7 18 Regroupement des clusters {1,2} et {9,12} en {1,2,9,12}
9,12 8
Etape 4 :
1,2,9,12 20
Regroupement des clusters {1,2,9,12} et {20} en {1,2,9,12,20}
1,2,9,12 8
{1,2,9,12,20} D
Single Dendrogramme :

{
b) L’inertie intra-cluster IA = ∑

∑
²(, )
i : instance ; Gk : centroid du groupe k ;

Nk : Nombre d’instance du groupe k
1 Pt
- Un regroupement en 2 clusters :
C1={1,2,9,12} centroid C1 = 6
C2={20} centroid C2 = 20
1,5 Pt IA= ((1-6)²+ (2-6)²+ (9-6)²+ (12-6)²)+ (20-20)²=86 Données
- Un regroupement en 3 clusters : 1 2 9 12 20 {1,2
C1={1,2}centroid C1=1,5 C2={9,12}centroid C2 = 10,5 et C3={20}centroid C3 = 20
IA= ((1-1,5)²+ (2-1,5)²)+((9-10,5)²+ (12-10,5)²)+ (20-20)²=5
Donc le meilleur regroupement est celui de 3 clusters car son inertie intra-cluster IA est la plus petite.




Gain (DegStr)= I(11,7)-E(DegStr)=0,964-( I(3, 3)+ I(3,3) + I(5,1))= 0,081

Gain (HrSom)= I(11,7)-E(HrSom)=0,964-( I(6,0)+ I(1,5) + I(4,2))= 0,441 1 Pt

Gain (Fum)= I(11,7)-E(Fum)=0,964-( I(4,5)+ I(7,2))= 0,086

Donc on choisit l’attribut « HrSom » avec le gain le plus grand (Gain=0.411) qui représente la racine
de l’arbre, Donc l’arbre initial sera : HrSom
Egal 0,5 Pt
Supérieur
Moins
Inst : 5, à 12 ??? Inst : 13 à 18
Yes ???
Les valeurs Egal et Supérieur donnent deux valeurs de la classe, donc, il faut refaire le même travail
(calcul du gain) pour l’ensemble des données SEg={3,4,9,10,15,16} et SSup={5,6,11,12,17,18}.
• I(SEg) =I(1,5)=0,650

Gain (SEg, DegStr)= I(1,5)-E(SEg, DegStr)= 0,650-( I(0,2)+ I(0,2) + I(1,1))= 0,317

1 Pt Gain (SEg, Fum)= I(1,5)-E(SEg, Fum)= 0,650-( I(0,3)+ I(1,2))= 0,191
HrSom
Donc on choisit l’attribut « DegStr » avec Egal Supérieur
le gain le plus grand (Gain=0.317), et l’arbre devient : Moins
DegStr
???
Petit ou Normal Fort Yes Inst : 13 à 18
or
No Fum
Non Oui
• I(SSup) =I(4,2)=0,919
No Yes
Gain (SSup, DegStr)= I(4,2)-E(SSup, DegStr)= 0,919-( I(1,1)

+ I(1,1)+ I(2,0))= 0,252 HrSom

Gain (SSup, Fum)= I(4,2)-E(SSup, Fum) 1 Pt Egal Supérieur
Moins
= 0,919-( I(1,2)+ I(3,0))= 0,495 DegStr Fum

Petit ou Normal Fort Yes Oui Non
Donc on choisit l’attribut « Fum » avec
le gain le plus grand (Gain=0.495), No Fum Yes DegStr
et l’arbre final devient : Non Oui Petit ou Normal Fort
No Yes No Yes
2) Règle :
(HrSom = Moins) ou ((HrSom ≠ Moins) et (DegStr=Fort) et ((Fum=Oui) ou ((Fum=Non) et
(DegStr=Fort)))) 1 Pt

Instance DegStr HrSom Fum Classe réelle Classe prédite

19 Petit Supérieur Oui Yes Yes
20 Fort Superieur Non Yes Yes
21 Petit Egal Non No No
22 Fort Egal Non Yes No
23 Normal Supérieur Oui No Yes
24 Petit Egal Oui No No
• Matrice de 1 Pt
Prédite (Yes) Prédite (No) Total
confusion :
Classe réelle (Yes) 2 1 3
Classe réelle (No) 1 2 3
Total 3 3 6
• Taux d’erreur = b+c / n, Donc le taux d’erreur est : 2/6 = 0,3333 = 33,33 %
0,5 Pt • Précision = a/(a+c) = 66,66 % : représente le pourcentage des colopathies positivement prédites
par rapport aux total des colopathies prédites
0,5 Pt • Spécificité = d/(c+d) = 66,66 % représente le pourcentage des non colopathies positivement
prédite par rapport aux total des non colopathies réelles.

4) Il faut calculer la distance entre l’instance N°19 et les 18 autres instances tel que :
D1(Xi,Yi)= (P-M) / P tel que : P est le nombre total d’attributs (=2) et M le nombre de
ressemblance entre les deux attributs énumératifs « DegStr » et « HrSom »
D2(Xi,Yi)= 0 si Xi = Yi
Concerne l’attribut binaire « Fum »
0,5 Pt 1 sinon
Ensuite, calculer la distance global D avec une distance d’attributs numériques par exemple
avec la distance de manhattan : D(X,Y)= ∑
| − |
Donc : D(X,Y)=D1(Xi,Yi) + D2(Xi,Yi)
Instance 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
D1 0,5 0,5 0,5 0,5 0 0 1 1 1 1 0,5 0,5 1 1 1 1 0,5 0,5
D2 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0
D 1,5 0,5 1,5 0,5 1 0 2 1 2 1 1,5 0,5 2 1 2 1 1,5 0,5
rang 4 2 4 2 3 1 5 3 5 3 4 2 5 3 5 3 4 2
1,5 Pt

- On génère d’abord les itemsets fréquents de support minimum = 2 :
C1 itemset {A} {B} {C} {D} {E}
Card 1
Support 3 3 4 1 4
F1 itemset Oui Oui Oui Non Oui
2 Pt
C2 itemset {A,B} {A,C} {A,E} {B,C} {B,E} {C,E}
Card 2
Support 1 3 2 2 3 3
F2 itemset Non Oui Oui Oui Oui Oui
C3 itemset {A,B,C} {A,B,E} {A,C,E} {B,C,E} C4 itemset {A,B,C,E}

Support / / 2 2 Support /
Card 3
Card 4
F3 itemset Non Non Oui Oui F4 itemset Non
Cause {A,B} non Fréquent {A,B,C}
Cause
non Fréquent
- On génère maintenant les règles d’associations d’une confiance minimale = 60 % pour tout sous
ensembles non vides fréquents :
- Pour l’itemset fréquent {A,C,E}
Règle {A,C}E {A,E}C {C,E}A A{C,E} C{A,E} E{A,C}
Confiance 66,66 % 100 % 66,66 % 66,66 % 50 % 50 % 1 Pt
Conclusion Acceptée Acceptée Acceptée Acceptée Rejetée Rejetée
- Pour l’itemset fréquent {B,C,E}
Règle {B,C}E {B,E}C {C,E}B B{C,E} C{B,E} E{B,C}
Confiance 100 % 66,66 % 66,66 % 66,66 % 50 % 50 % 1 Pt
Conclusion Acceptée Acceptée Acceptée Acceptée Rejetée Rejetée
- Pour les autres itemset
- AC , AE sont redondantes par rapport à A{C,E}
- BC , BE sont redondantes par rapport à B{C,E} 1 Pt
Règle CA EA CB EB CE EC

Confiance 75 % 50 % 50 % 75 % 75 % 75 %
Conclusion Acceptée Rejetée Rejetée Acceptée Acceptée Acceptée
- Un motif fréquent est dit fermé s’il ne possède aucun sur-motif qui a le même support, exp : {A,C} 1 Pt
- Un motif fréquent est dit Maximal si aucun de ses sur-motifs immédiats n’est fréquent, exp:{A,C,E}

Exercice 01 (02 pts) : Supposons qu’on veut utiliser des données binaires dans un processus de
clustering. Citer (ou proposer) une (des) mesure(s) de similarité (distance(s)) pour ce type de données.
Evaluer la (les) distance(s) entre les objets X = 0101010001 et Y = 0100011000. Que remarquez-vous ?
Déduisez la distance de Hamming associée. A quoi la valeur trouvée correspond-elle ?
Exercice 02 (03 pts) : Répondez brièvement aux questions suivantes :

1. Que signifie l’élagage et quel est son objectif ?
2. Quelle est la différence entre les techniques descriptives et les techniques prédictives de datamining ?
3. Dans le processus ECD, une phase de préparation des données est nécessaire. Que signifie la
transformation des données ? expliquer en donnant des exemples
Exercice 03 (05 pts) : Soit l’ensemble d’apprentissage ci-dessous. La classe est « Edible ».
N° Shape Color Odor Edible
1 C B 1 Y
2 D B 1 Y
3 D W 1 Y
4 D W 2 Y
5 C B 2 Y
6 D B 2 N
7 D G 2 N
8 C U 2 N
9 C B 3 N
10 C W 3 N
11 D W 3 N
1. En utilisant l’algorithme ID3 et le gain d’information, construire l’arbre de décision du dataset. Donner
les détails des calculs.
2. Déduire de l'arbre trouvé une seule règle comportant 2 disjonctions et 2 conjonctions au maximum.
3. En utilisant l’arbre construit, classer l’instance N°12: Shape=C, Color=G, Odor=2.
4. En utilisant l’ensemble des onze instances, et en supposant que les attributs « Color » et « Odor » sont
des variables énumératives, dites lequel des instances est plus proche de l’instance N° 12 ? quelle est la
distance utilisée ? Que représentent ces calculs (donner le nom de ces calculs) ?

Corrigé Interrogatoire : Théorie et pratique du Datamining
Exercice 01 (02,50 Pts): il faut dessiner la table de dissimilarité (contingence) : Y

0,5 Pt
on a trois cas possibles :
1 0
1. Similarité invariante, si toutes les variables sont symétriques (Coefficient de
correspondance simple) :
1 2 2
D1(X,Y) ===0,3 0,5 Pt X
2. Similarité non invariante, si toutes les variables sont asymétriques (Coefficient 0 1 5
de Jaccard):

D2(X,Y) = = =0,6 0,5 Pt

3. Si les variables sont symétriques et asymétriques : il faut spécifier la nature de chaque variable. 0,25 Pt
0,5 Pt Malgré que D1 et D2 représentent deux distances entre les mêmes instances, on remarque que qu’elles
sont très éloignées car D2=2*D1
Distance de hamming = b+c = 3. Elle représente le nombre de caractéristiques différentes entre x et y. 0,25 Pt
1. L’élagage est la suppression de quelques sous-arbres dans la l’arbre de décision. Son objectif
principal est la réduction de l’arbre afin d’améliorer le taux d’erreur.
2. les techniques descriptives de datamining visent à mettre en évidence des informations présentes
mais cachées par le volume de données alors que les techniques prédictives visent à extrapoler de
nouvelles informations à partir des informations présentes. Elles se basent essentiellement sur des
modèles qui utilisent des données présentes ou passées pour construire des scénarios futurs.
3. La transformation des données est la transformation d’un attribut A en une autre variable A’ qui
serait selon les objectifs de l’étude, plus appropriée.
Exp 1 : Variable continue en variable discrète et vice versa
Exp 2 : La construction d’agrégats par exemple, le prix au mètre-carré d’un appartement
Exercice 03 (05,50 Pts):



Gain (Shape)= I(5,6)-E(Shape)= I(5,6)-( I(2,3)+ I(3,3))=0,008

Gain (Color)= I(5,6)-E(Color)= I(5,6)-( I(3,2)+ I(2,2)+ I(0,1)+ I(0,1)=0,189

Gain (Odor)= I(5,6)-E(Odor)= I(5,6)-( I(3,0)+ I(2,3)+ I(0,3))=0,553

Donc on choisit l’attribut « Odor » avec le gain le plus grand (Gain=0.553) qui représente le nœud la
racine de l’arbre, Donc l’arbre initial sera : Odor 1 Pt
2 3
1
????? N
Y
Instances : 4,5,6,7,8 Instance : 9,10,11
Instances : 1,2,3 Page 1 / 2
La valeur Odor = 2 donne plusieurs valeurs de l’attribut classe, donc, il faut refaire le même travail
(calcul du gain) pour l’ensemble des données S2 ={4,5,6,7,8}. I(S2) =I(2,3)=0,971

Gain (S2, Color)= I(2, 3)-E(S2, Color)=0,971-( I(1,0) + I(1,1)+ I(0,1)+ I(0,1))=0,571

Gain (S2, Shape)= I(2, 3)-E(S2, Shape)=0,971-( I(1,2) + I(1,1))=0,020

Donc on choisit l’attribut « Color» avec le gain le plus grand (Gain=0,571). On aura deux branches
avec des nœuds terminaux et la branche B qui sera nécessairement départagée par le seul attribut
restant à savoir «Shape» et l’arbre final sera : Odor
2 3
1
Color N
Y Instance : 9,10,11
B G ou U W Instances : 1,2,3
Shape N Y 1 Pt
C D Instances : 7,8 Instance : 4
Y N
Instance : 5 Instance : 6
(Odor = 1) ⋁ ((Odor = 2) ∧ ((Color = W) ⋁ ((Color = B) ∧ (Shape = C))) 1 Pt
3) La classe est : N 0,25 Pt
D(X,Y)=D1(Xi,Yi) + D2(Xi,Yi)
D1(Xi,Yi)= (P-M) / P tel que : P est le nombre total d’attributs et M le nombre de ressemblance
Qui concerne les deux attributs énumératifs « Odor » et « Color »
D2(Xi,Yi)= 0 si Xi = Yi ; 1 sinon Concerne l’attribut binaire « Shape » 01 Pt
N° Instance D1 D2 D N° Instance D1 D2 D
1 1 1 2 7 0,5 0 0,5
2 1 0 1 8 0 1 1
3 1 0 1 9 1 1 2
4 0,5 0 0,5 10 1 1 2
5 0,5 1 1,5 11 1 0 1
6 0,5 0 0,5
Donc, les instances les plus proches de l’instance N°12 sont : l’instance N° 4, N° 6 et N° 7. 0,25 Pt
La distance utilisée est la distante mixte entre deux type d’attributs (dans notre cas, on a utilisé la
distance de Manhattan) qui représente un calcul de similarité entre instantes afin d’appliquer une
méthode de clustering. 0,5 Pt
Page 2 / 2

Ilovepdf Merged

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Ilovepdf Merged

Transféré par

Droits d'auteur :

Formats disponibles

Université Mohamed Khider-Biskra

Faculté des sciences exactes et des sciences de la nature et de la vie

Master IDM Fouille de Données Avancée

Corrigé type de l’examen

Questions de cours (4 pts)

Exercice 1 Motifs fréquents (10.5 pts : 4 + 2.5 + 2.5 + 1.5)

1. Les motifs fréquents :

Exercice 2 Classification (5.5 pts : 4 + 0.5 + 1)

1. L’arbre souhaité en utilisant l’algorithme ID3 :

Le risque est celui de la classe de probabilité max c-à-d E.

Soit la table suivante des transactions d’un magasin. Transaction ID Items

Le moteur Google affichera les résultats de recherche du mot « souvenir ».

- Complete link algorithm : ……………………………………………………….(4 * 0.25 pt)

grouper (a, b) grouper (c, de) grouper (a, b) grouper(a, bcde)

Entropie =-p(c1) log(p(c1)) - p(c1) log(p(c1))

Calcul de l’entropie des données initiales :

Calcul du gain de l’attribut Humidité :

Entropie(P1)= - 3/7 log(3/7) - 4/7 log(4/7) = 0.157 + 0.138 = 0.259

Gain(Humidité)= 0.282 – 7/14 * 0.259 – 7/14 * 0.177 = 0.046 ……………….……….……….(0.5 pt)

Calcul du gain de l’attribut Climat :

Entropie(P1)= - 2/5 log(2/5) - 3/5 log(3/5) = 0.159 + 0.133 = 0.292

Gain(Climat)= 0.282 – 5/14 * 0.292 – 5/14 * 0.292 = 0.073 …………………………………….(0.5 pt)

Calcul du gain de l’attribut Température :

1-Itemset : ………………………………………………………...........................................(0.5 pt)

2-Itemset : ………………………………………..…………………………….…………….(0.5 pt)

3-Itemset : …………………………………………………………………………..………….(1 pt)

4- Itemset : …………………………………………………………………………………….(1 pt)

Un seul 4-itemset, ABCE.

1- Règles générées à partir des 2-itemset : il y a 8 * 2 = 16 règles au total. …………….(0.5 pt)

1- Règles générées à partir des 3-itemset : il y a 3 *5 *2 = 30 règles au total. ……..….(0.75 pt)

2- Règles générées à partir du 4-itemset : il y a 14 règles au total. …………………….(0.75 pt)

Si A Alors BCE Si BCE Alors A

X Age 23 28 32 36.5 38.5

Gini Tot. 0,389 0,438 0,417 0,444

       

X Age 23 28 32 36.5 38.5

Gini Tot. 0,389 0,438 0,417 0,444

       

Exercice 1 (10 points) :

Exercice 2 (10 points) :

Doublant Série Mention Classe

Examen semestriel Modules "Fouille et extraction de données" & "Datamining"

Exercice 1 (10 points) :

Mise à jour des clusters :

R- estimation des centres de gravité :

Mise à jour des clusters :

R- estimation des centres de gravité :

Mise à jour des clusters :

R- estimation des centres de gravité :

3/ Peut-on avoir un nombre d'itérations inférieur pour ce problème ? Discutez.

Exercice 2 (10 points) :

Doublant Série Mention Classe

Entropie (S)= - (8/12) * Log2 (8/12) - (4/12) * Log2 (4/12)

Calcul du gain d'entropie sur l'attribut "Doublant" :

Calcul du gain d'entropie sur l'attribut "Série" :

Calcul du gain d'entropie sur l'attribut "Mention" :

Passable ABien Bien TBien

Admis 0 Admis 2 Admis 3 Admis 3

Entropie (S2)= - (2/3) * Log2 (2/3) - (1/3) * Log2 (1/3)

Calcul du gain d'entropie sur l'attribut "Doublant" :

Calcul du gain d'entropie sur l'attribut "Série" :

Passable ABien Bien TBien

Non Admis Doublant ? Admis Admis

Non Admis Admis

1- Règles générées à partir des 3-itemset : il y a 3 5 2 = 30 règles au total. ……..….(0.75 pt)