Vous êtes sur la page 1sur 99

Université Mohamed Khider-Biskra

Faculté des sciences exactes et des sciences de la nature et de la vie


Département d’informatique

Master IDM Fouille de Données Avancée


28 Jan 2013 10:00-11:30, Salle 5

Corrigé type de l’examen

Questions de cours (4 pts)


1. En apprentissage supervisé, la différence fondamentale entre classification et régression
est que la classification est utilisée pour prédire les classes discrètes (catégorielles) tandis
que la régression est utilisée pour prédire les classes continues (numériques).
2. Le phénomène de sur-apprentissage apparait lorsqu’on obtient des modèles qui recon-
naissent parfaitement les exemples utilisés lors de l’apprentissage et échouent face aux
nouveaux exemples.
3. La stratégie utilisée pour éviter le sur-apprentissage lors de l’apprentissage d’arbres de
décision est l’élagage.
4. Les méthode d’évaluation des techniques d’apprentissage sont diverses telles que la vali-
dation croisée, le bootstrap, leave one out, ...etc. (voir le cours pour les principes)

Exercice 1 Motifs fréquents (10.5 pts : 4 + 2.5 + 2.5 + 1.5)

1. Les motifs fréquents :


F1={ Lait,Couches,Pain,,Beurre,Jus,Sucre }
F2= { Lait Couches,Lait Pain, Lait Beurre,Couches Pain,Couches Beurre,Couches Jus,
Couches Sucre, Pain Beurre,Jus Sucre }
F3= {Lait Couches Pain, Lait Couches Beurre, Lait Pain Beurre,Couches Pain Beurre }
F4= { Lait Couches Pain Beurre }
Motifs fréquents = { F1 ∪ F2 ∪ F3 ∪ F4 }
2. Motifs fréquents fermés = { Lait,Couches, Jus, Sucre, Lait Couches, Couches Jus, Couches
Sucre, Pain Beurre, Jus Sucre , Lait Pain Beurre, Couches Pain Beurre, Lait Couches Pain
Beure }
3. Motifs fréquents maximaux = { Couches Jus, Couches Sucre, Jus Sucre, Lait Couches
Pain Beure }
4. Les règles solides d’association de type A, B ⇒ C sont :
Lait Beurre ⇒ Pain
Lait Pain ⇒ Beurre
Couches Beurre ⇒ Pain
Couches Pain ⇒ Beurre

Exercice 2 Classification (5.5 pts : 4 + 0.5 + 1)

1. L’arbre souhaité en utilisant l’algorithme ID3 :

1
2. Le risque du patient ayant les attributs (Jeune,V,F) selon l’arbre construit est E.
3. Le risque du même patient en utilisant la classification bayésienne naı̈ve :
X = (Jeune,V,F)
P(X/Risque=F) = P(Age=Jeune/Risque=F)xP(S1=V/Risque=F)xP(S2=F/Risque=F)
x P(P(Risque=F)
= 0.5 x 0 x ... = 0
P(X/Risque=E) = P(Age=Jeune/Risque=E)xP(S1=V/Risque=E)xP(S2=F/Risque=E)
x P(P(Risque=E)
= 1/3 x 3/3 x 1/3 x 3/10 = 9/90 = 0.1
P(X/Risque=M) = P(Age=Jeune/Risque=M)xP(S1=V/Risque=M)xP(S2=F/Risque=M)
x P(P(Risque=M)
= 0 x ... = 0

Le risque est celui de la classe de probabilité max c-à-d E.

Dr A.Djeffal

2
Université Med Boudiaf -M’sila M’sila, le 01/02/2011
Faculté des Mathématiques et d’Informatique
Département d’Informatique
Module : Data Mining et Recherche d’Information
Master 2/ S.I. Avancés
Durée : 1h 30
Examen Semestriel
Exercice 1 (2 points)
En utilisant Google, vous tapez le mot « souvenir » puis le mot « qouvenir ». Quelle est la réponse de Google
pour le premier et le 2ème mot ? Expliquez.

Exercice 2 (4 points)
Etant données les valeurs tf et df du tableau ci-contre, Terme df Doc1-tf Doc2-tf Doc3-tf
calculer pour chaque document, le tf*idf des termes Car 200 1 100 10
suivants: car, auto, assurance, bon. auto 20 1 10 1
assurance 2 000 100 10 1
Il y a au total 200 000 documents. On utilisera bon 20 000 100 1 000 10
le logarithme base 10.

Exercice 3 (4 points)
a b c d e
Considérer la matrice de dissimilarité suivante P.
0 4 9 6 5
Déterminer les dendrogrammes résultants de l’application du
« single link algorithm », puis du « complete link algorithm » sur 4 0 3 8 7
P et commentez. 9 3 0 3 2
6 8 3 0 1
5 7 2 1 0
Exercice 4 (5 points)
Soit le tableau de données suivant.
Les valeurs possibles des attributs du N° Humidité Climat Température Golf
tableau sont : 1 haute soleil chaud NePasJouer
Humidité : normale, haute 2 haute soleil chaud NePasJouer
Climat : soleil, couvert, pluie 3 haute couvert chaud Jouer
Température : chaud, bon, frais 4 haute pluie bon Jouer
5 normale pluie frais Jouer
La colonne « Golf » donne les classes : 6 normale pluie frais NePasJouer
Jouer, NePasJouer. 7 normale couvert frais Jouer
8 haute soleil bon NePasJouer
En utilisant l’entropie comme critère de sélection, 9 normale soleil frais Jouer
déterminer l’attribut qui sera la racine de l’arbre 10 normale pluie bon Jouer
de décision. 11 normale soleil bon Jouer
N.B. On pourra utiliser la formule : 12 haute couvert on Jouer
log2(x) = log10(x) / log10(2). 13 normale couvert chaud Jouer
14 haute pluie bon NePasJouer

Exercice 5 (5 points)

Soit la table suivante des transactions d’un magasin. Transaction ID Items


En utilisant l’algorithme Apriori, déterminer l’ensemble des 001 A, C, D
itemset fréquents et extraire les différentes règles possibles. 002 B, C, E
(Support Minimum=10%). 003 A, B, C, E
004 B, E

Bonne réussite
T. Mehenni
DATA MINING ET RECHERCHE D’INFORMATION Responsable du cours :
CORRECTION DE L’EXAMEN (2010/2011) T. Mehenni

Exercice 1 (2 points)

Le moteur Google affichera les résultats de recherche du mot « souvenir ».


Pour le mot « qouvenir », Google affichera un message que le mot correct est peut être « souvenir », et donne
les résultats du mot « souvenir » car il ne peut pas trouver des résultats correspondants au mot « qouvenir ».
Google est muni de cette fonctionnalité qui propose à l’utilisateur des mots proches du mot tapé, quand celui-
ci est incorrect, mal orthographié ou non familier. Pour le mot « qouvenir », Google estime qu’il y a eu peut
être une erreur de frappe et que l’utilisateur au lieu de taper le mot « souvenir », a tapé le mot « qouvenir » car
les deux lettres « s » et « q » sont proches sur le clavier.

Exercice 2 (4 points)

On a tf*idf=tf*log(d/df).
- Mot « car » : idf=log(200 000/200)=3 …………………………………….(4* 0.25 pt)
- Doc1 : tf*idf = 1 * 3 = 3
- Doc2 : tf*idf = 100 * 3 = 300
- Doc3 : tf*idf = 10 * 3 = 30
- Mot « auto » : idf=log(200 000/20)=4 …………………………………….(4* 0.25 pt)
- Doc1 : tf*idf = 1 * 4 = 4
- Doc2 : tf*idf = 10 * 4 = 40
- Doc3 : tf*idf = 1* 4 = 4
- Mot « assurance » : idf=log(200 000/2000)=2 ……………………………….(4* 0.25 pt)
- Doc1 : tf*idf = 100 * 2 = 200
- Doc2 : tf*idf = 10 * 2 = 20
- Doc3 : tf*idf = 1 * 2 = 2
- Mot « bon » : idf=log(200 000/20 000)=1 …………………………….(4* 0.25 pt)
- Doc1 : tf*idf = 100 * 1 =100
- Doc2 : tf*idf = 1000 * 1 = 1000
- Doc3 : tf*idf = 10 * 1 = 10

Exercice 3 (4 points)
- Simple link algorithm : ………………………………………………………….(4* 0.25 pt)

a b c d e
a 0 a b c de
b 4 0 a 0 a b Cde
c 9 3 0 b 4 0 a 0 a bcde
d 6 8 3 0 c 9 3 0 b 4 0 a 0
e 5 7 2 1 0 de 5 7 2 0 cde 5 3 0 bcde 4 0

grouper (a, b) grouper (c, de) grouper (b, cde) grouper(a, bcde)

- Complete link algorithm : ……………………………………………………….(4 * 0.25 pt)

a b c d e
a 0 a b c de
b 4 0 a 0 a b cde
c 9 3 0 b 4 0 a 0 ab cde
d 6 8 3 0 c 9 3 0 b 4 0 ab 0
e 5 7 2 1 0 de 6 8 3 0 cde 9 8 0 cde 9 0

grouper (a, b) grouper (c, de) grouper (a, b) grouper(a, bcde)

1/4
Les dendrogrammes : ……………………………………………………….(2 pts)

4 4
3 3
2
1 1

a b c d e a b c d e
single link complete link

Exercice 4 (5 points)

Entropie =-p(c1) log(p(c1)) - p(c1) log(p(c1))


Gain=Entropie-n1/n [p(c1) log(p(c1))] – n2/n [p(c1) log(p(c1))]

Calcul de l’entropie des données initiales :


C1 : 9 lignes concernant la classe « Jouer »
C2 : 5 lignes concernant la classe « NePasJouer »
Total=14
Entropie = -9/14 log(9/14) - 5/14 log(5/14) = 0.123 + 0.159 = 0.282 …………………..……….(1 pt)

Calcul du gain de l’attribut Humidité :


Répartition des classes selon les valeurs de l’attribut : ………………………………………….(0.5 pt)
Jouer NePasJouer ni/n
P1 (haute) 3 4 7/14
P2 (normale) 6 1 7/14

Entropie(P1)= - 3/7 log(3/7) - 4/7 log(4/7) = 0.157 + 0.138 = 0.259


Entropie(P2)= - 6/7 log(6/7) - 1/7 log(1/7) = 0.057 + 0.120 = 0.177

Gain(Humidité)= 0.282 – 7/14 * 0.259 – 7/14 * 0.177 = 0.046 ……………….……….……….(0.5 pt)

Calcul du gain de l’attribut Climat :


Répartition des classes selon les valeurs de l’attribut : ………………………………………….( 0.5 pt)
Jouer NePasJouer ni/n
P1 (soleil) 2 3 5/14
P2 (couvert 4 0 4/14
P3 (pluie) 3 2 5/14

Entropie(P1)= - 2/5 log(2/5) - 3/5 log(3/5) = 0.159 + 0.133 = 0.292


Entropie(P2)= - 4/4 log(4/4) = 0
Entropie(P3)= - 3/5 log(3/5) - 2/5 log(2/5) = 0.133 + 0.159 = 0.292

Gain(Climat)= 0.282 – 5/14 * 0.292 – 5/14 * 0.292 = 0.073 …………………………………….(0.5 pt)

Calcul du gain de l’attribut Température :


Répartition des classes selon les valeurs de l’attribut : ………………………………………….(0.5 pt)
Jouer NePasJouer ni/n
P1 (chaud) 2 2 4/14
P2 (bon) 4 2 6/14
P3(frais) 3 1 4/14
2/4
Entropie(P1)= - 2/4 log(2/4) - 2/4 log(2/4) = 0.301
Entropie(P2)= - 4/6 log(4/6) - 2/6 log(2/6) = 0.117 + 0.159 = 0.276
Entropie(P3)= - 3/4 log(3/4) - 1/4 log(1/4) = 0.093 + 0.150 = 0.243

Gain(Température)= 0.282 – 4/14 * 0.301 – 6/14 * 0.276 – 4/14 * 0.243 = 0.001 …………….(0.5 pt)

L’attribut choisi pour la racine de l’arbre de décision est donc « Climat ». …………………….(1 pt)

Exercice 5 (5 points)

1-Itemset : ………………………………………………………...........................................(0.5 pt)


Item Fréquence Support
A 2 2/5=0.5 (50%)
B 3 3/5=0.6 (60%)
C 3 0.6 (60%)
D 1 0.25 (25%)
E 3 0.6 (60%)

On garde tous les 1-itemset car ils ont un support > 10%.

2-Itemset : ………………………………………..…………………………….…………….(0.5 pt)


A B C D E
A X 1 2 1 1
B X X 2 0 2
C X X X 1 2
D X X X X 0

On garde les 2-itemset suivants : AB, AC,AD, AE, BC, BE, CD et CE (8 2-itemset).

3-Itemset : …………………………………………………………………………..………….(1 pt)


AB AC AD AE BC BE CD CE
AB X 1 0 1 Déjà vu Déjà vu X X
AC X X 1 1 Déjà vu X Déjà vu Déjà vu
AD X X X 0 X X Déjà vu X
AE X X X X X Déjà vu X Déjà vu
BC X X X X X 2 0 Déjà vu
BE X X X X X X X Déjà vu
CD X X X X X X X 0
On garde les 5 3-itemset suivants : ABC, ABE, ACD, ACE, BCE.

4- Itemset : …………………………………………………………………………………….(1 pt)


ABC ABE ACD ACE BCE
ABC X 1 0 Déjà vu Déjà vu
ABE X X X Déjà vu Déjà vu
ACD X X X 0 X
ACE X X X X Déjà vu

Un seul 4-itemset, ABCE.

3/4
Générations des règles :

1- Règles générées à partir des 2-itemset : il y a 8 * 2 = 16 règles au total. …………….(0.5 pt)

Si A Alors B Si B Alors A
Si A Alors C Si C Alors A
Si A Alors D Si D Alors A
Si A Alors E Si E Alors A
Si B Alors C Si C Alors B
Si B Alors E Si E Alors B
Si C Alors D Si D Alors C
Si C Alors E Si E Alors C

1- Règles générées à partir des 3-itemset : il y a 3 *5 *2 = 30 règles au total. ……..….(0.75 pt)

Si A Alors BC Si BC Alors A
Si A Alors BE Si BE Alors A
Si A Alors CD Si CD Alors A
Si A Alors CE Si CE Alors A
Si B Alors CE Si CE Alors B
Si B Alors AC Si AC Alors B
Si B Alors AE Si AE Alors B
Si C Alors AD Si AD Alors C
Si C Alors AE Si AE Alors C
Si C Alors BE Si BE Alors C
Si C Alors AB Si AB Alors C
Si E Alors AB Si AB Alors E
Si D Alors AC Si AC Alors D
Si E Alors AC Si AC Alors E
Si E Alors BC Si BC Alors E

2- Règles générées à partir du 4-itemset : il y a 14 règles au total. …………………….(0.75 pt)

Si A Alors BCE Si BCE Alors A


Si B Alors ACE Si ACE Alors B
Si C Alors ABE Si ABE Alors C
Si E Alors ABC Si ABC Alors E
Si AB Alors CE Si CE Alors AB
Si AC Alors BE Si BE Alors AC
Si AE Alors BC Si BC Alors AE

4/4
I.U.T de Caen STID 2ème année Problème
Département STID Année Universitaire 2007-2008
Partie A - Profiling
Responsable de cours : Alain LUCAS
• Etude de la variable Credit.
1. On obtient :
XX
Correction Examen Data Mining XXX Credit
XXX Yes No Total
Insur. XX
Yes 5 3 8
No 1 6 7
Questions de cours Total 6 9 15
2. On obtient :
1. Le terme « data mining » est traduit par « fouille de données » en France. π(Credit = Y es) = 83, 33%
2. Le « data mining » consiste en l’exploration de vastes bases de données dans le but d’en extraire une information et donc
pertinente, inconnue jusqu’à présent, et à forte valeur ajoutée. π(Credit = Y es)
Odds(Credit = Y es) = =5
1 − π(Credit = Y es)
3. Le sigle CRISP-DM signifie CRoss Industry Standard Process for Data Mining.
4. Un système opérationnel est basé sur une architecture relationnelle dont l’objectif consiste à stocker efficacement 3. On obtient :
des données, et à permettre un accès optimisé pour des requêtes prédéfinies. A contrario, un système décisionnel π(Credit = N o) = 33, 33%
est généralement basé sur une architecture en étoile dont l’objectif consiste à permettre une exploration efficace et donc
au sein d’un grand volume de données. π(Credit = N o)
Odds(Credit = N o) = = 0, 5
5. Les trois approches que l’on peut rencontrer sont : 1 − π(Credit = N o)
– le reporting Finalement, on trouve OR(Y es|N o) = 10.
– l’analyse multidimensionnelle
– le data mining 4. Il ressort de l’OR que les clients possédant un crédit en cours ont 10 fois plus de chance d’avoir souscrit le produit
d’assurance que ceux n’ayant pas de crédit en cours. Clairement, cette variable présente un impact significatif
6. Les phases du processus CRISP-DM sont : sur la variable cible puisque l’OR est nettement différent de 1.
– « Business Understanding » qui consiste à cerner précisément la problématique, et à la transformer en projet
« Data Mining » ; • Etude de la variable Sex.
– « Data Understanding » qui consiste à prendre connaissance des données, et à en faire un premier bilan ; 1. On obtient :
– « Data Preparation » qui consiste à préparer les données en vue de l’étape de modélisation ; PP
PP Sex Male Female Total
– « Modeling » qui consiste à faire usage d’outils appropriés en vue de la modélisation des données ; Insur. PPP
– « Evaluation » qui consiste à évaluer la performance du ou des modèles, puis à sélectionner le cas échéant le P
Yes 3 5 8
meilleur ;
No 5 2 7
– « Deployment » qui consiste à mettre en oeuvre le modèle sélectionner sur des données vierges.
Total 8 7 15
7. Les trois sous-échantillons sont :
– le « training data set » dont l’objectif est de permettre l’apprentissage de l’algorithme 2. On obtient :
– le « test data set » dont l’objectif consiste à éviter le sur ou le sous apprentissage π(Sex = F emale) = 71, 43%
– le « validation data set » dont l’objectif consiste à comparer les performances de plusieurs modèles
et donc
8. L’expression « underfitting » correspond à la notion de sous-apprentissage laquelle traduit le fait que le modèle π(Sex = F emale)
Odds(Sex = F emale) = = 2, 5
est trop simple dans le sens qu’il ne capture pas toute la structure interne des données. A contrario, l’expression 1 − π(Sex = F emale)
« overfitting » correspond à la notion de sur-apprentissage laquelle traduit le fait que le modèle est trop complexe
dans le sens qu’il capture non seulement la structure interne des données, mais aussi le bruit. 3. On obtient :
π(Sex = M ale) = 37, 5%
9. L’intérêt d’élaguer un arbre est d’éviter le phénomène de sur-apprentissage.
et donc
10. La sensibilité représente la proportion de positifs bien classés parmi les positifs disponibles. La spécificité π(Sex = M ale)
représente la proportion de négatifs bien classés parmi les négatifs disponibles. Odds(Sex = M ale) = = 0, 6
1 − π(Sex = M ale)
Finalement, on trouve OR(F |M ) = 4, 17.
4. Il ressort de l’OR que les clients de sexe féminin ont 4,17 fois plus de chance d’avoir souscrit le produit d’assurance
que ceux de sexe masculin. Clairement, cette variable présente un impact significatif sur la variable cible puisque
l’OR est nettement différent de 1.

2
• Etude de la variable Income. Partie B - Arbre de décision
1. On obtient :
• Division 1.
XX
XX Income 1. Les variables Credit et Sex étant binaires, on peut constituer une seule division admissible pour chacune de
XXX 20-30 30-40 40-60 Total
Insur. XXX ces variables. La variable Income étant ordinale à quatre modalités, on peut constituer au plus trois divisions
Yes 2 3 3 8 admissibles. Enfin, la variable Age étant continue avec 12 valeurs distinctes, on peut constituer 11 divisions
No 2 2 3 7 admissibles distinctes.
Total 4 5 6 15 2. On obtient :
2. On obtient : Insur. Racine
π(Income = 20 − 30) = 50% Yes 8
No 7
et donc
π(Income = 20 − 30) Gini 0,498
Odds(Income = 20 − 30) = =1
1 − π(Income = 20 − 30) 3. Un tel indice mesure l’impureté à l’intérieur d’un segment. Ses valeurs extrêmes sont respectivement 0 et 0,5. La
3. On obtient : valeur 0 est obtenue lorsque le segment est pur, tandis que la valeur 0,5 est obtenue lorsque l’on est en présence
π(Income = 30 − 40) = 60% d’une distribution uniforme des deux modalités.
4. On obtient
et donc
π(Income = 30 − 40)
Odds(Income = 30 − 40) = = 1, 5 XX XX
1 − π(Income = 30 − 40) XX Credit
XXXSex
XX
XXX Yes No M F
Insur. XX Insur. XX
On obtient :
Yes 5 3 Yes 3 5
π(Income = 40 − 60) = 50%
No 1 6 No 5 2
et donc Gini 0,278 0,444 Gini 0,469 0,408
π(Income = 40 − 60) Gini Tot. 0.378 Gini Tot. 0,441
Odds(Income = 40 − 60) = =1
1 − π(Income = 40 − 60)
Finalement, on trouve OR(30 − 40|20 − 30) = 1, 5 et OR(40 − 60|20 − 30) = 1.
XX
4. En comparant ces deux OR avec ceux calculés précédemment, il ressort clairement que la variable Income ne XX Income
XXX 20-30 30-60 20-40 40-60 20-50 50-60
présente pas un impact significatif sur la variable cible car les coefficients sont très proches, voir identiques à la Insur. XX
valeur référente 1. Yes 2 6 5 3 6 2
No 2 5 4 3 7 0
• Etude de la variable Age.
Gini 0,500 0,496 0,494 0,500 0,497 0
1. Avec ces valeurs, il semble assez clair que la variable Age présente un impact significatif sur la variable cible (il Gini Tot. 0,497 0,496 0,431
faut tout de même vérifier que l’écart n’est pas du à une ou plusieurs valeurs atypiques ! !).
2. Le graphique confirme la première analyse : la variable Age présente bien un impact significatif sur la variable XXX
Insurance. En effet, on observe clairement une distribution différente de la variable Age selon que les clients ont X Age 23 28 32 36.5 38.5 39.5
Insur. XXX
souscrit ou non une assurance. En particulier, les clients d’âge médian semblent les plus appétents à ce produit Modalités
X
< ≥ < ≥ < ≥ < ≥ < ≥ < ≥
d’assurance. Yes 1 7 1 7 2 6 3 5 4 4 5 3
• Bilan. No 0 7 1 6 1 6 1 6 1 6 1 6
Gini 0 0,500 0,500 0,497 0,444 0,500 0,375 0,496 0,32 0,48 0,278 0,444
1. Via l’analyse précédente, on obtient :
Gini Tot. 0,467 0,497 0,489 0,464 0,427 0,378
XXX
Variable Statut X Age 40.5 41.5 42.5 44 50
Insur. XXX
Credit pertinente X
< ≥ < ≥ < ≥ < ≥ < ≥
Sex pertinente Yes 5 3 6 2 6 2 8 0 8 0
Income non pertinente No 2 5 2 5 3 4 4 3 5 2
Age pertinente Gini 0,408 0,469 0,375 0,408 0,444 0,444 0,444 0 0,473 0
Gini Tot. 0,441 0,390 0,444 0,355 0,410
2. Afin d’améliorer la vente du produit, il importe de cibler en particulier : les clients ayant un crédit, les clients
de sexe féminin, et les clients d’âge médian (30-40).
5. La meilleure division globale étant obtenue pour la valeur de l’indice de Gini total la plus faible, on déduit des
tableaux précédent que cette division est réalisée par la variable Age, avec la condition < ou ≥ à 44 ans.

3 4
6. On obtient le graphique suivant : 2. Clairement, la meilleure division globale est obtenue pour la variable Credit. On peut noter que cette meilleure
division est également obtenue avec la variable Sex ainsi que la variable Age.
3. On obtient le graphique suivant :



  


  Α ≥



  

 
 

 

   
 

  Α ≥
 
 

 
  

 

  
  
  
 

 

  

  4. Clairement, aucun des deux segments ne sera déclaré comme terminal puisqu’aucune des deux contraintes n’est
satisfaite. Les deux segments seront donc déclarés comme segments intermédiaires.
• Division 3.
1. Clairement, on travaille ici sur le segment Credit=Yes.
7. Le premier segment ne vérifie aucune des deux conditions d’arrêt puisqu’il n’est pas pur et que le nombre 2. On obtient :
d’unités le composant est égal à 12. Par conséquent, ce segment est un segment intermédiaire. Par contre le
second segment est clairement pur, il sera donc déclaré comme terminal. XX
XXXSex
XX XX
• Division 2. M F XX Income
Insur. XXX 20-30 30-50 20-40 40-50
XX Insur. XX
1. On obtient : Yes 3 2 Yes 2 3 4 1
No 0 1 No 0 1 1 0
XX
XX Credit
XX Gini 0 0,444
XX Sex Gini 0 0,375 0,32 0
XX
XX Yes No M F Gini Tot. 0,222
Insur. XXX Insur. XXX Gini Tot. 0,25 0,267
Yes 5 3 Yes 3 5
No 1 3 No 3 1
XX
Gini 0,278 0,5 Gini 0,5 0,278 XX Age 24 32 37.5 41.5
Insur. XXX
Gini Tot. 0,389 Gini Tot. 0,389 X
Modalités < ≥ < ≥ < ≥ < ≥
XXX Yes 1 4 2 3 3 2 3 2
XXIncome 20-30 30-60 20-40 40-60 20-50 50-60 No 0 1 0 1 0 1 1 0
Insur. XX Gini 0 0,32 0 0,375 0 0,444 0,375 0
XX
Yes 2 6 5 3 6 2 Gini Tot. 0,267 0,25 0,222 0,25
No 1 3 3 1 4 0
3. Clairement, la meilleure division globale est obtenue avec la variable Sex. En effet, l’indice de Gini associé à cette
Gini 0,444 0,444 0,469 0,375 0,48 0
division est seulement de 0,222.
Gini Tot. 0,444 0,438 0,400
4. On obtient


XXX 
  

X Age 23 28 32 36.5 38.5


Insur. XXXX   Α ≥
Modalités < ≥ < ≥ < ≥ < ≥ < ≥
Yes 1 7 1 7 2 6 3 5 4 4  
 

 
No 0 4 1 3 1 3 1 3 1 3 
   
 

Gini 0 0,463 0,5 0,42 0,444 0,444 0,375 0,469 0,32 0,49
 
 
Gini Tot. 0,424 0,433 0,444 0,438 0,419
XX
XX Age 39.5 40.5 41.5 42.5
Insur. XXX X
 


 



  
 
< ≥ < ≥ < ≥ < ≥
   
Yes 5 3 5 3 6 2 6 2
No 1 3 2 2 2 2 3 1  
  

Gini 0,278 0,5 0,408 0,48 0,375 0,5 0,444 0,444 

 


 

Gini Tot. 0,389 0,438 0,417 0,444

5 6
5. Le premier segment est déclaré comme terminal car il est pur. Par contre, le second est déclaré comme terminal
car le nombre d’unités est inférieur à 5.
• Division 4.
1. On obtient :
XX
XX Sex
XX
M F
Insur. XXX
Yes 0 3
No 3 0
Gini 0 0
Gini Tot. 0

2. Clairement, il est inutile de continuer les calculs puisque d’une part cette division amène des segments purs,
et que d’autre part, c’est la première variable disponible dans le tableau de données. Par conséquent, c’est
nécessairement cette division qui sera choisie sous les contraintes spécifiées.
3. On obtient le graphique suivant :




  

  Α ≥

 
 

 

   
 

 
 

 
  

 

  
 

       

 
  
  
  

   

  
  
  
 

4. Les deux segments obtenus étant pur, ils sont déclarés terminaux.
• Prévisions.
1. En choisissant la modalité de fréquence maximale, on obtient pour chacun des segments terminaux les valeurs
allouées suivantes :
– Segment 2 = No
– Segment 5 = Yes
– Segment 6 = Yes
– Segment 7 = No
– Segment 8 = Yes
2. On obtient finalement :
ID Credit Sex Income Age Insurance
1 Yes Male 50-60 46 No
2 No Female 20-30 18 Yes
3 No Male 40-50 42 No
4 Yes Male 50-60 51 No
5 No Female 50-60 43 Yes

7
I.U.T de Caen STID 2ème année Problème
Département STID Année Universitaire 2007-2008
Partie A - Profiling
Responsable de cours : Alain LUCAS
• Etude de la variable Credit.
1. On obtient :
XX
Correction Examen Data Mining XXX Credit
XXX Yes No Total
Insur. XX
Yes 5 3 8
No 1 6 7
Questions de cours Total 6 9 15
2. On obtient :
1. Le terme « data mining » est traduit par « fouille de données » en France. π(Credit = Y es) = 83, 33%
2. Le « data mining » consiste en l’exploration de vastes bases de données dans le but d’en extraire une information et donc
pertinente, inconnue jusqu’à présent, et à forte valeur ajoutée. π(Credit = Y es)
Odds(Credit = Y es) = =5
1 − π(Credit = Y es)
3. Le sigle CRISP-DM signifie CRoss Industry Standard Process for Data Mining.
4. Un système opérationnel est basé sur une architecture relationnelle dont l’objectif consiste à stocker efficacement 3. On obtient :
des données, et à permettre un accès optimisé pour des requêtes prédéfinies. A contrario, un système décisionnel π(Credit = N o) = 33, 33%
est généralement basé sur une architecture en étoile dont l’objectif consiste à permettre une exploration efficace et donc
au sein d’un grand volume de données. π(Credit = N o)
Odds(Credit = N o) = = 0, 5
5. Les trois approches que l’on peut rencontrer sont : 1 − π(Credit = N o)
– le reporting Finalement, on trouve OR(Y es|N o) = 10.
– l’analyse multidimensionnelle
– le data mining 4. Il ressort de l’OR que les clients possédant un crédit en cours ont 10 fois plus de chance d’avoir souscrit le produit
d’assurance que ceux n’ayant pas de crédit en cours. Clairement, cette variable présente un impact significatif
6. Les phases du processus CRISP-DM sont : sur la variable cible puisque l’OR est nettement différent de 1.
– « Business Understanding » qui consiste à cerner précisément la problématique, et à la transformer en projet
« Data Mining » ; • Etude de la variable Sex.
– « Data Understanding » qui consiste à prendre connaissance des données, et à en faire un premier bilan ; 1. On obtient :
– « Data Preparation » qui consiste à préparer les données en vue de l’étape de modélisation ; PP
PP Sex Male Female Total
– « Modeling » qui consiste à faire usage d’outils appropriés en vue de la modélisation des données ; Insur. PPP
– « Evaluation » qui consiste à évaluer la performance du ou des modèles, puis à sélectionner le cas échéant le P
Yes 3 5 8
meilleur ;
No 5 2 7
– « Deployment » qui consiste à mettre en oeuvre le modèle sélectionner sur des données vierges.
Total 8 7 15
7. Les trois sous-échantillons sont :
– le « training data set » dont l’objectif est de permettre l’apprentissage de l’algorithme 2. On obtient :
– le « test data set » dont l’objectif consiste à éviter le sur ou le sous apprentissage π(Sex = F emale) = 71, 43%
– le « validation data set » dont l’objectif consiste à comparer les performances de plusieurs modèles
et donc
8. L’expression « underfitting » correspond à la notion de sous-apprentissage laquelle traduit le fait que le modèle π(Sex = F emale)
Odds(Sex = F emale) = = 2, 5
est trop simple dans le sens qu’il ne capture pas toute la structure interne des données. A contrario, l’expression 1 − π(Sex = F emale)
« overfitting » correspond à la notion de sur-apprentissage laquelle traduit le fait que le modèle est trop complexe
dans le sens qu’il capture non seulement la structure interne des données, mais aussi le bruit. 3. On obtient :
π(Sex = M ale) = 37, 5%
9. L’intérêt d’élaguer un arbre est d’éviter le phénomène de sur-apprentissage.
et donc
10. La sensibilité représente la proportion de positifs bien classés parmi les positifs disponibles. La spécificité π(Sex = M ale)
représente la proportion de négatifs bien classés parmi les négatifs disponibles. Odds(Sex = M ale) = = 0, 6
1 − π(Sex = M ale)
Finalement, on trouve OR(F |M ) = 4, 17.
4. Il ressort de l’OR que les clients de sexe féminin ont 4,17 fois plus de chance d’avoir souscrit le produit d’assurance
que ceux de sexe masculin. Clairement, cette variable présente un impact significatif sur la variable cible puisque
l’OR est nettement différent de 1.

2
• Etude de la variable Income. Partie B - Arbre de décision
1. On obtient :
• Division 1.
XX
XX Income 1. Les variables Credit et Sex étant binaires, on peut constituer une seule division admissible pour chacune de
XXX 20-30 30-40 40-60 Total
Insur. XXX ces variables. La variable Income étant ordinale à quatre modalités, on peut constituer au plus trois divisions
Yes 2 3 3 8 admissibles. Enfin, la variable Age étant continue avec 12 valeurs distinctes, on peut constituer 11 divisions
No 2 2 3 7 admissibles distinctes.
Total 4 5 6 15 2. On obtient :
2. On obtient : Insur. Racine
π(Income = 20 − 30) = 50% Yes 8
No 7
et donc
π(Income = 20 − 30) Gini 0,498
Odds(Income = 20 − 30) = =1
1 − π(Income = 20 − 30) 3. Un tel indice mesure l’impureté à l’intérieur d’un segment. Ses valeurs extrêmes sont respectivement 0 et 0,5. La
3. On obtient : valeur 0 est obtenue lorsque le segment est pur, tandis que la valeur 0,5 est obtenue lorsque l’on est en présence
π(Income = 30 − 40) = 60% d’une distribution uniforme des deux modalités.
4. On obtient
et donc
π(Income = 30 − 40)
Odds(Income = 30 − 40) = = 1, 5 XX XX
1 − π(Income = 30 − 40) XX Credit
XXXSex
XX
XXX Yes No M F
Insur. XX Insur. XX
On obtient :
Yes 5 3 Yes 3 5
π(Income = 40 − 60) = 50%
No 1 6 No 5 2
et donc Gini 0,278 0,444 Gini 0,469 0,408
π(Income = 40 − 60) Gini Tot. 0.378 Gini Tot. 0,441
Odds(Income = 40 − 60) = =1
1 − π(Income = 40 − 60)
Finalement, on trouve OR(30 − 40|20 − 30) = 1, 5 et OR(40 − 60|20 − 30) = 1.
XX
4. En comparant ces deux OR avec ceux calculés précédemment, il ressort clairement que la variable Income ne XX Income
XXX 20-30 30-60 20-40 40-60 20-50 50-60
présente pas un impact significatif sur la variable cible car les coefficients sont très proches, voir identiques à la Insur. XX
valeur référente 1. Yes 2 6 5 3 6 2
No 2 5 4 3 7 0
• Etude de la variable Age.
Gini 0,500 0,496 0,494 0,500 0,497 0
1. Avec ces valeurs, il semble assez clair que la variable Age présente un impact significatif sur la variable cible (il Gini Tot. 0,497 0,496 0,431
faut tout de même vérifier que l’écart n’est pas du à une ou plusieurs valeurs atypiques ! !).
2. Le graphique confirme la première analyse : la variable Age présente bien un impact significatif sur la variable XXX
Insurance. En effet, on observe clairement une distribution différente de la variable Age selon que les clients ont X Age 23 28 32 36.5 38.5 39.5
Insur. XXX
souscrit ou non une assurance. En particulier, les clients d’âge médian semblent les plus appétents à ce produit Modalités
X
< ≥ < ≥ < ≥ < ≥ < ≥ < ≥
d’assurance. Yes 1 7 1 7 2 6 3 5 4 4 5 3
• Bilan. No 0 7 1 6 1 6 1 6 1 6 1 6
Gini 0 0,500 0,500 0,497 0,444 0,500 0,375 0,496 0,32 0,48 0,278 0,444
1. Via l’analyse précédente, on obtient :
Gini Tot. 0,467 0,497 0,489 0,464 0,427 0,378
XXX
Variable Statut X Age 40.5 41.5 42.5 44 50
Insur. XXX
Credit pertinente X
< ≥ < ≥ < ≥ < ≥ < ≥
Sex pertinente Yes 5 3 6 2 6 2 8 0 8 0
Income non pertinente No 2 5 2 5 3 4 4 3 5 2
Age pertinente Gini 0,408 0,469 0,375 0,408 0,444 0,444 0,444 0 0,473 0
Gini Tot. 0,441 0,390 0,444 0,355 0,410
2. Afin d’améliorer la vente du produit, il importe de cibler en particulier : les clients ayant un crédit, les clients
de sexe féminin, et les clients d’âge médian (30-40).
5. La meilleure division globale étant obtenue pour la valeur de l’indice de Gini total la plus faible, on déduit des
tableaux précédent que cette division est réalisée par la variable Age, avec la condition < ou ≥ à 44 ans.

3 4
6. On obtient le graphique suivant : 2. Clairement, la meilleure division globale est obtenue pour la variable Credit. On peut noter que cette meilleure
division est également obtenue avec la variable Sex ainsi que la variable Age.
3. On obtient le graphique suivant :



  


  Α ≥



  

 
 

 

   
 

  Α ≥
 
 

 
  

 

  
  
  
 

 

  

  4. Clairement, aucun des deux segments ne sera déclaré comme terminal puisqu’aucune des deux contraintes n’est
satisfaite. Les deux segments seront donc déclarés comme segments intermédiaires.
• Division 3.
1. Clairement, on travaille ici sur le segment Credit=Yes.
7. Le premier segment ne vérifie aucune des deux conditions d’arrêt puisqu’il n’est pas pur et que le nombre 2. On obtient :
d’unités le composant est égal à 12. Par conséquent, ce segment est un segment intermédiaire. Par contre le
second segment est clairement pur, il sera donc déclaré comme terminal. XX
XXXSex
XX XX
• Division 2. M F XX Income
Insur. XXX 20-30 30-50 20-40 40-50
XX Insur. XX
1. On obtient : Yes 3 2 Yes 2 3 4 1
No 0 1 No 0 1 1 0
XX
XX Credit
XX Gini 0 0,444
XX Sex Gini 0 0,375 0,32 0
XX
XX Yes No M F Gini Tot. 0,222
Insur. XXX Insur. XXX Gini Tot. 0,25 0,267
Yes 5 3 Yes 3 5
No 1 3 No 3 1
XX
Gini 0,278 0,5 Gini 0,5 0,278 XX Age 24 32 37.5 41.5
Insur. XXX
Gini Tot. 0,389 Gini Tot. 0,389 X
Modalités < ≥ < ≥ < ≥ < ≥
XXX Yes 1 4 2 3 3 2 3 2
XXIncome 20-30 30-60 20-40 40-60 20-50 50-60 No 0 1 0 1 0 1 1 0
Insur. XX Gini 0 0,32 0 0,375 0 0,444 0,375 0
XX
Yes 2 6 5 3 6 2 Gini Tot. 0,267 0,25 0,222 0,25
No 1 3 3 1 4 0
3. Clairement, la meilleure division globale est obtenue avec la variable Sex. En effet, l’indice de Gini associé à cette
Gini 0,444 0,444 0,469 0,375 0,48 0
division est seulement de 0,222.
Gini Tot. 0,444 0,438 0,400
4. On obtient


XXX 
  

X Age 23 28 32 36.5 38.5


Insur. XXXX   Α ≥
Modalités < ≥ < ≥ < ≥ < ≥ < ≥
Yes 1 7 1 7 2 6 3 5 4 4  
 

 
No 0 4 1 3 1 3 1 3 1 3 
   
 

Gini 0 0,463 0,5 0,42 0,444 0,444 0,375 0,469 0,32 0,49
 
 
Gini Tot. 0,424 0,433 0,444 0,438 0,419
XX
XX Age 39.5 40.5 41.5 42.5
Insur. XXX X
 


 



  
 
< ≥ < ≥ < ≥ < ≥
   
Yes 5 3 5 3 6 2 6 2
No 1 3 2 2 2 2 3 1  
  

Gini 0,278 0,5 0,408 0,48 0,375 0,5 0,444 0,444 

 


 

Gini Tot. 0,389 0,438 0,417 0,444

5 6
5. Le premier segment est déclaré comme terminal car il est pur. Par contre, le second est déclaré comme terminal
car le nombre d’unités est inférieur à 5.
• Division 4.
1. On obtient :
XX
XX Sex
XX
M F
Insur. XXX
Yes 0 3
No 3 0
Gini 0 0
Gini Tot. 0

2. Clairement, il est inutile de continuer les calculs puisque d’une part cette division amène des segments purs,
et que d’autre part, c’est la première variable disponible dans le tableau de données. Par conséquent, c’est
nécessairement cette division qui sera choisie sous les contraintes spécifiées.
3. On obtient le graphique suivant :




  

  Α ≥

 
 

 

   
 

 
 

 
  

 

  
 

       

 
  
  
  

   

  
  
  
 

4. Les deux segments obtenus étant pur, ils sont déclarés terminaux.
• Prévisions.
1. En choisissant la modalité de fréquence maximale, on obtient pour chacun des segments terminaux les valeurs
allouées suivantes :
– Segment 2 = No
– Segment 5 = Yes
– Segment 6 = Yes
– Segment 7 = No
– Segment 8 = Yes
2. On obtient finalement :
ID Credit Sex Income Age Insurance
1 Yes Male 50-60 46 No
2 No Female 20-30 18 Yes
3 No Male 40-50 42 No
4 Yes Male 50-60 51 No
5 No Female 50-60 43 Yes

7
Université de Chlef Janvier 2018
Département Informatique
ème
Filière : 2 Année Master - ISIA et IL

Examen semestriel
Modules "Fouille et extraction de données" & "Datamining"
Durée : 01H30

Exercice 1 (10 points) :


Soit l'ensemble D des entiers suivants :
D= { 2, 5, 8, 10, 11, 18, 20 }
On veut répartir les données de D en trois (3) clusters, en utilisant l'algorithme Kmeans. La distance d entre deux
nombres a et b est calculée ainsi :
d(a , b) = |a - b| (la valeur absolue de a moins b)

Travail à faire :
1/ Appliquez Kmeans en choisissant comme centres initiaux des 3 clusters respectivement : 8, 10 et 11. Montrez
toutes les étapes de calcul.
2/ Donnez le résultat final et précisez le nombre d'itérations qui ont été nécessaires.
3/ Peut-on avoir un nombre d'itérations inférieur pour ce problème ? Discutez.

Exercice 2 (10 points) :


Le tableau suivant contient des données sur les résultats obtenus par des étudiants de Tronc Commun (première
année à l'Université). Chaque étudiant est décrit par 3 attributs : Est-il doublant ou non, la série du Baccalauréat
obtenu et la mention. Les étudiants sont répartis en deux classes : Admis et Non Admis.
On veut construire un arbre de décision à partir des données du tableau, pour rendre compte des éléments qui
influent sur les résultats des étudiants en Tronc Commun. Les lignes de 1 à 12 sont utilisées comme données
d'apprentissage. Les lignes restantes ( de 13 à 16) sont utilisées comme données de tests.

Doublant Série Mention Classe


1 Non Maths ABien Admis
2 Non Techniques ABien Admis
3 Oui Sciences ABien Non Admis
4 Oui Sciences Bien Admis
5 Non Maths Bien Admis
6 Non Techniques Bien Admis
7 Oui Sciences Passable Non Admis
8 Oui Maths Passable Non Admis
9 Oui Techniques Passable Non Admis
10 Oui Maths TBien Admis
11 Oui Techniques TBien Admis
12 Non Sciences TBien Admis
13 Oui Maths Bien Admis
14 Non Sciences ABien Non Admis
15 Non Maths TBien Admis

1/2
16 Non Maths Passable Non Admis

Travail à faire :
1/ Utiliser les données des lignes de 1 à 12 pour construire l'arbre en utilisant l'algorithme ID3. Montrez toutes les
étapes de calcul. Dessinez l'arbre final.
2/ Quels sont les résultats de test de l'arbre obtenu sur les données des lignes de 13 à 16 ?.

2/2
Université de Chlef Janvier 2018
Département Informatique
ème
Filière : 2 Année Master - ISIA et IL

Examen semestriel Modules "Fouille et extraction de données" & "Datamining"


Durée : 01H30
Corrigé

Exercice 1 (10 points) :


Soit l'ensemble D des entiers suivants :
D= { 2, 5, 8, 10, 11, 18, 20 }
On veut répartir les données de D en trois (3) clusters, en utilisant l'algorithme Kmeans. La distance d entre deux
nombres a et b est calculée ainsi :
d(a , b) = |a - b| (la valeur absolue de a moins b)

Travail à faire :
1/ Appliquez Kmeans en choisissant comme centres initiaux des 3 clusters respectivement : 8, 10 et 11. Montrez
toutes les étapes de calcul.
Réponse :
Initialisation :
des centres de gravité : µ1=8 µ2=10 µ3=11
des clusters : C1=Ø C2=Ø C3=Ø

Itération 1 :
Calcul des distances
Nombre 2 :
d(2, µ1)=|2-8|=6
d(2, µ2)=|2-10|=8
d(2, µ3)=|2-11|=9
2 est affecté au cluster C1.

Nombre 5 :
d(5, µ1)=|5-8|=3
d(5, µ2)=|5-10|=5
d(5, µ3)=|5-11|=6
5 est affecté au cluster C1.

Nombre 8 :
d(8, µ1)=|8-8|=0
d(8, µ2)=|8-10|=2
d(8, µ3)=|8-11|=3
8 est affecté au cluster C1.

1/9
Nombre 10 :
d(10, µ1)=|10-8|=2
d(10, µ2)=|10-10|=0
d(10, µ3)=|10-11|=1
10 est affecté au cluster C2.

Nombre 11 :
d(11, µ1)=|11-8|=3
d(11, µ2)=|11-10|=1
d(11, µ3)=|11-11|=0
11 est affecté au cluster C3.

Nombre 18 :
d(18, µ1)=|18-8|=10
d(18, µ2)=|18-10|=8
d(18, µ3)=|18-11|=7
18 est affecté au cluster C3.

Nombre 20 :
d(20, µ1)=|20-8|=12
d(20, µ2)=|20-10|=10
d(20, µ3)=|20-11|=9
20 est affecté au cluster C3.

Mise à jour des clusters :


C1={ 2, 5, 8} C2={10} C3={11, 18, 20}

R- estimation des centres de gravité :


µ1= (2+5+8)/3 µ2=10/1 µ3=(11+18+20)/3
µ1=5 µ2=10 µ3=16.33
(2 points)
Itération 2 :
Calcul des distances
Nombre 2 :
d(2, µ1)=|2-5|=3
d(2, µ2)=|2-10|=8
d(2, µ3)=|2-16.33|=14.33
2 est affecté au cluster C1.

Nombre 5 :

2/9
d(5, µ1)=|5-5|=0
d(5, µ2)=|5-10|=5
d(5, µ3)=|5-16.33|=11.33
5 est affecté au cluster C1.

Nombre 8 :
d(8, µ1)=|8-5|=3
d(8, µ2)=|8-10|=2
d(8, µ3)=|8-16.33|=8.33
8 est affecté au cluster C2.

Nombre 10 :
d(10, µ1)=|10-5|=5
d(10, µ2)=|10-10|=0
d(10, µ3)=|10-16.33|=6.33
10 est affecté au cluster C2.

Nombre 11 :
d(11, µ1)=|11-5|=6
d(11, µ2)=|11-10|=1
d(11, µ3)=|11-16.33|=5.33
11 est affecté au cluster C2.

Nombre 18 :
d(18, µ1)=|18-5|=13
d(18, µ2)=|18-10|=8
d(18, µ3)=|18-16.33|=1.67
18 est affecté au cluster C3.

Nombre 20 :
d(20, µ1)=|20-5|=15
d(20, µ2)=|20-10|=10
d(20, µ3)=|20-16.33|=3.67
20 est affecté au cluster C3.

Mise à jour des clusters :


C1={ 2, 5} C2={8, 10, 11} C3={18, 20}

R- estimation des centres de gravité :


µ1= (2+5)/2 µ2=(8+10+11)/3 µ3=(18+20)/2
µ1=3.5 µ2=9.66 µ3=19

3/9
(2 points)

Itération 3 :
Calcul des distances
Nombre 2 :
d(2, µ1)=|2-3.5|=1.5
d(2, µ2)=|2-9.66|=7.66
d(2, µ3)=|2-19|=17
2 est affecté au cluster C1.

Nombre 5 :
d(5, µ1)=|5-3.5|=1.5
d(5, µ2)=|5-9.66|=4.66
d(5, µ3)=|5-19|=14
5 est affecté au cluster C1.

Nombre 8 :
d(8, µ1)=|8-3.5|=4.5
d(8, µ2)=|8-9.66|=1.66
d(8, µ3)=|8-19|=11
8 est affecté au cluster C2.

Nombre 10 :
d(10, µ1)=|10-3.5|=6.5
d(10, µ2)=|10-9.66|=0.34
d(10, µ3)=|10-19|=9
10 est affecté au cluster C2.

Nombre 11 :
d(11, µ1)=|11-3.5|=7.5
d(11, µ2)=|11-9.66|=1.34
d(11, µ3)=|11-19|=8
11 est affecté au cluster C2.

Nombre 18 :
d(18, µ1)=|18-3.5|=14.5
d(18, µ2)=|18-9.66|=8.34
d(18, µ3)=|18-19|=1
18 est affecté au cluster C3.

Nombre 20 :

4/9
d(20, µ1)=|20-3.5|=16.5
d(20, µ2)=|20-9.66|=10.34
d(20, µ3)=|20-19|=1
20 est affecté au cluster C3.

Mise à jour des clusters :


C1={ 2, 5} C2={8, 10, 11} C3={18, 20}

R- estimation des centres de gravité :


µ1= (2+5)/2 µ2=(8+10+11)/3 µ3=(18+20)/2
µ1=3.5 µ2=9.66 µ3=19
Stabilité : Les centres de gravité n'ont pas changé. L'algorithme s'arrête
(2 points)

2/ Donnez le résultat final et précisez le nombre d'itérations qui ont été nécessaires.
Réponse :
Les clusters résultats :
C1={ 2, 5} C2={8, 10, 11} C3={18, 20}

Nombre d'itérations = 3
(2 points)

3/ Peut-on avoir un nombre d'itérations inférieur pour ce problème ? Discutez.


Réponse :
Dans ce problème, les données sont ordonnées et restreintes dans un intervalle (de 2 à 20). Comme on veut
construire 3 clusters, on est sûr que la borne inférieure (2) sera dans le cluster 1, et la borne supérieure (20) sera
dans le cluster 3. Il est donc intéressant de choisir comme centres de gravité initiaux : la borne inférieure (2)
pour le cluster 1, la borne supérieure (20) pour le cluster 3, et le milieu de l'intervalle (9) comme centre pour le
cluster 2. Avec une telle initialisation, l'algorithme convergera après seulement 2 itérations.
(2 points)

Exercice 2 (10 points) :


Le tableau suivant contient des données sur les résultats obtenus par des étudiants de Tronc Commun (première
année à l'Université). Chaque étudiant est décrit par 3 attributs : Est-il doublant ou non, la série du Baccalauréat
obtenu et la mention. Les étudiants sont répartis en deux classes : Admis et Non Admis.
On veut construire un arbre de décision à partir des données du tableau, pour rendre compte des éléments qui
influent sur les résultats des étudiants en Tronc Commun. Les lignes de 1 à 12 sont utilisées comme données
d'apprentissage. Les lignes restantes ( de 13 à 16) sont utilisées comme données de tests.

Doublant Série Mention Classe


1 Non Maths ABien Admis
2 Non Techniques ABien Admis
3 Oui Sciences ABien Non Admis
4 Oui Sciences Bien Admis
5 Non Maths Bien Admis
5/9
6 Non Techniques Bien Admis
7 Oui Sciences Passable Non Admis
8 Oui Maths Passable Non Admis
9 Oui Techniques Passable Non Admis
10 Oui Maths TBien Admis
11 Oui Techniques TBien Admis
12 Non Sciences TBien Admis
13 Oui Maths Bien Admis
14 Non Sciences ABien Non Admis
15 Non Maths TBien Admis
16 Non Maths Passable Non Admis

Travail à faire :
1/ Utiliser les données des lignes de 1 à 12 pour construire l'arbre en utilisant l'algorithme ID3. Montrez toutes les
étapes de calcul. Dessinez l'arbre final.
Réponse :
On remarque que sur les 12 lignes des données d'apprentissage, 8 correspondent à la classe "Admis" et 4 à la classe "Non
admis". L'entropie de l'ensemble S (à la racine de l'arbre) est donc égale à :

Entropie (S)= - (8/12) * Log2 (8/12) - (4/12) * Log2 (4/12)


Entropie (S)= 0.92
(0.5 point)

Pour connaitre quel attribut on doit choisir comme test au niveau de la racine de l'arbre, il faut calculer le gain d'entropie
sur chacun des attributs : "Doublant", "Série" et "Mention".

Calcul du gain d'entropie sur l'attribut "Doublant" :


Gain(S, Doublant) = Entropie(S) - 7/12 * Entropie(SOui) - 5/12 * Entropie(SNon)
avec Entropie(SOui)= -3/7*Log2(3/7) - 4/7*Log2(4/7)
et Entropie(SNon)= -5/5*log2(5/5)
Gain(S, Doublant) =0.34
(0.5 point)

Calcul du gain d'entropie sur l'attribut "Série" :


Gain(S, Série) = Entropie(S) - 4/12 * Entropie(SMaths) - 4/12 * Entropie(STechniques) - 4/12 * Entropie(SSciences)
Gain(S, Série) = 0.04
(0.5 point)

Calcul du gain d'entropie sur l'attribut "Mention" :


Gain(S, Série) = Entropie(S) - 3/12 * Entropie(SPassable) - 3/12 * Entropie(SABien) - 3/12 * Entropie(SBien) - 3/12 *
Entropie(STBien)
Gain(S, Mention) = 0.69
(0.5 point)

6/9
On constate que le plus grand gain d'entropie est obtenu sur l'attribut "Mention". C'est donc cet attribut qui est choisi
comme test à la racine de l'arbre. Nous obtenons l'arbre partiel suivant :
(1 point)

Admis 8
Non Admis 4

Mention ?

Passable ABien Bien TBien

Admis 0 Admis 2 Admis 3 Admis 3


Non Admis 3 Non Admis 1 Non Admis 0 Non Admis 0
(1 point)

On voit que mettre l'attribut "Mention" à la racine de l'arbre permet d'obtenir 4 branches dont 3 produisent des noeuds
purs (finaux). Il ne reste à traiter que le nœud présentant un mélange correspondant à la branche "ABien". Ce nœud
comporte un ensemble (que nous noterons S2) ayant 2 individus appartenant à la classe "Admis" et 1 individu de la classe
"Non Admis". L'entropie de l'ensemble S2 est donc égale à :

Entropie (S2)= - (2/3) * Log2 (2/3) - (1/3) * Log2 (1/3)


Entropie (S2)= 0.92
(0.5 point)

Pour connaitre quel attribut on doit choisir comme test au niveau du nœud impur, il faut calculer le gain d'entropie sur
chacun des attributs restants : "Doublant" et "Série".

Calcul du gain d'entropie sur l'attribut "Doublant" :


Gain(S2, Doublant) = Entropie(S2) - 1/3 * Entropie(SOui) -2/3 * Entropie(SNon)
Gain(S2, Doublant) =0.92
(0.5 point)

Calcul du gain d'entropie sur l'attribut "Série" :


Gain(S2, Série) = Entropie(S2) - 1/3 * Entropie(SMaths) - 1/3 * Entropie(STechniques) - 1/3 * Entropie(SSciences)
Gain(S2, Série) = 0.92
(0.5 point)

On constate que les deux attributs "Doublant" et "Série" procurent le même gain d'entropie. Nous pouvons donc choisir l'un
ou l'autre comme test au niveau du nœud courant. Nous avons donc deux arbres de décision possibles :

7/9
(1 point)

Premier arbre :

Mention ?

Passable ABien Bien TBien

Non Admis Doublant ? Admis Admis

Oui Non

Non Admis Admis


(1 point)

Deuxième arbre :

Mention ?

Passable ABien Bien TBien

Non Admis Série ? Admis Admis

Maths Techniques Sciences

Admis Admis Non Admis


(1 point)

2/ Quels sont les résultats de test de l'arbre obtenu sur les données des lignes de 13 à 16 ?.

Test de l'arbre 1 Test de l'arbre 2


Classe Classe
Doublant Série Mention Classe déduite de Observation déduite de Observation
l'arbre 1 l'arbre 2
13 Oui Maths Bien Admis Admis Correct Admis Correct
14 Non Sciences ABien Non Admis Admis Erreur Non Admis Correct
15 Non Maths TBien Admis Admis Correct Admis Correct
16 Non Maths Passable Non Admis Non Admis Correct Non Admis Correct

8/9
On remarque que l'arbre 1 a donné un taux d'erreur de 1/4 soit 25%, alors que l'arbre 2 présente un taux de succès de
100%. Cela suggère de retenir en définitif l'arbre 2 qui conforte l'idée suivante :

Les résultats obtenus par les étudiants de tronc commun sont déterminés par deux éléments : la mention obtenue de leur
baccalauréat et la série. Les étudiants ayant une bonne mention (ABien ou plus) ou issus des filières Maths et Techniques
ne trouvent pas de difficultés à passer la première année à l'Université.

(1.5 points)

9/9
Université de Chlef Février 2019
Département Informatique
ème
Filière : 2 Année Master - ISIA et IL

Examen semestriel
Modules "Fouille et extraction de données" & "Datamining"
Durée : 01H30 Corrigé

Exercice 1 (12 points) :


On veut appliquer le modèle des "Règles d'association" à un problème de TextMining.
Le tableau suivant représente les mots-clés (les mots les plus importants) extraits à partir de 7 textes.
N° Texte Mots clés
01 Finance, Marché, Budget, Economie
02 Ouverture, Finance, Economie
03 Ouverture, Assemblée, Handball, Sport
04 Directeur, Budget, Finance, Economie
05 Directeur, Assemblée, Handball, Sport
06 Ouverture, Marché, Economie
07 Ouverture, Assemblée, Directeur, Handball, Sport

A/ D'après-vous quel est l'objectif recherché de l'application des "Règles d'association" à ce problème ?.
Réponse :
L'analyse de texte (TextMining) vise, entre autres, à trouver les mots-clés qui apparaissent ensemble dans
les textes : C'est à dire les mots-clés liés par une relation de co-occurence.
(2 points)

B/ Sans faire de calcul, donnez une règle d'association du tableau dont la confiance est égale à 100%. Justifiez.
Réponse :
Exemple de règle d'association ayant une confiance 100% : Finance →
Justification : A chaque apparition du mot-clé "Finance" dans un texte, il y'a aussi l'occurrence du mot-
clé "Economie".
(1 point)

C/ Réécrivez le tableau précédent en gardant uniquement la première lettre de chaque mot-clé (pour simplifier la
notation) . Appliquez l'algorithme a priori pour trouver toutes les règles d'association qui vérifient minsup >=40% et
donnez leur confiance. Détaillez toutes les étapes.
Réponse :
Pour une simplification de la notation en vue de l'application de l'algorithme Apriori, on a remplacé
(comme cela a été recommandé) chaque mot par sa première lettre.

1/6
N° Texte Mots clés
01 F, M, B, E
02 O, F, E
03 O, A, H, S
04 D, B, F, E
05 D, A, H, S
06 O, M, E
07 O, A, D, H, S

Ensembles d'items de taille 1 Ensembles d'items fréquents de taille 1:

Ensemble support Ensemble


{F} 3/7 =42,8 % {F}
{M} 2/7=28,6% {E}
{B} 2/7=28,6% {O}
{E} 4/7=57,1% {A}
{O} 4/7=57,1% {H}
{A} 3/7=42,8% {S}
{H} 3/7=42,8% {D}
{S} 3/7=42,8%
{D} 3/7=42,8%

Ensembles d'items de taille 2 Ensembles d'items fréquents de


taille 2:
Ensemble
Ensemble support
{F, E}
{F, E} 3/7=42,8%
{A, H}
{F, O} 1/7=14,3%
{A, S}
{F, A} 0%
{H, S}
{F, H} 0%
{F, S} 0%
{F, D} 1/7=14,3%
{E, O} 2/7=28,6%
{E, A} 0%
{E, H} 0%
{E, S} 0%
{E, D} 1/7=14,3%
{O, A} 2/7=28,6%
{O, H} 2/7=28,6%
{O, S} 2/7=28,6%
{O, D} 1/7=14,3%
{A, H} 3/7=42,8%
{A, S} 3/7=42,8%
{A, D} 2/7=28,6%
{H, S} 3/7=42,8%
{H, D} 1/7=14,3%
{S, D} 2/7=14,3%

2/6
Ensembles d'items de taille 3 Ensembles d'items fréquents de
taille 3:
Ensemble
Ensemble support
{A, H, S}
{F, E, A} 0%
{F, E, H} 0%
{F, E, S} 0%
{A, H, F} 0%
{A, H, E} 0%
{A, H, S} 3/7=42,8%
{A, S, F} 0%
{A, S, E} 0%
{H, S, F} 0%
{H, S, E} 0%
(3 points)

Les règles d'association générées et leurs confiances


N° Règle Confiance
1 Handball → Assemblée 100%
2 Assemblée → Handball 100%
3 Sport → Assemblée 100%
4 Assemblée → Sport 100%
5 Finance → Economie 100%
6 Sport → Handball 100%
7 Handball → Sport 100%
8 Handball, Sport → Assemblée 100%
9 Assemblée, Sport → Handball 100%
10 Assemblée, Handball → Sport 100%
11 Sport → Assemblée, Handball 100%
12 Handball → Assemblée, Sport 100 %
13 Assemblée → Handball, Sport 100%
14 Economie → Finance 75%
(3.5 points)

D/ On considère maintenant les données d'apprentissage d'un problème de classification en utilisant les "Règles
d'association" (Remarquez la similitude avec le tableau précédent) :
N° Texte Mots clés Classe
01 Finance, Marché, Budget Economie
02 Ouverture, Finance Economie
03 Ouverture, Assemblée, Handball Sport
04 Directeur, Budget, Finance Economie
05 Directeur, Assemblée, Handball Sport
06 Ouverture, Marché Economie
07 Ouverture, Assemblée, Directeur, Handball Sport

D'après-vous comment peut-on utiliser les résultats de la question C pour répondre à ce problème de classification
: Etant donné un ou plusieurs mots-clés, on veut savoir à quelle classe ils renvoient ?.

3/6
Réponse :
Notons qu'il y'a 2 classes possibles : Economie et Sport. Pour utiliser les résultats obtenus à la question C
dans ce problème de classification, il est proposé de :

1/ considérer toutes les règles d'associations, dont le 2ème membre (partie droite) est l'une des classes
recherchées (Sport ou Economie).
2/ prendre la confiance calculée comme une mesure probabilité.

Les règles retenues :


N° Règle Confiance (Probabilité)
1 Assemblée → Sport 100%
2 Finance → Economie 100%
3 Handball → Sport 100%
4 Assemblée, Handball → Sport 100%

Ainsi, à partir des données du problème et des résultats obtenus on peut dire :
Si on trouve le mot-clé "Assemblé" ou "Handball" , ou les deux ensemble, dans un texte, celui-ci sera classé
dans "Sport" avec une probabilité de 100%.
Si on trouve le mot-clé "Finance" , le texte sera mis dans la classe "Economie", avec la probabilité de
100%.
Pour les autres mots-clés, on ne peut pas se prononcer.
(2.5 points)

Exercice 2 (8 points) :
Le graphique suivant représente les résultats d'une comparaison des performances de deux classifieurs C1 et C2.
Les deux classifieurs sont basés sur le modèle KNN (K Nearest Neighbors), mais le premier utilise la règle du
"vote majoritaire", alors que le second utilise la règle de "l'inverse de la distance au carré". L'évaluation a été faite
sur les mêmes données (leur nombre est 15), et en utilisant la même distance.

4/6
A/ Expliquez comment a-t-on obtenu les résultats de l'évaluation de ces classifieurs (les étapes qui ont été suivies)
?.
Réponse :
• Le modèle KNN étant un modèle à apprentissage supervisé, il faut disposer d'un ensemble
d'apprentissage étiqueté par un expert (les 15 données sont classées au préalable).
• On exécute le programme correspondant à chacun des deux classifieurs ("vote majoritaire" et
"inverse de la distance au carré") en faisant varier le paramètre K , et en reportant à chaque fois
le nombre d'erreurs commises (il y'a erreur lorsque le modèle renvoie pour une donnée une classe
différente de la classe contenue dans les données d'apprentissage).
• Les résultats obtenus sont consignés dans un graphique.
(2 points)

B/ Dans les deux courbes (C1 et C2), il y'a une tendance commune caractéristique du modèle KNN. Expliquez-la
brièvement.
Réponse :
Il y'a 4 stades dans chaque courbe
• Un stade correspondant à un K petit où le nombre d'erreurs est élevé
• Un stade correspondant à un K moyen où le nombre d'erreurs est plus faible
• Un stade correspondant à un K élevé , où le nombre d'erreurs redevient élevé
• Un stade correspondant à une valeur de K >=N (la taille des données), où le nombre d'erreurs
reste constant
5/6
Ces courbes confirment une caractéristique connue des modèles KNN : il est recommandé de choisir le
paramètre K , ni trop grand ni trop petit.
(2 points)

C/ D'après le graphique, quel est le meilleur classifieur ? . Comment pouvez-vous l'expliquer ?


Le meilleur classifieur, qui provoque en moyenne moins d'erreurs, est C2 (celui basé sur "l'inverse de la
distance au carré 1/d2).
Explication :
Le choix de "l'inverse de la distance au carré" peut être plus pertinent que le "vote majritaire", car les
voisins peuvent avoir une "influence" inversement proportionnelle à la distance qui les séparent de
l'objet à classer.
(2 points)

D/ Peut-on généraliser ce résultat ? Justifiez.


Non, on ne peut pas dire que l'option de "l'inverse de la distance au carré 1/d2du modèle KNN est
meilleure dans tous les cas. Cela dépend de la nature des données utilisées et de la distance retenue.
(2 points)

6/6
Université de Chlef Janvier 2017
Département Informatique
ème
Filière : 2 Année Master - ISIA - IL

Examen semestriel

Module "Datamining" -"Modèles pour le Datamining"


Durée : 01H30

Exercice 1 (04 points) :


Représentez sous forme d'un arbre de décision l'expression logique suivante : A et (B ou C).

Exercice 2 (04 points) :


La figure suivante représente la classification par SVM d'un ensemble de données. On y a représenté l'hyperplan
séparateur entre les deux classes C1 et C2. Mais, deux points ont été volontairement masqués (cachés) : un point de
la classe C1 et un point de la classe C2.

Question 1 : Donnez l'équation de l'hyperplan séparateur de la figure.


Question 2 : Pouvez-vous deviner quel est le point qui a été masqué de la classe C1 ? . Si oui, donnez ses
coordonnées exactes, sinon situez-le approximativement .
Question 3 : Même question pour le point masqué de la classe C2.

Exercice 3 (04 points) :


La figure suivante représente le taux d'erreurs de classification, en utilisant l'algorithme KNN, en fonction de K sur un
ensemble de N données.

1/2
Question : La courbe vous semble-t-elle normale ? Si oui donnez une explication de ses variations, sinon expliquez ce
qui est anormal.

Exercice 4 (08 points) :

Dans un magasin de produits informatiques, on a enregistré les achats suivants faits par les clients (transactions) :

N° Articles
01 CD, DVD, Jeu, Antivirus
02 CD, Jeu, Souris, Caméra, Antivirus
03 Antivirus, FlashDisk, CD, Jeu, Caméra
04 Jeu, DVD, Tablette
05 FlashDisk, Antivirus, Tablette, Souris

1/ Trouver tous les ensembles d'items fréquents vérifiant minsup >=60%, en appliquant l'algorithme Apriori .
2/ Déduire toutes les règles d'associations .
3/ Quelles dont les règles ayant une confiance >= 75% ?.

2/2
Université de Chlef Janvier 2017
Département Informatique
ème
Filière : 2 Année Master - ISIA - IL

Examen semestriel

Module "Datamining" -"Modèles pour le Datamining"


Durée : 01H30

Exercice 1 (04 points) :


Représentez sous forme d'un arbre de décision l'expression logique suivante : A et (B ou C).
Réponse :

(4 points)

Exercice 2 (04 points) :


La figure suivante représente la classification par SVM d'un ensemble de données. On y a représenté l'hyperplan
séparateur entre les deux classes C1 et C2. Mais, deux points ont été volontairement masqués (cachés) : un point de
la classe C1 et un point de la classe C2.

1
Question 1 : Donnez l'équation de l'hyperplan séparateur de la figure.
Réponse :
y=-x+9
(1 point)

Question 2 : Pouvez-vous deviner quel est le point qui a été masqué de la classe C1 ? . Si oui, donnez ses
coordonnées exactes, sinon situez-le approximativement .
Réponse :
Le point masqué de la classe C1 ne peut pas être situé exactement. Néanmoins , on peut donner l'équation
qu'il doit vérifier :
Constatons que le point le plus proche de la classe C2 à l'hyperplan séparateur (support vecteur) est le point
(4, 4). Logiquement, le point masqué de la classe C1 est celui qui doit jouer le rôle du "vecteur support" de
cette classe. Il doit appartenir à la droite parallèle à l'hyperplan, son équation est : y = -x +10. Il peut être
n'importe où sur cette droite.
(1.5 point)
Question 3 : Même question pour le point masqué de la classe C2.
Réponse :
Le point masqué de la classe C2 ne peut pas être situé exactement. Il peut être n'importe où dans la région
située en dessous de la droite y = -x +8 (droite qui passe par le support vecteur de la classe C2, et parallèle à
l'hyperplan).
(1.5 point)

2
Exercice 3 (04 points) :
La figure suivante représente le taux d'erreurs de classification, en utilisant l'algorithme KNN, en fonction de K sur un
ensemble de N données.

Question : La courbe vous semble-t-elle normale ? Si oui donnez une explication de ses variations, sinon expliquez ce
qui est anormal.
Réponse :
Cette courbe comporte une anomalie dans sa dernière partie. Pour K supérieur à N , la courbe devrait
normalement être constante : on doit avoir le même taux d'erreur pour toutes les valeurs de K avec K>=N.
(4 points)

Exercice 4 (08 points) :

Dans un magasin de produits informatiques, on a enregistré les achats suivants faits par les clients (transactions) :
N° Articles
01 CD, DVD, Jeu, Antivirus
02 CD, Jeu, Souris, Caméra, Antivirus
03 Antivirus, FlashDisk, CD, Jeu, Caméra
04 Jeu, DVD, Tablette
05 FlashDisk, Antivirus, Tablette, Souris

1/ Trouver tous les ensembles d'items fréquents vérifiant minsup >=60%, en appliquant l'algorithme Apriori .
Réponse :

3
C1
Ensemble items Support % Observation F1 : Ensemble fréquent de taille 1
{ CD }
{ Jeu }
{ CD } 03 60%
{ Antivirus }
{ DVD } 02 40% Non retenu
{ Jeu } 04 80%
{ Souris } 02 40% Non retenu (1 point)
{Caméra} 02 40% Non retenu
{Tablette} 02 40% Non retenu
{Antivirus} 04 80%
{FlashDisk} 02 40% Non retenu

C2 F2 : Ensemble fréquent de taille 2


Ensemble items Support % Observation { CD, Jeu }
{ CD, Antivirus }
{ Jeu, Antivirus }
{ CD, Jeu } 03 60%
(1 point)
{ CD, Antivirus } 03 60%
{ Jeu, Antivirus } 03 60%

C3
Ensemble items Support % Observation F3 : Ensemble fréquent de taille 3
{ CD, Jeu, Antivirus }
{ CD, Jeu, 03 60% (1 point)
Antivirus }

C4
Ensemble items Support % Observation
F4 : Ensemble fréquent de taille 4
Ø Ø

Les ensembles fréquents sont :


{ CD }, { Jeu }, { Antivirus }, { CD, Jeu }, { CD, Antivirus }, { Jeu, Antivirus }, { CD, Jeu, Antivirus }

2/ Déduire toutes les règles d'associations .


Réponse :
Les ensemble fréquents Règles Confiance
{ CD, Jeu } CD → Jeu 3/3, soit 100%
Jeu → CD 3/4, soit 75%
{ CD, Antivirus } CD → Antivirus 3/3, soit 100%
Antivirus → CD 3/4, soit 75%
{ Jeu, Antivirus } Jeu → Antivirus 3/4, soit 75%
Antivirus → Jeu 3/4, soit 75%
{ CD, Jeu, Antivirus } CD → Jeu, Antivirus 3/3, soit 100%
Jeu → CD, Antivirus 3/4, soit 75%
Antivirus → CD, Jeu 3/4, soit 75%
CD, Jeu → Antivirus 3/3, soit 100%
CD, Antivirus → jeu 3/3, soit 100%
jeu, Antivirus → CD 3/3, soit 100%
(3 points)
4
3/ Quelles sont les règles ayant une confiance >= 75% ?.
Réponse :
Toutes les règles construites ont une confiance >=75%
N° Règles
01 CD → Jeu
02 Jeu → CD
03 CD → Antivirus
04 Antivirus → CD
05 Jeu → Antivirus
06 Antivirus → Jeu
07 CD → Jeu, Antivirus
08 Jeu → CD, Antivirus
09 Antivirus → CD, Jeu
10 CD, Jeu → Antivirus
11 CD, Antivirus → jeu
12 jeu, Antivirus → CD
(2 points)

5
Université Mohamed Khider-Biskra
Faculté des sciences exactes et des sciences de la nature et de la vie
Département d’informatique

Master IDM Fouille de Données Avancée


28 Jan 2013 10:00-11:30, Salle 5

Examen

Questions de cours (4 pts)


1. En apprentissage supervisé, quelle est la différence fondamentale entre classification et
régression ?
2. Expliquer en quelques mots ce qu’est le phénomène de sur-apprentissage.
3. Donner une stratégie pour éviter le sur-apprentissage lors de l’apprentissage d’arbres de
décision.
4. Donner une méthode d’évaluation des techniques d’apprentissage et expliquer , en quelques
lignes, son principe.

Exercice 1 Motifs fréquents (10.5 pts : 4 + 2.5 + 2.5 + 1.5)


Dans un supermarché, on dispose de la base de transactions suivante :

TID Items TID Items


T1 Lait, Jus, Couches T6 Lait, Couches, Pain, Beurre
T2 Pain, Beurre, Lait T7 Pain, Beurre, Couches
T3 Lait, Couches, Sucre T8 Jus, Couches
T4 Pain, Beurre, Sucre T9 Lait, Couches, Pain, Beurre
T5 Jus, Sucre, Couches T10 Jus, Sucre

En utilisant l’algorithme Apriori avec un support minimum de 20% et une confiance minimale
de 75%, trouver :
1. Les motifs fréquents,
2. Les motifs fréquents fermés,
3. Les motifs fréquents maximaux,
4. Les règles solides d’association de type A, B ⇒ C.

Exercice 2 Classification (5.5 pts : 4 + 0.5 + 1)


Dans un hôpital, on souhaite construire un arbre de décision pour la prédiction du risque des
patients d’avoir une certaine maladie en fonction de leur age et de deux symptômes booléens
(vrai ou faux) appelés S1 et S2. Le risque est évalué selon trois valeurs F (faible), M (moyen)
et E (élevé), l’age est discrétisé selon trois classes (jeune, adulte et senior).
L’hôpital dispose de la table suivante :

1
N˚ Age S1 S2 Risque N˚ Age S1 S2 Risque
1 Jeune F V F 6 Jeune F F F
2 Jeune V V E 7 Adulte V F M
3 Adulte F F F 8 Adulte V V M
4 Senior V F E 9 Senior F F F
5 Senior F V M 10 Senior V V E

Questions :

1. Construire l’arbre souhaité en utilisant l’algorithme ID3.


2. Donner le risque du patient ayant les attributs (Jeune,V,F) selon l’arbre construit.
3. Trouver le risque du même patient en utilisant la classification bayésienne naı̈ve.

FFF Bonne chance FFF

Dr A.Djeffal

2
Université Mohamed Khider-Biskra
Faculté des sciences exactes et des sciences de la nature et de la vie
Département d’informatique

Master IDM Fouille de Données Avancée


27 Jan 2014 10:00-11:30, Salle 4

Examen

Questions de cours (3 pts)

1. Expliquer le principe de la méthode Bootstrap.


2. Donner la différence et la relation entre un motif fréquent, un motif fréquent fermé et un
motif fréquent maximal.
3. Expliquer comment peut-on obtenir les règles de décision après la construction d’un arbre
de décision.

Exercice 1 Motifs fréquents (8 pts : 4 + 2 + 2)


Soit les transactions suivantes :

TID Items
T1 Pain, Lait, Beurre, Couches, Formage
T2 Pain, Beurre, Eau, Confiture, Fromage
T3 Fromage, Couches, Pain, Beurre, Confiture
T4 Beurre, Lait, Jus
T5 Couches, Fromage, Jus, Eau

1. Avec un support minimum de 60%, trouver l’ensemble des motifs fréquents.


2. Trouver les motifs fréquents fermés et les motifs fréquents maximaux.
3. Avec un minimum de confidence de 70%, trouver les règles d’association de la forme
A ⇒ B, C.

Exercice 2 Classification (9 pts : 4 + 2 + 3)


Nous considérerons l’ensemble E d’exemples suivant ayant les attributs A,B,C et D :

E1 E2 E3 E4 E5 E6 E7 E8 E9 E10
A a1 a1 a1 a2 a2 a2 a1 a2 a3 a3
B b1 b2 b2 b1 b2 b2 b1 b1 b1 b2
C c1 c2 c3 c1 c1 c1 c1 c2 c3 c2
D d2 d2 d1 d1 d1 d2 d1 d2 d1 d2
Classe + + - - - + + - + +

1. Construire l’arbre de décision correspondant à l’ensemble E en utilisant l’algorithme ID3.

1
2. Donner la précision de l’arbre obtenu sur la table d’entrainement. Calculer la moyenne
harmonique sur la même table.
3. Trouver la classe de l’exemple ayant les attributs (a2 ,b1 ,c3 ,d1 ) en utilisant la classification
bayésienne naı̈ve.
NB : On donne le tableau suivant représentant les valeurs de la fonctions
x x y y
H(x, y) = − x+y log2 ( x+y ) − x+y log2 ( x+y )

x\y 1 2 3 4 5 6
6 0,592 0,811 0,918 0,971 0,994 1
5 0,650 0,863 0,954 0,991 1
4 0,722 0,918 0,985 1
3 0,811 0,971 1
2 0,918 1
1 1

FFF Bonne chance FFF

Dr A.Djeffal

2
Corrigé type
Questions de cours (3 pts)

1. Voir le cours
Motifs fréquents (8 pts : 4 + 2 + 2)

1. Avec un support minimum de 60%, trouver l’ensemble des motifs fréquents.


– Taille 1 :
F1 ={Beurre,Couches,Fromage,Pain}
Support = {4/5,3/5,4/5,3/5} (1pt)
– Taille 2 :
F2 ={Beurre Fromage,Beurre Pain,Couches Fromage, Fromage Pain}
Support = {3/5,3/5,3/5,3/5} (1pt)
– Taille 3 :
F3 ={Beurre Fromage Pain}
Support = {3/5} (1pt)
Ensemble des motifs fréquents = { F 1 ∪ F 2 ∪ F 3 } (1pt)
2. Trouver les motifs fréquents fermés et les motifs fréquents maximaux.
– Motifs fréquents fermés : {Beurre, Fromage, Couches Fromage, Beurre Fromage Pain }
(1pt)
– Motifs fréquents maximaux : { Couches Fromage, Beurre Fromage Pain } (1pt)
3. Avec un minimum de confidence de 70%, trouver les règles d’association de la forme
A ⇒ B, C.
– Pain ⇒ Beurre Fromage (100 %)
– Beurre ⇒ Pain Fromage (75 %)
– Fromage ⇒ Pain Beurre (75 %) (2pts)
Classification (9 pts : 4 + 2 + 3)

(a) Construire l’arbre de décision correspondant à l’ensemble E en utilisant l’algorithme


ID3. (4pts)

(b) La précision de l’arbre obtenu sur la table d’entrainement = 100 % (1pt)


Moyenne harmonique
sv = 66 = 1

3
sp = 44 = 2
2×1×1
Moyenne harminique = 1+1
=1 (1pt)
(c) Trouver la classe de l’exemple ayant les attributs (a2 ,b1 ,c3 ,d1 ) en utilisant la classi-
fication bayésienne naı̈ve.
6
P (+) = 10 × 16 × 63 × 16 × 62 = 0.0027 (1pt)
P (−) = 10 × 34 × 24 × 14 × 34 = 0.02
4
(1pt)
Donc l’exemple appartient à la classe négative. (1pt)

4
Université Mohamed Khider-Biskra
Faculté des sciences exactes et des sciences de la nature et de la vie
Département d’informatique

Master IDM Fouille de Données Avancée


4 Fév 2015 16:00-17:30, Salles S1, S2

Examen

Questions de cours (4 pts : 2 + 1 + 1)

1. Dans la classification supervisée (l’apprentissage), l’évaluation de la qualité du modèle


construit peut être effectuée en calculant son taux de reconnaissance sur les données
d’entrainement elles-mêmes ou sur des données écartées dès le départ des données d’en-
trainement appelées données de test. A votre avis, comment peut-ont évaluer la qualité
d’un clustering ?
2. A quoi sert la méthode de Bagging.
3. Justifier l’utilisation des noyaux dans l’apprentissage par machines à vecteurs supports.

Exercice 1 Motifs fréquents (8 pts : 2 + 2 + 2 + 2)

Supposons qu’il exite 6 articles numérotés de 1 à 6 (a1 , ..., a6 ), et 12 paniers numérotés de 1 à


12 (p1 , ..., p12 ). L’article ai est ans le panier pj si et seulement si i divise j, par conséquent, a1
est dans tous les paniers et a2 est dans les paniers de numéro pair, et ainsi de suite. Avec un
support minimum de 25% et une confidence minimale de 90%, donner :
1. La base de données formelle.
2. L’ensemble des motifs fréquents.
3. Les motifs fréquents fermés et les motifs fréquents maximaux.
4. Les règles solides.

Exercice 2 Classification (8 pts : 4 + 2 + 2)

Nous considérerons l’ensemble d’exemples représentant la nature de différents échantillons de


champignons : toxique ou non selon les critères de couleur, taille, forme et le milieu de crois-
sance :

Coleur Taille Forme Milieu Toxique


marron petit plat terre oui
jaune petit sphère terre oui
marron moyen conique bois non
blanc moyen sphère terre non
blanc grand plat terre non

1. Construire l’arbre de décision correspondant à cet ensemble en utilisant l’algorithme ID3.


Tournez la page ...

1
2. Donner la précision de l’arbre et sa moyenne harmonique sur la table de test suivante :

Coleur Taille Forme Milieu Toxique


marron grand plat bois non
blanc moyen conique terre oui
jaune moyen sphère terre oui
marron moyen conique bois non
jaune petit plat terre oui

3. Dites si le champignon blanc sphérique qui pousse sur le bois est toxique ou non, en
utilisant la classification bayésienne naı̈ve.

FFF Bonne chance FFF

Dr A.Djeffal

2
Corrigé type
Questions de cours (4 pts)

1. En utilisant les distances intra et inter-clusters permettant de mesurer respectivement le


rapprochement des exemples de chaque cluster et l’éloignement des clusters les uns des
autres. 2 pts
2. La méthode de Bagging se base sur le Bootstrap. Elle subdivise l’ensemble D d’exemples
en n sous-ensembles. À partir de chaque sous-ensemble Di , on apprend un modèle Mi en
utilisant la méthode Bootstrap. L’ensemble de ces modèles forme un modèle composé M∗ .
Pour classiffier un nouvel exemple, il est exposé à chaque modèle Mi pour obtenir une
classe cMi . Chaque décision est considérée comme un vote. La classe de décision est prise
comme la classe la plus votée. 1 pt
3. Les noyaux sont utilisés dans les SVMs pour trouver un espace où les données sont
linéairement séparables. 1 pt

Motifs fréquents (8 pts : 2 + 2 + 2 + 2)

1. La base formelle

a1 a2 a3 a4 a5 a6
p1 1 0 0 0 0 0
p2 1 1 0 0 0 0
p3 1 0 1 0 0 0
p4 1 1 0 1 0 0
p5 1 0 0 0 1 0
p6 1 1 1 0 0 1
p7 1 0 0 0 0 0
p8 1 1 0 1 0 0
p9 1 0 1 0 0 0
p1 0 1 1 0 0 1 0
p1 1 1 0 0 0 0 0
p1 2 1 1 1 1 0 1

2 pts
2. Motifs fréquents = {F1 ∪ F2 ∪ F3 }
– F1 = {a1 , a2 , a3 , a4 }
– F2 = {a1 a2 , a1 a3 , a1 a4 , a2 a4 }
– F3 = {a1 a2 a4 }
2 pts
3. – Motifs fréquents fermés = {a1 , a1 a2 , a1 a3 , a1 a2 a4 } 1 pt
– Motifs fréquents maximaux = {a1 a3 , a1 a2 a4 } 1 pt
4. Les règles solides :
(a) a2 ⇒ a1
(b) a3 ⇒ a1
(c) a4 ⇒ a1

3
(d) a4 ⇒ a2
(e) a2 a4 ⇒ a1
(f) a1 a4 ⇒ a2

Classification (8 pts : 4 + 2 + 2)

1. Arbre construit par l’algorithme ID3

4 pts
2. – Précision = 35 = 60% 1 pt
– Moyenne harmonique :

Sv = CPCP 1
= 13

+F N
= 1+2
CN 2
Sp = CN +F P = 2+0
=1

2 × Sv × Sp 1/3 × 1
M oyenne harmonique = = = 0.25
Sv + Sp 1/3 + 1
1 pt
3. Classification bayésienne
– P (T oxique = oui) = 52 = 0.4
– P (Couleur = blac/T oxique = oui) = 02
– P (T aille = ∀/T oxique = oui) = 1
– P (F orme = Sphere/T oxique = oui) = 12
– P (M ilieu = bois/T oxique = oui) = 02
– On utilise l’estimateur de Laplace : ajouter 1 aux numérateurs et le
nombre de valeurs distincts de l’attribut aux dénominateurs :
– P (Couleur = blac/T oxique = oui) = 0+12+3
= 15
– P (F orme = Sphere/T oxique = oui) = 12
– P (M ilieu = bois/T oxique = oui) = 0+1
2+2
= 14
– P (T oxique = oui/Couleur = blanc ∧ F orme = Sphere ∧ M ilieu = bois) = 15 × 21 ×
1
4
× 0.4 = 0.01
– P (T oxique = non) = 53 = 0.6
– P (Couleur = blac/T oxique = non) = 32
– P (T aille = ∀/T oxique = oui) = 1
– P (F orme = Sphere/T oxique = non) = 13

4
– P (M ilieu = bois/T oxique = non) = 13
– P (T oxique = non/Couleur = blanc ∧ F orme = Sphere ∧ M ilieu = bois) = 32 × 13 ×
1
3
× 0.6 = 0.13
– Donc le champignon blanc sphérique qui pousse sur le bois n’est pas toxique.
2 pts

5
Université Mohamed Khider-Biskra
Faculté des sciences exactes et des sciences de la nature et de la vie
Département d’informatique

Master IDM Fouille de Données Avancée


10 Jan 2016 10:00-11:30, S6

Examen

Questions de cours (4.5 pts : 1.5 + 1.5 + 1.5)

1. Expliquer comment peut-on utiliser les règles d’association pour la classification super-
visée.
2. Expliquer comment peut-on utiliser l’algorithme Apriori pour l’obtention des motifs rares.
3. Expliquer comment peut-on étendre la méthode SVM binaire pour résoudre les cas multi-
classes.

Exercice 1 (15.5 pts : 6 + 4 + 3.5 + 2)

Une banque dispose des informations suivantes sur un ensemble de clients :

client M A R E I
01 moyen moyen village oui oui
02 élevé moyen bourg non non
03 faible âgé bourg non non
04 faible moyen bourg oui oui
05 moyen jeune ville oui oui
06 élevé âgé ville oui non
07 moyen âgé ville oui non
08 faible moyen village non non

L’attribut client indique le numéro du client ; l’attribut M indique la moyenne des crédits sur
le compte du client ; l’attribut A donne la tranche d’âge ; l’attribut R décrit la localité du
client ; l’attribut E possède la valeur oui si le client possède un niveau d’études supérieur au
bac ; l’attribut I (la classe) indique si le client effectue ses opérations de gestion de compte via
Internet.
A. Règles d’association (6 pts :1 + 2 + 1.5 + 0.5)
1. Donner la base de données formelle correspondant à cette base.
2. Calculer les motifs fréquents correspondant à un minimum de support σs = 0.4
3. Calculer les règles solides correspondant à un seuil de confidence = 0.9
4. En déduire un modèle de décision.
B. Arbre de décision (4 pts :3 + 1)
1. Construire l’arbre de décision correspondant à cette base en utilisant l’algorithme
ID3.
2. Donner la précision de l’arbre construit sur la base suivante :

1
client M A R E I
01 moyen âgé village oui oui
02 élevé jeune ville non oui
03 faible âgé village non non
04 moyen moyen bourg oui non

B. Classification bayésiènne (3.5 pts :2 + 1.5)


1. Donner le modèle de décision deduit de cette base en utilisant la classification
bayésiènne naı̈ve.
2. Trouver les classes des exemples suivants :

client M A R E
01 ? âgé ? oui
02 élevé ? ville ?
03 faible ? ? ?
04 ? moyen bourg ?

B. Combinaison de modèles (2 pts)


1. Utiliser le modèle combiné par vote des trois modèles précédents pour trouver
les classes des exemples suivants :

client M A R E
01 moyen jeune bourg oui
02 élevé moyen village oui
03 faible jeune ville non
04 moyen jeune bourg non

Bonne Chance
Dr A.Djeffal

2
Corrigé type
Questions de cours (4.5 pts)

1. L’idée est de rechercher les règles solides contenant dans leur partie droite l’attribut classe,
c-à-d de la forme :
Attribut1 = vatt1 ∧ Attribut2 = vatt2 ∧ ... ∧ Attributn = vattn ⇒ Classe = vclasse
Plusieurs études ont montré que cette technique est plus précise que certaines méthodes
traditionnelles tel que les arbres de décision.
L’un des premiers algorithmes de classification associative est l’algorithme CBA (Classification-
Based Association). Il utilise l’algorithme Apriori pour générer les règles d’association puis
utilise une heuristique pour construire le classiffieur. Les règles sont ordonnées selon leurs
supports et confidences. Si plusieurs règles ont la même partie gauche, la règle de la confi-
dence la plus élevée est utilisée dans le classifieur. Pour classer un nouveau tuplet, la
première règle le satisfaisant est utilisée. Le classifieur contient aussi une règle par défaut
pour classer les tuplet dont une règles satisfaisante n’existe pas. 1.5pt
2. Une légère modification d’Apriori suffit pour conserver les MRM. Si le support d’un
candidat est inférieur au support minimum, alors à la place de l’effacer nous l’enregistrons
dans l’ensemble des motifs rares minimaux
Tous les motifs rares sont retrouvés à partir des motifs rares minimaux. Pour cela nous
avons besoin de générer tous les sur-motifs possibles des MRM. 1.5pt
3. Les méthodes des machines à vecteur support multiclasse, réduisent le problème mul-
ticlasse à une composition de plusieurs hyperplans biclasses permettant de tracer les
frontières de décision entre les différentes classes. Ces méthodes décomposent l’ensemble
d’exemples en plusieurs sous ensembles représentant chacun un problème de classification
binaire. Pour chaque problème un hyperplan de séparation est déterminé par la méthode
SVM binaire. On construit lors de la classification une hiérarchie des hyperplans binaires
qui est parcourue de la racine jusqu’à une feuille pour décider de la classe d’un nouvel
exemple. On trouve dans la littérature plusieurs méthodes de décomposition : 1vs1, 1vsR,
DAG, ...etc. 1.5pt

A. Règles d’association (6 pts :2 + 2 + 1.5 + 0.5)


1. Donner la base de données formelle correspondant à cette base. 2pt
a :M=moyen, b :M=faible, c :M=élevé, d :A=âgé, e :A=moyen, f :A=jeune, g :R=village,
h :R=ville, i :R=bourg, j :E=oui, k :E=non, l :I=oui, m :I=non
La base formelle

a b c d e f g h i j k l m
1 1 0 0 0 1 0 1 0 0 1 0 1 0
2 0 0 1 0 1 0 0 0 1 0 1 0 1
3 0 1 0 1 0 0 0 0 1 0 1 0 1
4 0 1 0 0 1 0 0 0 1 1 0 1 0
5 1 0 0 0 0 1 0 1 0 1 0 1 0
6 0 0 1 1 0 0 0 1 0 1 0 0 1
7 1 0 0 1 0 0 0 1 0 1 0 0 1
8 0 1 0 0 1 0 1 0 0 0 1 0 1

3
2. Calculer les motifs fréquents correspondant à un minimum de support σs = 0.4 2pts
• Selon Weka : σs = 0.4 ⇒ 3 instances, les motifs fréquents :
F 1 = {a, b, d, e, h, i, j, k, l, m}
F 2 = {aj, dm, hj, jl, km}
F3 = φ
F = F1 ∪ F2
• Selon un calcul dur : σs = 0.4 ⇒ 4 instances
F 1 = {e, j, m}
F2 = φ
F = F1
3. Calculer les règles solides correspondant à un seuil de confidence = 0.9 1.5pt
• Selon Weka : σs = 0.4 ⇒ 3 instances, les règles solides :
- a ⇒ j, d ⇒ m, h ⇒ j, l ⇒ j, k ⇒ m
• Selon un calcul dur : σs = 0.4 ⇒ 4 instances, les règles solides :

Aucune
4. En déduire un modèle de décision. 0.5pt
• Selon Weka : σs = 0.4 ⇒ 3 instances, le modèle :
-d⇒m
-k⇒m
- m (par défaut)
• Selon un calcul dur : σs = 0.4 ⇒ 4 instances, le modèle :
- m (par défaut : la classe la plus fréquente.
B. Arbre de décision (4 pts :3 + 1)
1. Construire l’arbre de décision correspondant à cette base en utilisant l’algorithme
ID3. 3pts

ou

4
2. Donner la précision de l’arbre construit sur la base suivante : 1pt

client M A R E I
01 moyen âgé village oui oui
02 élevé jeune ville non oui
03 faible âgé village non non
04 moyen moyen bourg oui non

2
Précision = 4
= 50%
B. Classification bayésiènne (3.5 pts :2 + 1.5)
1. Donner le modèle de décision deduit de cette base en utilisant la classification
bayésiènne naı̈ve. 2pts

I oui (3/8) non (5/8)


M moyen 2/3 1/5
élevé 0 2/5
faible 1/3 2/5
A moyen 2/3 2/5
âgé 0 3/5
jeune 1/3 0
R village 1/3 1/5
ville 1/3 2/5
bourg 1/3 2/5
E oui 3/3 2/5
non 0 3/5

En utilisant l’estimateur de Laplace :

5
I oui (3/8) non (5/8)
M moyen 3/6 1/5
élevé 1/6 2/5
faible 2/6 2/5
A moyen 3/6 3/8
âgé 1/6 4/8
jeune 2/6 1/8
R village 1/3 1/5
ville 1/3 2/5
bourg 1/3 2/5
E oui 4/5 2/5
non 1/5 3/5

2. Trouver les classes des exemples suivants :

client M A R E
01 ? âgé ? oui
02 élevé ? ville ?
03 faible ? ? ?
04 ? moyen bourg ?

– Exemple 1 :
P(X/I=oui) = P(A=âgé/I=oui).P(E=oui/I=oui).P(I=oui)
=1/6 . 4/5 . 3/8 = 0,05
P(X/I=non) = P(A=âgé/I=non).P(E=oui/I=non).P(I=non)
=4/8 . 2/5 . 5/8 = 0,125
Classe = non 0.5pt
– Exemple 2 :
P(X/I=oui) = P(M=élevé/I=oui).P(A=ville/I=oui).P(I=oui)
=1/6 . 1/3 . 3/8 = 0,02
P(X/I=non) = P(M=élevé/I=non).P(A=ville/I=non).P(I=non)
=2/5 . 2/5 . 5/8 = 0,1
Classe = non 0.5pt
– Exemple 3 :
P(X/I=oui) = P(M=faible/I=oui).P(I=oui)
=2/6 . 3/8 = 0,125
P(X/I=non) = P(M=faible/I=non).P(I=non)
=2/5 . 5/8 = 0,25
Classe = non 0.5pt
– Exemple 4 :
P(X/I=oui) = P(A=moyen/I=oui).P(R=bourg/I=oui).P(I=oui)
=3/6 . 1/3 . 3/8 = 0,06
P(X/I=non) = P(A=moyen/I=non).P(R=bourg/I=non).P(I=non)
=3/8 . 2/5 . 5/8 = 0,09
Classe = non 0.5pt
B. Combinaison de modèles (2 pts)
1. Utiliser le modèle combiné par vote des trois modèles précédents pour trouver
les classes des exemples suivants :

6
client M A R E
01 moyen jeune bourg oui
02 élevé moyen village oui
03 faible jeune ville non
04 moyen jeune bourg non

– Exemple 1 :
- Modèle associatif : Non
- Modèle d’arbre de décision : Oui
- Modèle bayésien :
P(X/oui) = P(oui).P(moyen/oui).P(jeune/oui).P(bourg/oui).P(oui/oui)
= 3/8 . 3/6 . 2/6 . 1/3 . 4/5 = 72/4320 = 0,016
P(X/non) = P(non).P(moyen/non).P(jeune/non).P(bourg/non).P(oui/non)
= 5/8 . 1/5 . 1/8 . 2/5 . 2/5 = 20/8000 = 0,0025
Classe : Oui
-Classe = Oui 0.5pt
– Exemple 2 :
- Modèle associatif : Non
- Modèle d’arbre de décision : Oui
- Modèle bayésien :
P(X/oui) = P(oui).P(élevé/oui).P(moyen/oui).P(village/oui).P(oui/oui)
= 3/8 . 1/6 . 3/6 . 1/3 . 4/5 = 36/4320 = 0,0083
P(X/non) = P(non).P(élevé/non).P(moyen/non).P(village/non).P(oui/non)
= 5/8 . 2/5 . 3/8 . 1/5 . 2/5 = 60/8000 = 0,0075
Classe : Oui
- Classe = Oui 0.5pt
– Exemple 3 :
- Modèle associatif : non
- Modèle d’arbre de décision : oui
- Modèle bayésien :
P(X/oui) = P(oui).P(faible/oui).P(jeune/oui).P(ville/oui).P(non/oui)
= 3/8 . 2/6 . 2/6 . 1/3 . 1/5 = 12/4320 = 0,0027
P(X/non) = P(non).P(faible/non).P(jeune/non).P(ville/non).P(non/non)
= 5/8 . 2/5 . 1/8 . 2/5 . 3/5 = 60/8000 = 0,0075
Classe : non
- Classe = non 0.5pt
– Exemple 4 :
- Modèle associatif : non
- Modèle d’arbre de décision : oui
- Modèle bayésien : Oui
P(X/oui) = P(oui).P(moyen/oui).P(jeune/oui).P(bourg/oui).P(non/oui)
= 3/8 . 3/6 . 2/6 . 1/3 . 1/5 = 18/4320 = 0,0041
P(X/non) = P(non).P(moyen/non).P(jeune/non).P(bourg/non).P(non/non)
= 5/8 . 1/5 . 1/8 . 2/5 . 3/5 = 30/8000 = 0,0038
Classe : Oui
- Classe = Oui 0.5pt

7
Université Mohamed Khider-Biskra
Faculté des sciences exactes et des sciences de la nature et de la vie
Département d’informatique
Master IDM Fouille de Données Avancée
23 Fév 2016 16:30-18:00, S3

Examen de rattrapage

On considère les données suivantes :


N˚ Cheveux Taille Poids Crème solaire Classe
1 blond moyenne léger non coup de soleil
2 blond grande moyen oui bronzé
3 brun petite moyen oui bronzé
4 blond petite moyen non coup de soleil
5 roux moyenne lourd non coup de soleil
6 brun grande lourd non bronzé
7 brun moyenne lourd non bronzé
8 blond petite léger oui bronzé

A. Règles d’association (8 pts)


1. Donner la base de données formelle correspondant à cette base.
2. Calculer les motifs fréquents correspondant à un minimum de support σs = 0.35
3. Calculer les règles solides correspondant à un seuil de confidence = 0.9
4. En déduire un modèle de décision.
B. Arbre de décision (5 pts)
1. Construire l’arbre de décision correspondant à cette base en utilisant l’algorithme
ID3.
2. Donner la précision de l’arbre construit sur la base suivante :

N˚ Cheveux Taille Poids Crème solaire Classe


1 blond petite léger oui coup de soleil
2 roux grande moyen non bronzé
3 brun moyenne moyen non bronzé
4 blond petite lourd oui coup de soleil

C. Classification bayésiènne (4 pts)


1. Donner le modèle de décision deduit de cette base en utilisant la classification
bayésiènne naı̈ve.
2. Trouver les classes des exemples suivants :

N˚ Cheveux Taille Poids Crème solaire


1 ? petite ? oui
2 ? grande moyen ?
3 brun ? ? non
4 ? ? lourd ?

1
D. Combinaison de modèles (3 pts)
1. Utiliser le modèle combiné par vote des trois modèles précédents pour trouver les
classes des exemples suivants :

N˚ Cheveux Taille Poids Crème solaire


1 blond moyenne léger oui
2 roux grande moyen non
3 roux moyenne lourd non
4 brun petite moyen oui

Bonne Chance
Dr A.Djeffal

2
Corrigé type
A. Règles d’association (8 pts :3 + 2 + 2 + 1)
1. Donner la base de données formelle correspondant à cette base. 3pts
a :Cheveux=blond, b :Cheveux=brun, c :Cheveux=roux, d :Taille=moyenne,
e :Taille=grande, f :Taille=petite, g :Pois=léger, h :Pois=moyen, i :Pois=lourd,
j :Crème solaire=non, k :Crème solaire=oui, l :Classe=coup de soleil,
m :Classe=bronzé
La base formelle

a b c d e f g h i j k l m
1 1 0 0 1 0 0 1 0 0 1 0 1 0
2 1 0 0 0 1 0 0 1 0 0 1 0 1
3 0 1 0 0 0 1 0 1 0 0 1 0 1
4 1 0 0 0 0 1 0 1 0 1 0 1 0
5 0 0 1 1 0 0 0 0 1 1 0 1 0
6 0 1 0 0 1 0 0 0 1 1 0 0 1
7 0 1 0 1 0 0 0 0 1 1 0 0 1
8 1 0 0 0 0 1 1 0 0 0 1 0 1

2. Calculer les motifs fréquents correspondant à un minimum de support σs = 0.35


2pts
F 1 = {a, b, d, f, h, i, j, k, l, m}
F 2 = {bm, dk, ik, km, jl}
F3 = φ
F = F1 ∪ F2
3. Calculer les règles solides correspondant à un seuil de confidence = 0.9 2pts
- b ⇒ m, d ⇒ j, i ⇒ j, k ⇒ m, l ⇒ j
4. En déduire un modèle de décision. 1pt
-b⇒m
-k⇒m
- m (par défaut)
B. Arbre de décision (5 pts :3 + 2)
1. Construire l’arbre de décision correspondant à cette base en utilisant l’algorithme
ID3. 3pts

3
2. Donner la précision de l’arbre construit sur la base suivante : 2pts

N˚ Cheveux Taille Poids Crème solaire Classe


1 blond petite léger oui coup de soleil
2 roux grande moyen non bronzé
3 brun moyenne moyen non bronzé
4 blond petite lourd oui coup de soleil

1
Précision = 4
= 25%
B. Classification bayésiènne (4 pts :2 + 2)
1. Donner le modèle de décision déduit de cette base en utilisant la classification
bayésiènne naı̈ve. 2pts

I coup de soleil (3/8) bronzé (5/8)


Cheveux blond 3/6 3/8
brun 1/6 4/8
roux 2/6 1/8
Taille moyenne 3/6 1/5
grande 1/6 2/5
petite 2/6 2/5
Poids léger 1/3 1/5
moyen 1/3 2/5
lourd 1/3 2/5
Crème oui 1/5 3/5
non 4/5 2/5

2. Trouver les classes des exemples suivants :

N˚ Cheveux Taille Poids Crème solaire


1 ? petite ? oui
2 ? grande moyen ?
3 brun ? ? non
4 ? ? lourd ?

– Exemple 1 :
P(X/Classe=soleil) =
P(Taille=petite/Classe=soleil).P(Crème=oui/Classe=soleil).P(Classe=soleil)
=2/6 . 4/5 . 3/8 = 0,1
P(X/Classe=bronzé) =
P(Taille=petite/Classe=bronzé).P(Crème=oui/Classe=bronzé).
P(Classe=bronzé) = 2/5 . 3/5 . 5/8 = 0,15
Classe = bronzé 0.5pt
– Exemple 2 :
P(X/Classe=soleil) =
P(Taille=grande/Classe=soleil).P(Poids=moyen/Classe=soleil).P(Classe=soleil)
=1/6 . 1/3 . 3/8 = 0,02
P(X/Classe=bronzé) =
P(Taille=grande/Classe=bronzé).P(Poids=moyen/Classe=bronzé).

4
P(Classe=bronzé) =2/5 . 2/5 . 5/8 = 0,1
Classe = bronzé 0.5pt
– Exemple 3 :
P(X/Classe=soleil) =
P(Cheveux=brun/Classe=soleil).P(Crème=non/Classe=soleil).P(Classe=soleil)
=1/6 . 1/5 . 3/8 = 0,0125
P(X/Classe=bronzé) =
P(Cheveux=brun/Classe=bronzé).P(Crème=non/Classe=bronzé).
P(Classe=bronzé) = 4/8 . 2/5 . 5/8 = 0,125
Classe = bronzé 0.5pt
– Exemple 4 :
P(X/Classe=soleil) =
P(Poids=lourd/Classe=soleil).P(Classe=soleil)
=1/3 . 3/8 = 0,125
P(X/Classe=bronzé) =
P(Poids=lourd/Classe=bronzé).P(Classe=bronzé)
= 2/5 . 5/8 = 0,25
Classe = bronzé 0.5pt
B. Combinaison de modèles (3 pts)
1. Utiliser le modèle combiné par vote des trois modèles précédents pour trouver
les classes des exemples suivants :

N˚ Cheveux Taille Poids Crème solaire


1 blond moyenne léger oui
2 roux grande moyen non
3 roux moyenne lourd non
4 brun petite moyen oui

– Exemple 1 :
- Modèle associatif : Classe = bronzé
- Modèle d’arbre de décision : Classe = bronzé
- Modèle bayésien :
P(X/Classe = soleil) = 3/6 . 3/6 . 1/3 . 4/5 . 3/8 = 0.008
P(X/Classe = bronzé) = 3/8 . 1/5 . 1/5 . 3/5 . 5/8 = 0.005
Classe = soleil
-Classe = bronzé 0.75pt
– Exemple 2 :
- Modèle associatif : Classe = bronzé
- Modèle d’arbre de décision : Classe = soleil
- Modèle bayésien :
P(X/Classe = soleil) = 2/6 . 1/6 . 1/3 . 1/5 . 3/8 = 0.001
P(X/Classe = bronzé) = 1/8 . 2/5 . 2/5 . 2/5 . 5/8 = 0.003
Classe = bronzé
-Classe = bronzé 0.75pt
– Exemple 3 :
- Modèle associatif : Classe = bronzé
- Modèle d’arbre de décision : Classe = soleil
- Modèle bayésien :

5
P(X/Classe = soleil) = 2/6 . 3/6 . 1/3 . 1/5 . 3/8 = 0.004
P(X/Classe = bronzé) = 1/8 . 1/5 . 2/5 . 2/5 . 5/8 = 0.0025
Classe = soleil
-Classe = soleil 0.75pt
– Exemple 4 :
- Modèle associatif : Classe = bronzé
- Modèle d’arbre de décision : Classe = bronzé
- Modèle bayésien :
P(X/Classe = soleil) = 1/6 . 2/6 . 1/3 . 4/5 . 3/8 = 0.005
P(X/Classe = bronzé) = 4/8 . 2/5 . 2/5 . 3/5 . 5/8 = 0.03
Classe = bronzé
-Classe = bronzé 0.75pt

6
Université Mohamed Khider-Biskra
Faculté des sciences exactes et des sciences de la nature et de la vie
Département d’informatique
Master IDM Fouille de Données Avancée
8 Mars 2015 14:50-16:20, S4

Examen de rattrapage

Questions de cours (4 pts : 2 + 1 + 1)

1. Deux classes d’algorithmes sont utilisées dans le clustering hiérarchique : les algorithmes
divisibles et les algorithmes aglomératifs. Quelle différence existe entre les deux ?
2. Dire comment peut-on obtenir les règles de décisions à partir d’un arbre de décision.
3. Dire comment peut-on obtenir les règles de décision à partir des règles solides.
Exercice 1 Motifs fréquents (8 pts : 2 + 2 + 2 + 2)

Soit le treillis suivant représentant les motifs obtenus à partir des items A,B,C et E avec leurs
fréquences :

En supposant que la fréquence minimale est de 3 et que la confidence minimale et de 0.8,


donner :
1. L’ensemble des motifs fréquents.
2. Les motifs fréquents fermés et les motifs fréquents maximaux.
3. Les motifs rares.
4. Les règles solides obtenus à partir du motif fréquent maximal le plus long.
Tournez la page ...

1
Exercice 2 Classification (8 pts : 2 + 4 + 2)

Nous considérerons l’ensemble suivant d’exemples caractérisé par les attributs : Forme, Taille
et Couleur.

Forme Taille Coleur Classe


rond petit bleu oui
carré grand rouge non
rond ? blanc oui
carré petit bleu oui
rond grand bleu oui
carré grand blanc non
carré ? blanc oui
carré grand bleu non
carré petit rouge oui
rond grand blanc oui

1. Remplacer les données manquantes par le mode de l’attribut correspondant.


2. Construire l’arbre de décision correspondant par l’algorithme ID3.
3. Donner le taux de reconnaissance de l’arbre construit sur la table suivante :

Forme Taille Coleur Classe


carré petit blanc non
carré grand bleu oui
rond petit rouge oui
carré grand rouge non

FFF Bonne chance FFF

Dr A.Djeffal

2
Corrigé type
Questions de cours (4 pts : 2 + 1 + 1)

1. Les algorithmes agglomératifs considèrent chaque exemple dans un cluster propore puis
les regroupent d’étape en étape jusqu’à arriver à un seul cluster.
Les algorithmes divisible font l’inverse : ils considèrent tous les exemples dans un seul
cluster puis les subdivisent d’étape en étape jusqu’à arriver à un cluster par exemple.
2. En prenant chaque chemin de la racine à une feuille en considérant les arcs comme des
tests et la feuille comme décision.
3. En prenant les règles solides dont la partie droite égale à la classe.

h Motifs fréquents (8 pts : 2 + 2 + 2 + 2)

1. Motifs fréquents = {A, B, C, E, AC, BE, BC, CE, BCE}


2. Motifs fréquents fermés = {C, E, AC, BCE}
3. Motifs fréquents maximaux = {AC, BCE}
4. Motifs rares = {AB, AE, ABC, ABE, ACE, ABCE}
5. Les règles solides :
(a) BC ⇒ E
(b) BE ⇒ C
(c) CE ⇒ B

Classification (8 pts : 2 + 4 + 2)

1. Remplacement des données manquantes :

Forme Taille Coleur Classe


rond petit bleu oui
carré grand rouge non
rond grand blanc oui
carré petit bleu oui
rond grand bleu oui
carré grand blanc non
carré grand blanc oui
carré grand bleu non
carré petit rouge oui
rond grand blanc oui

3
2. Arbre de décision

2
3. Précision = 4
= 50%

4
Université Mohamed Khider-Biskra
Faculté des sciences exactes et des sciences de la nature et de la vie
Département d’informatique

Master IOD Fouille de Données Avancée


25 Fév 2017 10:00-11:30, S4

Examen de rattrapage

Exercice 1 Motifs fréquents (8 pts)

Nous considérerons l’ensemble d’exemples représentant la nature de différents échantillons


de champignons : toxique ou non selon les critères de couleur, taille, forme et le milieu de
croissance :

Coleur Taille Forme Milieu Toxique


marron petit plat terre oui
jaune petit sphère terre oui
marron moyen conique bois non
blanc moyen sphère terre non
blanc grand plat terre non

1. Transformer la table en une base formelle


2. En considérant un support minimum de 40 %, trouver :
– les motifs fréquents,
– Les motifs fréquents fermés,
– Les motifs fréquents maximaux,
– Les motifs rares minimaux.
3. En déduire un modèle de décision sachant que la classe est l’attribut ”Toxique”

Exercice 2 Classifcation supervisée (12 pts)

1. Donner le modèle de décision construit en utilisant la méthode ZeroR,


2. Donner le modèle de décision construit en utilisant la méthode OneR,
3. Donner le modèle de décision construit en utilisant la méthode ID3,
4. Donner le modèle construit en utilisant une combinaison des trois modèles précédents
par la méthode Stacking à base d’une classification bayésiènne naı̈ve.

Bonne Chance
Dr A.Djeffal
Corrigé type
Exercice 1 (8 pts)
1. Table formelle : (1 pts)

Couleur Taille Forme Milieu Toxique


marron jaune blan petit moyen grand plat sphere conique terre bois oui non
01 1 0 0 1 0 0 1 0 0 1 0 1 0
02 0 1 0 1 0 0 0 1 0 1 0 1 0
03 1 0 0 0 1 0 0 0 1 0 1 0 1
04 0 0 1 0 1 0 1 0 0 1 0 0 1
05 0 0 1 0 0 1 0 0 1 1 0 0 1

2. F1 = {Coleur=marron, Coleur=blanc, Taille=petit, Taille=moyen, Forme=plat, Forme=sphere,


Milieu=terre, Toxique=oui, Toxique=non },
F2 = { Coleur=blanc Milieu=terre, Coleur=blanc Toxique=non, Taille=petit Mi-
lieu=terre, Taille=petit Toxique=oui, Taille=moyen Toxique=non, Forme=plat Mi-
lieu=terre, Forme=sphere Milieu=terre, Milieu=terre Toxique=oui, Milieu=terre Toxique=non
}

F3 = {Coleur=blanc Milieu=terre Toxique=non, Taille=petit Milieu=terre Toxique=oui


},

– Motifs fréquents : F1 ∪ F2 ∪ F3 (2 pts)


– Motifs fréquents fermés : {Coleur=marron, Toxique=non, Taille=moyen Toxique=non,
Forme=plat Milieu=terre, Forme=sphere Milieu=terre, Coleur=blanc Milieu=terre
Toxique=non, Taille=petit Milieu=terre Toxique=oui } (1 pt)
– Motifs fréquents maximaux : {Coleur=marron, Taille=moyen Toxique=non, Forme=plat
Milieu=terre, Forme=sphere Milieu=terre, Coleur=blanc Milieu=terre Toxique=non,
Taille=petit Milieu=terre Toxique=oui } (1 pt)
– Motifs rares minimaux : {... } (2 pt)
Exercice 2 (12 pts)
1. Modèle ZeroR : Toxique = non ; (2 pt)
2. Modèle OneR :
– Si Taille = petit alors Toxique = Oui
– Si Taille = moyen ou grand alors Toxique = Non
(3 pt)
3. Modèle ID3 : (4 pts)
– Si Taille = petit alors Toxique = Oui
– Si Taille = moyen ou grand alors Toxique = Non
4. Table de décision des modèles : (1.5 pt)

Patient ZeroR OneR ID3 Infection


01 non oui oui oui
02 non oui oui oui
03 non non non non
04 non non non non
05 non non non non
Modèle Stacking par naı̈ve bayes : (1.5 pt)

Toxique
Attribut oui (2/5) non (3/5)
ZeroR
oui 0/5 0/5
non 2/5 3/5
OneR
oui 2/2 0/2
non 0/3 3/3
ID3
oui 2/2 0/2
non 0/3 3/3
UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département Informatique Année universitaire : 2016-2017
1ère année Master ISTW Date : 04/12/2016

Interrogatoire : Théorie et pratique du Datamining

Exercice 01 : Soient les deux individus suivants correspondant à des séquences ADN :
X = AGGGTGGC et Y = AGGCGTAA
1. Dans quel espace « vivent » les points X et Y ? a quelle dimension ?
2. Si on code : A=0, G=1, C=2 et T=3, quelle est la distance euclidienne d(X,Y) ?
Cela a-t-il un sens en terme de similitude entre les séquences ADN X et Y? Expliquez notamment en
comparant d(A,G) et d(A,T) ?
3. Calculer la matrice de contingence associée A(X,Y). En déduire la distance de Hamming associée. A
quoi la valeur trouvée correspond-elle pratiquement ?
Exercice 02 : Répondez brièvement aux questions suivantes :
1. Le Datamining est un processus inductif, itératif et/ou Interactif de découverte dans les bases de
données larges de modèles de données valides, nouveaux, utiles et compréhensibles. Expliquez ?
2. Que représentent les méthodes Stepdisk, Wrapper, FCBF et pour quelle raison elles sont utilisées ?
3. Quelle est la différence entre les méthodes de partitionnement et les méthodes hiérarchiques ?
Exercice 03 : On considère les données suivantes :
N° cheveux taille poids crème solaire classe
1 blond moyenne léger non Oui = coup de soleil
2 blond grande moyen oui Non = bronzé
3 brun petite moyen oui Non = bronzé
4 blond petite moyen non Oui = coup de soleil
5 roux moyenne lourd non Oui = coup de soleil
6 brun grande lourd non Non = bronzé
7 brun moyenne lourd non Non = bronzé
8 blond petite léger oui Non = bronzé
1. On suppose que les individus sont décrits à l'aide des quatre attributs cheveux, taille, poids et crème
solaire. Construire l'arbre de décision produit par l'algorithme d'apprentissage ID3 en utilisant la
fonction Entropie et la fonction gain associée (lors de l’égalité des gains, le choix des attributs est dans
l’ordre: cheveux, taille, poids et crème solaire). Détailler les calculs pour le choix des attributs.
2. Déduire de l'arbre trouvé une seule règle comportant une disjonction, une conjonction et une négation.
3. En utilisant l’arbre construit, classer l’instance N°9: blond, moyenne, lourd, non.
4. En utilisant l’ensemble des huit instances, et en supposant que l’attribut crème solaire est énumératif,
dites lequel des instances est plus proche de l’instance N° 9 ? que représentent ces calculs (donner le
nom de ces calculs) ?
☺ To succeed in life one must have the courage to pursue what he wants ☺

Enseignant : Mr K. Boudjebbour Page 1 / 1


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département Informatique Année universitaire : 2016-2017
1ère année Master ISTW
Corrigé type de l’interrogatoire : DataMining
Exercice 01 (05 Pts) : Soient les deux individus suivants correspondant à des séquences ADN :
X = AGGGTGGC et Y = AGGCGTAA
1. les points X et Y vivent dans l’espace {A, C, G, T}, la dimension représente le nombre
1 Pt
d’attributs qui est égal à 8.
2. Si on code : A=0, G=1, C=2 et T=3, la distance euclidienne d(X,Y) = ∑
( − ) =√14
1 Pt

Cela n’a pas de sens en terme de similitude entre les séquences ADN X et Y, car ce n’est pas une
1 Pt
distance qui convient à un tel espace discret (variables discrètes), notamment si on calcul d(A,G)=1 et
d(A,T)=3 et pourtant a priori A est aussi différent de G que de T.
3. la matrice de contingence associée A(X,Y), en considérant X selon les lignes et Y selon les
colonnes dans l’ordre A, C, G, et T est :
   
 1 0 0 0  1 Pt
A=  1 0 0 0
 1 1 2 1
 0 0 1 0
Donc, la distance de Hamming associée est dHamming(X,Y)=5.
1 Pt
Elle correspond pratiquement au nombre de coordonnées différentes entre les deux vecteurs X et Y.
Exercice 02 (5 Pts) :
1.
Inductif : Généralisation d’une observation ou d’un raisonnement établis à partir de cas singuliers.
Itératif : Nécessite plusieurs passes (instructions).
Interactif : L’utilisateur est dans la boucle du processus.
2 Pt
Valides : Valable dans le futur.
Nouveaux : Non prévisibles.
Utiles : Permettent à l’utilisateur de prendre des décisions.
Compréhensibles : Présentation simple.
2. Les méthodes Stepdisk, Wrapper, FCBF sont des méthodes de Sélection de variables (attributs)
- Elles sont utilisées pour réduire le nombre d’attributs (variables) 1 Pt
3. Dans les méthodes de partitionnement le nombre de cluster est définit avant le lancement de
1 Pt l’algortihme contrairement aux méthodes hiérarchique. Aussi les méthodes de partitionnement ne
travaillent qu’avec des données numériques seulement.

Exercice 03(10 Pts) :

log - log = 0,954


  # #
   
1) On calcul l’entropie sur l’ensemble des données : I(3,5)= - 1 Pt

Enseignant : Mr K. Boudjebbour Page 1 / 2


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département Informatique Année universitaire : 2016-2017

Gain (cheveux)= I(3,5)-E(cheveux)= I(3,5)-( I(2,2)+ I(0,3)+ I(1,0)=0,454


% 
Ensuite on calcul le gain de chaque attribut :

  
Gain (taille)= I(3,5)-E(taille)= I(3,5)-( I(2,1)+ I(0,2)+ I(1,2)=0,266
 
  
Gain (poids)= I(3,5)-E(poids)= I(3,5)-( I(1,1)+ I(1,2) )+ I(2,1))=)=0,0155
 
1 Pt

  
Gain (crème solaire)= I(3,5)-E(crème solaire)= I(3,5)-( I(3,2)+ I(0,3))=0,347
# 
 
Donc on choisit l’attribut « cheveux » avec le gain le plus grand (Gain=0.454) qui représente le nœud
la racine de l’arbre, Donc l’arbre initial sera : Cheveux
Blond Roux
Brun 1 Pt
????????? Coup de soleil
Instances : 1,2,4,8 Bronzé Instance : 5
Instances : 3,6,7
La valeur cheveux = blond donne plusieurs valeurs de l’attribut classe, donc, il faut refaire le mème
travail (calcul du gain) pour l’ensemble des données Sblond ={1,2,4,8}.

Gain (Sblond , taille)= I(2,2)-E(Sblond ,taille)= 1-( I(1,0)+ I(0,1)+ I(1,1)=0,5



I(Sblond) =I(2,2)=1

% % %
Gain (Sblond , poids)= I(2,2)-E(Sblond ,poids)= 1-( I(1,1)+ I(1,1))=0

1 Pt

% %
Gain (Sblond , crème solaire)= I(2,2)-E(Sblond ,crème solaire)=1-( I(2,0)+ I(0,2))=1

% %
Donc on choisit l’attribut « crème solaire » avec le gain le plus grand (Gain=1) et l’arbre final sera :
Cheveux
Blond Brun Roux

1 Pt Crème solaire Bronzé Coup de soleil

Oui Instances : 3,6,7 Instance : 5


Non

Bronzé Coup de soleil


Instances : 2,8 Instances : 1,4

((cheveux = Blanc) ∧¬ crème solaire) 1 Pt


2) La règle qu’on peut déduire est :
(cheveux = Roux) ⋁
3) La classe est : coup de soleil 1 Pt
4) Il faut calculer la distance entre l’instance N°9 et les 8 autres instances :

1 Pt D(X,Y)= (P-M) / P tel que : P est le nombre total d’attributs et M le nombre de ressemblance
 % 
% % % % % % % %
D(9,1) = ; D(9,2) = ; D(9,3) = ; D(9,4) = ; D(9,5) = ; D(9,6) = ; D(9,7) = ; D(9,8) = ;
2 Pts
Donc, les instances les plus proches de l’instance N°9 sont : l’instance N° 1, N° 5 et N° 7.

Enseignant : Mr K. Boudjebbour Page 2 / 2


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématique et Informatique Année universitaire : 2017-2018

Interrogatoire : Théorie et pratique du Datamining

Exercice 01 (02 pts) : Supposons qu’on veut utiliser des données binaires dans un processus de
clustering. Citer (ou proposer) une (des) mesure(s) de similarité (distance(s)) pour ce type de données.
Evaluer la (les) distance(s) entre les objets X = 0101010001 et Y = 0100011000. Que remarquez-vous ?
Déduisez la distance de Hamming associée. A quoi la valeur trouvée correspond-elle ?

Exercice 02 (03 pts) : Répondez brièvement aux questions suivantes :


1. Que signifie l’élagage et quel est son objectif ?
2. Quelle est la différence entre les techniques descriptives et les techniques prédictives de datamining ?
3. Dans le processus ECD, une phase de préparation des données est nécessaire. Que signifie la
transformation des données ? expliquer en donnant des exemples

Exercice 03 (05 pts) : Soit l’ensemble d’apprentissage ci-dessous. La classe est « Edible ».
N° Shape Color Odor Edible
1 C B 1 Y
2 D B 1 Y
3 D W 1 Y
4 D W 2 Y
5 C B 2 Y
6 D B 2 N
7 D G 2 N
8 C U 2 N
9 C B 3 N
10 C W 3 N
11 D W 3 N
1. En utilisant l’algorithme ID3 et le gain d’information, construire l’arbre de décision du dataset. Donner
les détails des calculs.
2. Déduire de l'arbre trouvé une seule règle comportant 2 disjonctions et 2 conjonctions au maximum.
3. En utilisant l’arbre construit, classer l’instance N°12: Shape=C, Color=G, Odor=2.
4. En utilisant l’ensemble des onze instances, et en supposant que les attributs « Color » et « Odor » sont
des variables énumératives, dites lequel des instances est plus proche de l’instance N° 12 ? quelle est la
distance utilisée ? Que représentent ces calculs (donner le nom de ces calculs) ?
☺ To succeed in life one must have the courage to pursue what he wants ☺

Enseignant : Mr K. Boudjebbour Page 1 / 1


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématique et Informatique Année universitaire : 2017-2018

Corrigé Interrogatoire : Théorie et pratique du Datamining

Exercice 01 (02,50 Pts): il faut dessiner la table de dissimilarité (contingence) : Y


0,5 Pt
on a trois cas possibles :
1 0
1. Similarité invariante, si toutes les variables sont symétriques (Coefficient de
correspondance simple) :
  1 2 2
D1(X,Y) ===0,3 0,5 Pt X
2. Similarité non invariante, si toutes les variables sont asymétriques (Coefficient 0 1 5
de Jaccard):
 
D2(X,Y) = = =0,6 0,5 Pt

3. Si les variables sont symétriques et asymétriques : il faut spécifier la nature de chaque variable. 0,25 Pt

0,5 Pt Malgré que D1 et D2 représentent deux distances entre les mêmes instances, on remarque que qu’elles
sont très éloignées car D2=2*D1
Distance de hamming = b+c = 3. Elle représente le nombre de caractéristiques différentes entre x et y. 0,25 Pt
Exercice 02 (03 Pts) :
1. L’élagage est la suppression de quelques sous-arbres dans la l’arbre de décision. Son objectif
principal est la réduction de l’arbre afin d’améliorer le taux d’erreur.
2. les techniques descriptives de datamining visent à mettre en évidence des informations présentes
mais cachées par le volume de données alors que les techniques prédictives visent à extrapoler de
nouvelles informations à partir des informations présentes. Elles se basent essentiellement sur des
modèles qui utilisent des données présentes ou passées pour construire des scénarios futurs.
3. La transformation des données est la transformation d’un attribut A en une autre variable A’ qui
serait selon les objectifs de l’étude, plus appropriée.
Exp 1 : Variable continue en variable discrète et vice versa
Exp 2 : La construction d’agrégats par exemple, le prix au mètre-carré d’un appartement
Exercice 03 (05,50 Pts):
 
1) On calcul l’entropie sur l’ensemble des données : I(5,6)= - log - log = 0,994 0,5 Pt
   
Ensuite on calcul le gain de chaque attribut :

Gain (Shape)= I(5,6)-E(Shape)= I(5,6)-( I(2,3)+ I(3,3))=0,008
 
  
Gain (Color)= I(5,6)-E(Color)= I(5,6)-( I(3,2)+ I(2,2)+ I(0,1)+ I(0,1)=0,189
   
 
Gain (Odor)= I(5,6)-E(Odor)= I(5,6)-( I(3,0)+ I(2,3)+ I(0,3))=0,553
  
Donc on choisit l’attribut « Odor » avec le gain le plus grand (Gain=0.553) qui représente le nœud la
racine de l’arbre, Donc l’arbre initial sera : Odor 1 Pt
2 3
1
????? N
Y
Instances : 4,5,6,7,8 Instance : 9,10,11
Instances : 1,2,3 Page 1 / 2
UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématique et Informatique Année universitaire : 2017-2018
La valeur Odor = 2 donne plusieurs valeurs de l’attribut classe, donc, il faut refaire le même travail
(calcul du gain) pour l’ensemble des données S2 ={4,5,6,7,8}. I(S2) =I(2,3)=0,971
   
Gain (S2, Color)= I(2, 3)-E(S2, Color)=0,971-( I(1,0) + I(1,1)+ I(0,1)+ I(0,1))=0,571

 
Gain (S2, Shape)= I(2, 3)-E(S2, Shape)=0,971-( I(1,2) + I(1,1))=0,020

Donc on choisit l’attribut « Color» avec le gain le plus grand (Gain=0,571). On aura deux branches
avec des nœuds terminaux et la branche B qui sera nécessairement départagée par le seul attribut
restant à savoir «Shape» et l’arbre final sera : Odor
2 3
1
Color N
Y Instance : 9,10,11
B G ou U W Instances : 1,2,3

Shape N Y 1 Pt
C D Instances : 7,8 Instance : 4

Y N
Instance : 5 Instance : 6
2) La règle qu’on peut déduire est :
(Odor = 1) ⋁ ((Odor = 2) ∧ ((Color = W) ⋁ ((Color = B) ∧ (Shape = C))) 1 Pt
3) La classe est : N 0,25 Pt
4) Il faut calculer la distance entre l’instance N°12 et les 11 autres instances :
D(X,Y)=D1(Xi,Yi) + D2(Xi,Yi)
D1(Xi,Yi)= (P-M) / P tel que : P est le nombre total d’attributs et M le nombre de ressemblance
Qui concerne les deux attributs énumératifs « Odor » et « Color »
D2(Xi,Yi)= 0 si Xi = Yi ; 1 sinon Concerne l’attribut binaire « Shape » 01 Pt

N° Instance D1 D2 D N° Instance D1 D2 D
1 1 1 2 7 0,5 0 0,5
2 1 0 1 8 0 1 1
3 1 0 1 9 1 1 2
4 0,5 0 0,5 10 1 1 2
5 0,5 1 1,5 11 1 0 1
6 0,5 0 0,5
Donc, les instances les plus proches de l’instance N°12 sont : l’instance N° 4, N° 6 et N° 7. 0,25 Pt
La distance utilisée est la distante mixte entre deux type d’attributs (dans notre cas, on a utilisé la
distance de Manhattan) qui représente un calcul de similarité entre instantes afin d’appliquer une
méthode de clustering. 0,5 Pt

Page 2 / 2
UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département Génie Electrique et Informatique Année universitaire : 2016-2017
1ère année Master Informatique ISTW Date : 05/01/2017

EFS S1 : Théorie et pratique du Datamining

Exercice 01 (05,50 Pts) : Répondez brièvement aux questions suivantes :


1. Expliquez brièvement les étapes du niveau analyse du processus ECD ?
2. Quelles sont les trois motivations principales qui poussent à garder des données très anciennes ?
3. Donner trois méthodes de calcul de distances entre clusters.
4. Expliquez brièvement le fonctionnement des méthodes hiérarchiques dans le clustering
5. Quelle sont les avantages et inconvénients des arbres de décision ?

Exercice 02 (10,50 Pts) : N° Age Sexe Spécialité Sportive

Une étude sur un ensemble de personnes a permet 1 19 F IT Oui


d’établir la BDD suivante représentant l’état 2 21 F IT Oui

« sportivité » de chaque personne par rapport aux 3 20 M Médecine Non

trois attributs (Age, sexe et spécialité). 4 35 M Engineering Non

1. Représenter ces données par un arbre de 5 34 M Médecine Oui


6 28 M Sociologie Non
décision en utilisant l’indice GINI comme
7 35 F IT Oui
critère de séparation.
8 40 F Médecine Non
9 35 M IT Oui
NB : le split utilisé pour l’attribut Age est le
10 23 M IT Non
même dans toutes les branches de l’arbre de
11 24 F Engineering Non
décision (Age ≥ 30 et Age < 30).
12 23 F Médecine Non
13 24 F Sociologie Oui

2. Calculer les performances sur l'ensemble test T ci-dessous en construisant la matrice de confusion
associée à cet énoncé. N° Age Sexe Specialité Sportive
14 24 F IT Oui
15 29 M Sociologie Non
16 45 F Engineering Non
17 35 M IT Non
Ensemble Test T : 18 21 M Médecine Non
19 26 M Sociologie Non
20 46 F IT Oui
21 40 M IT Oui

Enseignant : Mr K. Boudjebbour Page 1 / 2


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département Génie Electrique et Informatique Année universitaire : 2016-2017
3. Donner les principaux indicateurs synthétiques, en déduisant le taux d’erreur.
4. En utilisant la distance normalisée pour l’attribut Age et en supposant que l’attribut «Sexe » est
énumératif (variable discrète), dites lequel des clients de l’ensemble test T est plus proche du client
N°1 en utilisant la distance de Manhattan entre les trois attributs (spécifiez les formules de calcul)?
Que représentent ces calculs ?
Si on généralise ces traitements sur un ensemble de données, quelle est le but principal de cette
approche ? Citez le nom de trois méthodes (types) utilisées pour appliquer cette approche ?

Exercice 03 (04 Pts) : Une société de production artistique désire faire une enquête de satisfaction sur
l’ensemble des spectacles de théâtre qu’elle a produit cette année pour prévoir le programme de travail
de la prochaine année. La base de données intègre des données sur les spectacles (artistes, lieu de
représentation, période, durée, sujet,…etc) et sur les spectateurs (sexe, niveau,…etc). Bien sûr,
l’appréciation donnée par les spectateurs représente la variable classe qu’on veut prédire. Le modèle de
classification est construit avec 32000 enregistrements. L’évaluation a permet de donner les résultats
suivants :
• Le nombre de personnes qui ont répondus négativement (non satisfait) alors que l’évaluation
leur a donné une réponse positif (satisfait) est de 2400.
• Précision = 0,60
• Taux d’erreur = 20 %
 Construisez la matrice de confusion associée à cet exercice sachant le modèle est construit avec les
2/3 de l’ensemble des données historisées.
 Supposant un cas général avec N classes, On peut bien sûr normaliser la matrice de confusion pour
en simplifier la lecture. Donnez le type que doit rapprocher la matrice de confusion pour que le taux
d’erreur soit le plus faible possible (un meilleur système de classification).

☺ Un tiens dans la main vaut mieux que deux tu l'auras ☺


☺ A bird in the hand is worth two in the bush ☺

☺ ‫ﻋﺼﻔﻮر ﰲ اﻟﻴﺪ ﺧﲑ ﻣﻦ ﻋﴩة ﻋﲆ اﻟﺸﺠﺮة‬ ☺

Enseignant : Mr K. Boudjebbour Page 2 / 2


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département Informatique Année universitaire : 2016-2017
Corrigé type de l’EFS S1 : Théorie et pratique du Datamining
Exercice 01 (05,50 Pts) :
1. Les quatre étapes du processus ECD sont :
• Phase d’acquisition des données : Selection, Nettoyage, Intégration 2 Pt
• Phase Préparation des données : Transformation, Mise en forme, construction attributs
• Phase fouille de données : Datamining.
• Phase Gestion de connaissances : Evaluation, simplification, Mise en forme et présentation.
2. les trois motivations principales qui poussent à garder des données très anciennes sont :
• Développement des technologies de récupération et de stockage de données.
0,75 Pt • Réduction du coût de stockage des données pour garder des téra-octets de données.

• L’existence d’une véritable mine d’or dedans qu’on appelle connaissances.


3. Les trois méthodes de calcul de distances entre clusters sont :
- Distance minimale entre toutes les paires de données des deux clusters (single link method)
- Distance maximale entre toutes les paires de données des 2 clusters (Complete Link Method)
- Distance moyenne entre toutes la paires d’enregistrements (Average Linkage) 0,75 Pt
4. Le fonctionnement des méthodes hiérarchiques suit globalement l’algorithme suivant :
En entrée: un échantillon de m enregistrements x1, …, xm
1. On commence avec m clusters (cluster = 1 enregistrement)
1 Pt
2. Grouper les deux clusters les plus «proches».
3. S’arrêter lorsque tous les enregistrements sont membres d’un seul groupe
4. Aller en 2.
5. Les avantages des arbres de décision sont :
• Compréhensible pour tout utilisateur (lisibilité du résultat)
• Tout type de données
• Robuste au bruit et aux valeurs manquantes
• Classification rapide (parcours d’un chemin dans un arbre) (racine feuille)
• Outils disponibles dans la plupart des environnements de data mining 1 Pt
Les inconvénients des arbres de décision sont :
• Sensibles au nombre de classes: performances se dégradent
• Si les données évoluent dans le temps, il est nécessaire de relance la phase d’apprentissage
Exercice 02 (11,50 Pts) :
1) Indice GINI sur un seul ensemble est :1 − ∑
  0,5 Pt
Tel que : S représente l’ensemble des données et Pi est la fréquence relative de la classe c dans S
Gini(S1,S2,..,Si)= ∑ / Gini(Si) tel que Ni représente le nombre d’instances du sous ensemble Si
selon un test donné.

Enseignant : Mr K. Boudjebbour Page 1 / 4


- Il faut trouver le branchement (split-point) qui minimise l’indice Gini pour les trois attributs (Age, sexe
et Spécialité) :
a) Age : <30 ≥30
GINI(Age) = 8/13*(1-(3/8)2-(5/8)2) + 5/13 (1-(3/5)2-(2/5)2=0,47307692 Oui 3 3
Non 5 2
b) Sexe :
M F
GINI(Sexe) = 6/13*(1-(2/6)2-(4/6)2) + 7/13 (1-(4/7)2-(3/7)2)=0,42490843 1,5 Pt
Oui 2 4
c) Spécialité : Non 4 3

GINI(Sexe) = 5/13*(1-(4/5)2-(1/5)2)+4/13*(1-(1/4)2- IT Médecine Engineering Sociologie


Oui 4 1 0 1
(3/4)2)+2/13*(1-(0/2)2-(2/2)2)+2/13*(1-(1/2)2-(1/2)2)
Non 1 3 2 1
= 0,31538462
Donc on choisit l’attribut « spécialité » avec l’indice GINI le plus bas (GINI=0.31538462) qui
représente la racine de l’arbre, Donc l’arbre initial sera : Spécialité
0,5 Pt IT Sociologie
Médecine Engineering
Sous arbre IT : ???
Non ???
a) Age : ???
<30 ≥30
GINI(Age) = 3/5*(1-(2/3)2-(1/3)2)
Oui 2 2
+ 2/5 (1-(2/2)2-(0/2)2)=0,26666666
Non 1 0
b) Sexe : 1 Pt
GINI(Sexe) = 3/5*(1-(0/3)2-(3/3)2) M F
Oui 1 3
+ 2/5 (1-(1/2)2-(1/2)2)=0,2 Non 1 0
Donc on choisit l’attribut « Sexe» avec l’indice GINI le plus bas , Donc l’arbre sera :

Spécialité
IT
Médecine Engineering Sociologie
0,5 Pt Sexe
M F ??? Non ???
Age Oui
<30 ≥30
Sous arbre Médecine :
Non Oui
a) Age :
GINI(Age) = 2/4*(1-(0/2)2-(2/2)2) <30 ≥30
Oui 0 1
+ 2/4 (1-(1/2)2-(1/2)2)=2/4*0,5=0,25 Non 2 1
0,5 Pt
b) Sexe :
GINI(Sexe) = 2/4*(1-(0/2)2-(2/2)2) + M F
Oui 1 0 Spécialité
2/4 (1-(1/2)2-(1/2)2)=2/4*0,5=0,25 IT
Non 1 2 Médecine Sociologie
Les deux attributs ont la même valeur du GINI, Sexe Engineering
Age ???
M F
Donc on choisit l’un d’eux et l’arbre sera : <30 ≥30 Non
Age 0,5 Pt
Oui Sexe
Non
<30 ≥30
M F
Non Oui Non Oui
Enseignant : Mr K. Boudjebbour Page 2 / 4
Sous arbre Sociologie :
a) Age :
GINI(Age) = 2/2 (1-(1/2)2-(1/2)2)=2/2*0,5=0,5 <30 ≥30
b) Sexe : Oui 1 0
Non 1 0
GINI(Sexe) = 0 M F 0,5 Pt
Donc on choisit l’attribut « Sexe» avec l’indice Oui 0 1
Non 1 0
GINI le plus bas , Donc l’arbre final sera :

Spécialité
IT
Médecine Sociologie
Sexe Engineering
0,5 Pt Age Sexe
M F
<30 ≥30 Non M F
Age Oui Non Sexe Non Oui
<30 ≥30
M F
Non Oui Non Oui
2) On applique l’ensemble test T sur l’arbre de décision et on trouve la classe prédite :

N° Age Sexe Specialité Classe réelle Classe prédite


14 24 F IT Oui Oui
15 29 M Sociologie Non Non
16 45 F Engineering Non Non
17 35 M IT Non Oui 0,5 Pt

18 21 F Médecine Non Non


19 26 M Sociologie Non Non
20 46 F IT Oui Oui
21 40 M IT Oui Oui
0,5 Pt
• Matrice de confusion : Prédite (Oui) Prédite (Non) Total
Classe réelle (Oui) a=3 b=0 3
Classe réelle (Non) c=1 d=4 5
3) Indicateurs synthétiques : Total 4 4 8

• Vrais Positifs VP = 3 • Faux Positifs FP = 1 • Taux de VP = a/(a+b) = 100 % 0,5 Pt


• Taux de FP = c/(c+d) = 20 % • Précision = a/(a+c) =75 % • Spécificité = d/(c+d) = 80 %
• Taux d’erreur = b+c / n, Donc le taux d’erreur est : 1/8 = 0,125 = 12,5 % 0,5 Pt
4) Il faut calculer la distance de manhattan entre l’instance N°1 et toutes les autres instances de T :
Distance de manhattan : D(X,Y)= ∑
| − |, Distance normalisée : D(Xi,Yi)= (Xi-Yi)/Dmax 0,5 Pt
Distance entre variable discrètes : D(X,Y)= (P-M) / P , tel que : P est le nombre total d’attributs et M
le nombre de ressemblance
Dmax = 46-19=27

Enseignant : Mr K. Boudjebbour Page 3 / 4


|
|
 
D(1,14) =

+ (2 − 2)/2 =0,185 ; D(1,15) = + 1=1,37 ; D(1,16) = + 0,5=1,463
 

  
D(1,17) = + 0,5=1,093 ; D(1,18) = + 1=1,074 ; D(1,19) = + 1=1,259 1 Pt
  
 

D(1,20) = + 0=1 ; D(1,21) = + 0,5=1,277


 
Donc, l’instance la plus proche de l’instance N°1 est : l’instance N° 14. 0,5 Pt
Ces calculs représentent le calcul de la distance entre instances (similarité) 0,5 Pt
C’est une technique d’apprentissage non supervisée de Datamining appelée Clustering (segmentation)
qui sert à déterminer des groupes de ressemblances entre les instances de la BDD. 0,5 Pt
Les méthodes sont : - Méthode de partitionnement (K-means), les Méthodes hiérarchiques (par
agglomération) et les méthodes par voisinage dense. 0,5 Pt
Exercice 03 (04 Pts) :
Ensemble modèle = 32000 = 2/3 * BDD => BDD =48000. 0.5 Pt
Ensemble test = 1/3 * BDD = 16000=N. 0.5 Pt
Nombre de personnes non satisfaits alors que leur évaluation est positif =c =2400 0,25 Pt
Precision = 0.60 donc a/(a+c) =0.60 alors 0.40 *a = 0.60 * c => a = 3600 0,25 Pt
Taux d’erreur =0.20 donc (c+b)/N=0.20 alors b=0.20 * N – c => b=800 0,25 Pt
N = a+b+c+d donc d=N-(b+c+a)=16000-(800+2400+3600) => d= 9200 0,25 Pt
Positif Négatif Total
Satisfait (Vrai) a=3600 b=800 a+b=4400
1 Pt
Non Satisfait (Faux) c= 2400 d=9200 c+d=11600
Total a+c=6000 b+d=10000 N=16000
Pour que le taux d’erreur soit le plus faible possible (un meilleur système de classification), la matrice
de confusion doit être une matrice diagonale. 1 Pt

Enseignant : Mr K. Boudjebbour Page 4 / 4


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département Informatique Année universitaire : 2016-2017
1ère année Master ISTW Date : 04/12/2016

Interrogatoire : Théorie et pratique du Datamining

Exercice 01 : Soient les deux individus suivants correspondant à des séquences ADN :
X = AGGGTGGC et Y = AGGCGTAA
1. Dans quel espace « vivent » les points X et Y ? a quelle dimension ?
2. Si on code : A=0, G=1, C=2 et T=3, quelle est la distance euclidienne d(X,Y) ?
Cela a-t-il un sens en terme de similitude entre les séquences ADN X et Y? Expliquez notamment en
comparant d(A,G) et d(A,T) ?
3. Calculer la matrice de contingence associée A(X,Y). En déduire la distance de Hamming associée. A
quoi la valeur trouvée correspond-elle pratiquement ?
Exercice 02 : Répondez brièvement aux questions suivantes :
1. Le Datamining est un processus inductif, itératif et/ou Interactif de découverte dans les bases de
données larges de modèles de données valides, nouveaux, utiles et compréhensibles. Expliquez ?
2. Que représentent les méthodes Stepdisk, Wrapper, FCBF et pour quelle raison elles sont utilisées ?
3. Quelle est la différence entre les méthodes de partitionnement et les méthodes hiérarchiques ?
Exercice 03 : On considère les données suivantes :
N° cheveux taille poids crème solaire classe
1 blond moyenne léger non Oui = coup de soleil
2 blond grande moyen oui Non = bronzé
3 brun petite moyen oui Non = bronzé
4 blond petite moyen non Oui = coup de soleil
5 roux moyenne lourd non Oui = coup de soleil
6 brun grande lourd non Non = bronzé
7 brun moyenne lourd non Non = bronzé
8 blond petite léger oui Non = bronzé
1. On suppose que les individus sont décrits à l'aide des quatre attributs cheveux, taille, poids et crème
solaire. Construire l'arbre de décision produit par l'algorithme d'apprentissage ID3 en utilisant la
fonction Entropie et la fonction gain associée (lors de l’égalité des gains, le choix des attributs est dans
l’ordre: cheveux, taille, poids et crème solaire). Détailler les calculs pour le choix des attributs.
2. Déduire de l'arbre trouvé une seule règle comportant une disjonction, une conjonction et une négation.
3. En utilisant l’arbre construit, classer l’instance N°9: blond, moyenne, lourd, non.
4. En utilisant l’ensemble des huit instances, et en supposant que l’attribut crème solaire est énumératif,
dites lequel des instances est plus proche de l’instance N° 9 ? que représentent ces calculs (donner le
nom de ces calculs) ?
☺ To succeed in life one must have the courage to pursue what he wants ☺

Enseignant : Mr K. Boudjebbour Page 1 / 1


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département Informatique Année universitaire : 2016-2017
1ère année Master ISTW
Corrigé type de l’interrogatoire : DataMining
Exercice 01 (05 Pts) : Soient les deux individus suivants correspondant à des séquences ADN :
X = AGGGTGGC et Y = AGGCGTAA
1. les points X et Y vivent dans l’espace {A, C, G, T}, la dimension représente le nombre
1 Pt
d’attributs qui est égal à 8.
2. Si on code : A=0, G=1, C=2 et T=3, la distance euclidienne d(X,Y) = ∑
( − ) =√14
1 Pt

Cela n’a pas de sens en terme de similitude entre les séquences ADN X et Y, car ce n’est pas une
1 Pt
distance qui convient à un tel espace discret (variables discrètes), notamment si on calcul d(A,G)=1 et
d(A,T)=3 et pourtant a priori A est aussi différent de G que de T.
3. la matrice de contingence associée A(X,Y), en considérant X selon les lignes et Y selon les
colonnes dans l’ordre A, C, G, et T est :
   
 1 0 0 0  1 Pt
A=  1 0 0 0
 1 1 2 1
 0 0 1 0
Donc, la distance de Hamming associée est dHamming(X,Y)=5.
1 Pt
Elle correspond pratiquement au nombre de coordonnées différentes entre les deux vecteurs X et Y.
Exercice 02 (5 Pts) :
1.
Inductif : Généralisation d’une observation ou d’un raisonnement établis à partir de cas singuliers.
Itératif : Nécessite plusieurs passes (instructions).
Interactif : L’utilisateur est dans la boucle du processus.
2 Pt
Valides : Valable dans le futur.
Nouveaux : Non prévisibles.
Utiles : Permettent à l’utilisateur de prendre des décisions.
Compréhensibles : Présentation simple.
2. Les méthodes Stepdisk, Wrapper, FCBF sont des méthodes de Sélection de variables (attributs)
- Elles sont utilisées pour réduire le nombre d’attributs (variables) 1 Pt
3. Dans les méthodes de partitionnement le nombre de cluster est définit avant le lancement de
1 Pt l’algortihme contrairement aux méthodes hiérarchique. Aussi les méthodes de partitionnement ne
travaillent qu’avec des données numériques seulement.

Exercice 03(10 Pts) :

log - log = 0,954


  # #
   
1) On calcul l’entropie sur l’ensemble des données : I(3,5)= - 1 Pt

Enseignant : Mr K. Boudjebbour Page 1 / 2


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département Informatique Année universitaire : 2016-2017

Gain (cheveux)= I(3,5)-E(cheveux)= I(3,5)-( I(2,2)+ I(0,3)+ I(1,0)=0,454


% 
Ensuite on calcul le gain de chaque attribut :

  
Gain (taille)= I(3,5)-E(taille)= I(3,5)-( I(2,1)+ I(0,2)+ I(1,2)=0,266
 
  
Gain (poids)= I(3,5)-E(poids)= I(3,5)-( I(1,1)+ I(1,2) )+ I(2,1))=)=0,0155
 
1 Pt

  
Gain (crème solaire)= I(3,5)-E(crème solaire)= I(3,5)-( I(3,2)+ I(0,3))=0,347
# 
 
Donc on choisit l’attribut « cheveux » avec le gain le plus grand (Gain=0.454) qui représente le nœud
la racine de l’arbre, Donc l’arbre initial sera : Cheveux
Blond Roux
Brun 1 Pt
????????? Coup de soleil
Instances : 1,2,4,8 Bronzé Instance : 5
Instances : 3,6,7
La valeur cheveux = blond donne plusieurs valeurs de l’attribut classe, donc, il faut refaire le mème
travail (calcul du gain) pour l’ensemble des données Sblond ={1,2,4,8}.

Gain (Sblond , taille)= I(2,2)-E(Sblond ,taille)= 1-( I(1,0)+ I(0,1)+ I(1,1)=0,5



I(Sblond) =I(2,2)=1

% % %
Gain (Sblond , poids)= I(2,2)-E(Sblond ,poids)= 1-( I(1,1)+ I(1,1))=0

1 Pt

% %
Gain (Sblond , crème solaire)= I(2,2)-E(Sblond ,crème solaire)=1-( I(2,0)+ I(0,2))=1

% %
Donc on choisit l’attribut « crème solaire » avec le gain le plus grand (Gain=1) et l’arbre final sera :
Cheveux
Blond Brun Roux

1 Pt Crème solaire Bronzé Coup de soleil

Oui Instances : 3,6,7 Instance : 5


Non

Bronzé Coup de soleil


Instances : 2,8 Instances : 1,4

((cheveux = Blanc) ∧¬ crème solaire) 1 Pt


2) La règle qu’on peut déduire est :
(cheveux = Roux) ⋁
3) La classe est : coup de soleil 1 Pt
4) Il faut calculer la distance entre l’instance N°9 et les 8 autres instances :

1 Pt D(X,Y)= (P-M) / P tel que : P est le nombre total d’attributs et M le nombre de ressemblance
 % 
% % % % % % % %
D(9,1) = ; D(9,2) = ; D(9,3) = ; D(9,4) = ; D(9,5) = ; D(9,6) = ; D(9,7) = ; D(9,8) = ;
2 Pts
Donc, les instances les plus proches de l’instance N°9 sont : l’instance N° 1, N° 5 et N° 7.

Enseignant : Mr K. Boudjebbour Page 2 / 2


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département Génie Electrique et Informatique Année universitaire : 2016-2017
1ère année Master Informatique ISTW Date : 05/01/2017

EFS S1 : Théorie et pratique du Datamining

Exercice 01 (05,50 Pts) : Répondez brièvement aux questions suivantes :


1. Expliquez brièvement les étapes du niveau analyse du processus ECD ?
2. Quelles sont les trois motivations principales qui poussent à garder des données très anciennes ?
3. Donner trois méthodes de calcul de distances entre clusters.
4. Expliquez brièvement le fonctionnement des méthodes hiérarchiques dans le clustering
5. Quelle sont les avantages et inconvénients des arbres de décision ?

Exercice 02 (10,50 Pts) : N° Age Sexe Spécialité Sportive

Une étude sur un ensemble de personnes a permet 1 19 F IT Oui


d’établir la BDD suivante représentant l’état 2 21 F IT Oui

« sportivité » de chaque personne par rapport aux 3 20 M Médecine Non

trois attributs (Age, sexe et spécialité). 4 35 M Engineering Non

1. Représenter ces données par un arbre de 5 34 M Médecine Oui


6 28 M Sociologie Non
décision en utilisant l’indice GINI comme
7 35 F IT Oui
critère de séparation.
8 40 F Médecine Non
9 35 M IT Oui
NB : le split utilisé pour l’attribut Age est le
10 23 M IT Non
même dans toutes les branches de l’arbre de
11 24 F Engineering Non
décision (Age ≥ 30 et Age < 30).
12 23 F Médecine Non
13 24 F Sociologie Oui

2. Calculer les performances sur l'ensemble test T ci-dessous en construisant la matrice de confusion
associée à cet énoncé. N° Age Sexe Specialité Sportive
14 24 F IT Oui
15 29 M Sociologie Non
16 45 F Engineering Non
17 35 M IT Non
Ensemble Test T : 18 21 M Médecine Non
19 26 M Sociologie Non
20 46 F IT Oui
21 40 M IT Oui

Enseignant : Mr K. Boudjebbour Page 1 / 2


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département Génie Electrique et Informatique Année universitaire : 2016-2017
3. Donner les principaux indicateurs synthétiques, en déduisant le taux d’erreur.
4. En utilisant la distance normalisée pour l’attribut Age et en supposant que l’attribut «Sexe » est
énumératif (variable discrète), dites lequel des clients de l’ensemble test T est plus proche du client
N°1 en utilisant la distance de Manhattan entre les trois attributs (spécifiez les formules de calcul)?
Que représentent ces calculs ?
Si on généralise ces traitements sur un ensemble de données, quelle est le but principal de cette
approche ? Citez le nom de trois méthodes (types) utilisées pour appliquer cette approche ?

Exercice 03 (04 Pts) : Une société de production artistique désire faire une enquête de satisfaction sur
l’ensemble des spectacles de théâtre qu’elle a produit cette année pour prévoir le programme de travail
de la prochaine année. La base de données intègre des données sur les spectacles (artistes, lieu de
représentation, période, durée, sujet,…etc) et sur les spectateurs (sexe, niveau,…etc). Bien sûr,
l’appréciation donnée par les spectateurs représente la variable classe qu’on veut prédire. Le modèle de
classification est construit avec 32000 enregistrements. L’évaluation a permet de donner les résultats
suivants :
• Le nombre de personnes qui ont répondus négativement (non satisfait) alors que l’évaluation
leur a donné une réponse positif (satisfait) est de 2400.
• Précision = 0,60
• Taux d’erreur = 20 %
 Construisez la matrice de confusion associée à cet exercice sachant le modèle est construit avec les
2/3 de l’ensemble des données historisées.
 Supposant un cas général avec N classes, On peut bien sûr normaliser la matrice de confusion pour
en simplifier la lecture. Donnez le type que doit rapprocher la matrice de confusion pour que le taux
d’erreur soit le plus faible possible (un meilleur système de classification).

☺ Un tiens dans la main vaut mieux que deux tu l'auras ☺


☺ A bird in the hand is worth two in the bush ☺

☺ ‫ﻋﺼﻔﻮر ﰲ اﻟﻴﺪ ﺧﲑ ﻣﻦ ﻋﴩة ﻋﲆ اﻟﺸﺠﺮة‬ ☺

Enseignant : Mr K. Boudjebbour Page 2 / 2


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département Informatique Année universitaire : 2016-2017
Corrigé type de l’EFS S1 : Théorie et pratique du Datamining
Exercice 01 (05,50 Pts) :
1. Les quatre étapes du processus ECD sont :
• Phase d’acquisition des données : Selection, Nettoyage, Intégration 2 Pt
• Phase Préparation des données : Transformation, Mise en forme, construction attributs
• Phase fouille de données : Datamining.
• Phase Gestion de connaissances : Evaluation, simplification, Mise en forme et présentation.
2. les trois motivations principales qui poussent à garder des données très anciennes sont :
• Développement des technologies de récupération et de stockage de données.
0,75 Pt • Réduction du coût de stockage des données pour garder des téra-octets de données.

• L’existence d’une véritable mine d’or dedans qu’on appelle connaissances.


3. Les trois méthodes de calcul de distances entre clusters sont :
- Distance minimale entre toutes les paires de données des deux clusters (single link method)
- Distance maximale entre toutes les paires de données des 2 clusters (Complete Link Method)
- Distance moyenne entre toutes la paires d’enregistrements (Average Linkage) 0,75 Pt
4. Le fonctionnement des méthodes hiérarchiques suit globalement l’algorithme suivant :
En entrée: un échantillon de m enregistrements x1, …, xm
1. On commence avec m clusters (cluster = 1 enregistrement)
1 Pt
2. Grouper les deux clusters les plus «proches».
3. S’arrêter lorsque tous les enregistrements sont membres d’un seul groupe
4. Aller en 2.
5. Les avantages des arbres de décision sont :
• Compréhensible pour tout utilisateur (lisibilité du résultat)
• Tout type de données
• Robuste au bruit et aux valeurs manquantes
• Classification rapide (parcours d’un chemin dans un arbre) (racine feuille)
• Outils disponibles dans la plupart des environnements de data mining 1 Pt
Les inconvénients des arbres de décision sont :
• Sensibles au nombre de classes: performances se dégradent
• Si les données évoluent dans le temps, il est nécessaire de relance la phase d’apprentissage
Exercice 02 (11,50 Pts) :
1) Indice GINI sur un seul ensemble est :1 − ∑
  0,5 Pt
Tel que : S représente l’ensemble des données et Pi est la fréquence relative de la classe c dans S
Gini(S1,S2,..,Si)= ∑ / Gini(Si) tel que Ni représente le nombre d’instances du sous ensemble Si
selon un test donné.

Enseignant : Mr K. Boudjebbour Page 1 / 4


- Il faut trouver le branchement (split-point) qui minimise l’indice Gini pour les trois attributs (Age, sexe
et Spécialité) :
a) Age : <30 ≥30
GINI(Age) = 8/13*(1-(3/8)2-(5/8)2) + 5/13 (1-(3/5)2-(2/5)2=0,47307692 Oui 3 3
Non 5 2
b) Sexe :
M F
GINI(Sexe) = 6/13*(1-(2/6)2-(4/6)2) + 7/13 (1-(4/7)2-(3/7)2)=0,42490843 1,5 Pt
Oui 2 4
c) Spécialité : Non 4 3

GINI(Sexe) = 5/13*(1-(4/5)2-(1/5)2)+4/13*(1-(1/4)2- IT Médecine Engineering Sociologie


Oui 4 1 0 1
(3/4)2)+2/13*(1-(0/2)2-(2/2)2)+2/13*(1-(1/2)2-(1/2)2)
Non 1 3 2 1
= 0,31538462
Donc on choisit l’attribut « spécialité » avec l’indice GINI le plus bas (GINI=0.31538462) qui
représente la racine de l’arbre, Donc l’arbre initial sera : Spécialité
0,5 Pt IT Sociologie
Médecine Engineering
Sous arbre IT : ???
Non ???
a) Age : ???
<30 ≥30
GINI(Age) = 3/5*(1-(2/3)2-(1/3)2)
Oui 2 2
+ 2/5 (1-(2/2)2-(0/2)2)=0,26666666
Non 1 0
b) Sexe : 1 Pt
GINI(Sexe) = 3/5*(1-(0/3)2-(3/3)2) M F
Oui 1 3
+ 2/5 (1-(1/2)2-(1/2)2)=0,2 Non 1 0
Donc on choisit l’attribut « Sexe» avec l’indice GINI le plus bas , Donc l’arbre sera :

Spécialité
IT
Médecine Engineering Sociologie
0,5 Pt Sexe
M F ??? Non ???
Age Oui
<30 ≥30
Sous arbre Médecine :
Non Oui
a) Age :
GINI(Age) = 2/4*(1-(0/2)2-(2/2)2) <30 ≥30
Oui 0 1
+ 2/4 (1-(1/2)2-(1/2)2)=2/4*0,5=0,25 Non 2 1
0,5 Pt
b) Sexe :
GINI(Sexe) = 2/4*(1-(0/2)2-(2/2)2) + M F
Oui 1 0 Spécialité
2/4 (1-(1/2)2-(1/2)2)=2/4*0,5=0,25 IT
Non 1 2 Médecine Sociologie
Les deux attributs ont la même valeur du GINI, Sexe Engineering
Age ???
M F
Donc on choisit l’un d’eux et l’arbre sera : <30 ≥30 Non
Age 0,5 Pt
Oui Sexe
Non
<30 ≥30
M F
Non Oui Non Oui
Enseignant : Mr K. Boudjebbour Page 2 / 4
Sous arbre Sociologie :
a) Age :
GINI(Age) = 2/2 (1-(1/2)2-(1/2)2)=2/2*0,5=0,5 <30 ≥30
b) Sexe : Oui 1 0
Non 1 0
GINI(Sexe) = 0 M F 0,5 Pt
Donc on choisit l’attribut « Sexe» avec l’indice Oui 0 1
Non 1 0
GINI le plus bas , Donc l’arbre final sera :

Spécialité
IT
Médecine Sociologie
Sexe Engineering
0,5 Pt Age Sexe
M F
<30 ≥30 Non M F
Age Oui Non Sexe Non Oui
<30 ≥30
M F
Non Oui Non Oui
2) On applique l’ensemble test T sur l’arbre de décision et on trouve la classe prédite :

N° Age Sexe Specialité Classe réelle Classe prédite


14 24 F IT Oui Oui
15 29 M Sociologie Non Non
16 45 F Engineering Non Non
17 35 M IT Non Oui 0,5 Pt

18 21 F Médecine Non Non


19 26 M Sociologie Non Non
20 46 F IT Oui Oui
21 40 M IT Oui Oui
0,5 Pt
• Matrice de confusion : Prédite (Oui) Prédite (Non) Total
Classe réelle (Oui) a=3 b=0 3
Classe réelle (Non) c=1 d=4 5
3) Indicateurs synthétiques : Total 4 4 8

• Vrais Positifs VP = 3 • Faux Positifs FP = 1 • Taux de VP = a/(a+b) = 100 % 0,5 Pt


• Taux de FP = c/(c+d) = 20 % • Précision = a/(a+c) =75 % • Spécificité = d/(c+d) = 80 %
• Taux d’erreur = b+c / n, Donc le taux d’erreur est : 1/8 = 0,125 = 12,5 % 0,5 Pt
4) Il faut calculer la distance de manhattan entre l’instance N°1 et toutes les autres instances de T :
Distance de manhattan : D(X,Y)= ∑
| − |, Distance normalisée : D(Xi,Yi)= (Xi-Yi)/Dmax 0,5 Pt
Distance entre variable discrètes : D(X,Y)= (P-M) / P , tel que : P est le nombre total d’attributs et M
le nombre de ressemblance
Dmax = 46-19=27

Enseignant : Mr K. Boudjebbour Page 3 / 4


|
|
 
D(1,14) =

+ (2 − 2)/2 =0,185 ; D(1,15) = + 1=1,37 ; D(1,16) = + 0,5=1,463
 

  
D(1,17) = + 0,5=1,093 ; D(1,18) = + 1=1,074 ; D(1,19) = + 1=1,259 1 Pt
  
 

D(1,20) = + 0=1 ; D(1,21) = + 0,5=1,277


 
Donc, l’instance la plus proche de l’instance N°1 est : l’instance N° 14. 0,5 Pt
Ces calculs représentent le calcul de la distance entre instances (similarité) 0,5 Pt
C’est une technique d’apprentissage non supervisée de Datamining appelée Clustering (segmentation)
qui sert à déterminer des groupes de ressemblances entre les instances de la BDD. 0,5 Pt
Les méthodes sont : - Méthode de partitionnement (K-means), les Méthodes hiérarchiques (par
agglomération) et les méthodes par voisinage dense. 0,5 Pt
Exercice 03 (04 Pts) :
Ensemble modèle = 32000 = 2/3 * BDD => BDD =48000. 0.5 Pt
Ensemble test = 1/3 * BDD = 16000=N. 0.5 Pt
Nombre de personnes non satisfaits alors que leur évaluation est positif =c =2400 0,25 Pt
Precision = 0.60 donc a/(a+c) =0.60 alors 0.40 *a = 0.60 * c => a = 3600 0,25 Pt
Taux d’erreur =0.20 donc (c+b)/N=0.20 alors b=0.20 * N – c => b=800 0,25 Pt
N = a+b+c+d donc d=N-(b+c+a)=16000-(800+2400+3600) => d= 9200 0,25 Pt
Positif Négatif Total
Satisfait (Vrai) a=3600 b=800 a+b=4400
1 Pt
Non Satisfait (Faux) c= 2400 d=9200 c+d=11600
Total a+c=6000 b+d=10000 N=16000
Pour que le taux d’erreur soit le plus faible possible (un meilleur système de classification), la matrice
de confusion doit être une matrice diagonale. 1 Pt

Enseignant : Mr K. Boudjebbour Page 4 / 4


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématique et Informatique Année universitaire : 2018-2019
Interrogatoire : Théorie et pratique du Datamining Durée : 75 mn

Exercice 01 (03 pts : 10 Mn) : Répondez brièvement aux questions suivantes :


1. Expliquer le fonctionnement de la méthode de rééchantionnage Bootstrap ?.
2. Plusieurs domaines sont la base des techniques de Datamining. Citez cinq domaines ?
3. Es ce qu’une règle d’association avec un support et une confiance acceptable veut dire que cette règle
est pertinente ? expliquez notamment avec des exemples ?
Exercice 02 (08 pts : 40 Mn) :
Le tableau suivant contient des données sur les
N° Doublant Série Mention Classe
résultats obtenus par des étudiants de Tronc Commun 01 Non Maths ABien Admis
(première année à l'Université). Chaque étudiant est 02 Non Techniques ABien Admis
décrit par 3 attributs : Est-il doublant ou non, la série 03 Oui Sciences ABien Non Admis
du Baccalauréat obtenu et la mention. Les étudiants 04 Oui Sciences Bien Admis
sont répartis en deux classes : Admis et Non Admis. 05 Non Maths Bien Admis
On veut construire un arbre de décision à partir des 06 Non Techniques Bien Admis
données du tableau, pour rendre compte des éléments 07 Oui Sciences Passable Non Admis
qui influent sur les résultats des étudiants en Tronc 08 Oui Maths Passable Non Admis
Commun. Les lignes de 1 à 12 sont utilisées comme 09 Oui Techniques Passable Non Admis
données d'apprentissage. Les lignes restantes (de 13 à 10 Oui Maths TBien Admis
11 Oui Techniques TBien Admis
16) sont utilisées comme données de tests.
12 Non Sciences TBien Admis
1. Utiliser les données d’apprentissage pour 13 Oui Maths Bien Admis
construire l'(les) arbre(s) de décision en utilisant 14 Non Sciences ABien Non Admis
l'algorithme ID3. Montrez toutes les étapes et 15 Non Maths TBien Admis
formules de calcul. Dessinez l’arbre final. 16 Non Maths Passable Non Admis
2. Déduire de l'arbre trouvé la petite règle correspondante.
3. Classer l’instance N°17: Doublant=Oui, Série=Maths, Mention=ABien. Que remarquez-vous ?
4. Quels sont les résultats de test de l'arbre obtenu sur les données de tests ? déduisez le taux d’erreur ? En
comparant les résultats obtenus, que suggérez-vous concernant l’arbre résultante ?
5. En se basant sur la comparaison et la suggestion de la question 5, que pouvez dire sur la prédiction de
l’avenir des étudiants de tronc commun par rapport aux résultats obtenus au baccalauréat.
Exercice 03 (04 pts : 10 Mn) :
Soit l'ensemble D des entiers suivants : D= { 2, 5, 8, 10, 11, 18, 20 }. On veut répartir les données de D en
trois (3) clusters en utilisant l'algorithme Kmeans et la distance de manhathan
1/ Appliquez Kmeans en choisissant comme centres initiaux des 3 clusters respectivement : 8, 10 et 11.
Montrez toutes les étapes de calcul.
2/ Donnez le résultat final et précisez le nombre d'itérations qui ont été nécessaires.
3/ Peut-on avoir un nombre d'itérations inférieur pour ce problème ? Discutez.

☺ To succeed in life one must have the courage to pursue what he wants ☺

Enseignant : Mr K. Boudjebbour Page 1 / 1


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématiques et Informatique Année universitaire : 2018-2019

Corrigé type EFS S1 : Théorie et pratique du Datamining

Exercice 01 (06 Pts) :


a) Appliquer la classification hiérarchique ascendante sur l’ensemble X
X 1 2 9 12 20
On va utilisé la distance de Manhattan entre instances : D(X,Y) = ∑
| − |
Et la distance minimale entre toutes les paires de données des 2 clusters (single link method) :
DSingle(i,j) = Minx€i y€j D(X,Y) 0,5 Pt
Les tableaux suivants représentent les différentes distances DSingle entre différents clusters :
Etape 1 :
1 2 9 12 20
1 1 8 11 19
2 7 10 18  Regroupement des clusters {1} et {2} en {1,2}
9 3 11
12 8
Etape 2 :
1,2 9 12 20
3 Pt 1,2 7 10 18
 Regroupement des clusters {9} et {12} en {9,12}
9 3 11
12 8
Etape 3 :
1,2 9,12 20
1,2 7 18  Regroupement des clusters {1,2} et {9,12} en {1,2,9,12}
9,12 8
Etape 4 :
1,2,9,12 20
 Regroupement des clusters {1,2,9,12} et {20} en {1,2,9,12,20}
1,2,9,12 8
 {1,2,9,12,20} D
Single Dendrogramme :

 {
b) L’inertie intra-cluster IA = ∑

∑
²(, )

i : instance ; Gk : centroid du groupe k ;


Nk : Nombre d’instance du groupe k
1 Pt
- Un regroupement en 2 clusters :
C1={1,2,9,12} centroid C1 = 6
C2={20} centroid C2 = 20
1,5 Pt IA= ((1-6)²+ (2-6)²+ (9-6)²+ (12-6)²)+ (20-20)²=86 Données
- Un regroupement en 3 clusters : 1 2 9 12 20  {1,2
C1={1,2}centroid C1=1,5 C2={9,12}centroid C2 = 10,5 et C3={20}centroid C3 = 20
IA= ((1-1,5)²+ (2-1,5)²)+((9-10,5)²+ (12-10,5)²)+ (20-20)²=5
Donc le meilleur regroupement est celui de 3 clusters car son inertie intra-cluster IA est la plus petite.

Enseignant : Mr K. Boudjebbour Page 1 / 4


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématiques et Informatique Année universitaire : 2018-2019
Exercice 02 (09 Pts) :

 
1) On calcul l’entropie sur l’ensemble des données : I(11,7)= - log - log = 0,964 0,5 Pt





Ensuite on calcul le gain de chaque attribut :
  
Gain (DegStr)= I(11,7)-E(DegStr)=0,964-( I(3, 3)+ I(3,3) + I(5,1))= 0,081




  
Gain (HrSom)= I(11,7)-E(HrSom)=0,964-( I(6,0)+ I(1,5) + I(4,2))= 0,441 1 Pt




 
Gain (Fum)= I(11,7)-E(Fum)=0,964-( I(4,5)+ I(7,2))= 0,086




Donc on choisit l’attribut « HrSom » avec le gain le plus grand (Gain=0.411) qui représente la racine
de l’arbre, Donc l’arbre initial sera : HrSom
Egal 0,5 Pt
Supérieur
Moins
Inst : 5, à 12 ??? Inst : 13 à 18
Yes ???

Les valeurs Egal et Supérieur donnent deux valeurs de la classe, donc, il faut refaire le même travail
(calcul du gain) pour l’ensemble des données SEg={3,4,9,10,15,16} et SSup={5,6,11,12,17,18}.
• I(SEg) =I(1,5)=0,650
  
Gain (SEg, DegStr)= I(1,5)-E(SEg, DegStr)= 0,650-( I(0,2)+ I(0,2) + I(1,1))= 0,317
  
 
1 Pt Gain (SEg, Fum)= I(1,5)-E(SEg, Fum)= 0,650-( I(0,3)+ I(1,2))= 0,191
  HrSom
Donc on choisit l’attribut « DegStr » avec Egal Supérieur
le gain le plus grand (Gain=0.317), et l’arbre devient : Moins
DegStr
???
Petit ou Normal Fort Yes Inst : 13 à 18
or
No Fum
Non Oui
• I(SSup) =I(4,2)=0,919
 No Yes
Gain (SSup, DegStr)= I(4,2)-E(SSup, DegStr)= 0,919-( I(1,1)

 
+ I(1,1)+ I(2,0))= 0,252 HrSom
 
Gain (SSup, Fum)= I(4,2)-E(SSup, Fum) 1 Pt Egal Supérieur
  Moins
= 0,919-( I(1,2)+ I(3,0))= 0,495 DegStr Fum
 
Petit ou Normal Fort Yes Oui Non
Donc on choisit l’attribut « Fum » avec
le gain le plus grand (Gain=0.495), No Fum Yes DegStr
et l’arbre final devient : Non Oui Petit ou Normal Fort
No Yes No Yes
2) Règle :
(HrSom = Moins) ou ((HrSom ≠ Moins) et (DegStr=Fort) et ((Fum=Oui) ou ((Fum=Non) et
(DegStr=Fort)))) 1 Pt

Enseignant : Mr K. Boudjebbour Page 2 / 4


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématiques et Informatique Année universitaire : 2018-2019
3) On applique l’ensemble test T sur l’arbre de décision et on trouve la classe prédite :

Instance DegStr HrSom Fum Classe réelle Classe prédite


19 Petit Supérieur Oui Yes Yes
20 Fort Superieur Non Yes Yes
21 Petit Egal Non No No
22 Fort Egal Non Yes No
23 Normal Supérieur Oui No Yes
24 Petit Egal Oui No No

• Matrice de 1 Pt
Prédite (Yes) Prédite (No) Total
confusion :
Classe réelle (Yes) 2 1 3
Classe réelle (No) 1 2 3
Total 3 3 6
• Taux d’erreur = b+c / n, Donc le taux d’erreur est : 2/6 = 0,3333 = 33,33 %
0,5 Pt • Précision = a/(a+c) = 66,66 % : représente le pourcentage des colopathies positivement prédites
par rapport aux total des colopathies prédites
0,5 Pt • Spécificité = d/(c+d) = 66,66 % représente le pourcentage des non colopathies positivement

prédite par rapport aux total des non colopathies réelles.


4) Il faut calculer la distance entre l’instance N°19 et les 18 autres instances tel que :
D1(Xi,Yi)= (P-M) / P tel que : P est le nombre total d’attributs (=2) et M le nombre de
ressemblance entre les deux attributs énumératifs « DegStr » et « HrSom »
D2(Xi,Yi)= 0 si Xi = Yi
Concerne l’attribut binaire « Fum »
0,5 Pt 1 sinon
Ensuite, calculer la distance global D avec une distance d’attributs numériques par exemple
avec la distance de manhattan : D(X,Y)= ∑
| − |
Donc : D(X,Y)=D1(Xi,Yi) + D2(Xi,Yi)
Instance 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
D1 0,5 0,5 0,5 0,5 0 0 1 1 1 1 0,5 0,5 1 1 1 1 0,5 0,5
D2 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0
D 1,5 0,5 1,5 0,5 1 0 2 1 2 1 1,5 0,5 2 1 2 1 1,5 0,5
rang 4 2 4 2 3 1 5 3 5 3 4 2 5 3 5 3 4 2

1,5 Pt

Enseignant : Mr K. Boudjebbour Page 3 / 4


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématiques et Informatique Année universitaire : 2018-2019
Exercice 03 (06 Pts) :
- On génère d’abord les itemsets fréquents de support minimum = 2 :
C1 itemset {A} {B} {C} {D} {E}
Card 1

Support 3 3 4 1 4
F1 itemset Oui Oui Oui Non Oui

2 Pt
C2 itemset {A,B} {A,C} {A,E} {B,C} {B,E} {C,E}
Card 2

Support 1 3 2 2 3 3
F2 itemset Non Oui Oui Oui Oui Oui

C3 itemset {A,B,C} {A,B,E} {A,C,E} {B,C,E} C4 itemset {A,B,C,E}


Support / / 2 2 Support /
Card 3

Card 4
F3 itemset Non Non Oui Oui F4 itemset Non
Cause {A,B} non Fréquent {A,B,C}
Cause
non Fréquent
- On génère maintenant les règles d’associations d’une confiance minimale = 60 % pour tout sous
ensembles non vides fréquents :
- Pour l’itemset fréquent {A,C,E}
Règle {A,C}E {A,E}C {C,E}A A{C,E} C{A,E} E{A,C}
Confiance 66,66 % 100 % 66,66 % 66,66 % 50 % 50 % 1 Pt
Conclusion Acceptée Acceptée Acceptée Acceptée Rejetée Rejetée
- Pour l’itemset fréquent {B,C,E}
Règle {B,C}E {B,E}C {C,E}B B{C,E} C{B,E} E{B,C}
Confiance 100 % 66,66 % 66,66 % 66,66 % 50 % 50 % 1 Pt
Conclusion Acceptée Acceptée Acceptée Acceptée Rejetée Rejetée
- Pour les autres itemset
- AC , AE sont redondantes par rapport à A{C,E}
- BC , BE sont redondantes par rapport à B{C,E} 1 Pt

Règle CA EA CB EB CE EC


Confiance 75 % 50 % 50 % 75 % 75 % 75 %
Conclusion Acceptée Rejetée Rejetée Acceptée Acceptée Acceptée

- Un motif fréquent est dit fermé s’il ne possède aucun sur-motif qui a le même support, exp : {A,C} 1 Pt
- Un motif fréquent est dit Maximal si aucun de ses sur-motifs immédiats n’est fréquent, exp:{A,C,E}

Enseignant : Mr K. Boudjebbour Page 4 / 4


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématique et Informatique Année universitaire : 2017-2018

Interrogatoire : Théorie et pratique du Datamining

Exercice 01 (02 pts) : Supposons qu’on veut utiliser des données binaires dans un processus de
clustering. Citer (ou proposer) une (des) mesure(s) de similarité (distance(s)) pour ce type de données.
Evaluer la (les) distance(s) entre les objets X = 0101010001 et Y = 0100011000. Que remarquez-vous ?
Déduisez la distance de Hamming associée. A quoi la valeur trouvée correspond-elle ?

Exercice 02 (03 pts) : Répondez brièvement aux questions suivantes :


1. Que signifie l’élagage et quel est son objectif ?
2. Quelle est la différence entre les techniques descriptives et les techniques prédictives de datamining ?
3. Dans le processus ECD, une phase de préparation des données est nécessaire. Que signifie la
transformation des données ? expliquer en donnant des exemples

Exercice 03 (05 pts) : Soit l’ensemble d’apprentissage ci-dessous. La classe est « Edible ».
N° Shape Color Odor Edible
1 C B 1 Y
2 D B 1 Y
3 D W 1 Y
4 D W 2 Y
5 C B 2 Y
6 D B 2 N
7 D G 2 N
8 C U 2 N
9 C B 3 N
10 C W 3 N
11 D W 3 N
1. En utilisant l’algorithme ID3 et le gain d’information, construire l’arbre de décision du dataset. Donner
les détails des calculs.
2. Déduire de l'arbre trouvé une seule règle comportant 2 disjonctions et 2 conjonctions au maximum.
3. En utilisant l’arbre construit, classer l’instance N°12: Shape=C, Color=G, Odor=2.
4. En utilisant l’ensemble des onze instances, et en supposant que les attributs « Color » et « Odor » sont
des variables énumératives, dites lequel des instances est plus proche de l’instance N° 12 ? quelle est la
distance utilisée ? Que représentent ces calculs (donner le nom de ces calculs) ?
☺ To succeed in life one must have the courage to pursue what he wants ☺

Enseignant : Mr K. Boudjebbour Page 1 / 1


UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématique et Informatique Année universitaire : 2017-2018

Corrigé Interrogatoire : Théorie et pratique du Datamining

Exercice 01 (02,50 Pts): il faut dessiner la table de dissimilarité (contingence) : Y


0,5 Pt
on a trois cas possibles :
1 0
1. Similarité invariante, si toutes les variables sont symétriques (Coefficient de
correspondance simple) :
  1 2 2
D1(X,Y) ===0,3 0,5 Pt X
2. Similarité non invariante, si toutes les variables sont asymétriques (Coefficient 0 1 5
de Jaccard):
 
D2(X,Y) = = =0,6 0,5 Pt

3. Si les variables sont symétriques et asymétriques : il faut spécifier la nature de chaque variable. 0,25 Pt

0,5 Pt Malgré que D1 et D2 représentent deux distances entre les mêmes instances, on remarque que qu’elles
sont très éloignées car D2=2*D1
Distance de hamming = b+c = 3. Elle représente le nombre de caractéristiques différentes entre x et y. 0,25 Pt
Exercice 02 (03 Pts) :
1. L’élagage est la suppression de quelques sous-arbres dans la l’arbre de décision. Son objectif
principal est la réduction de l’arbre afin d’améliorer le taux d’erreur.
2. les techniques descriptives de datamining visent à mettre en évidence des informations présentes
mais cachées par le volume de données alors que les techniques prédictives visent à extrapoler de
nouvelles informations à partir des informations présentes. Elles se basent essentiellement sur des
modèles qui utilisent des données présentes ou passées pour construire des scénarios futurs.
3. La transformation des données est la transformation d’un attribut A en une autre variable A’ qui
serait selon les objectifs de l’étude, plus appropriée.
Exp 1 : Variable continue en variable discrète et vice versa
Exp 2 : La construction d’agrégats par exemple, le prix au mètre-carré d’un appartement
Exercice 03 (05,50 Pts):
 
1) On calcul l’entropie sur l’ensemble des données : I(5,6)= - log - log = 0,994 0,5 Pt
   
Ensuite on calcul le gain de chaque attribut :

Gain (Shape)= I(5,6)-E(Shape)= I(5,6)-( I(2,3)+ I(3,3))=0,008
 
  
Gain (Color)= I(5,6)-E(Color)= I(5,6)-( I(3,2)+ I(2,2)+ I(0,1)+ I(0,1)=0,189
   
 
Gain (Odor)= I(5,6)-E(Odor)= I(5,6)-( I(3,0)+ I(2,3)+ I(0,3))=0,553
  
Donc on choisit l’attribut « Odor » avec le gain le plus grand (Gain=0.553) qui représente le nœud la
racine de l’arbre, Donc l’arbre initial sera : Odor 1 Pt
2 3
1
????? N
Y
Instances : 4,5,6,7,8 Instance : 9,10,11
Instances : 1,2,3 Page 1 / 2
UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématique et Informatique Année universitaire : 2017-2018
La valeur Odor = 2 donne plusieurs valeurs de l’attribut classe, donc, il faut refaire le même travail
(calcul du gain) pour l’ensemble des données S2 ={4,5,6,7,8}. I(S2) =I(2,3)=0,971
   
Gain (S2, Color)= I(2, 3)-E(S2, Color)=0,971-( I(1,0) + I(1,1)+ I(0,1)+ I(0,1))=0,571

 
Gain (S2, Shape)= I(2, 3)-E(S2, Shape)=0,971-( I(1,2) + I(1,1))=0,020

Donc on choisit l’attribut « Color» avec le gain le plus grand (Gain=0,571). On aura deux branches
avec des nœuds terminaux et la branche B qui sera nécessairement départagée par le seul attribut
restant à savoir «Shape» et l’arbre final sera : Odor
2 3
1
Color N
Y Instance : 9,10,11
B G ou U W Instances : 1,2,3

Shape N Y 1 Pt
C D Instances : 7,8 Instance : 4

Y N
Instance : 5 Instance : 6
2) La règle qu’on peut déduire est :
(Odor = 1) ⋁ ((Odor = 2) ∧ ((Color = W) ⋁ ((Color = B) ∧ (Shape = C))) 1 Pt
3) La classe est : N 0,25 Pt
4) Il faut calculer la distance entre l’instance N°12 et les 11 autres instances :
D(X,Y)=D1(Xi,Yi) + D2(Xi,Yi)
D1(Xi,Yi)= (P-M) / P tel que : P est le nombre total d’attributs et M le nombre de ressemblance
Qui concerne les deux attributs énumératifs « Odor » et « Color »
D2(Xi,Yi)= 0 si Xi = Yi ; 1 sinon Concerne l’attribut binaire « Shape » 01 Pt

N° Instance D1 D2 D N° Instance D1 D2 D
1 1 1 2 7 0,5 0 0,5
2 1 0 1 8 0 1 1
3 1 0 1 9 1 1 2
4 0,5 0 0,5 10 1 1 2
5 0,5 1 1,5 11 1 0 1
6 0,5 0 0,5
Donc, les instances les plus proches de l’instance N°12 sont : l’instance N° 4, N° 6 et N° 7. 0,25 Pt
La distance utilisée est la distante mixte entre deux type d’attributs (dans notre cas, on a utilisé la
distance de Manhattan) qui représente un calcul de similarité entre instantes afin d’appliquer une
méthode de clustering. 0,5 Pt

Page 2 / 2

Vous aimerez peut-être aussi