Académique Documents
Professionnel Documents
Culture Documents
1
2. Le risque du patient ayant les attributs (Jeune,V,F) selon l’arbre construit est E.
3. Le risque du même patient en utilisant la classification bayésienne naı̈ve :
X = (Jeune,V,F)
P(X/Risque=F) = P(Age=Jeune/Risque=F)xP(S1=V/Risque=F)xP(S2=F/Risque=F)
x P(P(Risque=F)
= 0.5 x 0 x ... = 0
P(X/Risque=E) = P(Age=Jeune/Risque=E)xP(S1=V/Risque=E)xP(S2=F/Risque=E)
x P(P(Risque=E)
= 1/3 x 3/3 x 1/3 x 3/10 = 9/90 = 0.1
P(X/Risque=M) = P(Age=Jeune/Risque=M)xP(S1=V/Risque=M)xP(S2=F/Risque=M)
x P(P(Risque=M)
= 0 x ... = 0
Dr A.Djeffal
2
Université Med Boudiaf -M’sila M’sila, le 01/02/2011
Faculté des Mathématiques et d’Informatique
Département d’Informatique
Module : Data Mining et Recherche d’Information
Master 2/ S.I. Avancés
Durée : 1h 30
Examen Semestriel
Exercice 1 (2 points)
En utilisant Google, vous tapez le mot « souvenir » puis le mot « qouvenir ». Quelle est la réponse de Google
pour le premier et le 2ème mot ? Expliquez.
Exercice 2 (4 points)
Etant données les valeurs tf et df du tableau ci-contre, Terme df Doc1-tf Doc2-tf Doc3-tf
calculer pour chaque document, le tf*idf des termes Car 200 1 100 10
suivants: car, auto, assurance, bon. auto 20 1 10 1
assurance 2 000 100 10 1
Il y a au total 200 000 documents. On utilisera bon 20 000 100 1 000 10
le logarithme base 10.
Exercice 3 (4 points)
a b c d e
Considérer la matrice de dissimilarité suivante P.
0 4 9 6 5
Déterminer les dendrogrammes résultants de l’application du
« single link algorithm », puis du « complete link algorithm » sur 4 0 3 8 7
P et commentez. 9 3 0 3 2
6 8 3 0 1
5 7 2 1 0
Exercice 4 (5 points)
Soit le tableau de données suivant.
Les valeurs possibles des attributs du N° Humidité Climat Température Golf
tableau sont : 1 haute soleil chaud NePasJouer
Humidité : normale, haute 2 haute soleil chaud NePasJouer
Climat : soleil, couvert, pluie 3 haute couvert chaud Jouer
Température : chaud, bon, frais 4 haute pluie bon Jouer
5 normale pluie frais Jouer
La colonne « Golf » donne les classes : 6 normale pluie frais NePasJouer
Jouer, NePasJouer. 7 normale couvert frais Jouer
8 haute soleil bon NePasJouer
En utilisant l’entropie comme critère de sélection, 9 normale soleil frais Jouer
déterminer l’attribut qui sera la racine de l’arbre 10 normale pluie bon Jouer
de décision. 11 normale soleil bon Jouer
N.B. On pourra utiliser la formule : 12 haute couvert on Jouer
log2(x) = log10(x) / log10(2). 13 normale couvert chaud Jouer
14 haute pluie bon NePasJouer
Exercice 5 (5 points)
Bonne réussite
T. Mehenni
DATA MINING ET RECHERCHE D’INFORMATION Responsable du cours :
CORRECTION DE L’EXAMEN (2010/2011) T. Mehenni
Exercice 1 (2 points)
Exercice 2 (4 points)
On a tf*idf=tf*log(d/df).
- Mot « car » : idf=log(200 000/200)=3 …………………………………….(4* 0.25 pt)
- Doc1 : tf*idf = 1 * 3 = 3
- Doc2 : tf*idf = 100 * 3 = 300
- Doc3 : tf*idf = 10 * 3 = 30
- Mot « auto » : idf=log(200 000/20)=4 …………………………………….(4* 0.25 pt)
- Doc1 : tf*idf = 1 * 4 = 4
- Doc2 : tf*idf = 10 * 4 = 40
- Doc3 : tf*idf = 1* 4 = 4
- Mot « assurance » : idf=log(200 000/2000)=2 ……………………………….(4* 0.25 pt)
- Doc1 : tf*idf = 100 * 2 = 200
- Doc2 : tf*idf = 10 * 2 = 20
- Doc3 : tf*idf = 1 * 2 = 2
- Mot « bon » : idf=log(200 000/20 000)=1 …………………………….(4* 0.25 pt)
- Doc1 : tf*idf = 100 * 1 =100
- Doc2 : tf*idf = 1000 * 1 = 1000
- Doc3 : tf*idf = 10 * 1 = 10
Exercice 3 (4 points)
- Simple link algorithm : ………………………………………………………….(4* 0.25 pt)
a b c d e
a 0 a b c de
b 4 0 a 0 a b Cde
c 9 3 0 b 4 0 a 0 a bcde
d 6 8 3 0 c 9 3 0 b 4 0 a 0
e 5 7 2 1 0 de 5 7 2 0 cde 5 3 0 bcde 4 0
grouper (a, b) grouper (c, de) grouper (b, cde) grouper(a, bcde)
a b c d e
a 0 a b c de
b 4 0 a 0 a b cde
c 9 3 0 b 4 0 a 0 ab cde
d 6 8 3 0 c 9 3 0 b 4 0 ab 0
e 5 7 2 1 0 de 6 8 3 0 cde 9 8 0 cde 9 0
1/4
Les dendrogrammes : ……………………………………………………….(2 pts)
4 4
3 3
2
1 1
a b c d e a b c d e
single link complete link
Exercice 4 (5 points)
Gain(Température)= 0.282 – 4/14 * 0.301 – 6/14 * 0.276 – 4/14 * 0.243 = 0.001 …………….(0.5 pt)
L’attribut choisi pour la racine de l’arbre de décision est donc « Climat ». …………………….(1 pt)
Exercice 5 (5 points)
On garde tous les 1-itemset car ils ont un support > 10%.
On garde les 2-itemset suivants : AB, AC,AD, AE, BC, BE, CD et CE (8 2-itemset).
3/4
Générations des règles :
Si A Alors B Si B Alors A
Si A Alors C Si C Alors A
Si A Alors D Si D Alors A
Si A Alors E Si E Alors A
Si B Alors C Si C Alors B
Si B Alors E Si E Alors B
Si C Alors D Si D Alors C
Si C Alors E Si E Alors C
Si A Alors BC Si BC Alors A
Si A Alors BE Si BE Alors A
Si A Alors CD Si CD Alors A
Si A Alors CE Si CE Alors A
Si B Alors CE Si CE Alors B
Si B Alors AC Si AC Alors B
Si B Alors AE Si AE Alors B
Si C Alors AD Si AD Alors C
Si C Alors AE Si AE Alors C
Si C Alors BE Si BE Alors C
Si C Alors AB Si AB Alors C
Si E Alors AB Si AB Alors E
Si D Alors AC Si AC Alors D
Si E Alors AC Si AC Alors E
Si E Alors BC Si BC Alors E
4/4
I.U.T de Caen STID 2ème année Problème
Département STID Année Universitaire 2007-2008
Partie A - Profiling
Responsable de cours : Alain LUCAS
• Etude de la variable Credit.
1. On obtient :
XX
Correction Examen Data Mining XXX Credit
XXX Yes No Total
Insur. XX
Yes 5 3 8
No 1 6 7
Questions de cours Total 6 9 15
2. On obtient :
1. Le terme « data mining » est traduit par « fouille de données » en France. π(Credit = Y es) = 83, 33%
2. Le « data mining » consiste en l’exploration de vastes bases de données dans le but d’en extraire une information et donc
pertinente, inconnue jusqu’à présent, et à forte valeur ajoutée. π(Credit = Y es)
Odds(Credit = Y es) = =5
1 − π(Credit = Y es)
3. Le sigle CRISP-DM signifie CRoss Industry Standard Process for Data Mining.
4. Un système opérationnel est basé sur une architecture relationnelle dont l’objectif consiste à stocker efficacement 3. On obtient :
des données, et à permettre un accès optimisé pour des requêtes prédéfinies. A contrario, un système décisionnel π(Credit = N o) = 33, 33%
est généralement basé sur une architecture en étoile dont l’objectif consiste à permettre une exploration efficace et donc
au sein d’un grand volume de données. π(Credit = N o)
Odds(Credit = N o) = = 0, 5
5. Les trois approches que l’on peut rencontrer sont : 1 − π(Credit = N o)
– le reporting Finalement, on trouve OR(Y es|N o) = 10.
– l’analyse multidimensionnelle
– le data mining 4. Il ressort de l’OR que les clients possédant un crédit en cours ont 10 fois plus de chance d’avoir souscrit le produit
d’assurance que ceux n’ayant pas de crédit en cours. Clairement, cette variable présente un impact significatif
6. Les phases du processus CRISP-DM sont : sur la variable cible puisque l’OR est nettement différent de 1.
– « Business Understanding » qui consiste à cerner précisément la problématique, et à la transformer en projet
« Data Mining » ; • Etude de la variable Sex.
– « Data Understanding » qui consiste à prendre connaissance des données, et à en faire un premier bilan ; 1. On obtient :
– « Data Preparation » qui consiste à préparer les données en vue de l’étape de modélisation ; PP
PP Sex Male Female Total
– « Modeling » qui consiste à faire usage d’outils appropriés en vue de la modélisation des données ; Insur. PPP
– « Evaluation » qui consiste à évaluer la performance du ou des modèles, puis à sélectionner le cas échéant le P
Yes 3 5 8
meilleur ;
No 5 2 7
– « Deployment » qui consiste à mettre en oeuvre le modèle sélectionner sur des données vierges.
Total 8 7 15
7. Les trois sous-échantillons sont :
– le « training data set » dont l’objectif est de permettre l’apprentissage de l’algorithme 2. On obtient :
– le « test data set » dont l’objectif consiste à éviter le sur ou le sous apprentissage π(Sex = F emale) = 71, 43%
– le « validation data set » dont l’objectif consiste à comparer les performances de plusieurs modèles
et donc
8. L’expression « underfitting » correspond à la notion de sous-apprentissage laquelle traduit le fait que le modèle π(Sex = F emale)
Odds(Sex = F emale) = = 2, 5
est trop simple dans le sens qu’il ne capture pas toute la structure interne des données. A contrario, l’expression 1 − π(Sex = F emale)
« overfitting » correspond à la notion de sur-apprentissage laquelle traduit le fait que le modèle est trop complexe
dans le sens qu’il capture non seulement la structure interne des données, mais aussi le bruit. 3. On obtient :
π(Sex = M ale) = 37, 5%
9. L’intérêt d’élaguer un arbre est d’éviter le phénomène de sur-apprentissage.
et donc
10. La sensibilité représente la proportion de positifs bien classés parmi les positifs disponibles. La spécificité π(Sex = M ale)
représente la proportion de négatifs bien classés parmi les négatifs disponibles. Odds(Sex = M ale) = = 0, 6
1 − π(Sex = M ale)
Finalement, on trouve OR(F |M ) = 4, 17.
4. Il ressort de l’OR que les clients de sexe féminin ont 4,17 fois plus de chance d’avoir souscrit le produit d’assurance
que ceux de sexe masculin. Clairement, cette variable présente un impact significatif sur la variable cible puisque
l’OR est nettement différent de 1.
2
• Etude de la variable Income. Partie B - Arbre de décision
1. On obtient :
• Division 1.
XX
XX Income 1. Les variables Credit et Sex étant binaires, on peut constituer une seule division admissible pour chacune de
XXX 20-30 30-40 40-60 Total
Insur. XXX ces variables. La variable Income étant ordinale à quatre modalités, on peut constituer au plus trois divisions
Yes 2 3 3 8 admissibles. Enfin, la variable Age étant continue avec 12 valeurs distinctes, on peut constituer 11 divisions
No 2 2 3 7 admissibles distinctes.
Total 4 5 6 15 2. On obtient :
2. On obtient : Insur. Racine
π(Income = 20 − 30) = 50% Yes 8
No 7
et donc
π(Income = 20 − 30) Gini 0,498
Odds(Income = 20 − 30) = =1
1 − π(Income = 20 − 30) 3. Un tel indice mesure l’impureté à l’intérieur d’un segment. Ses valeurs extrêmes sont respectivement 0 et 0,5. La
3. On obtient : valeur 0 est obtenue lorsque le segment est pur, tandis que la valeur 0,5 est obtenue lorsque l’on est en présence
π(Income = 30 − 40) = 60% d’une distribution uniforme des deux modalités.
4. On obtient
et donc
π(Income = 30 − 40)
Odds(Income = 30 − 40) = = 1, 5 XX XX
1 − π(Income = 30 − 40) XX Credit
XXXSex
XX
XXX Yes No M F
Insur. XX Insur. XX
On obtient :
Yes 5 3 Yes 3 5
π(Income = 40 − 60) = 50%
No 1 6 No 5 2
et donc Gini 0,278 0,444 Gini 0,469 0,408
π(Income = 40 − 60) Gini Tot. 0.378 Gini Tot. 0,441
Odds(Income = 40 − 60) = =1
1 − π(Income = 40 − 60)
Finalement, on trouve OR(30 − 40|20 − 30) = 1, 5 et OR(40 − 60|20 − 30) = 1.
XX
4. En comparant ces deux OR avec ceux calculés précédemment, il ressort clairement que la variable Income ne XX Income
XXX 20-30 30-60 20-40 40-60 20-50 50-60
présente pas un impact significatif sur la variable cible car les coefficients sont très proches, voir identiques à la Insur. XX
valeur référente 1. Yes 2 6 5 3 6 2
No 2 5 4 3 7 0
• Etude de la variable Age.
Gini 0,500 0,496 0,494 0,500 0,497 0
1. Avec ces valeurs, il semble assez clair que la variable Age présente un impact significatif sur la variable cible (il Gini Tot. 0,497 0,496 0,431
faut tout de même vérifier que l’écart n’est pas du à une ou plusieurs valeurs atypiques ! !).
2. Le graphique confirme la première analyse : la variable Age présente bien un impact significatif sur la variable XXX
Insurance. En effet, on observe clairement une distribution différente de la variable Age selon que les clients ont X Age 23 28 32 36.5 38.5 39.5
Insur. XXX
souscrit ou non une assurance. En particulier, les clients d’âge médian semblent les plus appétents à ce produit Modalités
X
< ≥ < ≥ < ≥ < ≥ < ≥ < ≥
d’assurance. Yes 1 7 1 7 2 6 3 5 4 4 5 3
• Bilan. No 0 7 1 6 1 6 1 6 1 6 1 6
Gini 0 0,500 0,500 0,497 0,444 0,500 0,375 0,496 0,32 0,48 0,278 0,444
1. Via l’analyse précédente, on obtient :
Gini Tot. 0,467 0,497 0,489 0,464 0,427 0,378
XXX
Variable Statut X Age 40.5 41.5 42.5 44 50
Insur. XXX
Credit pertinente X
< ≥ < ≥ < ≥ < ≥ < ≥
Sex pertinente Yes 5 3 6 2 6 2 8 0 8 0
Income non pertinente No 2 5 2 5 3 4 4 3 5 2
Age pertinente Gini 0,408 0,469 0,375 0,408 0,444 0,444 0,444 0 0,473 0
Gini Tot. 0,441 0,390 0,444 0,355 0,410
2. Afin d’améliorer la vente du produit, il importe de cibler en particulier : les clients ayant un crédit, les clients
de sexe féminin, et les clients d’âge médian (30-40).
5. La meilleure division globale étant obtenue pour la valeur de l’indice de Gini total la plus faible, on déduit des
tableaux précédent que cette division est réalisée par la variable Age, avec la condition < ou ≥ à 44 ans.
3 4
6. On obtient le graphique suivant : 2. Clairement, la meilleure division globale est obtenue pour la variable Credit. On peut noter que cette meilleure
division est également obtenue avec la variable Sex ainsi que la variable Age.
3. On obtient le graphique suivant :
Α ≥
Α ≥
4. Clairement, aucun des deux segments ne sera déclaré comme terminal puisqu’aucune des deux contraintes n’est
satisfaite. Les deux segments seront donc déclarés comme segments intermédiaires.
• Division 3.
1. Clairement, on travaille ici sur le segment Credit=Yes.
7. Le premier segment ne vérifie aucune des deux conditions d’arrêt puisqu’il n’est pas pur et que le nombre 2. On obtient :
d’unités le composant est égal à 12. Par conséquent, ce segment est un segment intermédiaire. Par contre le
second segment est clairement pur, il sera donc déclaré comme terminal. XX
XXXSex
XX XX
• Division 2. M F XX Income
Insur. XXX 20-30 30-50 20-40 40-50
XX Insur. XX
1. On obtient : Yes 3 2 Yes 2 3 4 1
No 0 1 No 0 1 1 0
XX
XX Credit
XX Gini 0 0,444
XX Sex Gini 0 0,375 0,32 0
XX
XX Yes No M F Gini Tot. 0,222
Insur. XXX Insur. XXX Gini Tot. 0,25 0,267
Yes 5 3 Yes 3 5
No 1 3 No 3 1
XX
Gini 0,278 0,5 Gini 0,5 0,278 XX Age 24 32 37.5 41.5
Insur. XXX
Gini Tot. 0,389 Gini Tot. 0,389 X
Modalités < ≥ < ≥ < ≥ < ≥
XXX Yes 1 4 2 3 3 2 3 2
XXIncome 20-30 30-60 20-40 40-60 20-50 50-60 No 0 1 0 1 0 1 1 0
Insur. XX Gini 0 0,32 0 0,375 0 0,444 0,375 0
XX
Yes 2 6 5 3 6 2 Gini Tot. 0,267 0,25 0,222 0,25
No 1 3 3 1 4 0
3. Clairement, la meilleure division globale est obtenue avec la variable Sex. En effet, l’indice de Gini associé à cette
Gini 0,444 0,444 0,469 0,375 0,48 0
division est seulement de 0,222.
Gini Tot. 0,444 0,438 0,400
4. On obtient
XXX
Gini 0 0,463 0,5 0,42 0,444 0,444 0,375 0,469 0,32 0,49
Gini Tot. 0,424 0,433 0,444 0,438 0,419
XX
XX Age 39.5 40.5 41.5 42.5
Insur. XXX X
< ≥ < ≥ < ≥ < ≥
Yes 5 3 5 3 6 2 6 2
No 1 3 2 2 2 2 3 1
Gini 0,278 0,5 0,408 0,48 0,375 0,5 0,444 0,444
5 6
5. Le premier segment est déclaré comme terminal car il est pur. Par contre, le second est déclaré comme terminal
car le nombre d’unités est inférieur à 5.
• Division 4.
1. On obtient :
XX
XX Sex
XX
M F
Insur. XXX
Yes 0 3
No 3 0
Gini 0 0
Gini Tot. 0
2. Clairement, il est inutile de continuer les calculs puisque d’une part cette division amène des segments purs,
et que d’autre part, c’est la première variable disponible dans le tableau de données. Par conséquent, c’est
nécessairement cette division qui sera choisie sous les contraintes spécifiées.
3. On obtient le graphique suivant :
Α ≥
4. Les deux segments obtenus étant pur, ils sont déclarés terminaux.
• Prévisions.
1. En choisissant la modalité de fréquence maximale, on obtient pour chacun des segments terminaux les valeurs
allouées suivantes :
– Segment 2 = No
– Segment 5 = Yes
– Segment 6 = Yes
– Segment 7 = No
– Segment 8 = Yes
2. On obtient finalement :
ID Credit Sex Income Age Insurance
1 Yes Male 50-60 46 No
2 No Female 20-30 18 Yes
3 No Male 40-50 42 No
4 Yes Male 50-60 51 No
5 No Female 50-60 43 Yes
7
I.U.T de Caen STID 2ème année Problème
Département STID Année Universitaire 2007-2008
Partie A - Profiling
Responsable de cours : Alain LUCAS
• Etude de la variable Credit.
1. On obtient :
XX
Correction Examen Data Mining XXX Credit
XXX Yes No Total
Insur. XX
Yes 5 3 8
No 1 6 7
Questions de cours Total 6 9 15
2. On obtient :
1. Le terme « data mining » est traduit par « fouille de données » en France. π(Credit = Y es) = 83, 33%
2. Le « data mining » consiste en l’exploration de vastes bases de données dans le but d’en extraire une information et donc
pertinente, inconnue jusqu’à présent, et à forte valeur ajoutée. π(Credit = Y es)
Odds(Credit = Y es) = =5
1 − π(Credit = Y es)
3. Le sigle CRISP-DM signifie CRoss Industry Standard Process for Data Mining.
4. Un système opérationnel est basé sur une architecture relationnelle dont l’objectif consiste à stocker efficacement 3. On obtient :
des données, et à permettre un accès optimisé pour des requêtes prédéfinies. A contrario, un système décisionnel π(Credit = N o) = 33, 33%
est généralement basé sur une architecture en étoile dont l’objectif consiste à permettre une exploration efficace et donc
au sein d’un grand volume de données. π(Credit = N o)
Odds(Credit = N o) = = 0, 5
5. Les trois approches que l’on peut rencontrer sont : 1 − π(Credit = N o)
– le reporting Finalement, on trouve OR(Y es|N o) = 10.
– l’analyse multidimensionnelle
– le data mining 4. Il ressort de l’OR que les clients possédant un crédit en cours ont 10 fois plus de chance d’avoir souscrit le produit
d’assurance que ceux n’ayant pas de crédit en cours. Clairement, cette variable présente un impact significatif
6. Les phases du processus CRISP-DM sont : sur la variable cible puisque l’OR est nettement différent de 1.
– « Business Understanding » qui consiste à cerner précisément la problématique, et à la transformer en projet
« Data Mining » ; • Etude de la variable Sex.
– « Data Understanding » qui consiste à prendre connaissance des données, et à en faire un premier bilan ; 1. On obtient :
– « Data Preparation » qui consiste à préparer les données en vue de l’étape de modélisation ; PP
PP Sex Male Female Total
– « Modeling » qui consiste à faire usage d’outils appropriés en vue de la modélisation des données ; Insur. PPP
– « Evaluation » qui consiste à évaluer la performance du ou des modèles, puis à sélectionner le cas échéant le P
Yes 3 5 8
meilleur ;
No 5 2 7
– « Deployment » qui consiste à mettre en oeuvre le modèle sélectionner sur des données vierges.
Total 8 7 15
7. Les trois sous-échantillons sont :
– le « training data set » dont l’objectif est de permettre l’apprentissage de l’algorithme 2. On obtient :
– le « test data set » dont l’objectif consiste à éviter le sur ou le sous apprentissage π(Sex = F emale) = 71, 43%
– le « validation data set » dont l’objectif consiste à comparer les performances de plusieurs modèles
et donc
8. L’expression « underfitting » correspond à la notion de sous-apprentissage laquelle traduit le fait que le modèle π(Sex = F emale)
Odds(Sex = F emale) = = 2, 5
est trop simple dans le sens qu’il ne capture pas toute la structure interne des données. A contrario, l’expression 1 − π(Sex = F emale)
« overfitting » correspond à la notion de sur-apprentissage laquelle traduit le fait que le modèle est trop complexe
dans le sens qu’il capture non seulement la structure interne des données, mais aussi le bruit. 3. On obtient :
π(Sex = M ale) = 37, 5%
9. L’intérêt d’élaguer un arbre est d’éviter le phénomène de sur-apprentissage.
et donc
10. La sensibilité représente la proportion de positifs bien classés parmi les positifs disponibles. La spécificité π(Sex = M ale)
représente la proportion de négatifs bien classés parmi les négatifs disponibles. Odds(Sex = M ale) = = 0, 6
1 − π(Sex = M ale)
Finalement, on trouve OR(F |M ) = 4, 17.
4. Il ressort de l’OR que les clients de sexe féminin ont 4,17 fois plus de chance d’avoir souscrit le produit d’assurance
que ceux de sexe masculin. Clairement, cette variable présente un impact significatif sur la variable cible puisque
l’OR est nettement différent de 1.
2
• Etude de la variable Income. Partie B - Arbre de décision
1. On obtient :
• Division 1.
XX
XX Income 1. Les variables Credit et Sex étant binaires, on peut constituer une seule division admissible pour chacune de
XXX 20-30 30-40 40-60 Total
Insur. XXX ces variables. La variable Income étant ordinale à quatre modalités, on peut constituer au plus trois divisions
Yes 2 3 3 8 admissibles. Enfin, la variable Age étant continue avec 12 valeurs distinctes, on peut constituer 11 divisions
No 2 2 3 7 admissibles distinctes.
Total 4 5 6 15 2. On obtient :
2. On obtient : Insur. Racine
π(Income = 20 − 30) = 50% Yes 8
No 7
et donc
π(Income = 20 − 30) Gini 0,498
Odds(Income = 20 − 30) = =1
1 − π(Income = 20 − 30) 3. Un tel indice mesure l’impureté à l’intérieur d’un segment. Ses valeurs extrêmes sont respectivement 0 et 0,5. La
3. On obtient : valeur 0 est obtenue lorsque le segment est pur, tandis que la valeur 0,5 est obtenue lorsque l’on est en présence
π(Income = 30 − 40) = 60% d’une distribution uniforme des deux modalités.
4. On obtient
et donc
π(Income = 30 − 40)
Odds(Income = 30 − 40) = = 1, 5 XX XX
1 − π(Income = 30 − 40) XX Credit
XXXSex
XX
XXX Yes No M F
Insur. XX Insur. XX
On obtient :
Yes 5 3 Yes 3 5
π(Income = 40 − 60) = 50%
No 1 6 No 5 2
et donc Gini 0,278 0,444 Gini 0,469 0,408
π(Income = 40 − 60) Gini Tot. 0.378 Gini Tot. 0,441
Odds(Income = 40 − 60) = =1
1 − π(Income = 40 − 60)
Finalement, on trouve OR(30 − 40|20 − 30) = 1, 5 et OR(40 − 60|20 − 30) = 1.
XX
4. En comparant ces deux OR avec ceux calculés précédemment, il ressort clairement que la variable Income ne XX Income
XXX 20-30 30-60 20-40 40-60 20-50 50-60
présente pas un impact significatif sur la variable cible car les coefficients sont très proches, voir identiques à la Insur. XX
valeur référente 1. Yes 2 6 5 3 6 2
No 2 5 4 3 7 0
• Etude de la variable Age.
Gini 0,500 0,496 0,494 0,500 0,497 0
1. Avec ces valeurs, il semble assez clair que la variable Age présente un impact significatif sur la variable cible (il Gini Tot. 0,497 0,496 0,431
faut tout de même vérifier que l’écart n’est pas du à une ou plusieurs valeurs atypiques ! !).
2. Le graphique confirme la première analyse : la variable Age présente bien un impact significatif sur la variable XXX
Insurance. En effet, on observe clairement une distribution différente de la variable Age selon que les clients ont X Age 23 28 32 36.5 38.5 39.5
Insur. XXX
souscrit ou non une assurance. En particulier, les clients d’âge médian semblent les plus appétents à ce produit Modalités
X
< ≥ < ≥ < ≥ < ≥ < ≥ < ≥
d’assurance. Yes 1 7 1 7 2 6 3 5 4 4 5 3
• Bilan. No 0 7 1 6 1 6 1 6 1 6 1 6
Gini 0 0,500 0,500 0,497 0,444 0,500 0,375 0,496 0,32 0,48 0,278 0,444
1. Via l’analyse précédente, on obtient :
Gini Tot. 0,467 0,497 0,489 0,464 0,427 0,378
XXX
Variable Statut X Age 40.5 41.5 42.5 44 50
Insur. XXX
Credit pertinente X
< ≥ < ≥ < ≥ < ≥ < ≥
Sex pertinente Yes 5 3 6 2 6 2 8 0 8 0
Income non pertinente No 2 5 2 5 3 4 4 3 5 2
Age pertinente Gini 0,408 0,469 0,375 0,408 0,444 0,444 0,444 0 0,473 0
Gini Tot. 0,441 0,390 0,444 0,355 0,410
2. Afin d’améliorer la vente du produit, il importe de cibler en particulier : les clients ayant un crédit, les clients
de sexe féminin, et les clients d’âge médian (30-40).
5. La meilleure division globale étant obtenue pour la valeur de l’indice de Gini total la plus faible, on déduit des
tableaux précédent que cette division est réalisée par la variable Age, avec la condition < ou ≥ à 44 ans.
3 4
6. On obtient le graphique suivant : 2. Clairement, la meilleure division globale est obtenue pour la variable Credit. On peut noter que cette meilleure
division est également obtenue avec la variable Sex ainsi que la variable Age.
3. On obtient le graphique suivant :
Α ≥
Α ≥
4. Clairement, aucun des deux segments ne sera déclaré comme terminal puisqu’aucune des deux contraintes n’est
satisfaite. Les deux segments seront donc déclarés comme segments intermédiaires.
• Division 3.
1. Clairement, on travaille ici sur le segment Credit=Yes.
7. Le premier segment ne vérifie aucune des deux conditions d’arrêt puisqu’il n’est pas pur et que le nombre 2. On obtient :
d’unités le composant est égal à 12. Par conséquent, ce segment est un segment intermédiaire. Par contre le
second segment est clairement pur, il sera donc déclaré comme terminal. XX
XXXSex
XX XX
• Division 2. M F XX Income
Insur. XXX 20-30 30-50 20-40 40-50
XX Insur. XX
1. On obtient : Yes 3 2 Yes 2 3 4 1
No 0 1 No 0 1 1 0
XX
XX Credit
XX Gini 0 0,444
XX Sex Gini 0 0,375 0,32 0
XX
XX Yes No M F Gini Tot. 0,222
Insur. XXX Insur. XXX Gini Tot. 0,25 0,267
Yes 5 3 Yes 3 5
No 1 3 No 3 1
XX
Gini 0,278 0,5 Gini 0,5 0,278 XX Age 24 32 37.5 41.5
Insur. XXX
Gini Tot. 0,389 Gini Tot. 0,389 X
Modalités < ≥ < ≥ < ≥ < ≥
XXX Yes 1 4 2 3 3 2 3 2
XXIncome 20-30 30-60 20-40 40-60 20-50 50-60 No 0 1 0 1 0 1 1 0
Insur. XX Gini 0 0,32 0 0,375 0 0,444 0,375 0
XX
Yes 2 6 5 3 6 2 Gini Tot. 0,267 0,25 0,222 0,25
No 1 3 3 1 4 0
3. Clairement, la meilleure division globale est obtenue avec la variable Sex. En effet, l’indice de Gini associé à cette
Gini 0,444 0,444 0,469 0,375 0,48 0
division est seulement de 0,222.
Gini Tot. 0,444 0,438 0,400
4. On obtient
XXX
Gini 0 0,463 0,5 0,42 0,444 0,444 0,375 0,469 0,32 0,49
Gini Tot. 0,424 0,433 0,444 0,438 0,419
XX
XX Age 39.5 40.5 41.5 42.5
Insur. XXX X
< ≥ < ≥ < ≥ < ≥
Yes 5 3 5 3 6 2 6 2
No 1 3 2 2 2 2 3 1
Gini 0,278 0,5 0,408 0,48 0,375 0,5 0,444 0,444
5 6
5. Le premier segment est déclaré comme terminal car il est pur. Par contre, le second est déclaré comme terminal
car le nombre d’unités est inférieur à 5.
• Division 4.
1. On obtient :
XX
XX Sex
XX
M F
Insur. XXX
Yes 0 3
No 3 0
Gini 0 0
Gini Tot. 0
2. Clairement, il est inutile de continuer les calculs puisque d’une part cette division amène des segments purs,
et que d’autre part, c’est la première variable disponible dans le tableau de données. Par conséquent, c’est
nécessairement cette division qui sera choisie sous les contraintes spécifiées.
3. On obtient le graphique suivant :
Α ≥
4. Les deux segments obtenus étant pur, ils sont déclarés terminaux.
• Prévisions.
1. En choisissant la modalité de fréquence maximale, on obtient pour chacun des segments terminaux les valeurs
allouées suivantes :
– Segment 2 = No
– Segment 5 = Yes
– Segment 6 = Yes
– Segment 7 = No
– Segment 8 = Yes
2. On obtient finalement :
ID Credit Sex Income Age Insurance
1 Yes Male 50-60 46 No
2 No Female 20-30 18 Yes
3 No Male 40-50 42 No
4 Yes Male 50-60 51 No
5 No Female 50-60 43 Yes
7
Université de Chlef Janvier 2018
Département Informatique
ème
Filière : 2 Année Master - ISIA et IL
Examen semestriel
Modules "Fouille et extraction de données" & "Datamining"
Durée : 01H30
Travail à faire :
1/ Appliquez Kmeans en choisissant comme centres initiaux des 3 clusters respectivement : 8, 10 et 11. Montrez
toutes les étapes de calcul.
2/ Donnez le résultat final et précisez le nombre d'itérations qui ont été nécessaires.
3/ Peut-on avoir un nombre d'itérations inférieur pour ce problème ? Discutez.
1/2
16 Non Maths Passable Non Admis
Travail à faire :
1/ Utiliser les données des lignes de 1 à 12 pour construire l'arbre en utilisant l'algorithme ID3. Montrez toutes les
étapes de calcul. Dessinez l'arbre final.
2/ Quels sont les résultats de test de l'arbre obtenu sur les données des lignes de 13 à 16 ?.
2/2
Université de Chlef Janvier 2018
Département Informatique
ème
Filière : 2 Année Master - ISIA et IL
Travail à faire :
1/ Appliquez Kmeans en choisissant comme centres initiaux des 3 clusters respectivement : 8, 10 et 11. Montrez
toutes les étapes de calcul.
Réponse :
Initialisation :
des centres de gravité : µ1=8 µ2=10 µ3=11
des clusters : C1=Ø C2=Ø C3=Ø
Itération 1 :
Calcul des distances
Nombre 2 :
d(2, µ1)=|2-8|=6
d(2, µ2)=|2-10|=8
d(2, µ3)=|2-11|=9
2 est affecté au cluster C1.
Nombre 5 :
d(5, µ1)=|5-8|=3
d(5, µ2)=|5-10|=5
d(5, µ3)=|5-11|=6
5 est affecté au cluster C1.
Nombre 8 :
d(8, µ1)=|8-8|=0
d(8, µ2)=|8-10|=2
d(8, µ3)=|8-11|=3
8 est affecté au cluster C1.
1/9
Nombre 10 :
d(10, µ1)=|10-8|=2
d(10, µ2)=|10-10|=0
d(10, µ3)=|10-11|=1
10 est affecté au cluster C2.
Nombre 11 :
d(11, µ1)=|11-8|=3
d(11, µ2)=|11-10|=1
d(11, µ3)=|11-11|=0
11 est affecté au cluster C3.
Nombre 18 :
d(18, µ1)=|18-8|=10
d(18, µ2)=|18-10|=8
d(18, µ3)=|18-11|=7
18 est affecté au cluster C3.
Nombre 20 :
d(20, µ1)=|20-8|=12
d(20, µ2)=|20-10|=10
d(20, µ3)=|20-11|=9
20 est affecté au cluster C3.
Nombre 5 :
2/9
d(5, µ1)=|5-5|=0
d(5, µ2)=|5-10|=5
d(5, µ3)=|5-16.33|=11.33
5 est affecté au cluster C1.
Nombre 8 :
d(8, µ1)=|8-5|=3
d(8, µ2)=|8-10|=2
d(8, µ3)=|8-16.33|=8.33
8 est affecté au cluster C2.
Nombre 10 :
d(10, µ1)=|10-5|=5
d(10, µ2)=|10-10|=0
d(10, µ3)=|10-16.33|=6.33
10 est affecté au cluster C2.
Nombre 11 :
d(11, µ1)=|11-5|=6
d(11, µ2)=|11-10|=1
d(11, µ3)=|11-16.33|=5.33
11 est affecté au cluster C2.
Nombre 18 :
d(18, µ1)=|18-5|=13
d(18, µ2)=|18-10|=8
d(18, µ3)=|18-16.33|=1.67
18 est affecté au cluster C3.
Nombre 20 :
d(20, µ1)=|20-5|=15
d(20, µ2)=|20-10|=10
d(20, µ3)=|20-16.33|=3.67
20 est affecté au cluster C3.
3/9
(2 points)
Itération 3 :
Calcul des distances
Nombre 2 :
d(2, µ1)=|2-3.5|=1.5
d(2, µ2)=|2-9.66|=7.66
d(2, µ3)=|2-19|=17
2 est affecté au cluster C1.
Nombre 5 :
d(5, µ1)=|5-3.5|=1.5
d(5, µ2)=|5-9.66|=4.66
d(5, µ3)=|5-19|=14
5 est affecté au cluster C1.
Nombre 8 :
d(8, µ1)=|8-3.5|=4.5
d(8, µ2)=|8-9.66|=1.66
d(8, µ3)=|8-19|=11
8 est affecté au cluster C2.
Nombre 10 :
d(10, µ1)=|10-3.5|=6.5
d(10, µ2)=|10-9.66|=0.34
d(10, µ3)=|10-19|=9
10 est affecté au cluster C2.
Nombre 11 :
d(11, µ1)=|11-3.5|=7.5
d(11, µ2)=|11-9.66|=1.34
d(11, µ3)=|11-19|=8
11 est affecté au cluster C2.
Nombre 18 :
d(18, µ1)=|18-3.5|=14.5
d(18, µ2)=|18-9.66|=8.34
d(18, µ3)=|18-19|=1
18 est affecté au cluster C3.
Nombre 20 :
4/9
d(20, µ1)=|20-3.5|=16.5
d(20, µ2)=|20-9.66|=10.34
d(20, µ3)=|20-19|=1
20 est affecté au cluster C3.
2/ Donnez le résultat final et précisez le nombre d'itérations qui ont été nécessaires.
Réponse :
Les clusters résultats :
C1={ 2, 5} C2={8, 10, 11} C3={18, 20}
Nombre d'itérations = 3
(2 points)
Travail à faire :
1/ Utiliser les données des lignes de 1 à 12 pour construire l'arbre en utilisant l'algorithme ID3. Montrez toutes les
étapes de calcul. Dessinez l'arbre final.
Réponse :
On remarque que sur les 12 lignes des données d'apprentissage, 8 correspondent à la classe "Admis" et 4 à la classe "Non
admis". L'entropie de l'ensemble S (à la racine de l'arbre) est donc égale à :
Pour connaitre quel attribut on doit choisir comme test au niveau de la racine de l'arbre, il faut calculer le gain d'entropie
sur chacun des attributs : "Doublant", "Série" et "Mention".
6/9
On constate que le plus grand gain d'entropie est obtenu sur l'attribut "Mention". C'est donc cet attribut qui est choisi
comme test à la racine de l'arbre. Nous obtenons l'arbre partiel suivant :
(1 point)
Admis 8
Non Admis 4
Mention ?
On voit que mettre l'attribut "Mention" à la racine de l'arbre permet d'obtenir 4 branches dont 3 produisent des noeuds
purs (finaux). Il ne reste à traiter que le nœud présentant un mélange correspondant à la branche "ABien". Ce nœud
comporte un ensemble (que nous noterons S2) ayant 2 individus appartenant à la classe "Admis" et 1 individu de la classe
"Non Admis". L'entropie de l'ensemble S2 est donc égale à :
Pour connaitre quel attribut on doit choisir comme test au niveau du nœud impur, il faut calculer le gain d'entropie sur
chacun des attributs restants : "Doublant" et "Série".
On constate que les deux attributs "Doublant" et "Série" procurent le même gain d'entropie. Nous pouvons donc choisir l'un
ou l'autre comme test au niveau du nœud courant. Nous avons donc deux arbres de décision possibles :
7/9
(1 point)
Premier arbre :
Mention ?
Oui Non
Deuxième arbre :
Mention ?
2/ Quels sont les résultats de test de l'arbre obtenu sur les données des lignes de 13 à 16 ?.
8/9
On remarque que l'arbre 1 a donné un taux d'erreur de 1/4 soit 25%, alors que l'arbre 2 présente un taux de succès de
100%. Cela suggère de retenir en définitif l'arbre 2 qui conforte l'idée suivante :
Les résultats obtenus par les étudiants de tronc commun sont déterminés par deux éléments : la mention obtenue de leur
baccalauréat et la série. Les étudiants ayant une bonne mention (ABien ou plus) ou issus des filières Maths et Techniques
ne trouvent pas de difficultés à passer la première année à l'Université.
(1.5 points)
9/9
Université de Chlef Février 2019
Département Informatique
ème
Filière : 2 Année Master - ISIA et IL
Examen semestriel
Modules "Fouille et extraction de données" & "Datamining"
Durée : 01H30 Corrigé
A/ D'après-vous quel est l'objectif recherché de l'application des "Règles d'association" à ce problème ?.
Réponse :
L'analyse de texte (TextMining) vise, entre autres, à trouver les mots-clés qui apparaissent ensemble dans
les textes : C'est à dire les mots-clés liés par une relation de co-occurence.
(2 points)
B/ Sans faire de calcul, donnez une règle d'association du tableau dont la confiance est égale à 100%. Justifiez.
Réponse :
Exemple de règle d'association ayant une confiance 100% : Finance →
Justification : A chaque apparition du mot-clé "Finance" dans un texte, il y'a aussi l'occurrence du mot-
clé "Economie".
(1 point)
C/ Réécrivez le tableau précédent en gardant uniquement la première lettre de chaque mot-clé (pour simplifier la
notation) . Appliquez l'algorithme a priori pour trouver toutes les règles d'association qui vérifient minsup >=40% et
donnez leur confiance. Détaillez toutes les étapes.
Réponse :
Pour une simplification de la notation en vue de l'application de l'algorithme Apriori, on a remplacé
(comme cela a été recommandé) chaque mot par sa première lettre.
1/6
N° Texte Mots clés
01 F, M, B, E
02 O, F, E
03 O, A, H, S
04 D, B, F, E
05 D, A, H, S
06 O, M, E
07 O, A, D, H, S
2/6
Ensembles d'items de taille 3 Ensembles d'items fréquents de
taille 3:
Ensemble
Ensemble support
{A, H, S}
{F, E, A} 0%
{F, E, H} 0%
{F, E, S} 0%
{A, H, F} 0%
{A, H, E} 0%
{A, H, S} 3/7=42,8%
{A, S, F} 0%
{A, S, E} 0%
{H, S, F} 0%
{H, S, E} 0%
(3 points)
D/ On considère maintenant les données d'apprentissage d'un problème de classification en utilisant les "Règles
d'association" (Remarquez la similitude avec le tableau précédent) :
N° Texte Mots clés Classe
01 Finance, Marché, Budget Economie
02 Ouverture, Finance Economie
03 Ouverture, Assemblée, Handball Sport
04 Directeur, Budget, Finance Economie
05 Directeur, Assemblée, Handball Sport
06 Ouverture, Marché Economie
07 Ouverture, Assemblée, Directeur, Handball Sport
D'après-vous comment peut-on utiliser les résultats de la question C pour répondre à ce problème de classification
: Etant donné un ou plusieurs mots-clés, on veut savoir à quelle classe ils renvoient ?.
3/6
Réponse :
Notons qu'il y'a 2 classes possibles : Economie et Sport. Pour utiliser les résultats obtenus à la question C
dans ce problème de classification, il est proposé de :
1/ considérer toutes les règles d'associations, dont le 2ème membre (partie droite) est l'une des classes
recherchées (Sport ou Economie).
2/ prendre la confiance calculée comme une mesure probabilité.
Ainsi, à partir des données du problème et des résultats obtenus on peut dire :
Si on trouve le mot-clé "Assemblé" ou "Handball" , ou les deux ensemble, dans un texte, celui-ci sera classé
dans "Sport" avec une probabilité de 100%.
Si on trouve le mot-clé "Finance" , le texte sera mis dans la classe "Economie", avec la probabilité de
100%.
Pour les autres mots-clés, on ne peut pas se prononcer.
(2.5 points)
Exercice 2 (8 points) :
Le graphique suivant représente les résultats d'une comparaison des performances de deux classifieurs C1 et C2.
Les deux classifieurs sont basés sur le modèle KNN (K Nearest Neighbors), mais le premier utilise la règle du
"vote majoritaire", alors que le second utilise la règle de "l'inverse de la distance au carré". L'évaluation a été faite
sur les mêmes données (leur nombre est 15), et en utilisant la même distance.
4/6
A/ Expliquez comment a-t-on obtenu les résultats de l'évaluation de ces classifieurs (les étapes qui ont été suivies)
?.
Réponse :
• Le modèle KNN étant un modèle à apprentissage supervisé, il faut disposer d'un ensemble
d'apprentissage étiqueté par un expert (les 15 données sont classées au préalable).
• On exécute le programme correspondant à chacun des deux classifieurs ("vote majoritaire" et
"inverse de la distance au carré") en faisant varier le paramètre K , et en reportant à chaque fois
le nombre d'erreurs commises (il y'a erreur lorsque le modèle renvoie pour une donnée une classe
différente de la classe contenue dans les données d'apprentissage).
• Les résultats obtenus sont consignés dans un graphique.
(2 points)
B/ Dans les deux courbes (C1 et C2), il y'a une tendance commune caractéristique du modèle KNN. Expliquez-la
brièvement.
Réponse :
Il y'a 4 stades dans chaque courbe
• Un stade correspondant à un K petit où le nombre d'erreurs est élevé
• Un stade correspondant à un K moyen où le nombre d'erreurs est plus faible
• Un stade correspondant à un K élevé , où le nombre d'erreurs redevient élevé
• Un stade correspondant à une valeur de K >=N (la taille des données), où le nombre d'erreurs
reste constant
5/6
Ces courbes confirment une caractéristique connue des modèles KNN : il est recommandé de choisir le
paramètre K , ni trop grand ni trop petit.
(2 points)
6/6
Université de Chlef Janvier 2017
Département Informatique
ème
Filière : 2 Année Master - ISIA - IL
Examen semestriel
1/2
Question : La courbe vous semble-t-elle normale ? Si oui donnez une explication de ses variations, sinon expliquez ce
qui est anormal.
Dans un magasin de produits informatiques, on a enregistré les achats suivants faits par les clients (transactions) :
N° Articles
01 CD, DVD, Jeu, Antivirus
02 CD, Jeu, Souris, Caméra, Antivirus
03 Antivirus, FlashDisk, CD, Jeu, Caméra
04 Jeu, DVD, Tablette
05 FlashDisk, Antivirus, Tablette, Souris
1/ Trouver tous les ensembles d'items fréquents vérifiant minsup >=60%, en appliquant l'algorithme Apriori .
2/ Déduire toutes les règles d'associations .
3/ Quelles dont les règles ayant une confiance >= 75% ?.
2/2
Université de Chlef Janvier 2017
Département Informatique
ème
Filière : 2 Année Master - ISIA - IL
Examen semestriel
(4 points)
1
Question 1 : Donnez l'équation de l'hyperplan séparateur de la figure.
Réponse :
y=-x+9
(1 point)
Question 2 : Pouvez-vous deviner quel est le point qui a été masqué de la classe C1 ? . Si oui, donnez ses
coordonnées exactes, sinon situez-le approximativement .
Réponse :
Le point masqué de la classe C1 ne peut pas être situé exactement. Néanmoins , on peut donner l'équation
qu'il doit vérifier :
Constatons que le point le plus proche de la classe C2 à l'hyperplan séparateur (support vecteur) est le point
(4, 4). Logiquement, le point masqué de la classe C1 est celui qui doit jouer le rôle du "vecteur support" de
cette classe. Il doit appartenir à la droite parallèle à l'hyperplan, son équation est : y = -x +10. Il peut être
n'importe où sur cette droite.
(1.5 point)
Question 3 : Même question pour le point masqué de la classe C2.
Réponse :
Le point masqué de la classe C2 ne peut pas être situé exactement. Il peut être n'importe où dans la région
située en dessous de la droite y = -x +8 (droite qui passe par le support vecteur de la classe C2, et parallèle à
l'hyperplan).
(1.5 point)
2
Exercice 3 (04 points) :
La figure suivante représente le taux d'erreurs de classification, en utilisant l'algorithme KNN, en fonction de K sur un
ensemble de N données.
Question : La courbe vous semble-t-elle normale ? Si oui donnez une explication de ses variations, sinon expliquez ce
qui est anormal.
Réponse :
Cette courbe comporte une anomalie dans sa dernière partie. Pour K supérieur à N , la courbe devrait
normalement être constante : on doit avoir le même taux d'erreur pour toutes les valeurs de K avec K>=N.
(4 points)
Dans un magasin de produits informatiques, on a enregistré les achats suivants faits par les clients (transactions) :
N° Articles
01 CD, DVD, Jeu, Antivirus
02 CD, Jeu, Souris, Caméra, Antivirus
03 Antivirus, FlashDisk, CD, Jeu, Caméra
04 Jeu, DVD, Tablette
05 FlashDisk, Antivirus, Tablette, Souris
1/ Trouver tous les ensembles d'items fréquents vérifiant minsup >=60%, en appliquant l'algorithme Apriori .
Réponse :
3
C1
Ensemble items Support % Observation F1 : Ensemble fréquent de taille 1
{ CD }
{ Jeu }
{ CD } 03 60%
{ Antivirus }
{ DVD } 02 40% Non retenu
{ Jeu } 04 80%
{ Souris } 02 40% Non retenu (1 point)
{Caméra} 02 40% Non retenu
{Tablette} 02 40% Non retenu
{Antivirus} 04 80%
{FlashDisk} 02 40% Non retenu
C3
Ensemble items Support % Observation F3 : Ensemble fréquent de taille 3
{ CD, Jeu, Antivirus }
{ CD, Jeu, 03 60% (1 point)
Antivirus }
C4
Ensemble items Support % Observation
F4 : Ensemble fréquent de taille 4
Ø Ø
5
Université Mohamed Khider-Biskra
Faculté des sciences exactes et des sciences de la nature et de la vie
Département d’informatique
Examen
En utilisant l’algorithme Apriori avec un support minimum de 20% et une confiance minimale
de 75%, trouver :
1. Les motifs fréquents,
2. Les motifs fréquents fermés,
3. Les motifs fréquents maximaux,
4. Les règles solides d’association de type A, B ⇒ C.
1
N˚ Age S1 S2 Risque N˚ Age S1 S2 Risque
1 Jeune F V F 6 Jeune F F F
2 Jeune V V E 7 Adulte V F M
3 Adulte F F F 8 Adulte V V M
4 Senior V F E 9 Senior F F F
5 Senior F V M 10 Senior V V E
Questions :
Dr A.Djeffal
2
Université Mohamed Khider-Biskra
Faculté des sciences exactes et des sciences de la nature et de la vie
Département d’informatique
Examen
TID Items
T1 Pain, Lait, Beurre, Couches, Formage
T2 Pain, Beurre, Eau, Confiture, Fromage
T3 Fromage, Couches, Pain, Beurre, Confiture
T4 Beurre, Lait, Jus
T5 Couches, Fromage, Jus, Eau
E1 E2 E3 E4 E5 E6 E7 E8 E9 E10
A a1 a1 a1 a2 a2 a2 a1 a2 a3 a3
B b1 b2 b2 b1 b2 b2 b1 b1 b1 b2
C c1 c2 c3 c1 c1 c1 c1 c2 c3 c2
D d2 d2 d1 d1 d1 d2 d1 d2 d1 d2
Classe + + - - - + + - + +
1
2. Donner la précision de l’arbre obtenu sur la table d’entrainement. Calculer la moyenne
harmonique sur la même table.
3. Trouver la classe de l’exemple ayant les attributs (a2 ,b1 ,c3 ,d1 ) en utilisant la classification
bayésienne naı̈ve.
NB : On donne le tableau suivant représentant les valeurs de la fonctions
x x y y
H(x, y) = − x+y log2 ( x+y ) − x+y log2 ( x+y )
x\y 1 2 3 4 5 6
6 0,592 0,811 0,918 0,971 0,994 1
5 0,650 0,863 0,954 0,991 1
4 0,722 0,918 0,985 1
3 0,811 0,971 1
2 0,918 1
1 1
Dr A.Djeffal
2
Corrigé type
Questions de cours (3 pts)
1. Voir le cours
Motifs fréquents (8 pts : 4 + 2 + 2)
3
sp = 44 = 2
2×1×1
Moyenne harminique = 1+1
=1 (1pt)
(c) Trouver la classe de l’exemple ayant les attributs (a2 ,b1 ,c3 ,d1 ) en utilisant la classi-
fication bayésienne naı̈ve.
6
P (+) = 10 × 16 × 63 × 16 × 62 = 0.0027 (1pt)
P (−) = 10 × 34 × 24 × 14 × 34 = 0.02
4
(1pt)
Donc l’exemple appartient à la classe négative. (1pt)
4
Université Mohamed Khider-Biskra
Faculté des sciences exactes et des sciences de la nature et de la vie
Département d’informatique
Examen
1
2. Donner la précision de l’arbre et sa moyenne harmonique sur la table de test suivante :
3. Dites si le champignon blanc sphérique qui pousse sur le bois est toxique ou non, en
utilisant la classification bayésienne naı̈ve.
Dr A.Djeffal
2
Corrigé type
Questions de cours (4 pts)
1. La base formelle
a1 a2 a3 a4 a5 a6
p1 1 0 0 0 0 0
p2 1 1 0 0 0 0
p3 1 0 1 0 0 0
p4 1 1 0 1 0 0
p5 1 0 0 0 1 0
p6 1 1 1 0 0 1
p7 1 0 0 0 0 0
p8 1 1 0 1 0 0
p9 1 0 1 0 0 0
p1 0 1 1 0 0 1 0
p1 1 1 0 0 0 0 0
p1 2 1 1 1 1 0 1
2 pts
2. Motifs fréquents = {F1 ∪ F2 ∪ F3 }
– F1 = {a1 , a2 , a3 , a4 }
– F2 = {a1 a2 , a1 a3 , a1 a4 , a2 a4 }
– F3 = {a1 a2 a4 }
2 pts
3. – Motifs fréquents fermés = {a1 , a1 a2 , a1 a3 , a1 a2 a4 } 1 pt
– Motifs fréquents maximaux = {a1 a3 , a1 a2 a4 } 1 pt
4. Les règles solides :
(a) a2 ⇒ a1
(b) a3 ⇒ a1
(c) a4 ⇒ a1
3
(d) a4 ⇒ a2
(e) a2 a4 ⇒ a1
(f) a1 a4 ⇒ a2
Classification (8 pts : 4 + 2 + 2)
4 pts
2. – Précision = 35 = 60% 1 pt
– Moyenne harmonique :
Sv = CPCP 1
= 13
+F N
= 1+2
CN 2
Sp = CN +F P = 2+0
=1
2 × Sv × Sp 1/3 × 1
M oyenne harmonique = = = 0.25
Sv + Sp 1/3 + 1
1 pt
3. Classification bayésienne
– P (T oxique = oui) = 52 = 0.4
– P (Couleur = blac/T oxique = oui) = 02
– P (T aille = ∀/T oxique = oui) = 1
– P (F orme = Sphere/T oxique = oui) = 12
– P (M ilieu = bois/T oxique = oui) = 02
– On utilise l’estimateur de Laplace : ajouter 1 aux numérateurs et le
nombre de valeurs distincts de l’attribut aux dénominateurs :
– P (Couleur = blac/T oxique = oui) = 0+12+3
= 15
– P (F orme = Sphere/T oxique = oui) = 12
– P (M ilieu = bois/T oxique = oui) = 0+1
2+2
= 14
– P (T oxique = oui/Couleur = blanc ∧ F orme = Sphere ∧ M ilieu = bois) = 15 × 21 ×
1
4
× 0.4 = 0.01
– P (T oxique = non) = 53 = 0.6
– P (Couleur = blac/T oxique = non) = 32
– P (T aille = ∀/T oxique = oui) = 1
– P (F orme = Sphere/T oxique = non) = 13
4
– P (M ilieu = bois/T oxique = non) = 13
– P (T oxique = non/Couleur = blanc ∧ F orme = Sphere ∧ M ilieu = bois) = 32 × 13 ×
1
3
× 0.6 = 0.13
– Donc le champignon blanc sphérique qui pousse sur le bois n’est pas toxique.
2 pts
5
Université Mohamed Khider-Biskra
Faculté des sciences exactes et des sciences de la nature et de la vie
Département d’informatique
Examen
1. Expliquer comment peut-on utiliser les règles d’association pour la classification super-
visée.
2. Expliquer comment peut-on utiliser l’algorithme Apriori pour l’obtention des motifs rares.
3. Expliquer comment peut-on étendre la méthode SVM binaire pour résoudre les cas multi-
classes.
client M A R E I
01 moyen moyen village oui oui
02 élevé moyen bourg non non
03 faible âgé bourg non non
04 faible moyen bourg oui oui
05 moyen jeune ville oui oui
06 élevé âgé ville oui non
07 moyen âgé ville oui non
08 faible moyen village non non
L’attribut client indique le numéro du client ; l’attribut M indique la moyenne des crédits sur
le compte du client ; l’attribut A donne la tranche d’âge ; l’attribut R décrit la localité du
client ; l’attribut E possède la valeur oui si le client possède un niveau d’études supérieur au
bac ; l’attribut I (la classe) indique si le client effectue ses opérations de gestion de compte via
Internet.
A. Règles d’association (6 pts :1 + 2 + 1.5 + 0.5)
1. Donner la base de données formelle correspondant à cette base.
2. Calculer les motifs fréquents correspondant à un minimum de support σs = 0.4
3. Calculer les règles solides correspondant à un seuil de confidence = 0.9
4. En déduire un modèle de décision.
B. Arbre de décision (4 pts :3 + 1)
1. Construire l’arbre de décision correspondant à cette base en utilisant l’algorithme
ID3.
2. Donner la précision de l’arbre construit sur la base suivante :
1
client M A R E I
01 moyen âgé village oui oui
02 élevé jeune ville non oui
03 faible âgé village non non
04 moyen moyen bourg oui non
client M A R E
01 ? âgé ? oui
02 élevé ? ville ?
03 faible ? ? ?
04 ? moyen bourg ?
client M A R E
01 moyen jeune bourg oui
02 élevé moyen village oui
03 faible jeune ville non
04 moyen jeune bourg non
Bonne Chance
Dr A.Djeffal
2
Corrigé type
Questions de cours (4.5 pts)
1. L’idée est de rechercher les règles solides contenant dans leur partie droite l’attribut classe,
c-à-d de la forme :
Attribut1 = vatt1 ∧ Attribut2 = vatt2 ∧ ... ∧ Attributn = vattn ⇒ Classe = vclasse
Plusieurs études ont montré que cette technique est plus précise que certaines méthodes
traditionnelles tel que les arbres de décision.
L’un des premiers algorithmes de classification associative est l’algorithme CBA (Classification-
Based Association). Il utilise l’algorithme Apriori pour générer les règles d’association puis
utilise une heuristique pour construire le classiffieur. Les règles sont ordonnées selon leurs
supports et confidences. Si plusieurs règles ont la même partie gauche, la règle de la confi-
dence la plus élevée est utilisée dans le classifieur. Pour classer un nouveau tuplet, la
première règle le satisfaisant est utilisée. Le classifieur contient aussi une règle par défaut
pour classer les tuplet dont une règles satisfaisante n’existe pas. 1.5pt
2. Une légère modification d’Apriori suffit pour conserver les MRM. Si le support d’un
candidat est inférieur au support minimum, alors à la place de l’effacer nous l’enregistrons
dans l’ensemble des motifs rares minimaux
Tous les motifs rares sont retrouvés à partir des motifs rares minimaux. Pour cela nous
avons besoin de générer tous les sur-motifs possibles des MRM. 1.5pt
3. Les méthodes des machines à vecteur support multiclasse, réduisent le problème mul-
ticlasse à une composition de plusieurs hyperplans biclasses permettant de tracer les
frontières de décision entre les différentes classes. Ces méthodes décomposent l’ensemble
d’exemples en plusieurs sous ensembles représentant chacun un problème de classification
binaire. Pour chaque problème un hyperplan de séparation est déterminé par la méthode
SVM binaire. On construit lors de la classification une hiérarchie des hyperplans binaires
qui est parcourue de la racine jusqu’à une feuille pour décider de la classe d’un nouvel
exemple. On trouve dans la littérature plusieurs méthodes de décomposition : 1vs1, 1vsR,
DAG, ...etc. 1.5pt
a b c d e f g h i j k l m
1 1 0 0 0 1 0 1 0 0 1 0 1 0
2 0 0 1 0 1 0 0 0 1 0 1 0 1
3 0 1 0 1 0 0 0 0 1 0 1 0 1
4 0 1 0 0 1 0 0 0 1 1 0 1 0
5 1 0 0 0 0 1 0 1 0 1 0 1 0
6 0 0 1 1 0 0 0 1 0 1 0 0 1
7 1 0 0 1 0 0 0 1 0 1 0 0 1
8 0 1 0 0 1 0 1 0 0 0 1 0 1
3
2. Calculer les motifs fréquents correspondant à un minimum de support σs = 0.4 2pts
• Selon Weka : σs = 0.4 ⇒ 3 instances, les motifs fréquents :
F 1 = {a, b, d, e, h, i, j, k, l, m}
F 2 = {aj, dm, hj, jl, km}
F3 = φ
F = F1 ∪ F2
• Selon un calcul dur : σs = 0.4 ⇒ 4 instances
F 1 = {e, j, m}
F2 = φ
F = F1
3. Calculer les règles solides correspondant à un seuil de confidence = 0.9 1.5pt
• Selon Weka : σs = 0.4 ⇒ 3 instances, les règles solides :
- a ⇒ j, d ⇒ m, h ⇒ j, l ⇒ j, k ⇒ m
• Selon un calcul dur : σs = 0.4 ⇒ 4 instances, les règles solides :
Aucune
4. En déduire un modèle de décision. 0.5pt
• Selon Weka : σs = 0.4 ⇒ 3 instances, le modèle :
-d⇒m
-k⇒m
- m (par défaut)
• Selon un calcul dur : σs = 0.4 ⇒ 4 instances, le modèle :
- m (par défaut : la classe la plus fréquente.
B. Arbre de décision (4 pts :3 + 1)
1. Construire l’arbre de décision correspondant à cette base en utilisant l’algorithme
ID3. 3pts
ou
4
2. Donner la précision de l’arbre construit sur la base suivante : 1pt
client M A R E I
01 moyen âgé village oui oui
02 élevé jeune ville non oui
03 faible âgé village non non
04 moyen moyen bourg oui non
2
Précision = 4
= 50%
B. Classification bayésiènne (3.5 pts :2 + 1.5)
1. Donner le modèle de décision deduit de cette base en utilisant la classification
bayésiènne naı̈ve. 2pts
5
I oui (3/8) non (5/8)
M moyen 3/6 1/5
élevé 1/6 2/5
faible 2/6 2/5
A moyen 3/6 3/8
âgé 1/6 4/8
jeune 2/6 1/8
R village 1/3 1/5
ville 1/3 2/5
bourg 1/3 2/5
E oui 4/5 2/5
non 1/5 3/5
client M A R E
01 ? âgé ? oui
02 élevé ? ville ?
03 faible ? ? ?
04 ? moyen bourg ?
– Exemple 1 :
P(X/I=oui) = P(A=âgé/I=oui).P(E=oui/I=oui).P(I=oui)
=1/6 . 4/5 . 3/8 = 0,05
P(X/I=non) = P(A=âgé/I=non).P(E=oui/I=non).P(I=non)
=4/8 . 2/5 . 5/8 = 0,125
Classe = non 0.5pt
– Exemple 2 :
P(X/I=oui) = P(M=élevé/I=oui).P(A=ville/I=oui).P(I=oui)
=1/6 . 1/3 . 3/8 = 0,02
P(X/I=non) = P(M=élevé/I=non).P(A=ville/I=non).P(I=non)
=2/5 . 2/5 . 5/8 = 0,1
Classe = non 0.5pt
– Exemple 3 :
P(X/I=oui) = P(M=faible/I=oui).P(I=oui)
=2/6 . 3/8 = 0,125
P(X/I=non) = P(M=faible/I=non).P(I=non)
=2/5 . 5/8 = 0,25
Classe = non 0.5pt
– Exemple 4 :
P(X/I=oui) = P(A=moyen/I=oui).P(R=bourg/I=oui).P(I=oui)
=3/6 . 1/3 . 3/8 = 0,06
P(X/I=non) = P(A=moyen/I=non).P(R=bourg/I=non).P(I=non)
=3/8 . 2/5 . 5/8 = 0,09
Classe = non 0.5pt
B. Combinaison de modèles (2 pts)
1. Utiliser le modèle combiné par vote des trois modèles précédents pour trouver
les classes des exemples suivants :
6
client M A R E
01 moyen jeune bourg oui
02 élevé moyen village oui
03 faible jeune ville non
04 moyen jeune bourg non
– Exemple 1 :
- Modèle associatif : Non
- Modèle d’arbre de décision : Oui
- Modèle bayésien :
P(X/oui) = P(oui).P(moyen/oui).P(jeune/oui).P(bourg/oui).P(oui/oui)
= 3/8 . 3/6 . 2/6 . 1/3 . 4/5 = 72/4320 = 0,016
P(X/non) = P(non).P(moyen/non).P(jeune/non).P(bourg/non).P(oui/non)
= 5/8 . 1/5 . 1/8 . 2/5 . 2/5 = 20/8000 = 0,0025
Classe : Oui
-Classe = Oui 0.5pt
– Exemple 2 :
- Modèle associatif : Non
- Modèle d’arbre de décision : Oui
- Modèle bayésien :
P(X/oui) = P(oui).P(élevé/oui).P(moyen/oui).P(village/oui).P(oui/oui)
= 3/8 . 1/6 . 3/6 . 1/3 . 4/5 = 36/4320 = 0,0083
P(X/non) = P(non).P(élevé/non).P(moyen/non).P(village/non).P(oui/non)
= 5/8 . 2/5 . 3/8 . 1/5 . 2/5 = 60/8000 = 0,0075
Classe : Oui
- Classe = Oui 0.5pt
– Exemple 3 :
- Modèle associatif : non
- Modèle d’arbre de décision : oui
- Modèle bayésien :
P(X/oui) = P(oui).P(faible/oui).P(jeune/oui).P(ville/oui).P(non/oui)
= 3/8 . 2/6 . 2/6 . 1/3 . 1/5 = 12/4320 = 0,0027
P(X/non) = P(non).P(faible/non).P(jeune/non).P(ville/non).P(non/non)
= 5/8 . 2/5 . 1/8 . 2/5 . 3/5 = 60/8000 = 0,0075
Classe : non
- Classe = non 0.5pt
– Exemple 4 :
- Modèle associatif : non
- Modèle d’arbre de décision : oui
- Modèle bayésien : Oui
P(X/oui) = P(oui).P(moyen/oui).P(jeune/oui).P(bourg/oui).P(non/oui)
= 3/8 . 3/6 . 2/6 . 1/3 . 1/5 = 18/4320 = 0,0041
P(X/non) = P(non).P(moyen/non).P(jeune/non).P(bourg/non).P(non/non)
= 5/8 . 1/5 . 1/8 . 2/5 . 3/5 = 30/8000 = 0,0038
Classe : Oui
- Classe = Oui 0.5pt
7
Université Mohamed Khider-Biskra
Faculté des sciences exactes et des sciences de la nature et de la vie
Département d’informatique
Master IDM Fouille de Données Avancée
23 Fév 2016 16:30-18:00, S3
Examen de rattrapage
1
D. Combinaison de modèles (3 pts)
1. Utiliser le modèle combiné par vote des trois modèles précédents pour trouver les
classes des exemples suivants :
Bonne Chance
Dr A.Djeffal
2
Corrigé type
A. Règles d’association (8 pts :3 + 2 + 2 + 1)
1. Donner la base de données formelle correspondant à cette base. 3pts
a :Cheveux=blond, b :Cheveux=brun, c :Cheveux=roux, d :Taille=moyenne,
e :Taille=grande, f :Taille=petite, g :Pois=léger, h :Pois=moyen, i :Pois=lourd,
j :Crème solaire=non, k :Crème solaire=oui, l :Classe=coup de soleil,
m :Classe=bronzé
La base formelle
a b c d e f g h i j k l m
1 1 0 0 1 0 0 1 0 0 1 0 1 0
2 1 0 0 0 1 0 0 1 0 0 1 0 1
3 0 1 0 0 0 1 0 1 0 0 1 0 1
4 1 0 0 0 0 1 0 1 0 1 0 1 0
5 0 0 1 1 0 0 0 0 1 1 0 1 0
6 0 1 0 0 1 0 0 0 1 1 0 0 1
7 0 1 0 1 0 0 0 0 1 1 0 0 1
8 1 0 0 0 0 1 1 0 0 0 1 0 1
3
2. Donner la précision de l’arbre construit sur la base suivante : 2pts
1
Précision = 4
= 25%
B. Classification bayésiènne (4 pts :2 + 2)
1. Donner le modèle de décision déduit de cette base en utilisant la classification
bayésiènne naı̈ve. 2pts
– Exemple 1 :
P(X/Classe=soleil) =
P(Taille=petite/Classe=soleil).P(Crème=oui/Classe=soleil).P(Classe=soleil)
=2/6 . 4/5 . 3/8 = 0,1
P(X/Classe=bronzé) =
P(Taille=petite/Classe=bronzé).P(Crème=oui/Classe=bronzé).
P(Classe=bronzé) = 2/5 . 3/5 . 5/8 = 0,15
Classe = bronzé 0.5pt
– Exemple 2 :
P(X/Classe=soleil) =
P(Taille=grande/Classe=soleil).P(Poids=moyen/Classe=soleil).P(Classe=soleil)
=1/6 . 1/3 . 3/8 = 0,02
P(X/Classe=bronzé) =
P(Taille=grande/Classe=bronzé).P(Poids=moyen/Classe=bronzé).
4
P(Classe=bronzé) =2/5 . 2/5 . 5/8 = 0,1
Classe = bronzé 0.5pt
– Exemple 3 :
P(X/Classe=soleil) =
P(Cheveux=brun/Classe=soleil).P(Crème=non/Classe=soleil).P(Classe=soleil)
=1/6 . 1/5 . 3/8 = 0,0125
P(X/Classe=bronzé) =
P(Cheveux=brun/Classe=bronzé).P(Crème=non/Classe=bronzé).
P(Classe=bronzé) = 4/8 . 2/5 . 5/8 = 0,125
Classe = bronzé 0.5pt
– Exemple 4 :
P(X/Classe=soleil) =
P(Poids=lourd/Classe=soleil).P(Classe=soleil)
=1/3 . 3/8 = 0,125
P(X/Classe=bronzé) =
P(Poids=lourd/Classe=bronzé).P(Classe=bronzé)
= 2/5 . 5/8 = 0,25
Classe = bronzé 0.5pt
B. Combinaison de modèles (3 pts)
1. Utiliser le modèle combiné par vote des trois modèles précédents pour trouver
les classes des exemples suivants :
– Exemple 1 :
- Modèle associatif : Classe = bronzé
- Modèle d’arbre de décision : Classe = bronzé
- Modèle bayésien :
P(X/Classe = soleil) = 3/6 . 3/6 . 1/3 . 4/5 . 3/8 = 0.008
P(X/Classe = bronzé) = 3/8 . 1/5 . 1/5 . 3/5 . 5/8 = 0.005
Classe = soleil
-Classe = bronzé 0.75pt
– Exemple 2 :
- Modèle associatif : Classe = bronzé
- Modèle d’arbre de décision : Classe = soleil
- Modèle bayésien :
P(X/Classe = soleil) = 2/6 . 1/6 . 1/3 . 1/5 . 3/8 = 0.001
P(X/Classe = bronzé) = 1/8 . 2/5 . 2/5 . 2/5 . 5/8 = 0.003
Classe = bronzé
-Classe = bronzé 0.75pt
– Exemple 3 :
- Modèle associatif : Classe = bronzé
- Modèle d’arbre de décision : Classe = soleil
- Modèle bayésien :
5
P(X/Classe = soleil) = 2/6 . 3/6 . 1/3 . 1/5 . 3/8 = 0.004
P(X/Classe = bronzé) = 1/8 . 1/5 . 2/5 . 2/5 . 5/8 = 0.0025
Classe = soleil
-Classe = soleil 0.75pt
– Exemple 4 :
- Modèle associatif : Classe = bronzé
- Modèle d’arbre de décision : Classe = bronzé
- Modèle bayésien :
P(X/Classe = soleil) = 1/6 . 2/6 . 1/3 . 4/5 . 3/8 = 0.005
P(X/Classe = bronzé) = 4/8 . 2/5 . 2/5 . 3/5 . 5/8 = 0.03
Classe = bronzé
-Classe = bronzé 0.75pt
6
Université Mohamed Khider-Biskra
Faculté des sciences exactes et des sciences de la nature et de la vie
Département d’informatique
Master IDM Fouille de Données Avancée
8 Mars 2015 14:50-16:20, S4
Examen de rattrapage
1. Deux classes d’algorithmes sont utilisées dans le clustering hiérarchique : les algorithmes
divisibles et les algorithmes aglomératifs. Quelle différence existe entre les deux ?
2. Dire comment peut-on obtenir les règles de décisions à partir d’un arbre de décision.
3. Dire comment peut-on obtenir les règles de décision à partir des règles solides.
Exercice 1 Motifs fréquents (8 pts : 2 + 2 + 2 + 2)
Soit le treillis suivant représentant les motifs obtenus à partir des items A,B,C et E avec leurs
fréquences :
1
Exercice 2 Classification (8 pts : 2 + 4 + 2)
Nous considérerons l’ensemble suivant d’exemples caractérisé par les attributs : Forme, Taille
et Couleur.
Dr A.Djeffal
2
Corrigé type
Questions de cours (4 pts : 2 + 1 + 1)
1. Les algorithmes agglomératifs considèrent chaque exemple dans un cluster propore puis
les regroupent d’étape en étape jusqu’à arriver à un seul cluster.
Les algorithmes divisible font l’inverse : ils considèrent tous les exemples dans un seul
cluster puis les subdivisent d’étape en étape jusqu’à arriver à un cluster par exemple.
2. En prenant chaque chemin de la racine à une feuille en considérant les arcs comme des
tests et la feuille comme décision.
3. En prenant les règles solides dont la partie droite égale à la classe.
Classification (8 pts : 2 + 4 + 2)
3
2. Arbre de décision
2
3. Précision = 4
= 50%
4
Université Mohamed Khider-Biskra
Faculté des sciences exactes et des sciences de la nature et de la vie
Département d’informatique
Examen de rattrapage
Bonne Chance
Dr A.Djeffal
Corrigé type
Exercice 1 (8 pts)
1. Table formelle : (1 pts)
Toxique
Attribut oui (2/5) non (3/5)
ZeroR
oui 0/5 0/5
non 2/5 3/5
OneR
oui 2/2 0/2
non 0/3 3/3
ID3
oui 2/2 0/2
non 0/3 3/3
UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département Informatique Année universitaire : 2016-2017
1ère année Master ISTW Date : 04/12/2016
Exercice 01 : Soient les deux individus suivants correspondant à des séquences ADN :
X = AGGGTGGC et Y = AGGCGTAA
1. Dans quel espace « vivent » les points X et Y ? a quelle dimension ?
2. Si on code : A=0, G=1, C=2 et T=3, quelle est la distance euclidienne d(X,Y) ?
Cela a-t-il un sens en terme de similitude entre les séquences ADN X et Y? Expliquez notamment en
comparant d(A,G) et d(A,T) ?
3. Calculer la matrice de contingence associée A(X,Y). En déduire la distance de Hamming associée. A
quoi la valeur trouvée correspond-elle pratiquement ?
Exercice 02 : Répondez brièvement aux questions suivantes :
1. Le Datamining est un processus inductif, itératif et/ou Interactif de découverte dans les bases de
données larges de modèles de données valides, nouveaux, utiles et compréhensibles. Expliquez ?
2. Que représentent les méthodes Stepdisk, Wrapper, FCBF et pour quelle raison elles sont utilisées ?
3. Quelle est la différence entre les méthodes de partitionnement et les méthodes hiérarchiques ?
Exercice 03 : On considère les données suivantes :
N° cheveux taille poids crème solaire classe
1 blond moyenne léger non Oui = coup de soleil
2 blond grande moyen oui Non = bronzé
3 brun petite moyen oui Non = bronzé
4 blond petite moyen non Oui = coup de soleil
5 roux moyenne lourd non Oui = coup de soleil
6 brun grande lourd non Non = bronzé
7 brun moyenne lourd non Non = bronzé
8 blond petite léger oui Non = bronzé
1. On suppose que les individus sont décrits à l'aide des quatre attributs cheveux, taille, poids et crème
solaire. Construire l'arbre de décision produit par l'algorithme d'apprentissage ID3 en utilisant la
fonction Entropie et la fonction gain associée (lors de l’égalité des gains, le choix des attributs est dans
l’ordre: cheveux, taille, poids et crème solaire). Détailler les calculs pour le choix des attributs.
2. Déduire de l'arbre trouvé une seule règle comportant une disjonction, une conjonction et une négation.
3. En utilisant l’arbre construit, classer l’instance N°9: blond, moyenne, lourd, non.
4. En utilisant l’ensemble des huit instances, et en supposant que l’attribut crème solaire est énumératif,
dites lequel des instances est plus proche de l’instance N° 9 ? que représentent ces calculs (donner le
nom de ces calculs) ?
☺ To succeed in life one must have the courage to pursue what he wants ☺
Cela n’a pas de sens en terme de similitude entre les séquences ADN X et Y, car ce n’est pas une
1 Pt
distance qui convient à un tel espace discret (variables discrètes), notamment si on calcul d(A,G)=1 et
d(A,T)=3 et pourtant a priori A est aussi différent de G que de T.
3. la matrice de contingence associée A(X,Y), en considérant X selon les lignes et Y selon les
colonnes dans l’ordre A, C, G, et T est :
1 0 0 0 1 Pt
A= 1 0 0 0
1 1 2 1
0 0 1 0
Donc, la distance de Hamming associée est dHamming(X,Y)=5.
1 Pt
Elle correspond pratiquement au nombre de coordonnées différentes entre les deux vecteurs X et Y.
Exercice 02 (5 Pts) :
1.
Inductif : Généralisation d’une observation ou d’un raisonnement établis à partir de cas singuliers.
Itératif : Nécessite plusieurs passes (instructions).
Interactif : L’utilisateur est dans la boucle du processus.
2 Pt
Valides : Valable dans le futur.
Nouveaux : Non prévisibles.
Utiles : Permettent à l’utilisateur de prendre des décisions.
Compréhensibles : Présentation simple.
2. Les méthodes Stepdisk, Wrapper, FCBF sont des méthodes de Sélection de variables (attributs)
- Elles sont utilisées pour réduire le nombre d’attributs (variables) 1 Pt
3. Dans les méthodes de partitionnement le nombre de cluster est définit avant le lancement de
1 Pt l’algortihme contrairement aux méthodes hiérarchique. Aussi les méthodes de partitionnement ne
travaillent qu’avec des données numériques seulement.
Gain (taille)= I(3,5)-E(taille)= I(3,5)-( I(2,1)+ I(0,2)+ I(1,2)=0,266
Gain (poids)= I(3,5)-E(poids)= I(3,5)-( I(1,1)+ I(1,2) )+ I(2,1))=)=0,0155
1 Pt
Gain (crème solaire)= I(3,5)-E(crème solaire)= I(3,5)-( I(3,2)+ I(0,3))=0,347
#
Donc on choisit l’attribut « cheveux » avec le gain le plus grand (Gain=0.454) qui représente le nœud
la racine de l’arbre, Donc l’arbre initial sera : Cheveux
Blond Roux
Brun 1 Pt
????????? Coup de soleil
Instances : 1,2,4,8 Bronzé Instance : 5
Instances : 3,6,7
La valeur cheveux = blond donne plusieurs valeurs de l’attribut classe, donc, il faut refaire le mème
travail (calcul du gain) pour l’ensemble des données Sblond ={1,2,4,8}.
% % %
Gain (Sblond , poids)= I(2,2)-E(Sblond ,poids)= 1-( I(1,1)+ I(1,1))=0
1 Pt
% %
Gain (Sblond , crème solaire)= I(2,2)-E(Sblond ,crème solaire)=1-( I(2,0)+ I(0,2))=1
% %
Donc on choisit l’attribut « crème solaire » avec le gain le plus grand (Gain=1) et l’arbre final sera :
Cheveux
Blond Brun Roux
1 Pt D(X,Y)= (P-M) / P tel que : P est le nombre total d’attributs et M le nombre de ressemblance
%
% % % % % % % %
D(9,1) = ; D(9,2) = ; D(9,3) = ; D(9,4) = ; D(9,5) = ; D(9,6) = ; D(9,7) = ; D(9,8) = ;
2 Pts
Donc, les instances les plus proches de l’instance N°9 sont : l’instance N° 1, N° 5 et N° 7.
Exercice 01 (02 pts) : Supposons qu’on veut utiliser des données binaires dans un processus de
clustering. Citer (ou proposer) une (des) mesure(s) de similarité (distance(s)) pour ce type de données.
Evaluer la (les) distance(s) entre les objets X = 0101010001 et Y = 0100011000. Que remarquez-vous ?
Déduisez la distance de Hamming associée. A quoi la valeur trouvée correspond-elle ?
Exercice 03 (05 pts) : Soit l’ensemble d’apprentissage ci-dessous. La classe est « Edible ».
N° Shape Color Odor Edible
1 C B 1 Y
2 D B 1 Y
3 D W 1 Y
4 D W 2 Y
5 C B 2 Y
6 D B 2 N
7 D G 2 N
8 C U 2 N
9 C B 3 N
10 C W 3 N
11 D W 3 N
1. En utilisant l’algorithme ID3 et le gain d’information, construire l’arbre de décision du dataset. Donner
les détails des calculs.
2. Déduire de l'arbre trouvé une seule règle comportant 2 disjonctions et 2 conjonctions au maximum.
3. En utilisant l’arbre construit, classer l’instance N°12: Shape=C, Color=G, Odor=2.
4. En utilisant l’ensemble des onze instances, et en supposant que les attributs « Color » et « Odor » sont
des variables énumératives, dites lequel des instances est plus proche de l’instance N° 12 ? quelle est la
distance utilisée ? Que représentent ces calculs (donner le nom de ces calculs) ?
☺ To succeed in life one must have the courage to pursue what he wants ☺
0,5 Pt Malgré que D1 et D2 représentent deux distances entre les mêmes instances, on remarque que qu’elles
sont très éloignées car D2=2*D1
Distance de hamming = b+c = 3. Elle représente le nombre de caractéristiques différentes entre x et y. 0,25 Pt
Exercice 02 (03 Pts) :
1. L’élagage est la suppression de quelques sous-arbres dans la l’arbre de décision. Son objectif
principal est la réduction de l’arbre afin d’améliorer le taux d’erreur.
2. les techniques descriptives de datamining visent à mettre en évidence des informations présentes
mais cachées par le volume de données alors que les techniques prédictives visent à extrapoler de
nouvelles informations à partir des informations présentes. Elles se basent essentiellement sur des
modèles qui utilisent des données présentes ou passées pour construire des scénarios futurs.
3. La transformation des données est la transformation d’un attribut A en une autre variable A’ qui
serait selon les objectifs de l’étude, plus appropriée.
Exp 1 : Variable continue en variable discrète et vice versa
Exp 2 : La construction d’agrégats par exemple, le prix au mètre-carré d’un appartement
Exercice 03 (05,50 Pts):
1) On calcul l’entropie sur l’ensemble des données : I(5,6)= - log - log = 0,994 0,5 Pt
Ensuite on calcul le gain de chaque attribut :
Gain (Shape)= I(5,6)-E(Shape)= I(5,6)-( I(2,3)+ I(3,3))=0,008
Gain (Color)= I(5,6)-E(Color)= I(5,6)-( I(3,2)+ I(2,2)+ I(0,1)+ I(0,1)=0,189
Gain (Odor)= I(5,6)-E(Odor)= I(5,6)-( I(3,0)+ I(2,3)+ I(0,3))=0,553
Donc on choisit l’attribut « Odor » avec le gain le plus grand (Gain=0.553) qui représente le nœud la
racine de l’arbre, Donc l’arbre initial sera : Odor 1 Pt
2 3
1
????? N
Y
Instances : 4,5,6,7,8 Instance : 9,10,11
Instances : 1,2,3 Page 1 / 2
UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématique et Informatique Année universitaire : 2017-2018
La valeur Odor = 2 donne plusieurs valeurs de l’attribut classe, donc, il faut refaire le même travail
(calcul du gain) pour l’ensemble des données S2 ={4,5,6,7,8}. I(S2) =I(2,3)=0,971
Gain (S2, Color)= I(2, 3)-E(S2, Color)=0,971-( I(1,0) + I(1,1)+ I(0,1)+ I(0,1))=0,571
Gain (S2, Shape)= I(2, 3)-E(S2, Shape)=0,971-( I(1,2) + I(1,1))=0,020
Donc on choisit l’attribut « Color» avec le gain le plus grand (Gain=0,571). On aura deux branches
avec des nœuds terminaux et la branche B qui sera nécessairement départagée par le seul attribut
restant à savoir «Shape» et l’arbre final sera : Odor
2 3
1
Color N
Y Instance : 9,10,11
B G ou U W Instances : 1,2,3
Shape N Y 1 Pt
C D Instances : 7,8 Instance : 4
Y N
Instance : 5 Instance : 6
2) La règle qu’on peut déduire est :
(Odor = 1) ⋁ ((Odor = 2) ∧ ((Color = W) ⋁ ((Color = B) ∧ (Shape = C))) 1 Pt
3) La classe est : N 0,25 Pt
4) Il faut calculer la distance entre l’instance N°12 et les 11 autres instances :
D(X,Y)=D1(Xi,Yi) + D2(Xi,Yi)
D1(Xi,Yi)= (P-M) / P tel que : P est le nombre total d’attributs et M le nombre de ressemblance
Qui concerne les deux attributs énumératifs « Odor » et « Color »
D2(Xi,Yi)= 0 si Xi = Yi ; 1 sinon Concerne l’attribut binaire « Shape » 01 Pt
N° Instance D1 D2 D N° Instance D1 D2 D
1 1 1 2 7 0,5 0 0,5
2 1 0 1 8 0 1 1
3 1 0 1 9 1 1 2
4 0,5 0 0,5 10 1 1 2
5 0,5 1 1,5 11 1 0 1
6 0,5 0 0,5
Donc, les instances les plus proches de l’instance N°12 sont : l’instance N° 4, N° 6 et N° 7. 0,25 Pt
La distance utilisée est la distante mixte entre deux type d’attributs (dans notre cas, on a utilisé la
distance de Manhattan) qui représente un calcul de similarité entre instantes afin d’appliquer une
méthode de clustering. 0,5 Pt
Page 2 / 2
UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département Génie Electrique et Informatique Année universitaire : 2016-2017
1ère année Master Informatique ISTW Date : 05/01/2017
2. Calculer les performances sur l'ensemble test T ci-dessous en construisant la matrice de confusion
associée à cet énoncé. N° Age Sexe Specialité Sportive
14 24 F IT Oui
15 29 M Sociologie Non
16 45 F Engineering Non
17 35 M IT Non
Ensemble Test T : 18 21 M Médecine Non
19 26 M Sociologie Non
20 46 F IT Oui
21 40 M IT Oui
Exercice 03 (04 Pts) : Une société de production artistique désire faire une enquête de satisfaction sur
l’ensemble des spectacles de théâtre qu’elle a produit cette année pour prévoir le programme de travail
de la prochaine année. La base de données intègre des données sur les spectacles (artistes, lieu de
représentation, période, durée, sujet,…etc) et sur les spectateurs (sexe, niveau,…etc). Bien sûr,
l’appréciation donnée par les spectateurs représente la variable classe qu’on veut prédire. Le modèle de
classification est construit avec 32000 enregistrements. L’évaluation a permet de donner les résultats
suivants :
• Le nombre de personnes qui ont répondus négativement (non satisfait) alors que l’évaluation
leur a donné une réponse positif (satisfait) est de 2400.
• Précision = 0,60
• Taux d’erreur = 20 %
Construisez la matrice de confusion associée à cet exercice sachant le modèle est construit avec les
2/3 de l’ensemble des données historisées.
Supposant un cas général avec N classes, On peut bien sûr normaliser la matrice de confusion pour
en simplifier la lecture. Donnez le type que doit rapprocher la matrice de confusion pour que le taux
d’erreur soit le plus faible possible (un meilleur système de classification).
Spécialité
IT
Médecine Engineering Sociologie
0,5 Pt Sexe
M F ??? Non ???
Age Oui
<30 ≥30
Sous arbre Médecine :
Non Oui
a) Age :
GINI(Age) = 2/4*(1-(0/2)2-(2/2)2) <30 ≥30
Oui 0 1
+ 2/4 (1-(1/2)2-(1/2)2)=2/4*0,5=0,25 Non 2 1
0,5 Pt
b) Sexe :
GINI(Sexe) = 2/4*(1-(0/2)2-(2/2)2) + M F
Oui 1 0 Spécialité
2/4 (1-(1/2)2-(1/2)2)=2/4*0,5=0,25 IT
Non 1 2 Médecine Sociologie
Les deux attributs ont la même valeur du GINI, Sexe Engineering
Age ???
M F
Donc on choisit l’un d’eux et l’arbre sera : <30 ≥30 Non
Age 0,5 Pt
Oui Sexe
Non
<30 ≥30
M F
Non Oui Non Oui
Enseignant : Mr K. Boudjebbour Page 2 / 4
Sous arbre Sociologie :
a) Age :
GINI(Age) = 2/2 (1-(1/2)2-(1/2)2)=2/2*0,5=0,5 <30 ≥30
b) Sexe : Oui 1 0
Non 1 0
GINI(Sexe) = 0 M F 0,5 Pt
Donc on choisit l’attribut « Sexe» avec l’indice Oui 0 1
Non 1 0
GINI le plus bas , Donc l’arbre final sera :
Spécialité
IT
Médecine Sociologie
Sexe Engineering
0,5 Pt Age Sexe
M F
<30 ≥30 Non M F
Age Oui Non Sexe Non Oui
<30 ≥30
M F
Non Oui Non Oui
2) On applique l’ensemble test T sur l’arbre de décision et on trouve la classe prédite :
Exercice 01 : Soient les deux individus suivants correspondant à des séquences ADN :
X = AGGGTGGC et Y = AGGCGTAA
1. Dans quel espace « vivent » les points X et Y ? a quelle dimension ?
2. Si on code : A=0, G=1, C=2 et T=3, quelle est la distance euclidienne d(X,Y) ?
Cela a-t-il un sens en terme de similitude entre les séquences ADN X et Y? Expliquez notamment en
comparant d(A,G) et d(A,T) ?
3. Calculer la matrice de contingence associée A(X,Y). En déduire la distance de Hamming associée. A
quoi la valeur trouvée correspond-elle pratiquement ?
Exercice 02 : Répondez brièvement aux questions suivantes :
1. Le Datamining est un processus inductif, itératif et/ou Interactif de découverte dans les bases de
données larges de modèles de données valides, nouveaux, utiles et compréhensibles. Expliquez ?
2. Que représentent les méthodes Stepdisk, Wrapper, FCBF et pour quelle raison elles sont utilisées ?
3. Quelle est la différence entre les méthodes de partitionnement et les méthodes hiérarchiques ?
Exercice 03 : On considère les données suivantes :
N° cheveux taille poids crème solaire classe
1 blond moyenne léger non Oui = coup de soleil
2 blond grande moyen oui Non = bronzé
3 brun petite moyen oui Non = bronzé
4 blond petite moyen non Oui = coup de soleil
5 roux moyenne lourd non Oui = coup de soleil
6 brun grande lourd non Non = bronzé
7 brun moyenne lourd non Non = bronzé
8 blond petite léger oui Non = bronzé
1. On suppose que les individus sont décrits à l'aide des quatre attributs cheveux, taille, poids et crème
solaire. Construire l'arbre de décision produit par l'algorithme d'apprentissage ID3 en utilisant la
fonction Entropie et la fonction gain associée (lors de l’égalité des gains, le choix des attributs est dans
l’ordre: cheveux, taille, poids et crème solaire). Détailler les calculs pour le choix des attributs.
2. Déduire de l'arbre trouvé une seule règle comportant une disjonction, une conjonction et une négation.
3. En utilisant l’arbre construit, classer l’instance N°9: blond, moyenne, lourd, non.
4. En utilisant l’ensemble des huit instances, et en supposant que l’attribut crème solaire est énumératif,
dites lequel des instances est plus proche de l’instance N° 9 ? que représentent ces calculs (donner le
nom de ces calculs) ?
☺ To succeed in life one must have the courage to pursue what he wants ☺
Cela n’a pas de sens en terme de similitude entre les séquences ADN X et Y, car ce n’est pas une
1 Pt
distance qui convient à un tel espace discret (variables discrètes), notamment si on calcul d(A,G)=1 et
d(A,T)=3 et pourtant a priori A est aussi différent de G que de T.
3. la matrice de contingence associée A(X,Y), en considérant X selon les lignes et Y selon les
colonnes dans l’ordre A, C, G, et T est :
1 0 0 0 1 Pt
A= 1 0 0 0
1 1 2 1
0 0 1 0
Donc, la distance de Hamming associée est dHamming(X,Y)=5.
1 Pt
Elle correspond pratiquement au nombre de coordonnées différentes entre les deux vecteurs X et Y.
Exercice 02 (5 Pts) :
1.
Inductif : Généralisation d’une observation ou d’un raisonnement établis à partir de cas singuliers.
Itératif : Nécessite plusieurs passes (instructions).
Interactif : L’utilisateur est dans la boucle du processus.
2 Pt
Valides : Valable dans le futur.
Nouveaux : Non prévisibles.
Utiles : Permettent à l’utilisateur de prendre des décisions.
Compréhensibles : Présentation simple.
2. Les méthodes Stepdisk, Wrapper, FCBF sont des méthodes de Sélection de variables (attributs)
- Elles sont utilisées pour réduire le nombre d’attributs (variables) 1 Pt
3. Dans les méthodes de partitionnement le nombre de cluster est définit avant le lancement de
1 Pt l’algortihme contrairement aux méthodes hiérarchique. Aussi les méthodes de partitionnement ne
travaillent qu’avec des données numériques seulement.
Gain (taille)= I(3,5)-E(taille)= I(3,5)-( I(2,1)+ I(0,2)+ I(1,2)=0,266
Gain (poids)= I(3,5)-E(poids)= I(3,5)-( I(1,1)+ I(1,2) )+ I(2,1))=)=0,0155
1 Pt
Gain (crème solaire)= I(3,5)-E(crème solaire)= I(3,5)-( I(3,2)+ I(0,3))=0,347
#
Donc on choisit l’attribut « cheveux » avec le gain le plus grand (Gain=0.454) qui représente le nœud
la racine de l’arbre, Donc l’arbre initial sera : Cheveux
Blond Roux
Brun 1 Pt
????????? Coup de soleil
Instances : 1,2,4,8 Bronzé Instance : 5
Instances : 3,6,7
La valeur cheveux = blond donne plusieurs valeurs de l’attribut classe, donc, il faut refaire le mème
travail (calcul du gain) pour l’ensemble des données Sblond ={1,2,4,8}.
% % %
Gain (Sblond , poids)= I(2,2)-E(Sblond ,poids)= 1-( I(1,1)+ I(1,1))=0
1 Pt
% %
Gain (Sblond , crème solaire)= I(2,2)-E(Sblond ,crème solaire)=1-( I(2,0)+ I(0,2))=1
% %
Donc on choisit l’attribut « crème solaire » avec le gain le plus grand (Gain=1) et l’arbre final sera :
Cheveux
Blond Brun Roux
1 Pt D(X,Y)= (P-M) / P tel que : P est le nombre total d’attributs et M le nombre de ressemblance
%
% % % % % % % %
D(9,1) = ; D(9,2) = ; D(9,3) = ; D(9,4) = ; D(9,5) = ; D(9,6) = ; D(9,7) = ; D(9,8) = ;
2 Pts
Donc, les instances les plus proches de l’instance N°9 sont : l’instance N° 1, N° 5 et N° 7.
2. Calculer les performances sur l'ensemble test T ci-dessous en construisant la matrice de confusion
associée à cet énoncé. N° Age Sexe Specialité Sportive
14 24 F IT Oui
15 29 M Sociologie Non
16 45 F Engineering Non
17 35 M IT Non
Ensemble Test T : 18 21 M Médecine Non
19 26 M Sociologie Non
20 46 F IT Oui
21 40 M IT Oui
Exercice 03 (04 Pts) : Une société de production artistique désire faire une enquête de satisfaction sur
l’ensemble des spectacles de théâtre qu’elle a produit cette année pour prévoir le programme de travail
de la prochaine année. La base de données intègre des données sur les spectacles (artistes, lieu de
représentation, période, durée, sujet,…etc) et sur les spectateurs (sexe, niveau,…etc). Bien sûr,
l’appréciation donnée par les spectateurs représente la variable classe qu’on veut prédire. Le modèle de
classification est construit avec 32000 enregistrements. L’évaluation a permet de donner les résultats
suivants :
• Le nombre de personnes qui ont répondus négativement (non satisfait) alors que l’évaluation
leur a donné une réponse positif (satisfait) est de 2400.
• Précision = 0,60
• Taux d’erreur = 20 %
Construisez la matrice de confusion associée à cet exercice sachant le modèle est construit avec les
2/3 de l’ensemble des données historisées.
Supposant un cas général avec N classes, On peut bien sûr normaliser la matrice de confusion pour
en simplifier la lecture. Donnez le type que doit rapprocher la matrice de confusion pour que le taux
d’erreur soit le plus faible possible (un meilleur système de classification).
Spécialité
IT
Médecine Engineering Sociologie
0,5 Pt Sexe
M F ??? Non ???
Age Oui
<30 ≥30
Sous arbre Médecine :
Non Oui
a) Age :
GINI(Age) = 2/4*(1-(0/2)2-(2/2)2) <30 ≥30
Oui 0 1
+ 2/4 (1-(1/2)2-(1/2)2)=2/4*0,5=0,25 Non 2 1
0,5 Pt
b) Sexe :
GINI(Sexe) = 2/4*(1-(0/2)2-(2/2)2) + M F
Oui 1 0 Spécialité
2/4 (1-(1/2)2-(1/2)2)=2/4*0,5=0,25 IT
Non 1 2 Médecine Sociologie
Les deux attributs ont la même valeur du GINI, Sexe Engineering
Age ???
M F
Donc on choisit l’un d’eux et l’arbre sera : <30 ≥30 Non
Age 0,5 Pt
Oui Sexe
Non
<30 ≥30
M F
Non Oui Non Oui
Enseignant : Mr K. Boudjebbour Page 2 / 4
Sous arbre Sociologie :
a) Age :
GINI(Age) = 2/2 (1-(1/2)2-(1/2)2)=2/2*0,5=0,5 <30 ≥30
b) Sexe : Oui 1 0
Non 1 0
GINI(Sexe) = 0 M F 0,5 Pt
Donc on choisit l’attribut « Sexe» avec l’indice Oui 0 1
Non 1 0
GINI le plus bas , Donc l’arbre final sera :
Spécialité
IT
Médecine Sociologie
Sexe Engineering
0,5 Pt Age Sexe
M F
<30 ≥30 Non M F
Age Oui Non Sexe Non Oui
<30 ≥30
M F
Non Oui Non Oui
2) On applique l’ensemble test T sur l’arbre de décision et on trouve la classe prédite :
☺ To succeed in life one must have the courage to pursue what he wants ☺
1) On calcul l’entropie sur l’ensemble des données : I(11,7)= - log - log = 0,964 0,5 Pt
Ensuite on calcul le gain de chaque attribut :
Gain (DegStr)= I(11,7)-E(DegStr)=0,964-( I(3, 3)+ I(3,3) + I(5,1))= 0,081
Gain (HrSom)= I(11,7)-E(HrSom)=0,964-( I(6,0)+ I(1,5) + I(4,2))= 0,441 1 Pt
Gain (Fum)= I(11,7)-E(Fum)=0,964-( I(4,5)+ I(7,2))= 0,086
Donc on choisit l’attribut « HrSom » avec le gain le plus grand (Gain=0.411) qui représente la racine
de l’arbre, Donc l’arbre initial sera : HrSom
Egal 0,5 Pt
Supérieur
Moins
Inst : 5, à 12 ??? Inst : 13 à 18
Yes ???
Les valeurs Egal et Supérieur donnent deux valeurs de la classe, donc, il faut refaire le même travail
(calcul du gain) pour l’ensemble des données SEg={3,4,9,10,15,16} et SSup={5,6,11,12,17,18}.
• I(SEg) =I(1,5)=0,650
Gain (SEg, DegStr)= I(1,5)-E(SEg, DegStr)= 0,650-( I(0,2)+ I(0,2) + I(1,1))= 0,317
1 Pt Gain (SEg, Fum)= I(1,5)-E(SEg, Fum)= 0,650-( I(0,3)+ I(1,2))= 0,191
HrSom
Donc on choisit l’attribut « DegStr » avec Egal Supérieur
le gain le plus grand (Gain=0.317), et l’arbre devient : Moins
DegStr
???
Petit ou Normal Fort Yes Inst : 13 à 18
or
No Fum
Non Oui
• I(SSup) =I(4,2)=0,919
No Yes
Gain (SSup, DegStr)= I(4,2)-E(SSup, DegStr)= 0,919-( I(1,1)
+ I(1,1)+ I(2,0))= 0,252 HrSom
Gain (SSup, Fum)= I(4,2)-E(SSup, Fum) 1 Pt Egal Supérieur
Moins
= 0,919-( I(1,2)+ I(3,0))= 0,495 DegStr Fum
Petit ou Normal Fort Yes Oui Non
Donc on choisit l’attribut « Fum » avec
le gain le plus grand (Gain=0.495), No Fum Yes DegStr
et l’arbre final devient : Non Oui Petit ou Normal Fort
No Yes No Yes
2) Règle :
(HrSom = Moins) ou ((HrSom ≠ Moins) et (DegStr=Fort) et ((Fum=Oui) ou ((Fum=Non) et
(DegStr=Fort)))) 1 Pt
• Matrice de 1 Pt
Prédite (Yes) Prédite (No) Total
confusion :
Classe réelle (Yes) 2 1 3
Classe réelle (No) 1 2 3
Total 3 3 6
• Taux d’erreur = b+c / n, Donc le taux d’erreur est : 2/6 = 0,3333 = 33,33 %
0,5 Pt • Précision = a/(a+c) = 66,66 % : représente le pourcentage des colopathies positivement prédites
par rapport aux total des colopathies prédites
0,5 Pt • Spécificité = d/(c+d) = 66,66 % représente le pourcentage des non colopathies positivement
1,5 Pt
Support 3 3 4 1 4
F1 itemset Oui Oui Oui Non Oui
2 Pt
C2 itemset {A,B} {A,C} {A,E} {B,C} {B,E} {C,E}
Card 2
Support 1 3 2 2 3 3
F2 itemset Non Oui Oui Oui Oui Oui
Card 4
F3 itemset Non Non Oui Oui F4 itemset Non
Cause {A,B} non Fréquent {A,B,C}
Cause
non Fréquent
- On génère maintenant les règles d’associations d’une confiance minimale = 60 % pour tout sous
ensembles non vides fréquents :
- Pour l’itemset fréquent {A,C,E}
Règle {A,C}E {A,E}C {C,E}A A{C,E} C{A,E} E{A,C}
Confiance 66,66 % 100 % 66,66 % 66,66 % 50 % 50 % 1 Pt
Conclusion Acceptée Acceptée Acceptée Acceptée Rejetée Rejetée
- Pour l’itemset fréquent {B,C,E}
Règle {B,C}E {B,E}C {C,E}B B{C,E} C{B,E} E{B,C}
Confiance 100 % 66,66 % 66,66 % 66,66 % 50 % 50 % 1 Pt
Conclusion Acceptée Acceptée Acceptée Acceptée Rejetée Rejetée
- Pour les autres itemset
- AC , AE sont redondantes par rapport à A{C,E}
- BC , BE sont redondantes par rapport à B{C,E} 1 Pt
- Un motif fréquent est dit fermé s’il ne possède aucun sur-motif qui a le même support, exp : {A,C} 1 Pt
- Un motif fréquent est dit Maximal si aucun de ses sur-motifs immédiats n’est fréquent, exp:{A,C,E}
Exercice 01 (02 pts) : Supposons qu’on veut utiliser des données binaires dans un processus de
clustering. Citer (ou proposer) une (des) mesure(s) de similarité (distance(s)) pour ce type de données.
Evaluer la (les) distance(s) entre les objets X = 0101010001 et Y = 0100011000. Que remarquez-vous ?
Déduisez la distance de Hamming associée. A quoi la valeur trouvée correspond-elle ?
Exercice 03 (05 pts) : Soit l’ensemble d’apprentissage ci-dessous. La classe est « Edible ».
N° Shape Color Odor Edible
1 C B 1 Y
2 D B 1 Y
3 D W 1 Y
4 D W 2 Y
5 C B 2 Y
6 D B 2 N
7 D G 2 N
8 C U 2 N
9 C B 3 N
10 C W 3 N
11 D W 3 N
1. En utilisant l’algorithme ID3 et le gain d’information, construire l’arbre de décision du dataset. Donner
les détails des calculs.
2. Déduire de l'arbre trouvé une seule règle comportant 2 disjonctions et 2 conjonctions au maximum.
3. En utilisant l’arbre construit, classer l’instance N°12: Shape=C, Color=G, Odor=2.
4. En utilisant l’ensemble des onze instances, et en supposant que les attributs « Color » et « Odor » sont
des variables énumératives, dites lequel des instances est plus proche de l’instance N° 12 ? quelle est la
distance utilisée ? Que représentent ces calculs (donner le nom de ces calculs) ?
☺ To succeed in life one must have the courage to pursue what he wants ☺
0,5 Pt Malgré que D1 et D2 représentent deux distances entre les mêmes instances, on remarque que qu’elles
sont très éloignées car D2=2*D1
Distance de hamming = b+c = 3. Elle représente le nombre de caractéristiques différentes entre x et y. 0,25 Pt
Exercice 02 (03 Pts) :
1. L’élagage est la suppression de quelques sous-arbres dans la l’arbre de décision. Son objectif
principal est la réduction de l’arbre afin d’améliorer le taux d’erreur.
2. les techniques descriptives de datamining visent à mettre en évidence des informations présentes
mais cachées par le volume de données alors que les techniques prédictives visent à extrapoler de
nouvelles informations à partir des informations présentes. Elles se basent essentiellement sur des
modèles qui utilisent des données présentes ou passées pour construire des scénarios futurs.
3. La transformation des données est la transformation d’un attribut A en une autre variable A’ qui
serait selon les objectifs de l’étude, plus appropriée.
Exp 1 : Variable continue en variable discrète et vice versa
Exp 2 : La construction d’agrégats par exemple, le prix au mètre-carré d’un appartement
Exercice 03 (05,50 Pts):
1) On calcul l’entropie sur l’ensemble des données : I(5,6)= - log - log = 0,994 0,5 Pt
Ensuite on calcul le gain de chaque attribut :
Gain (Shape)= I(5,6)-E(Shape)= I(5,6)-( I(2,3)+ I(3,3))=0,008
Gain (Color)= I(5,6)-E(Color)= I(5,6)-( I(3,2)+ I(2,2)+ I(0,1)+ I(0,1)=0,189
Gain (Odor)= I(5,6)-E(Odor)= I(5,6)-( I(3,0)+ I(2,3)+ I(0,3))=0,553
Donc on choisit l’attribut « Odor » avec le gain le plus grand (Gain=0.553) qui représente le nœud la
racine de l’arbre, Donc l’arbre initial sera : Odor 1 Pt
2 3
1
????? N
Y
Instances : 4,5,6,7,8 Instance : 9,10,11
Instances : 1,2,3 Page 1 / 2
UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématique et Informatique Année universitaire : 2017-2018
La valeur Odor = 2 donne plusieurs valeurs de l’attribut classe, donc, il faut refaire le même travail
(calcul du gain) pour l’ensemble des données S2 ={4,5,6,7,8}. I(S2) =I(2,3)=0,971
Gain (S2, Color)= I(2, 3)-E(S2, Color)=0,971-( I(1,0) + I(1,1)+ I(0,1)+ I(0,1))=0,571
Gain (S2, Shape)= I(2, 3)-E(S2, Shape)=0,971-( I(1,2) + I(1,1))=0,020
Donc on choisit l’attribut « Color» avec le gain le plus grand (Gain=0,571). On aura deux branches
avec des nœuds terminaux et la branche B qui sera nécessairement départagée par le seul attribut
restant à savoir «Shape» et l’arbre final sera : Odor
2 3
1
Color N
Y Instance : 9,10,11
B G ou U W Instances : 1,2,3
Shape N Y 1 Pt
C D Instances : 7,8 Instance : 4
Y N
Instance : 5 Instance : 6
2) La règle qu’on peut déduire est :
(Odor = 1) ⋁ ((Odor = 2) ∧ ((Color = W) ⋁ ((Color = B) ∧ (Shape = C))) 1 Pt
3) La classe est : N 0,25 Pt
4) Il faut calculer la distance entre l’instance N°12 et les 11 autres instances :
D(X,Y)=D1(Xi,Yi) + D2(Xi,Yi)
D1(Xi,Yi)= (P-M) / P tel que : P est le nombre total d’attributs et M le nombre de ressemblance
Qui concerne les deux attributs énumératifs « Odor » et « Color »
D2(Xi,Yi)= 0 si Xi = Yi ; 1 sinon Concerne l’attribut binaire « Shape » 01 Pt
N° Instance D1 D2 D N° Instance D1 D2 D
1 1 1 2 7 0,5 0 0,5
2 1 0 1 8 0 1 1
3 1 0 1 9 1 1 2
4 0,5 0 0,5 10 1 1 2
5 0,5 1 1,5 11 1 0 1
6 0,5 0 0,5
Donc, les instances les plus proches de l’instance N°12 sont : l’instance N° 4, N° 6 et N° 7. 0,25 Pt
La distance utilisée est la distante mixte entre deux type d’attributs (dans notre cas, on a utilisé la
distance de Manhattan) qui représente un calcul de similarité entre instantes afin d’appliquer une
méthode de clustering. 0,5 Pt
Page 2 / 2