Vous êtes sur la page 1sur 3

UNIVERSITE DR « YAHIA FARES » DE MEDEA

Faculté des Sciences


Département de Mathématiques et Informatique Année universitaire : 2017-2018
Module : Datamining

Série d’exercices N° 02
Exercice 01 : Trouver les deux personnes les plus proches en utilisant les variables asymétriques
seulement :

Exercice 02 : N° Age Sexe Spécialité Sportive


Une étude sur un ensemble de personnes a 1 19 F IT Oui
permet d’établir la BDD suivante représentant 2 21 F IT Oui
l’état « sportivité » de chaque personne par 3 20 M Médecine Non
rapport aux trois attributs (Age, sexe et 4 35 M Engineering Non
spécialité). 5 34 M Médecine Oui
1. Représenter ces données par un arbre de 6 28 M Sociologie Non
décision en utilisant l’indice GINI comme 7 35 F IT Oui
critère de séparation. 8 40 F Médecine Non
9 35 M IT Oui

NB : le split utilisé pour l’attribut Age est le 10 23 M IT Non


11 24 F Engineering Non
même dans toutes les branches de l’arbre de
12 23 F Médecine Non
décision (Age ≥ 30 et Age < 30).
13 24 F Sociologie Oui

2. Calculer les performances sur l'ensemble test T ci-dessous en construisant la matrice de


confusion associée à cet énoncé. Ensemble Test T :
3. Donner les principaux indicateurs N° Age Sexe Specialité Sportive
synthétiques, en déduisant le taux d’erreur. 14 24 F IT Oui
4. En utilisant la distance normalisée pour 15 29 M Sociologie Non
l’attribut Age et en supposant que l’attribut 16 45 F Engineering Non
«Sexe » est énumératif (variable discrète), 17 35 M IT Non
dites lequel des clients de l’ensemble test T 18 21 M Médecine Non
est plus proche du client N°1 en utilisant la 19 26 M Sociologie Non
distance de Manhattan entre les trois attributs 20 46 F IT Oui

(spécifiez les formules de calcul)? Que 21 40 M IT Oui

représentent ces calculs ?


Citez le nom de trois méthodes (types) utilisées pour appliquer cette approche ?

Page 1 / 2
UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématiques et Informatique Année universitaire : 2017-2018
Exercice 03 : Soient les exemples suivants représentant les données d’une BDD de détection des
fraudes fiscales :

- Trouver la meilleure partition en deux sous ensembles de


valeurs des deux attributs « Situation famille » et
« impôt revenu » de cette BDD en utilisant l’indice
GINI comme critère de partitionnement.
.

Exercice 04 : On dispose de 08 points dans l’espace euclidéen 2D (A …H), tel que :


A(1,3) , B (2,2) , C (2,3) , D (2,4) , E (4,2) , F (5,2) , G (6,2) , H (7,3) .
Appliquez l’algorithme de K-means sur cet espace afin de regrouper les points les plus proches
entre eux dans deux clusters en calculant les coordonnées des centres de ces clusters.

Exercice 05 : En utilisant l’algorithme de K-Means, avec la distance de Manhattan et A et B comme


centres initiaux, générer deux clusters pour les données suivantes :
A(2,2) B(3,4) C(7,8) D(9,8) E(5,1) F(8,7).

Exercice 06 : soit l’ensemble de transactions suivantes :


1- Trouver tout les motifs (itemsets) fréquents (support min = 50 %).
2- Générer toutes les règles d’association de 3-itemset, ensuite,
sélectionner la meilleure d’entre elles (confiance min = 75 %).

Exercice 07 : soit l’ensemble de transactions suivantes :


1- Appliquer l’algorithme A priori pour trouver tout les
motifs fréquents (support minimum = 2).
2- Générer toutes les règles d’association ayant une confiance
minimale de 70 %.

☺ Speech is silver, silent is gold ☺


☺ La parole est d'argent, mais le silence est d’or ☺
☺ ‫☺إذا ﻛﺎن اﻟﻜﻼم ﻣﻦ ﻓﻀﺔ ﻓﺎﻟﺴﻜﻮت ﻣﻦ ذﻫﺐ‬

Page 2 / 2
UNIVERSITE DR « YAHIA FARES » DE MEDEA
Faculté des Sciences
Département de Mathématiques et Informatique Année universitaire : 2018-2019

Série d’exercices N° 02
Exercice 05 : En utilisant l’algorithme de K-Means, avec la distance de Manhattan et A et B comme
centres initiaux, générer deux clusters pour les données suivantes :
A(2,2) B(3,4) C(7,8) D(9,8) E(5,1) F(8,7).
K-Means sur l’ensemble des données A,B,C,D,E,F et A(2,2), B(3,4) comme centres initiaux pour
générer 2 clusters avec la distance de Manhattan : d(X,Y) = ∑
| − |

Centres
A(2,2) G(7/2,3/2) I(10/3,7/3)
B(3,4) H(27/4,27/4) K(8,23/3)
Points
A(2,2) A G I

ARRET
B(3,4) B G I
C(7,8) B H K
D(9,8) B H K
E(5,1 ) A G I
F(8,7 ) B H K

Donc les deux clusters sont {A,B,E}et{C,D,F}


Exercice 06 : soit l’ensemble de transactions suivantes :
1- Trouver tout les motifs (itemsets) fréquents (support min = 50 %).
2- Générer toutes les règles d’association de 3-itemset, ensuite,
sélectionner la meilleure d’entre elles (confiance min = 75 %).
1- tout les motifs (itemsets) fréquents (support min = 50 %) :
Taille 1 : C1 = {1,2,3,4,5} avec support respectif {50%,75%,75%,25%,75%}
donc F1 = {1,2,3,5}
Taille 2 : C2 = {12,13,15,23,25,35} avec support respectif {25%,50%,25%,50%,75%,50%}
donc F2 = {13,23,25,35}
Taille 3 : C3 = {123, 135, 235} . On élimine 123 car 12 n’est pas présent dans F2 et 135 car 15
n’est pas présent dans F2 (d’après la règle qui stipule que tout itemset fréquent doit avoir tout ses
sous-itemset fréquents. Il reste 235 avec un support de 50 % donc F3 = {235}, arret.
Donc l’ensemble des itemset fréquents sont : {1,2,3,5, 13,23,25,35,235}
2- les règles d’association de 3-items sont :
2,35 conf = 100 % (accepté)
3,5 2 conf = 100 % (accepté)
2,53 conf = 66,66 % (refusé) donc 23,5 et 52,3 sont refusés
32,5 conf = 66,66 % (refusé)

Page 1 / 1

Vous aimerez peut-être aussi