Académique Documents
Professionnel Documents
Culture Documents
com
République Algérienne Démocratique et Populaire
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Université Mohamed Seddik Benyahia, Jijel
1. Soit la liste des éléments suivants (itemsets et règles d’associations), décrits chacun
par son support S ou sa confiances C:
E1 E2 E3 E4 E5
E1 /
E2 Non /
E3 Oui Oui /
E4 Oui Non Oui /
E5 Oui Oui Oui Oui /
• Les types de linkage diffèrent selon le mode de calcul de la distance entre deux
clusters. La distance est égale à
o La distance entre les individus les plus proches dans le linkage single
o La distance entre les individus les plus éloignés dans le linkage complet
o La distance entre les centroïdes des clusters dans le linkage par centroïde.
Exercice n°1 (07 pts)
Le tableau ci-dessous représente les choix de livres achetés dans une exposition de vente
effectués par 20 acheteurs. Les livres A et B appartiennent à la catégorie Histoire, les livres C
et D sont de catégorie Politique et les livres E et F sont de catégorie Technologie.
AF E BCDE CEF E
BCD BCDE ACD D CEF
ABCD B C BDE BCDE
CDF ABCE BC BCDF CDF
1. Les tableaux successifs des itemsets en indiquant les itemsets fréquents pour un support
minimal de 30%.
K=1
Itemset Support (%) Nombre de trans. Fréquent?
A 20 4 Non
B 50 10 Oui
C 70 14 Oui
D 55 11 Oui
E 45 09 Oui
F 30 06 Oui
K=2
Itemset Support (%) Nombre de trans. Fréquent?
BC 40 8 Oui
BD 35 7 Oui
BE 25 5 Non
BF 05 1 Non
CD 45 9 Oui
CE 30 6 Oui
CF 25 5 Non
DE 20 4 Non
DF 15 3 Non
EF 10 2 Non
K=3
Itemset Support (%) Nombre de trans. Fréquent?
BCD 30 6 Oui
CDE 15 3 Non
2.
• La liste des règles d’association pour une confiance minimale de 60%.
3. Nouveau besoin “Savoir à quel degré les gens ayant acheté au moins un livre
d’histoire ont acheté un et un seul livre des autres catégories confondues”.
• Transformation du tableau initial: En considérant la présence d’un item comme un 1
logique et son absence comme un “0” logique, le nouveau tableau contient deux colonnes: la
première colonne “C1” correspond au OU LOGIQUE entre les items A et B. La deuxième
colonne correspond à un OU EXCLUSIF (XOR) entre C, D, E, et F
• Contenu du nouveau tableau
Le tableau suivant représente les données relatives à des demandeurs de visa avec leur
décisions de retour à leurs pays d’origine après expiration de leurs visas. Les personnes en
question sont décrites par les attributs suivants:
• Catégorie d’age (CA) ayant comme valeurs “moins de 30 ans” ou “30 ou plus”,
• Zone du pays d’origine (Z) ayant comme valeurs “Z1”, “Z2” et “Z3”,
• Situation familiale (SF) ayant comme valeurs “Marié” et “Célibataire”,
• Situation profesionnelle (SP) ayant comme valeurs “Fonctionnaire”, “Fonction
libérale” ou “Sans emploi”.
CA Z SF SP Retour?
-30 Z1 Célibataire Libéral Non
-30 Z2 Célibataire Sans emploi Non
30+ Z1 Marié Sans emploi Oui
30+ Z3 Marié Libéral Non
-30 Z1 Marié Fonctionnaire Non
30+ Z1 Marié Libéral Oui
-30 Z2 Marié Fonctionnaire Oui
30+ Z1 Célibataire Sans emploi Oui
-30 Z3 Célibaire Sans emploi Non
30+ Z3 Marié Fonctionnaire Non
o CA:
§ -30: P(Oui) = 1/5 = 20%, P(Non) = 4/5 = 80% àE(CA/-30)=0,72
§ 30+: P(Oui) = 3/5 = 60%, P(Non) = 2/5= 40%, à E(CA/30+)=0,97
§ Gain = 0,97 – (0,72*5/10 + 0,97*5/10) = 0,125
o Z:
§ Z1: P(Oui) = 3/5 = 60%, P(Non) = 2/5 = 40% à E(Z/Z1) = 0,97
§ Z2: P(Oui) = 1/2 = 50%, P(Non) = 1/2 = 50% à E(Z/Z2) = 1
§ Z3: P(Oui) = 0, P(Non) = 100% à E(Z/Z3) = 0
§ Gain = 0,97 – (0,485 + 0,2) = 0,285
o SF:
§ Célibataire: P(Oui) = 1/4 = 25%, P(Non) = ¾ = 75% à
E(SF/celibataire)= 0,81
§ Marié: P(Oui) = 3/6 = 50%, P(Non) = 3/6 = 50% à E(SF/marié) = 1
§ Gain= 0,97 – (0,81*4/10 + 1*6/10) = 0,05
o SP:
§ Libéral: P(Oui) = 1/3, P(Non) = 2/3 à E(SP/libéral) = 0,92
§ Sans emploi: P(Oui) = 2/4, P(N) = 2/4 à E(SP/ Sans emploi) = 1
§ Fonctionnaire:P(Oui) = 1/3,P(Non) = 2/3 à E(SP/fonctionnaire) = 0,92
§ Gain= 0,97 – (0,92*3/10 + 1 * 4/10 + 0,92* 3/10)= 0,018
Zone
Z1 Z2 Z3
Zone
Z1 Z2 Z3
Zone