Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 2

ENSSEA Année universitaire : 2021 -2022

Responsable du cours : Pr Lounici N.

Master Statistique Appliquée « Année 3 »


Data Mining et Apprentissage
Série d’exercices : Règles d’association (algorithme APRIORI)

Exercice 1 :
Le but de cet exercice est de dérouler l'algorithme Apriori sur certains produits d'une épicerie,
en utilisant comme seuils de support et de confiance, égaux resp. à sup = 40% et conf = 60%.

Transaction ID Attributes (basket items)


1 Spaghetti, tomato, sauce
2 Spaghetti, bread
3 Spaghetti, tomato sauce, bread
4 bread, butter
5 bread, tomato sauce

(a) Calculer d'abord les ensembles de k-itemsets candidats et fréquents, pour chaque étape de
l'algorithme.

Exercice 2:
La base D suivante contient 4 transactions. Le support minimum et la confiance minimum
sont respectivement sup = 50% et conf = 80%.

TID Produits achetés


T1 Logiciel, Livre, DVD, CD
T2 DVD, Livre, Téléphone portable, Magazine, CD
T3 Téléphone portable, Livre, CD, Magazine
T4 CD, Livre, DVD

1) Trouvez tous les itemsets fréquents en utilisant l’algorithme Apriori.


2) Générez toutes les règles d’association ayant une confiance supérieure au seuil conf et qui
soient de la forme suivante :

∀X ∈ D, achète(X, produit1) ∧ achète(X,produit2) → achète(X,produit3) [50,80]

Où X est une variable représentant un client et produiti désigne un produit.

Exercice 3 / Règles d’association :


Vous avez 10 hôtels et la liste de services suivantes : “ Piscine (P), Wi-Fi (WF), Salle de
réunion (SR), Ascenseur (A), Restaurant (R)”. Les services proposés par chaque hôtel sont
indiqués dans le tableau ci-dessous ; Les instances sont représentées par l’ensemble des hôtels
et les items par les différents services.
TID Items
Hotel1 A P SR WF
Hotel2 P R SR
Hotel3 A P SR WF
Hotel4 A R SR WF
Hotel5 P R SR WF
Hotel6 P SR WF
Hotel7 R SR
Hotel8 A P R
Hotel9 A SR WF
Hotel10 P SR

Pour un seuil de support minimal de min = 30%.


1) Dessinez dans un ensemble les nœuds du treillis de Gallois des itemsets . Pour chaque
nœud du treillis, doit être marqué par la lettre suivante, selon le cas:

− N: si l'itemset ne fait pas partie des itemsets candidats; c'est à dire s'il n'est jamais généré
par Apriori
− F: si c'est un itemset fréquent
− R: si c'est un itemset candidat, qui s'est révélé non-fréquent
2) Quel est le pourcentage d'itemsets qui sont fréquents ?
3) Quel est le «taux d'élagage » d'Apriori sur ces données (c'est à dire le pourcentage
d'itemsets non candidats) ?
4) Quel est le « taux de rejet » (c'est à dire le pourcentage d'itemsets non-fréquents parmi les
candidats) ?

5) Avec conf=70%, trouvez les règles d'association de la forme item1→ item2,item3


6) Combien de règles d'association trouvez-vous dont la confiance soit à 100% ?

Vous aimerez peut-être aussi