Académique Documents
Professionnel Documents
Culture Documents
Plan
2
❑ Domaines d’applications
❑ Définitions
❑ Génération des ensembles fréquents
❑ L’algorithme Apriori
❑ Génération des règles d’association
❑ Évaluation des règles extraites
3
Applications
▪ Marketing
▪ identifier les articles achetés ensemble
▪ utiliser ces informations à des fins de marketing ou de gestion
des étagère des supermarchés
▪ Gestion de l'inventaire
▪ identifier les pièces souvent nécessaires ensemble pour les
réparations
▪ utilisez ces informations pour équiper vos véhicules de
réparation des bonnes pièces
▪ Exploitation du web
▪ identifier les mots qui apparaissent fréquemment ensemble
dans les requêtes de recherche
▪ utilisez ces informations pour offrir des fonctionnalités de saisie
semi-automatique à l'utilisateur
Applications 4
Définition: ensemble d’articles fréquent
▪ Itemset
▪ Un ensemble d’article
▪ Exemple: {Lait, Pain, Couches} TID Items
▪ k-itemset 1 Pain, Lait
▪ Un ensemble d’articles qui contient k 2 Pain, Couches, Fromage, Oeufs
articles
3 Lait, Couches, Fromage, Confiture
▪ Ensemble d’articles fréquent (Frequent
Itemset) 4 Pain, Lait, Couches, Fromage
▪ Un ensemble d’articles dont le supprt est 5 Pain, Lait, Couches, Confiture
supérieure ou égale à un seuil minsup (support
minimal),
Règles d’association 6
▪ Étant donné un ensemble de transactions, rechercher des règles qui prédiront l'occurrence
d'un article en fonction des occurrences d'autres articles dans la transaction.
▪ Brute-force approach:
▪ Lister toutes les règles d’association possibles
▪ Calculer le support et la confiance pour chaque règle d’association
▪ Eliminer les règles dont le support et la confiance ne dépassent pas
les seuils fixés,
Enormément de calcul!
Exploration des règles d’association 9
Observations:
✓ Toutes les règles ci-dessus sont des partitions binaires du même ensemble
d’articles (itemset): {Lait, Couches, Fromage}
✓ Les règles issues du même itemset ont un support identique mais peuvent avoir
des confiances différentes.
⇒ Ainsi, nous pouvons découpler les deux indices.
Exploration des règles d’association 10
S sup_min
▪ Brute-force approach:
▪ Chaque itemset (ensemble d’articles) dans la base est un un candidat
▪ Calculer le support de chaque candidat en parcourant la base de données.
TID Items
1 Pain, Lait
2 Pain, Couches, Fromage, Oeufs
3 Lait, Couches, Fromage, Confiture
4 Pain, Lait, Couches, Fromage
5 Pain, Lait, Couches, Confiture
w
Exemple :
∀ 𝑋, 𝑌 ∶ 𝑋 ⊆ 𝑌 ⇒ 𝑆(𝑋) ≥ 𝑆(𝑌)
Itemset non
fréquent
Illustration du principe de l’algorithme Apriori 16
Si un ensemble d’articles
n’est pas fréquent, tous ses
sur-ensembles ne sont pas
fréquents
Itemset non
fréquent
Illustration du principe de l’algorithme Apriori 17
Itemset non
fréquent
Illustration du principe de l’algorithme Apriori 18
Itemset non
fréquent
Illustration du principe Apriori 19
Triplets (3-itemsets)
2 Pain, Couches, Fromage, Oeufs
3 Lait, Couches, Fromage, Confiture
4
5
Pain, Lait, Couches, Fromage
Pain, Lait, Couches, Confiture
Itemset σ
{Pain, Lait, Couches} 3
Support Minimum = 3
Illustration du principe Apriori 20
▪ Soit k=1
▪ Générer des ensembles fréquents d’articles de taille 1
▪ Répétez jusqu'à ce qu'aucun nouvel ensemble d'éléments fréquents ne
soit identifié
▪ Générer des ensembles candidats de taille (k+1) à partir des ensembles
fréquents de taille k.
▪ Calculer le support de chaque candidat en scannant la BD.
▪ Eliminer les candidats qui ne sont pas fréquents, et laisser seulement ceux
qui sont fréquents.
L’algorithme Apriori
22
L’algorithme Apriori: génération des 23
ensembles d’articles
Méthode Fk−1 × F1 : elle consiste à étendre chaque ensemble (k − 1) avec d'autres éléments
fréquents. Cette méthode produira O(|Fk−1| × |F1|) k-itemsets candidats, où |Fj| est le nombre de j-
itemsets fréquents. La procédure est complète car chaque k-itemset fréquent est composé d'un (k −
1)-itemset fréquent et d'un 1-itemset fréquent. Par conséquent, tous les k-itemsets fréquents font
partie des k-itemsets candidats générés par cette procédure.
Item σ
Pain 4
Itemset
Lait 4
{Pain, Lait, Fromage}
Fromage 3
{Pain, Lait, Couches}
Couches 4
{Pain, Couches, Lait}
{Pain, Couches, Fromage}
Itemset σ {Lait, Couches, Pain}
{Lait, Pain} 3 {Lait, Couches, Fromage}
{Pain, Couches} 3 {Fromage, Couches, Pain}
{Lait, Couches} 3 {Fromage, Couches, Lait}
{Fromage, Couches} 3
Cette approche, cependant, n'empêche pas le même itemset d'être généré plus d'une fois.
L’algorithme Apriori: génération des ensembles d’articles 24
Item σ
Pain 4
Lait 4
Fromage 3 Itemset
Couches 4 {Couches, Lait, Pain}
{Couches, Fromage, Pain}
Itemset σ {Couches, Fromage, Lait}
{Pain, Lait} 3
{Couches, Pain} 3
{Couches, Lait} 3
{Couches, Fromage} 3
L’algorithme Apriori: génération des 25
ensembles d’articles
Méthode Fk−1×Fk−1 La procédure de génération de candidats fusionne une paire de (k−1)-itemsets
fréquents uniquement si leurs k−2 premiers items sont identiques. Soit A = {a1, a2, . . . , ak−1} et B =
{b1, b2, . . . , bk−1} une paire de (k − 1)-itemsets fréquents. A et B sont fusionnés s'ils remplissent
les conditions suivantes :
𝑎𝑖 =𝑏𝑖 (pour i = 1, 2, . . . , k − 2) et 𝑎𝑘−1 ≠ 𝑏𝑘−1
Itemset σ Itemset
{Pain, Lait} 3 {Couches, Lait, Pain}
{Couches, Pain} 3 {Couches, Fromage, Pain}
{Couches, Lait} 3 {Couches, Fromage, Lait}
{Couches, Fromage} 3
Les deux ensembles {Couches, Pain} et {Couches, Lait} peuvent être fusionnés puisqu’ils
satisfont les deux conditions.
L’algorithme Apriori
26
minsup=2
1. Scanner la dataset T
▪ Cand1: {1} :2, {2} :3, {3} :3, {4} :1, {5} :3
▪ Fequ1: {1} :2, {2} :3, {3} :3, {5} :3
▪ Cand2: {1,2}, {1,3}, {1,5}, {2,3}, {2,5}, {3,5}
2. Scanner la dataset T
▪ Cand2: {1,2} :1, {1,3} :2, {1,5} :1, {2,3} :2, {2,5} :3, {3,5} :2
▪ Fequ2: {1,3} :2, {2,3} :2, {2,5} :3, {3,5} :2
▪ Cand3: {2, 3, 5}
3. Scanner la dataset T
▪ C3: {2, 3, 5} :2
▪ F3: {2, 3, 5}
Les facteurs qui influence la complexité 27
c(ABC →D) peut être plus grande ou plus petite que c(AB →D)
▪ Mais la confiance des règles générées à partir du même itemset est anti-
monotone
▪ L = {A,B,C,D}:
c(ABC → D) c(AB → CD) c(A → BCD)
La confiance est anti-monotone par rapport au nombre d’éléments sur le côté droit
de la règle.
31
𝐶 𝐴𝐵 → 𝐶 ≥ 𝐶(𝐴 → 𝐵𝐶)
Génération des règles en utilisant le 32
principe Apriori
ABCD=>{ }
Règle avec
une
confiance BCD=>A ACD=>B ABD=>C ABC=>D
< seuil
ABCD=>{ }
Règle avec
une BCD=>A ACD=>B ABD=>C ABC=>D
confiance
< seuil
Règles
élaguées
D=>ABC C=>ABD B=>ACD A=>BCD
Génération des règles 34
Exemple de règle :
{Nombre de Pages ⋲ [5,10) ⋀ (Navigteur=Firefox)} → {Acheter = Non}
Gestion des attributs catégoriels 36
Mesure d’interet
▪ Etant donné une règle :X → Y, les information nécessaires pour mesurer l’interet de
cette règle peuvent etre trouvées dans le tableau de contingence
Table de contingence
𝑌 𝑌ത
𝑋 f11 f10 f1+
𝑋ത f01 f00 fo+
f+1 F+0 N
𝐶𝑎𝑓é 𝐶𝑎𝑓é
𝑇ℎé 150 50 200
𝑇ℎé 650 150 800
800 200 1000
𝐶𝑎𝑓é 𝐶𝑎𝑓é
𝑇ℎé 150 50 200
𝑇ℎé 650 150 800
800 200 1000
S(thé→Café)=15%
Confiance= P(Café|Thé) = 75%
Mais P(Café) = 0.8
42
Mesures basées sur les statistiques
𝑃(𝑌|𝑋) 𝐶(𝑋 → 𝑌) 𝑌 𝑌ത
𝐿𝑖𝑓𝑡 = =
𝑃(𝑌) 𝑆(𝑌) 𝑋 f11 f10 f1+
𝑃(𝑋, 𝑌) 𝑆(𝑋, 𝑌)
𝐼𝑛𝑡𝑒𝑟𝑒𝑡 = = 𝑋ത f01 f00 fo+
𝑃(𝑋)𝑃(𝑌) 𝑆 𝑋 𝑆(𝑌) f+1 F+0 N
Exemple: Lift/Interet 43
S(thé→Café)=15%
Confiance= P(Café|Thé) = 75%
Mais P(Café) = 0.8
Lift = 0.75/0.8= 0.9375 (< 1, Donc, ils
sont associés négativement)
Exemple: Lift/Interet (Limitation) 44
p 𝑝ҧ r 𝑟ҧ
𝑞 880 50 930 𝑠 20 50 70
𝑞ത 50 20 70 𝑠ҧ 50 880 930
930 70 1000 70 930 1000
𝐶𝑎𝑓é 𝐶𝑎𝑓é
𝑇ℎé 150 50 200
𝑇ℎé 650 150 800
−1 ≤ 𝜑 ≤ 1
800 200 1000
▪Mesures Subjectives :
▪ Classement des patterns selon l’interprétation de l’utilisateur