09012022123357655125611549

1
Plan
2
❑ Domaines d’applications
❑ Définitions
❑ Génération des ensembles fréquents
❑ L’algorithme Apriori
❑ Génération des règles d’association
❑ Évaluation des règles extraites
3
Applications
▪ Marketing
▪ identifier les articles achetés ensemble
▪ utiliser ces informations à des fins de marketing ou de gestion
des étagère des supermarchés
▪ Gestion de l'inventaire
▪ identifier les pièces souvent nécessaires ensemble pour les
réparations
▪ utilisez ces informations pour équiper vos véhicules de
réparation des bonnes pièces
▪ Exploitation du web
▪ identifier les mots qui apparaissent fréquemment ensemble
dans les requêtes de recherche
▪ utilisez ces informations pour offrir des fonctionnalités de saisie
semi-automatique à l'utilisateur
Applications 4
Définition: ensemble d’articles fréquent
▪ Itemset
▪ Un ensemble d’article
▪ Exemple: {Lait, Pain, Couches} TID Items
▪ k-itemset 1 Pain, Lait
▪ Un ensemble d’articles qui contient k 2 Pain, Couches, Fromage, Oeufs
articles
3 Lait, Couches, Fromage, Confiture
▪ Ensemble d’articles fréquent (Frequent
Itemset) 4 Pain, Lait, Couches, Fromage
▪ Un ensemble d’articles dont le supprt est 5 Pain, Lait, Couches, Confiture
supérieure ou égale à un seuil minsup (support
minimal),
Règles d’association 6
▪ Étant donné un ensemble de transactions, rechercher des règles qui prédiront l'occurrence
d'un article en fonction des occurrences d'autres articles dans la transaction.
Liste des transactions

Exemple:
TID Items
{Couches} → {Fromage},
1 Pain, Lait
{Lait, Pain} → {Oeufs, Confiture},
2 Pain, Couches, Fromage, Oeufs
{Fromage, Pain} → {Lait},
4 Pain, Lait, Couches, Fromage L’implication signifie une co-
5 Pain, Lait, Couches, Confiture
occurrence, et non une causalité!
Evaluation des règles d’association 7
Règle d’association
– Une expression d’implication ayant la forme X → Y, TID Items
où X et Y sont deux ensembles d’articles (itemsets) 1 Pain, Lait
– Exemple: X→ Y 2 Pain, Couches, Fromage, Oeufs
Evaluation d’une règle d’association
4 Pain, Lait, Couches, Fromage
– Support absolu (σ) 5 Pain, Lait, Couches, Confiture
◆ Nombre de transactions contenant un ensemble
d’article Exemple:
– Support relatif (S) {𝐿𝑎𝑖𝑡, 𝐶𝑜𝑢𝑐ℎ𝑒𝑠} ⇒ 𝐹𝑟𝑜𝑚𝑎𝑔𝑒
◆ Le ratio des transactions contenant un ensemble
d’articles σ 𝐿𝑎𝑖𝑡, 𝐶𝑜𝑢𝑐ℎ𝑒𝑠, 𝐹𝑟𝑜𝑚𝑎𝑔𝑒 = 2
σ(𝑋∪𝑌)
◆ 𝑆(𝑋→ 𝑌) = σ 𝐿𝑎𝑖𝑡, 𝐶𝑜𝑢𝑐ℎ𝑒𝑠, 𝐹𝑟𝑜𝑚𝑎𝑔𝑒 2
|𝑇|
𝑆= =
– Confiance (c) |𝑇| 5
◆ Mesure la fréquence des articles de Y dans les
transactions contenant X. σ 𝐿𝑎𝑖𝑡, 𝐶𝑜𝑢𝑐ℎ𝑒𝑠, 𝐹𝑟𝑜𝑚𝑎𝑔𝑒 2
𝐶= =
◆ 𝐶(𝑋→ 𝑌) =
σ(𝑋∪𝑌) σ 𝐿𝑎𝑖𝑡, 𝐶𝑜𝑢𝑐ℎ𝑒𝑠 3
σ(𝑋)
Exploration des règles d’association 8
▪ Étant donné un ensemble de transactions T, le but de l'exploration

de règles d'association est de trouver toutes les règles ayant:
▪ support ≥ minsup (seuil minimal)
▪ confiance ≥ minconf (seuil minimal pour la confiance)
▪ Brute-force approach:
▪ Lister toutes les règles d’association possibles
▪ Calculer le support et la confiance pour chaque règle d’association
▪ Eliminer les règles dont le support et la confiance ne dépassent pas
les seuils fixés,
 Enormément de calcul!
TID Items Exemples de règles :

1 Pain, Lait 𝐿𝑎𝑖𝑡, 𝐶𝑜𝑢𝑐ℎ𝑒𝑠 ⇒ 𝐹𝑟𝑜𝑚𝑎𝑔𝑒 (𝑠 = 0.4, 𝑐 = 0.67)
{𝐿𝑎𝑖𝑡, 𝐹𝑟𝑜𝑚𝑎𝑔𝑒} ⇒ {𝐶𝑜𝑢𝑐ℎ𝑒𝑠} (𝑠 = 0.4, 𝑐 = 1.0)
{𝐶𝑜𝑢𝑐ℎ𝑒𝑠, 𝐹𝑟𝑜𝑚𝑎𝑔𝑒} ⇒ {𝐿𝑎𝑖𝑡} (𝑠 = 0.4, 𝑐 = 0.67)
3 Lait, Couches, Fromage, Confiture {𝐹𝑟𝑜𝑚𝑎𝑔𝑒} ⇒ {𝐿𝑎𝑖𝑡, 𝐶𝑜𝑢𝑐ℎ𝑒𝑠} (𝑠 = 0.4, 𝑐 = 0.67)
4 Pain, Lait, Couches, Fromage {𝐶𝑜𝑢𝑐ℎ𝑒𝑠} ⇒ {𝐿𝐴𝑖𝑡, 𝐹𝑟𝑜𝑚𝑎𝑔𝑒} (𝑠 = 0.4, 𝑐 = 0.5)
5 Pain, Lait, Couches, Confiture {𝐿𝐴𝑖𝑡} ⇒ {𝐶𝑜𝑢𝑐ℎ𝑒𝑠, 𝐹𝑟𝑜𝑚𝑎𝑔} (𝑠 = 0.4, 𝑐 = 0.5)
Observations:
✓ Toutes les règles ci-dessus sont des partitions binaires du même ensemble
d’articles (itemset): {Lait, Couches, Fromage}
✓ Les règles issues du même itemset ont un support identique mais peuvent avoir
des confiances différentes.
⇒ Ainsi, nous pouvons découpler les deux indices.
▪ Approche en deux étapes:
1. Génération des ensembles d’articles fréquents (frequent itemset)
– Générer tous les ensembles d’articles (itemsets) ayant un support S:
S  sup_min
2. Génération des règles
– Générer des règles avec une confiance suffisante à partir de

chaque itemset, où chaque règle est un partitionnement binaire d’un
itemset fréquent.
▪ La génération d’ensembles fréquents d’articles est toujours couteux au niveau

des calculs.
Génération des itemsets fréquents 11
▪ Brute-force approach:
▪ Chaque itemset (ensemble d’articles) dans la base est un un candidat
▪ Calculer le support de chaque candidat en parcourant la base de données.
TID Items
1 Pain, Lait
w
▪ Complexité ~ O(NMw) => Couteux : M = 2k-1 !!!

Etant donné d articles,

il existe 2k-1
ensembles d’articles
(itemsets) possibles.
Exemple :
Amazon a des millions de livres (10 millions)

210000000 -1 ensembles possible
Réduction du nombre de candidats 14
▪ Principe de l’algorithme Apriori:

▪ Si un ensemble d’articles est fréquent, tous ses sous-ensembles doivent
également être fréquents
▪ Le principe Apriori utilise de la propriété suivante du support :
∀ 𝑋, 𝑌 ∶ 𝑋 ⊆ 𝑌 ⇒ 𝑆(𝑋) ≥ 𝑆(𝑌)
▪ Le support d'un ensemble d’articles ne dépasse jamais le support de ses

sous-ensembles
▪ C’est la propriété anti-monotone du support
Illustration du principe de l’algorithme Apriori 15
Itemset non
fréquent
Si un ensemble d’articles
n’est pas fréquent, tous ses
sur-ensembles ne sont pas
fréquents
Itemset non
fréquent
Itemset non
fréquent
Itemset non
fréquent
Illustration du principe Apriori 19
Items (1-itemsets) Pairs (2-itemsets)

Item 𝝈 𝝈
Itemset
Pain 4
Confiture 2 {Pain, Lait} 3 (Pas besoin de générer des
Lait 4 {Pain, Fromage} 2 candidats impliquant de la
Fromage 3 {Pain, Couches} 3
Couches 4 confiture ou des Œufs)
Oeufs 1
{Lait, Fromage} 2
{Lait, Couches} 3
{Fromage,Couches} 3
TID Items
1 Pain, Lait
Triplets (3-itemsets)
4
5
Pain, Lait, Couches, Fromage
Pain, Lait, Couches, Confiture
Itemset σ
{Pain, Lait, Couches} 3
Support Minimum = 3
Illustration du principe Apriori 20
Items (1-itemsets) Pairs (2-itemsets)

Item σ
Itemset σ
Pain 4
Confiture 2 {Pain, Lait} 3 (Pas besoin de générer des
Lait 4 {Pain, Fromage} 2 candidats impliquant du
Fromage 3 {Pain, Couches} 3
Couches 4 Coca ou des Œufs)
Oeufs 1
{Lait, Fromage} 2
{Lait, Couches} 3
{Fromage,Couches} 3
Sans utiliser le principe Apriori
𝐶61 + 𝐶62 + 𝐶63 = 41
Avec utilisation du principe Apriori
Triplets (3-itemsets)
6 + 6 + 1 = 13
Itemset σ
{Pain, Lait, Couches} 3
L’algorithme Apriori
21
▪ Soit k=1
▪ Générer des ensembles fréquents d’articles de taille 1
▪ Répétez jusqu'à ce qu'aucun nouvel ensemble d'éléments fréquents ne
soit identifié
▪ Générer des ensembles candidats de taille (k+1) à partir des ensembles
fréquents de taille k.
▪ Calculer le support de chaque candidat en scannant la BD.
▪ Eliminer les candidats qui ne sont pas fréquents, et laisser seulement ceux
qui sont fréquents.
22
L’algorithme Apriori: génération des 23
Méthode Fk−1 × F1 : elle consiste à étendre chaque ensemble (k − 1) avec d'autres éléments
fréquents. Cette méthode produira O(|Fk−1| × |F1|) k-itemsets candidats, où |Fj| est le nombre de j-
itemsets fréquents. La procédure est complète car chaque k-itemset fréquent est composé d'un (k −
1)-itemset fréquent et d'un 1-itemset fréquent. Par conséquent, tous les k-itemsets fréquents font
partie des k-itemsets candidats générés par cette procédure.
Item σ
Pain 4
Itemset
Lait 4
{Pain, Lait, Fromage}
Fromage 3
{Pain, Lait, Couches}
Couches 4
{Pain, Couches, Lait}
{Pain, Couches, Fromage}
Itemset σ {Lait, Couches, Pain}
{Lait, Pain} 3 {Lait, Couches, Fromage}
{Pain, Couches} 3 {Fromage, Couches, Pain}
{Lait, Couches} 3 {Fromage, Couches, Lait}
{Fromage, Couches} 3
Cette approche, cependant, n'empêche pas le même itemset d'être généré plus d'une fois.
L’algorithme Apriori: génération des ensembles d’articles 24
Pour éviter de diupliquer les i-temsets candidats :

❑ Trier les (k-1) itemsets
❑ Chaque (k−1) itemsets X est ensuite étendu avec des éléments fréquents qui sont
lexicographiquement plus grands que les éléments de X. Par exemple, l'ensemble d'éléments
{Couches, Lait} peut être augmenté avec {Pain}. Cependant, nous ne devrions pas étendre
{Couches, Lait} avec {Fromage} ni {Pain, Lait} avec {Couches} car ils violent la condition
d'ordre lexicographique.
Item σ
Pain 4
Lait 4
Fromage 3 Itemset
Couches 4 {Couches, Lait, Pain}
{Couches, Fromage, Pain}
Itemset σ {Couches, Fromage, Lait}
{Pain, Lait} 3
{Couches, Pain} 3
{Couches, Lait} 3
{Couches, Fromage} 3
L’algorithme Apriori: génération des 25
Méthode Fk−1×Fk−1 La procédure de génération de candidats fusionne une paire de (k−1)-itemsets
fréquents uniquement si leurs k−2 premiers items sont identiques. Soit A = {a1, a2, . . . , ak−1} et B =
{b1, b2, . . . , bk−1} une paire de (k − 1)-itemsets fréquents. A et B sont fusionnés s'ils remplissent
les conditions suivantes :
𝑎𝑖 =𝑏𝑖 (pour i = 1, 2, . . . , k − 2) et 𝑎𝑘−1 ≠ 𝑏𝑘−1
Itemset σ Itemset
{Pain, Lait} 3 {Couches, Lait, Pain}
{Couches, Pain} 3 {Couches, Fromage, Pain}
{Couches, Lait} 3 {Couches, Fromage, Lait}
{Couches, Fromage} 3
Les deux ensembles {Couches, Pain} et {Couches, Lait} peuvent être fusionnés puisqu’ils
satisfont les deux conditions.
26
minsup=2
1. Scanner la dataset T
▪ Cand1: {1} :2, {2} :3, {3} :3, {4} :1, {5} :3
▪ Fequ1: {1} :2, {2} :3, {3} :3, {5} :3
▪ Cand2: {1,2}, {1,3}, {1,5}, {2,3}, {2,5}, {3,5}
▪ Cand2: {1,2} :1, {1,3} :2, {1,5} :1, {2,3} :2, {2,5} :3, {3,5} :2
▪ Fequ2: {1,3} :2, {2,3} :2, {2,5} :3, {3,5} :2
▪ Cand3: {2, 3, 5}
▪ C3: {2, 3, 5} :2
▪ F3: {2, 3, 5}
Les facteurs qui influence la complexité 27
▪ Le choix du support minimal
▪ le choix d’un petit seuil conduit à un grand nombre d’itemsets fréquents
▪ Cela augmente le nombre d’itemsets candidats et la taille maximale des itemsets

fréquents.
▪ Dimensionnalité (nombre d’articles) de la base de données
▪ plus d’espace est requis pour stocker le support de chaque article
▪ La taille de la base de données
▪ Apriori effectue plusieurs passages, le temps d’éxecution de l’algorithme augmente

avec le nombre de transactions
▪ La taille moyenne des transaction

Génération des règles 28
▪ Étant donné un ensemble d'items L fréquent, trouver tous les sous-ensembles

non vides f  L tels que f → L - f qui satisfont l'exigence de confiance minimale.
▪ Exemple d’itemset fréquent TID Items

1 Pain, Lait
▪ {Lait , Couches, Fromage }
▪ Exemple de règle 3 Lait, Couches, Fromage, Confiture
▪ {Lait , Couches } ⇒ Fromage
σ(Lait , Couches, Fromage) 2

▪𝐶= = = 0,67
σ(Lait , Couches) 3
29
Génération des règles

▪ Si {A,B,C,D} est un itemset fréquents, les règles
candidates sont:
ABC → D, ABD → C, ACD → B, BCD → A, A → BCD,
B → ACD, C → ABD, D → ABC AB → CD, AC → BD,
AD → BC, BC → AD, BD → AC, CD → AB
▪ Si |L| = k, alors il existe 2k – 2 règles d’associations

candidates (en ignaorant 𝐿→Ø et Ø → 𝐿)
▪ Comment générer efficacement des règles à partir d'ensembles d'éléments

fréquents?
▪ En général, la confiance n'a pas la propriété anti-monotone
c(ABC →D) peut être plus grande ou plus petite que c(AB →D)
▪ Mais la confiance des règles générées à partir du même itemset est anti-
monotone
▪ L = {A,B,C,D}:
c(ABC → D)  c(AB → CD)  c(A → BCD)
La confiance est anti-monotone par rapport au nombre d’éléments sur le côté droit
de la règle.
31
Génération des règles

▪Vérifier que ?
𝐶 𝐴𝐵 → 𝐶 ≥ 𝐶(𝐴 → 𝐵𝐶)
Génération des règles en utilisant le 32
principe Apriori
ABCD=>{ }
Règle avec
une
confiance BCD=>A ACD=>B ABD=>C ABC=>D
< seuil
CD=>AB BD=>AC BC=>AD AD=>BC AC=>BD AB=>CD
D=>ABC C=>ABD B=>ACD A=>BCD

Génération des règles en utilisant le principe Apriori 33
ABCD=>{ }
Règle avec
une BCD=>A ACD=>B ABD=>C ABC=>D
confiance
< seuil
CD=>AB BD=>AC BC=>AD AD=>BC AC=>BD AB=>CD
Règles
élaguées
D=>ABC C=>ABD B=>ACD A=>BCD
▪ Joigner (CD→AB,BD→AC) produit la règle candidate

D → ABC CD=>AB BD=>AC
▪ Elaguer D→ABC si la confiance de AD→BC ne

dépasse pas le seuil minimal
D=>ABC
▪ Toutes les informations requises pour le calcul de la confiance ont

déjà été enregistrées lors de la génération de l'ensemble d’articles
fréquents.
▪ Ainsi, il n'est plus nécessaire de scanner les données de transaction
T
35
Gestion des attributs continus et catégoriels
▪ Comment appliquer l'analyse d'association à des attributs qui ne
sont pas des variables binaires asymétriques?
Exemple de règle :
{Nombre de Pages ⋲ [5,10) ⋀ (Navigteur=Firefox)} → {Acheter = Non}
Gestion des attributs catégoriels 36
▪ Transformer l'attribut catégoriel en variables binaires asymétriques

▪ Introduirez un nouvel « attribut" pour chaque paire de valeurs d'attribut
distincte
▪ Remplacer l’attribut “Type du Navigateur” par l’attribut : “Type du Navigateur=
Chrome” et l’attribut: “Type du Navigateur = Firefox”
▪ Problèmes
▪ si l'attribut a de nombreuses valeurs possibles?
▪ la plupart des valeurs d'attribut peuvent avoir un support très faible
▪ solution potentielle: agréger les valeurs d'attributs à faible support
▪ Que faire si la distribution des valeurs d'attributs est fortement
biaisée?
▪ exemple: 95% des visiteurs ont « Acheter = Non »
▪ la plupart des articles seront associés à l'article (Acheter = Non)
▪ solution potentielle: abandonner l'élément très fréquent
Gestion des attributs continus 37
▪ Transformez l'attribut continu en variables binaires

▪ utilisant la discrétisation
▪ binning de largeur égale
▪ binning à fréquence égale
▪ Problème: la taille des intervalles de discrétisation affecte le
support et la confiance
▪ Si les intervalles sont trop petits
▪ les itemsets peuvent ne pas avoir assez de support
▪ Si les intervalles sont trop grands
▪ les règles peuvent ne pas avoir suffisamment de confiance
Évaluation des règles 38
▪ Les algorithmes de règles d'association ont tendance à produire trop de

règles, un grand nombre d'entre elles sont inintéressantes ou
redondantes
▪ Si {A,B,C} → {D} et {A,B} → {D} ont le même support et la même confiance,
alors elle sont redondante.
▪ Des mesures intéressantes peuvent être utilisées pour classer les

règles dérivés
▪ Dans la formulation originale des règles d'association, le support et la

confiance sont les seules mesures utilisées
39
Mesure d’interet
▪ Etant donné une règle :X → Y, les information nécessaires pour mesurer l’interet de
cette règle peuvent etre trouvées dans le tableau de contingence
Table de contingence
𝑌 𝑌ത
𝑋 f11 f10 f1+
𝑋ത f01 f00 fo+
f+1 F+0 N
Utilisé pour calculer plusieurs mesures

support, confiance, lift, Gini, J-mesure, etc.
Exemple: Lift/Interet 40
𝐶𝑎𝑓é 𝐶𝑎𝑓é
𝑇ℎé 150 50 200
𝑇ℎé 650 150 800
800 200 1000
Règle d’association: Thé→ Café

S(thé→Café)=15%
Confiance= P(Café|Thé) = 75%
Mais P(Café) = 0.8
𝑇ℎé 150 50 200
𝑇ℎé 650 150 800
800 200 1000
Règle d’association: Thé→ Café
S(thé→Café)=15%
Mais P(Café) = 0.8
42
Mesures basées sur les statistiques
𝑃(𝑌|𝑋) 𝐶(𝑋 → 𝑌) 𝑌 𝑌ത
𝐿𝑖𝑓𝑡 = =
𝑃(𝑌) 𝑆(𝑌) 𝑋 f11 f10 f1+
𝑃(𝑋, 𝑌) 𝑆(𝑋, 𝑌)
𝐼𝑛𝑡𝑒𝑟𝑒𝑡 = = 𝑋ത f01 f00 fo+
𝑃(𝑋)𝑃(𝑌) 𝑆 𝑋 𝑆(𝑌) f+1 F+0 N
𝐶𝑎𝑓é 𝐶𝑎𝑓é 𝑃(𝑌|𝑋) 𝐶(𝑋 → 𝑌)

𝐿𝑖𝑓𝑡 = =
𝑇ℎé 150 50 200 𝑃(𝑌) 𝑆(𝑌)
𝑃(𝑋, 𝑌)
𝑇ℎé 650 150 800 𝐼𝑛𝑡𝑒𝑟𝑒𝑡 =
𝑃(𝑋)𝑃(𝑌)
800 200 1000
𝐼 < 1 ∶ 𝑙𝑒𝑠 𝑑𝑒𝑢𝑥 𝑣𝑎𝑟𝑎𝑖𝑏𝑙𝑒𝑠 𝑠𝑜𝑛𝑡 𝑎𝑠𝑜𝑐𝑖é𝑒𝑠 𝑛é𝑔𝑎𝑡𝑖𝑣𝑒𝑚𝑒𝑛𝑡

Règle d’association: Thé→ Café 𝐼 ൞𝐼 = 1 ∶ 𝑙𝑒𝑠 𝑑𝑒𝑢𝑥 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑠𝑜𝑛𝑡 𝑖𝑛𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑡𝑒𝑠
𝐼 > 1 ∶ 𝑙𝑒𝑠 𝑑𝑒𝑢𝑥 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑠𝑜𝑛𝑡 𝑎𝑠𝑠𝑜𝑐𝑖é𝑒𝑠 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒𝑚𝑒𝑛𝑡
S(thé→Café)=15%
Mais P(Café) = 0.8
 Lift = 0.75/0.8= 0.9375 (< 1, Donc, ils
sont associés négativement)
Exemple: Lift/Interet (Limitation) 44
L'association entre une paire de mots dépend du nombre de documents

contenant les deux mots.
p 𝑝ҧ r 𝑟ҧ
𝑞 880 50 930 𝑠 20 50 70
𝑞ത 50 20 70 𝑠ҧ 50 880 930
930 70 1000 70 930 1000
𝐼 𝑝, 𝑞 = 1.017 𝑃(𝑌|𝑋) 𝐶(𝑋 → 𝑌)

𝐼 𝑟, 𝑠 = 4.018 𝐿𝑖𝑓𝑡 = =
𝑃(𝑌) 𝑆(𝑌)
𝑃(𝑋, 𝑌)
𝐼𝑛𝑡𝑒𝑟𝑒𝑡 =
𝑃(𝑋)𝑃(𝑌)
𝐶 𝑝 → 𝑞 = 0.946%
𝐶 𝑟 → 𝑠 = 28.6%
L’indice φ 45
𝑓11 𝑓00 − 𝑓10 𝑓01

𝜑=
𝑓1+ × 𝑓+1 × 𝑓0+ × 𝑓+0
𝑇ℎé 150 50 200
𝑇ℎé 650 150 800
−1 ≤ 𝜑 ≤ 1
800 200 1000
règle d’association: Thé→ Café

𝜑 𝑡ℎé, 𝑐𝑎𝑓é = −0.0625
Évaluation des règles 46
❑ De nombreuses mesures ont été proposées dans la littérature

❑ Certaines mesures sont bonnes pour certaines applications,
mais pas pour d'autres
47
Mesures subjecyives
▪Mesures Subjectives :
▪ Classement des patterns selon l’interprétation de l’utilisateur
▪ Un pattern est subjectivement intéressant s'il contredit l'attente d'un
utilisateur(Silberschatz & Tuzhilin).
▪ Un modèle est subjectivement intéressant s'il est exploitable
(Silberschatz & Tuzhilin).

48

09012022123357655125611549

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

09012022123357655125611549

Transféré par

Droits d'auteur :

Formats disponibles

1

Liste des transactions

▪ Étant donné un ensemble de transactions T, le but de l'exploration

TID Items Exemples de règles :

▪ Approche en deux étapes:

1. Génération des ensembles d’articles fréquents (frequent itemset)

– Générer tous les ensembles d’articles (itemsets) ayant un support S:

2. Génération des règles

– Générer des règles avec une confiance suffisante à partir de

▪ La génération d’ensembles fréquents d’articles est toujours couteux au niveau

▪ Complexité ~ O(NMw) => Couteux : M = 2k-1 !!!

Etant donné d articles,

Amazon a des millions de livres (10 millions)

▪ Principe de l’algorithme Apriori:

▪ Le principe Apriori utilise de la propriété suivante du support :

▪ Le support d'un ensemble d’articles ne dépasse jamais le support de ses

Items (1-itemsets) Pairs (2-itemsets)

Items (1-itemsets) Pairs (2-itemsets)

Pour éviter de diupliquer les i-temsets candidats :

▪ Le choix du support minimal

▪ le choix d’un petit seuil conduit à un grand nombre d’itemsets fréquents

▪ Cela augmente le nombre d’itemsets candidats et la taille maximale des itemsets

▪ Dimensionnalité (nombre d’articles) de la base de données

▪ plus d’espace est requis pour stocker le support de chaque article

▪ La taille de la base de données

▪ Apriori effectue plusieurs passages, le temps d’éxecution de l’algorithme augmente

▪ La taille moyenne des transaction

▪ Étant donné un ensemble d'items L fréquent, trouver tous les sous-ensembles

▪ Exemple d’itemset fréquent TID Items

σ(Lait , Couches, Fromage) 2

Génération des règles

▪ Si |L| = k, alors il existe 2k – 2 règles d’associations

▪ Comment générer efficacement des règles à partir d'ensembles d'éléments

Génération des règles

CD=>AB BD=>AC BC=>AD AD=>BC AC=>BD AB=>CD

D=>ABC C=>ABD B=>ACD A=>BCD

CD=>AB BD=>AC BC=>AD AD=>BC AC=>BD AB=>CD

▪ Joigner (CD→AB,BD→AC) produit la règle candidate

▪ Elaguer D→ABC si la confiance de AD→BC ne

▪ Toutes les informations requises pour le calcul de la confiance ont

▪ Transformer l'attribut catégoriel en variables binaires asymétriques

▪ Transformez l'attribut continu en variables binaires

▪ Les algorithmes de règles d'association ont tendance à produire trop de

▪ Des mesures intéressantes peuvent être utilisées pour classer les

▪ Dans la formulation originale des règles d'association, le support et la

Utilisé pour calculer plusieurs mesures

Règle d’association: Thé→ Café

Règle d’association: Thé→ Café

𝐶𝑎𝑓é 𝐶𝑎𝑓é 𝑃(𝑌|𝑋) 𝐶(𝑋 → 𝑌)

𝐼 < 1 ∶ 𝑙𝑒𝑠 𝑑𝑒𝑢𝑥 𝑣𝑎𝑟𝑎𝑖𝑏𝑙𝑒𝑠 𝑠𝑜𝑛𝑡 𝑎𝑠𝑜𝑐𝑖é𝑒𝑠 𝑛é𝑔𝑎𝑡𝑖𝑣𝑒𝑚𝑒𝑛𝑡

L'association entre une paire de mots dépend du nombre de documents

𝐼 𝑝, 𝑞 = 1.017 𝑃(𝑌|𝑋) 𝐶(𝑋 → 𝑌)

𝑓11 𝑓00 − 𝑓10 𝑓01

règle d’association: Thé→ Café

❑ De nombreuses mesures ont été proposées dans la littérature

▪ Un pattern est subjectivement intéressant s'il contredit l'attente d'un

utilisateur(Silberschatz & Tuzhilin).

▪ Un modèle est subjectivement intéressant s'il est exploitable

(Silberschatz & Tuzhilin).

Vous aimerez peut-être aussi