Vous êtes sur la page 1sur 48

1

Plan
2

❑ Domaines d’applications
❑ Définitions
❑ Génération des ensembles fréquents
❑ L’algorithme Apriori
❑ Génération des règles d’association
❑ Évaluation des règles extraites
3
Applications
▪ Marketing
▪ identifier les articles achetés ensemble
▪ utiliser ces informations à des fins de marketing ou de gestion
des étagère des supermarchés
▪ Gestion de l'inventaire
▪ identifier les pièces souvent nécessaires ensemble pour les
réparations
▪ utilisez ces informations pour équiper vos véhicules de
réparation des bonnes pièces
▪ Exploitation du web
▪ identifier les mots qui apparaissent fréquemment ensemble
dans les requêtes de recherche
▪ utilisez ces informations pour offrir des fonctionnalités de saisie
semi-automatique à l'utilisateur
Applications 4
Définition: ensemble d’articles fréquent
▪ Itemset
▪ Un ensemble d’article
▪ Exemple: {Lait, Pain, Couches} TID Items
▪ k-itemset 1 Pain, Lait
▪ Un ensemble d’articles qui contient k 2 Pain, Couches, Fromage, Oeufs
articles
3 Lait, Couches, Fromage, Confiture
▪ Ensemble d’articles fréquent (Frequent
Itemset) 4 Pain, Lait, Couches, Fromage
▪ Un ensemble d’articles dont le supprt est 5 Pain, Lait, Couches, Confiture
supérieure ou égale à un seuil minsup (support
minimal),
Règles d’association 6

▪ Étant donné un ensemble de transactions, rechercher des règles qui prédiront l'occurrence
d'un article en fonction des occurrences d'autres articles dans la transaction.

Liste des transactions


Exemple:
TID Items
{Couches} → {Fromage},
1 Pain, Lait
{Lait, Pain} → {Oeufs, Confiture},
2 Pain, Couches, Fromage, Oeufs
{Fromage, Pain} → {Lait},
3 Lait, Couches, Fromage, Confiture
4 Pain, Lait, Couches, Fromage L’implication signifie une co-
5 Pain, Lait, Couches, Confiture
occurrence, et non une causalité!
Evaluation des règles d’association 7
Règle d’association
– Une expression d’implication ayant la forme X → Y, TID Items
où X et Y sont deux ensembles d’articles (itemsets) 1 Pain, Lait
– Exemple: X→ Y 2 Pain, Couches, Fromage, Oeufs
3 Lait, Couches, Fromage, Confiture
Evaluation d’une règle d’association
4 Pain, Lait, Couches, Fromage
– Support absolu (σ) 5 Pain, Lait, Couches, Confiture
◆ Nombre de transactions contenant un ensemble
d’article Exemple:
– Support relatif (S) {𝐿𝑎𝑖𝑡, 𝐶𝑜𝑢𝑐ℎ𝑒𝑠} ⇒ 𝐹𝑟𝑜𝑚𝑎𝑔𝑒
◆ Le ratio des transactions contenant un ensemble
d’articles σ 𝐿𝑎𝑖𝑡, 𝐶𝑜𝑢𝑐ℎ𝑒𝑠, 𝐹𝑟𝑜𝑚𝑎𝑔𝑒 = 2
σ(𝑋∪𝑌)
◆ 𝑆(𝑋→ 𝑌) = σ 𝐿𝑎𝑖𝑡, 𝐶𝑜𝑢𝑐ℎ𝑒𝑠, 𝐹𝑟𝑜𝑚𝑎𝑔𝑒 2
|𝑇|
𝑆= =
– Confiance (c) |𝑇| 5
◆ Mesure la fréquence des articles de Y dans les
transactions contenant X. σ 𝐿𝑎𝑖𝑡, 𝐶𝑜𝑢𝑐ℎ𝑒𝑠, 𝐹𝑟𝑜𝑚𝑎𝑔𝑒 2
𝐶= =
◆ 𝐶(𝑋→ 𝑌) =
σ(𝑋∪𝑌) σ 𝐿𝑎𝑖𝑡, 𝐶𝑜𝑢𝑐ℎ𝑒𝑠 3
σ(𝑋)
Exploration des règles d’association 8

▪ Étant donné un ensemble de transactions T, le but de l'exploration


de règles d'association est de trouver toutes les règles ayant:
▪ support ≥ minsup (seuil minimal)
▪ confiance ≥ minconf (seuil minimal pour la confiance)

▪ Brute-force approach:
▪ Lister toutes les règles d’association possibles
▪ Calculer le support et la confiance pour chaque règle d’association
▪ Eliminer les règles dont le support et la confiance ne dépassent pas
les seuils fixés,
 Enormément de calcul!
Exploration des règles d’association 9

TID Items Exemples de règles :


1 Pain, Lait 𝐿𝑎𝑖𝑡, 𝐶𝑜𝑢𝑐ℎ𝑒𝑠 ⇒ 𝐹𝑟𝑜𝑚𝑎𝑔𝑒 (𝑠 = 0.4, 𝑐 = 0.67)
{𝐿𝑎𝑖𝑡, 𝐹𝑟𝑜𝑚𝑎𝑔𝑒} ⇒ {𝐶𝑜𝑢𝑐ℎ𝑒𝑠} (𝑠 = 0.4, 𝑐 = 1.0)
2 Pain, Couches, Fromage, Oeufs
{𝐶𝑜𝑢𝑐ℎ𝑒𝑠, 𝐹𝑟𝑜𝑚𝑎𝑔𝑒} ⇒ {𝐿𝑎𝑖𝑡} (𝑠 = 0.4, 𝑐 = 0.67)
3 Lait, Couches, Fromage, Confiture {𝐹𝑟𝑜𝑚𝑎𝑔𝑒} ⇒ {𝐿𝑎𝑖𝑡, 𝐶𝑜𝑢𝑐ℎ𝑒𝑠} (𝑠 = 0.4, 𝑐 = 0.67)
4 Pain, Lait, Couches, Fromage {𝐶𝑜𝑢𝑐ℎ𝑒𝑠} ⇒ {𝐿𝐴𝑖𝑡, 𝐹𝑟𝑜𝑚𝑎𝑔𝑒} (𝑠 = 0.4, 𝑐 = 0.5)
5 Pain, Lait, Couches, Confiture {𝐿𝐴𝑖𝑡} ⇒ {𝐶𝑜𝑢𝑐ℎ𝑒𝑠, 𝐹𝑟𝑜𝑚𝑎𝑔} (𝑠 = 0.4, 𝑐 = 0.5)

Observations:
✓ Toutes les règles ci-dessus sont des partitions binaires du même ensemble
d’articles (itemset): {Lait, Couches, Fromage}
✓ Les règles issues du même itemset ont un support identique mais peuvent avoir
des confiances différentes.
⇒ Ainsi, nous pouvons découpler les deux indices.
Exploration des règles d’association 10

▪ Approche en deux étapes:

1. Génération des ensembles d’articles fréquents (frequent itemset)

– Générer tous les ensembles d’articles (itemsets) ayant un support S:

S  sup_min

2. Génération des règles

– Générer des règles avec une confiance suffisante à partir de


chaque itemset, où chaque règle est un partitionnement binaire d’un
itemset fréquent.

▪ La génération d’ensembles fréquents d’articles est toujours couteux au niveau


des calculs.
Génération des itemsets fréquents 11

▪ Brute-force approach:
▪ Chaque itemset (ensemble d’articles) dans la base est un un candidat
▪ Calculer le support de chaque candidat en parcourant la base de données.

TID Items
1 Pain, Lait
2 Pain, Couches, Fromage, Oeufs
3 Lait, Couches, Fromage, Confiture
4 Pain, Lait, Couches, Fromage
5 Pain, Lait, Couches, Confiture
w

▪ Complexité ~ O(NMw) => Couteux : M = 2k-1 !!!


Génération des itemsets fréquents 12

Etant donné d articles,


il existe 2k-1
ensembles d’articles
(itemsets) possibles.
Génération des itemsets fréquents 13

Exemple :

Amazon a des millions de livres (10 millions)


210000000 -1 ensembles possible
Réduction du nombre de candidats 14

▪ Principe de l’algorithme Apriori:


▪ Si un ensemble d’articles est fréquent, tous ses sous-ensembles doivent
également être fréquents

▪ Le principe Apriori utilise de la propriété suivante du support :

∀ 𝑋, 𝑌 ∶ 𝑋 ⊆ 𝑌 ⇒ 𝑆(𝑋) ≥ 𝑆(𝑌)

▪ Le support d'un ensemble d’articles ne dépasse jamais le support de ses


sous-ensembles
▪ C’est la propriété anti-monotone du support
Illustration du principe de l’algorithme Apriori 15

Itemset non
fréquent
Illustration du principe de l’algorithme Apriori 16

Si un ensemble d’articles
n’est pas fréquent, tous ses
sur-ensembles ne sont pas
fréquents

Itemset non
fréquent
Illustration du principe de l’algorithme Apriori 17

Itemset non
fréquent
Illustration du principe de l’algorithme Apriori 18

Itemset non
fréquent
Illustration du principe Apriori 19

Items (1-itemsets) Pairs (2-itemsets)


Item 𝝈 𝝈
Itemset
Pain 4
Confiture 2 {Pain, Lait} 3 (Pas besoin de générer des
Lait 4 {Pain, Fromage} 2 candidats impliquant de la
Fromage 3 {Pain, Couches} 3
Couches 4 confiture ou des Œufs)
Oeufs 1
{Lait, Fromage} 2
{Lait, Couches} 3
{Fromage,Couches} 3
TID Items
1 Pain, Lait

Triplets (3-itemsets)
2 Pain, Couches, Fromage, Oeufs
3 Lait, Couches, Fromage, Confiture
4
5
Pain, Lait, Couches, Fromage
Pain, Lait, Couches, Confiture
Itemset σ
{Pain, Lait, Couches} 3
Support Minimum = 3
Illustration du principe Apriori 20

Items (1-itemsets) Pairs (2-itemsets)


Item σ
Itemset σ
Pain 4
Confiture 2 {Pain, Lait} 3 (Pas besoin de générer des
Lait 4 {Pain, Fromage} 2 candidats impliquant du
Fromage 3 {Pain, Couches} 3
Couches 4 Coca ou des Œufs)
Oeufs 1
{Lait, Fromage} 2
{Lait, Couches} 3
{Fromage,Couches} 3
Sans utiliser le principe Apriori
𝐶61 + 𝐶62 + 𝐶63 = 41
Avec utilisation du principe Apriori
Triplets (3-itemsets)
6 + 6 + 1 = 13
Itemset σ
{Pain, Lait, Couches} 3
L’algorithme Apriori
21

▪ Soit k=1
▪ Générer des ensembles fréquents d’articles de taille 1
▪ Répétez jusqu'à ce qu'aucun nouvel ensemble d'éléments fréquents ne
soit identifié
▪ Générer des ensembles candidats de taille (k+1) à partir des ensembles
fréquents de taille k.
▪ Calculer le support de chaque candidat en scannant la BD.
▪ Eliminer les candidats qui ne sont pas fréquents, et laisser seulement ceux
qui sont fréquents.
L’algorithme Apriori
22
L’algorithme Apriori: génération des 23
ensembles d’articles
Méthode Fk−1 × F1 : elle consiste à étendre chaque ensemble (k − 1) avec d'autres éléments
fréquents. Cette méthode produira O(|Fk−1| × |F1|) k-itemsets candidats, où |Fj| est le nombre de j-
itemsets fréquents. La procédure est complète car chaque k-itemset fréquent est composé d'un (k −
1)-itemset fréquent et d'un 1-itemset fréquent. Par conséquent, tous les k-itemsets fréquents font
partie des k-itemsets candidats générés par cette procédure.

Item σ
Pain 4
Itemset
Lait 4
{Pain, Lait, Fromage}
Fromage 3
{Pain, Lait, Couches}
Couches 4
{Pain, Couches, Lait}
{Pain, Couches, Fromage}
Itemset σ {Lait, Couches, Pain}
{Lait, Pain} 3 {Lait, Couches, Fromage}
{Pain, Couches} 3 {Fromage, Couches, Pain}
{Lait, Couches} 3 {Fromage, Couches, Lait}
{Fromage, Couches} 3

Cette approche, cependant, n'empêche pas le même itemset d'être généré plus d'une fois.
L’algorithme Apriori: génération des ensembles d’articles 24

Pour éviter de diupliquer les i-temsets candidats :


❑ Trier les (k-1) itemsets
❑ Chaque (k−1) itemsets X est ensuite étendu avec des éléments fréquents qui sont
lexicographiquement plus grands que les éléments de X. Par exemple, l'ensemble d'éléments
{Couches, Lait} peut être augmenté avec {Pain}. Cependant, nous ne devrions pas étendre
{Couches, Lait} avec {Fromage} ni {Pain, Lait} avec {Couches} car ils violent la condition
d'ordre lexicographique.

Item σ
Pain 4
Lait 4
Fromage 3 Itemset
Couches 4 {Couches, Lait, Pain}
{Couches, Fromage, Pain}
Itemset σ {Couches, Fromage, Lait}
{Pain, Lait} 3
{Couches, Pain} 3
{Couches, Lait} 3
{Couches, Fromage} 3
L’algorithme Apriori: génération des 25
ensembles d’articles
Méthode Fk−1×Fk−1 La procédure de génération de candidats fusionne une paire de (k−1)-itemsets
fréquents uniquement si leurs k−2 premiers items sont identiques. Soit A = {a1, a2, . . . , ak−1} et B =
{b1, b2, . . . , bk−1} une paire de (k − 1)-itemsets fréquents. A et B sont fusionnés s'ils remplissent
les conditions suivantes :
𝑎𝑖 =𝑏𝑖 (pour i = 1, 2, . . . , k − 2) et 𝑎𝑘−1 ≠ 𝑏𝑘−1

Itemset σ Itemset
{Pain, Lait} 3 {Couches, Lait, Pain}
{Couches, Pain} 3 {Couches, Fromage, Pain}
{Couches, Lait} 3 {Couches, Fromage, Lait}
{Couches, Fromage} 3

Les deux ensembles {Couches, Pain} et {Couches, Lait} peuvent être fusionnés puisqu’ils
satisfont les deux conditions.
L’algorithme Apriori
26

minsup=2
1. Scanner la dataset T
▪ Cand1: {1} :2, {2} :3, {3} :3, {4} :1, {5} :3
▪ Fequ1: {1} :2, {2} :3, {3} :3, {5} :3
▪ Cand2: {1,2}, {1,3}, {1,5}, {2,3}, {2,5}, {3,5}

2. Scanner la dataset T
▪ Cand2: {1,2} :1, {1,3} :2, {1,5} :1, {2,3} :2, {2,5} :3, {3,5} :2
▪ Fequ2: {1,3} :2, {2,3} :2, {2,5} :3, {3,5} :2
▪ Cand3: {2, 3, 5}
3. Scanner la dataset T
▪ C3: {2, 3, 5} :2
▪ F3: {2, 3, 5}
Les facteurs qui influence la complexité 27

▪ Le choix du support minimal

▪ le choix d’un petit seuil conduit à un grand nombre d’itemsets fréquents

▪ Cela augmente le nombre d’itemsets candidats et la taille maximale des itemsets


fréquents.

▪ Dimensionnalité (nombre d’articles) de la base de données

▪ plus d’espace est requis pour stocker le support de chaque article

▪ La taille de la base de données

▪ Apriori effectue plusieurs passages, le temps d’éxecution de l’algorithme augmente


avec le nombre de transactions

▪ La taille moyenne des transaction


Génération des règles 28

▪ Étant donné un ensemble d'items L fréquent, trouver tous les sous-ensembles


non vides f  L tels que f → L - f qui satisfont l'exigence de confiance minimale.

▪ Exemple d’itemset fréquent TID Items


1 Pain, Lait
▪ {Lait , Couches, Fromage }
2 Pain, Couches, Fromage, Oeufs
▪ Exemple de règle 3 Lait, Couches, Fromage, Confiture
4 Pain, Lait, Couches, Fromage
▪ {Lait , Couches } ⇒ Fromage
5 Pain, Lait, Couches, Confiture

σ(Lait , Couches, Fromage) 2


▪𝐶= = = 0,67
σ(Lait , Couches) 3
29

Génération des règles


▪ Si {A,B,C,D} est un itemset fréquents, les règles
candidates sont:
ABC → D, ABD → C, ACD → B, BCD → A, A → BCD,
B → ACD, C → ABD, D → ABC AB → CD, AC → BD,
AD → BC, BC → AD, BD → AC, CD → AB

▪ Si |L| = k, alors il existe 2k – 2 règles d’associations


candidates (en ignaorant 𝐿→Ø et Ø → 𝐿)
Génération des règles 30

▪ Comment générer efficacement des règles à partir d'ensembles d'éléments


fréquents?
▪ En général, la confiance n'a pas la propriété anti-monotone

c(ABC →D) peut être plus grande ou plus petite que c(AB →D)

▪ Mais la confiance des règles générées à partir du même itemset est anti-
monotone
▪ L = {A,B,C,D}:
c(ABC → D)  c(AB → CD)  c(A → BCD)

La confiance est anti-monotone par rapport au nombre d’éléments sur le côté droit
de la règle.
31

Génération des règles


▪Vérifier que ?

𝐶 𝐴𝐵 → 𝐶 ≥ 𝐶(𝐴 → 𝐵𝐶)
Génération des règles en utilisant le 32
principe Apriori
ABCD=>{ }
Règle avec
une
confiance BCD=>A ACD=>B ABD=>C ABC=>D

< seuil

CD=>AB BD=>AC BC=>AD AD=>BC AC=>BD AB=>CD

D=>ABC C=>ABD B=>ACD A=>BCD


Génération des règles en utilisant le principe Apriori 33

ABCD=>{ }

Règle avec
une BCD=>A ACD=>B ABD=>C ABC=>D
confiance
< seuil

CD=>AB BD=>AC BC=>AD AD=>BC AC=>BD AB=>CD

Règles
élaguées
D=>ABC C=>ABD B=>ACD A=>BCD
Génération des règles 34

▪ Joigner (CD→AB,BD→AC) produit la règle candidate


D → ABC CD=>AB BD=>AC

▪ Elaguer D→ABC si la confiance de AD→BC ne


dépasse pas le seuil minimal
D=>ABC

▪ Toutes les informations requises pour le calcul de la confiance ont


déjà été enregistrées lors de la génération de l'ensemble d’articles
fréquents.
▪ Ainsi, il n'est plus nécessaire de scanner les données de transaction
T
35
Gestion des attributs continus et catégoriels
▪ Comment appliquer l'analyse d'association à des attributs qui ne
sont pas des variables binaires asymétriques?

Exemple de règle :
{Nombre de Pages ⋲ [5,10) ⋀ (Navigteur=Firefox)} → {Acheter = Non}
Gestion des attributs catégoriels 36

▪ Transformer l'attribut catégoriel en variables binaires asymétriques


▪ Introduirez un nouvel « attribut" pour chaque paire de valeurs d'attribut
distincte
▪ Remplacer l’attribut “Type du Navigateur” par l’attribut : “Type du Navigateur=
Chrome” et l’attribut: “Type du Navigateur = Firefox”
▪ Problèmes
▪ si l'attribut a de nombreuses valeurs possibles?
▪ la plupart des valeurs d'attribut peuvent avoir un support très faible
▪ solution potentielle: agréger les valeurs d'attributs à faible support
▪ Que faire si la distribution des valeurs d'attributs est fortement
biaisée?
▪ exemple: 95% des visiteurs ont « Acheter = Non »
▪ la plupart des articles seront associés à l'article (Acheter = Non)
▪ solution potentielle: abandonner l'élément très fréquent
Gestion des attributs continus 37

▪ Transformez l'attribut continu en variables binaires


▪ utilisant la discrétisation
▪ binning de largeur égale
▪ binning à fréquence égale
▪ Problème: la taille des intervalles de discrétisation affecte le
support et la confiance
▪ Si les intervalles sont trop petits
▪ les itemsets peuvent ne pas avoir assez de support
▪ Si les intervalles sont trop grands
▪ les règles peuvent ne pas avoir suffisamment de confiance
Évaluation des règles 38

▪ Les algorithmes de règles d'association ont tendance à produire trop de


règles, un grand nombre d'entre elles sont inintéressantes ou
redondantes
▪ Si {A,B,C} → {D} et {A,B} → {D} ont le même support et la même confiance,
alors elle sont redondante.

▪ Des mesures intéressantes peuvent être utilisées pour classer les


règles dérivés

▪ Dans la formulation originale des règles d'association, le support et la


confiance sont les seules mesures utilisées
39

Mesure d’interet
▪ Etant donné une règle :X → Y, les information nécessaires pour mesurer l’interet de
cette règle peuvent etre trouvées dans le tableau de contingence
Table de contingence
𝑌 𝑌ത
𝑋 f11 f10 f1+
𝑋ത f01 f00 fo+
f+1 F+0 N

Utilisé pour calculer plusieurs mesures


support, confiance, lift, Gini, J-mesure, etc.
Exemple: Lift/Interet 40

𝐶𝑎𝑓é 𝐶𝑎𝑓é
𝑇ℎé 150 50 200
𝑇ℎé 650 150 800
800 200 1000

Règle d’association: Thé→ Café


S(thé→Café)=15%
Confiance= P(Café|Thé) = 75%
Mais P(Café) = 0.8
Exemple: Lift/Interet 41

𝐶𝑎𝑓é 𝐶𝑎𝑓é
𝑇ℎé 150 50 200
𝑇ℎé 650 150 800
800 200 1000

Règle d’association: Thé→ Café

S(thé→Café)=15%
Confiance= P(Café|Thé) = 75%
Mais P(Café) = 0.8
42
Mesures basées sur les statistiques
𝑃(𝑌|𝑋) 𝐶(𝑋 → 𝑌) 𝑌 𝑌ത
𝐿𝑖𝑓𝑡 = =
𝑃(𝑌) 𝑆(𝑌) 𝑋 f11 f10 f1+
𝑃(𝑋, 𝑌) 𝑆(𝑋, 𝑌)
𝐼𝑛𝑡𝑒𝑟𝑒𝑡 = = 𝑋ത f01 f00 fo+
𝑃(𝑋)𝑃(𝑌) 𝑆 𝑋 𝑆(𝑌) f+1 F+0 N
Exemple: Lift/Interet 43

𝐶𝑎𝑓é 𝐶𝑎𝑓é 𝑃(𝑌|𝑋) 𝐶(𝑋 → 𝑌)


𝐿𝑖𝑓𝑡 = =
𝑇ℎé 150 50 200 𝑃(𝑌) 𝑆(𝑌)
𝑃(𝑋, 𝑌)
𝑇ℎé 650 150 800 𝐼𝑛𝑡𝑒𝑟𝑒𝑡 =
𝑃(𝑋)𝑃(𝑌)
800 200 1000

𝐼 < 1 ∶ 𝑙𝑒𝑠 𝑑𝑒𝑢𝑥 𝑣𝑎𝑟𝑎𝑖𝑏𝑙𝑒𝑠 𝑠𝑜𝑛𝑡 𝑎𝑠𝑜𝑐𝑖é𝑒𝑠 𝑛é𝑔𝑎𝑡𝑖𝑣𝑒𝑚𝑒𝑛𝑡


Règle d’association: Thé→ Café 𝐼 ൞𝐼 = 1 ∶ 𝑙𝑒𝑠 𝑑𝑒𝑢𝑥 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑠𝑜𝑛𝑡 𝑖𝑛𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑡𝑒𝑠
𝐼 > 1 ∶ 𝑙𝑒𝑠 𝑑𝑒𝑢𝑥 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑠𝑜𝑛𝑡 𝑎𝑠𝑠𝑜𝑐𝑖é𝑒𝑠 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒𝑚𝑒𝑛𝑡

S(thé→Café)=15%
Confiance= P(Café|Thé) = 75%
Mais P(Café) = 0.8
 Lift = 0.75/0.8= 0.9375 (< 1, Donc, ils
sont associés négativement)
Exemple: Lift/Interet (Limitation) 44

L'association entre une paire de mots dépend du nombre de documents


contenant les deux mots.

p 𝑝ҧ r 𝑟ҧ
𝑞 880 50 930 𝑠 20 50 70
𝑞ത 50 20 70 𝑠ҧ 50 880 930
930 70 1000 70 930 1000

𝐼 𝑝, 𝑞 = 1.017 𝑃(𝑌|𝑋) 𝐶(𝑋 → 𝑌)


𝐼 𝑟, 𝑠 = 4.018 𝐿𝑖𝑓𝑡 = =
𝑃(𝑌) 𝑆(𝑌)
𝑃(𝑋, 𝑌)
𝐼𝑛𝑡𝑒𝑟𝑒𝑡 =
𝑃(𝑋)𝑃(𝑌)
𝐶 𝑝 → 𝑞 = 0.946%
𝐶 𝑟 → 𝑠 = 28.6%
L’indice φ 45

𝑓11 𝑓00 − 𝑓10 𝑓01


𝜑=
𝑓1+ × 𝑓+1 × 𝑓0+ × 𝑓+0

𝐶𝑎𝑓é 𝐶𝑎𝑓é
𝑇ℎé 150 50 200
𝑇ℎé 650 150 800
−1 ≤ 𝜑 ≤ 1
800 200 1000

règle d’association: Thé→ Café


𝜑 𝑡ℎé, 𝑐𝑎𝑓é = −0.0625
Évaluation des règles 46

❑ De nombreuses mesures ont été proposées dans la littérature


❑ Certaines mesures sont bonnes pour certaines applications,
mais pas pour d'autres
47
Mesures subjecyives

▪Mesures Subjectives :
▪ Classement des patterns selon l’interprétation de l’utilisateur

▪ Un pattern est subjectivement intéressant s'il contredit l'attente d'un

utilisateur(Silberschatz & Tuzhilin).

▪ Un modèle est subjectivement intéressant s'il est exploitable

(Silberschatz & Tuzhilin).


48

Vous aimerez peut-être aussi