Vous êtes sur la page 1sur 16

R`gles d’association e

Eric Gaussier
Universit´ Grenoble 1 - Lab. Informatique Grenbole / MRIM e

Eric Gaussier

R`gles d’association e

e ´ ements : attributs.Objectif On cherche ` d´couvrir des associations (ou corr´lations) a e e int´ressantes entre ´l´ments (items) dans de grandes collections ou e ee base de donn´es. individus. .. El´ Les associations prennent la forme : Si ( (A & B ) action1 then C action2 Exemple prototypique : transaction d’achats des clients d’un grand magasin Eric Gaussier R`gles d’association e ..

et Y l’ensemble des e e cons´quents e D´finition 1 : le support est le pourcentage des transactions qui e contiennent tous les ant´c´dents et cons´quents e e e D´finition 2 : la confiance est le pourcentage des transactions de e X qui contiennent Y Exemple 100 000 transaction de vente. 800 contiennent ´galement C e Eric Gaussier R`gles d’association e . dont 2000 contiennent A et B. Parmi ces 2000.Confiance et support Dans la r`gle pr´c´dente. A et B sont les ant´c´dents et C le e e e e e cons´quent e On notera X l’ensemble des ant´c´dents.

On suppose de plus que 5000 transactions contiennent C Interpr´tation : la valeur Lift nous donne une id´e de e e l’accroissement de la probabilit´ du cons´quent sachant e e l’ant´c´dent (information mutuelle) e e Eric Gaussier R`gles d’association e . ci-dessus.La valeur Lift Rapport entre la confiance (du cons´quent connaissant e l’ant´c´dent) et la confiance esp´r´e du cons´quent e e ee e (ind´pendamment de tout ant´c´dent) e e e Confiance esp´r´e : pourcentage de transactionss contenant le ee cons´quent e Exemple Cf.

L’algorithme Apriori : ensembles de taille croissante de r`gles e Eric Gaussier R`gles d’association e .Commentaires 1. Une notation ` probl`me a e 2. La litt´rature statistique abonde en mesure d’associations e 3. Difficult´ de trouver des seuils automatiquement e 4.

in } : ensemble d’items • D : ensemble de transactions (ensemble d’items) • R`gles d’association de la forme : X ⇒ Y . (X . · · · . g´n´rer toutes e e e e les r`gles d’association qui ont un support et une confiance e sup´rieurs aux minimums requis par l’utilisateur (minsup. i2 . minconf) e Eric Gaussier R`gles d’association e . Y ) ⊆ I e • c : confiance.L’algorithme A priori (1) D´finitions e • I = {i1 . s : support Probl`me Etant donn´ un ensemble de transactions.

le e nombre de transactions qui contiennent l’ensemble des items) est sup´rieur ` minsup e a Eric Gaussier R`gles d’association e . Identification des itemsets fr´quents e 2.L’algorithme A priori (2) Le probl`me se r´soud en deux ´tapes : e e e 1. G´n´ration des r`gles ` partir des itemsets fr´quents e e e a e Itemset fr´quent Ensemble d’items dont le support (i.e.

Identification des itemsets fr´quents (1) e Principe Dans une premi`re passe.e. 2. g´n´rer e e un ensemble de candidats de taille k + 1 . A chaque nouvelle passe. r´p´ter les e e ´tapes : e 1. Eric Gaussier R`gles d’association e . identifier les itemsets fr´quents de taille e e 1 (i. compos´ d’un seul ´l´ment). e 3. Filtrer cet ensemble pour ne retenir que les candidats fr´quents . L’ensemble courant de graines devient l’ensemble des itemsets de taille k + 1 ainsi obtenu. A partir d’un ensemble de graines issues de la passe k. Ces itemsets forment les e ee “graines” de la passe suivante.

cand.count ≥ minsup} return(∪k Lk ) Eric Gaussier R`gles d’association e . t) //cand. contenus dans t forall c ∈ Ct c. forall transactions t ∈ D Ct = subset(Ck .count++ Lk = {c ∈ Ck |c. Lk−1 = ∅.Identification des itemsets fr´quents (2) e Algorithme L1 = {1-itemsets fr´quents} e for (k = 2. k + +) Ck = apriori gen(Lk−1 ) //nouv.

ee 2.G´n´ration des candidats (1) e e Principe 1. On “joint” les itemsets pr´sents dans Lk−1 qui partagent les e k − 2 premiers ´l´ments . On filtre ensuite l’ensemble obtenu Eric Gaussier R`gles d’association e .

item1 . p.itemk−1 Eric Gaussier R`gles d’association e . · · · .item1 .itemk−2 .q. q) ∈ Lk−1 p.p.itemk−2  p.itemk−1 . p.G´n´ration des candidats (2) e e Jointure On suppose les items indic´s (num´rot´s) e e e Ins´rer dans Ck : e p.item1 = q.itemk−1 ≤ q. · · · .itemk−2 = q.itemk−1 o` u   (p.

G´n´ration des candidats (2) e e Filtrage forall itemsets c ∈ Ck forall (k − 1)-subsets s of c if (s ∈ Lk−1 ) then / supprimer c de Ck Eric Gaussier R`gles d’association e .

3.G´n´ration des candidats (3) e e Exemple L3 = {{1. 3. 3. 4}} Eric Gaussier R`gles d’association e . {1. 4}} Jointure ⇒ C4 = {{1. {2. 3}. {1. 2. 5}. 4. 5}} Filtrage ⇒ C4 = {{1. 2. 3. 4}. {1. 4}. 3. 2. 3. {1. 2. 4}.

G´n´ration des candidats (3) e e Propri´t´ e e Montrer que la jointure est ´quivalente ` : e a 1. Retirer de cet ensemble les itemsets pour lesquels l’itemset de taille k − 1 obtenu en supprimant le (k − 1)i`me item n’est e pas dans Lk−1 Montrer que Ck ⊇ Lk et que le filtrage ne retire aucun ´l´ment qui ee devrait ˆte dans Lk . e Eric Gaussier R`gles d’association e . ee 2. Consid´rer l’ensemble des itemsets de taille k obtenu en e adjoignant aux ´l´ments de Lk−1 un item de la base.

trouver tous les e sous-ensembles non vides de l 2.G´n´ration des r`gles ` partir des itemsets fr´quents e e e a e Principe 1. produire la r`gle a ⇒ (l − a) si : e support(l ) ≥ minconf support(a) Eric Gaussier R`gles d’association e . Pour chaque sous-ensemble a. Pour chaque itemset fr´quent l .

Eric Gaussier R`gles d’association e . Agrawal.Document utilis´ e R. Srikant. Proceedings of the 20th VLDB Conference. 1994. Fast Algorithm for Mining Association Rules. R.