Vous êtes sur la page 1sur 28

LES ALGORITHMES DE

GNRATION DES RGLES


DASSOCIATION

1
PLAN
Introduction
Description du domaine
Rgle dassociation
Recherche de rgle dassociation
Gnration des ensembles ditems frquents
1- Algorithme Apriori
2- Algorithme Close Gnration des rgles
1- Algorithme GEN-REGLES
Conclusion
Rfrences

2
INTRODUCTION

Dans le domaine du data mining la recherche des rgles d'association est une mthode populaire tudie d'une
manire approfondie dont le but est de dcouvrir des relations ayant un intrt pour le statisticien entre deux
ou plusieurs variables stockes dans de trs importantes bases de donnes.

3
DESCRIPTION DU DOMAINE
Un domaine dapplication donn doit tre dcrit par une liste limite datomes quon appelle items.
Par exemple, pour lapplication du panier de mnagre la liste des items correspond lensemble darticles
disponibles dans le supermarch [pain; fromage; chocolat; etc].
Un ensemble ditems est une succession ditems exprime dans un ordre donn et prdfini.
Une transaction est un ensemble ditems I {i 1, i2,i3, etc} . Un ensemble de transactions T {t 1,t2,t3,t4, etc} correspond
un ensemble dapprentissage quon va utiliser dans la suite pour dterminer les rgles dassociations.
Par exemple, deux transactions possibles qui dcrivent les achats dans un supermarch Sont :
t1 = {Pain Fromage Viande} et t2 = {PainFromage Chocolat}
Un ordre doit tre dfini sur lensemble ditems, dans toutes les transactions qui contiennent Pain et Fromage, Pain
doit figurer avant Fromage.
Le volume de la transaction est le nombre ditems contenu dans la transaction.
Une notion importante pour un ensemble ditems est son support qui fait rfrence au nombre de transactions
observes qui le contiennent.

4
DESCRIPTION DU DOMAINE
Exemple :

TID Items

1 {Pain, Fromage, Chocolat}


2 {Pain, Fromage, Viande}
3 {Fromage, Chocolat, Viande}
4 {Pain, Fromage, Chocolat}
5 {Pain, Coca, Chips}

Le support {Pain, Fromage, Chocolat} gale 2

5
RGLE DASSOCIATION
Une rgle dassociation est une application sous la forme X Y ou X et Y sont des ensembles ditems
disjoints.
La force dune rgle dassociation peut tre mesure en utilisant son support et sa confiance

6
RGLE DASSOCIATION
Exemple:
Considrons la rgle {pain , fromage} {chocolat}
Le support du lensemble {pain , fromage, chocolat} tant gal 2 et le nombre total du
transaction est gal 5, le support de la rgle est gal 2/5 = 0.4
La confiance est obtenue en divisant le support de lensemble {pain , fromage, chocolat} par
le support de lensemble {pain , fromage} et comme il ya 3 transactions contenant {pain ,
fromage} la confiance de cette rgle
est 2/3=0.67

7
RGLE DASSOCIATION
Recherche de rgle dassociation
Le problme de la recherche de rgle dassociation peut se formuler comme suit :
Etant donne un ensemble de transaction T, trouv toute les rgles dassociation ayant un
support minsup et une confiance minconf o minsup et minconf sont des seuils pour
le support et la confiance .
Il nest pas envisageable de chercher toute les rgles dassociation pour ensuite slectionn
celle qui ont un support et une confiance suffisante, les cots de calcule serait prohibitifs .
Un premier pas permettant damliorer les performances dun algorithme
de recherche de rgle consiste dcoupler les exigences sur le support et la confiance.

8
RGLE DASSOCIATION

Recherche de rgle dassociation:


La dfinition du support montre que le support dune rgle X Y ne dpend que
de X Y
Exemple:
{Pain, Fromage}{Chocolat}
{Pain, Chocolat}{Fromage}
{Pain} {Chocolat , Fromage}
les rgles suivantes ont le mme support car elles sont toute
construites partir du mme ensemble {Pain, Fromage, Chocolat} .

9
RGLE DASSOCIATION

Recherche de rgle dassociation:


Une stratgie adopte par la plupart des algorithmes de recherche
de rgle dassociation consiste dcomposer le problme en deux
tapes:
I. Gnration des ensembles ditems frquents.
II. Gnration des rgles.

10
RECHERCHE DE RGLE DASSOCIATION:

I. Gnration des ensembles ditems frquents


Lobjectif est de trouver tous les ensembles ditems qui satisfont le
seuil minsup.

11
ALGORITHMES D'EXTRACTION DES ITEMS FRQUENTS
APRIORI (Agrawal & Srikant, 1994)
Close (Pasquier et al, 1998 )
OCD (Mannila & al, 1994) qui ralisent un nombre de balayages du contexte
gal la taille des plus longs itemsets frquents
Partition (Savasere, 1995) qui autorise la paralllisation du processus
d'extraction
DIC - Dynamic Itemset Counting (Brin, 1997) qui rduit le nombre de
balayages du contexte en considrant les itemsets de plusieurs tailles
diffrentes lors de chaque itration

12
ALGORITHME APRIORI

Principe de lalgorithme A Priori:

Gnration densembles ditems


Calcul des frquences des ensembles ditems
On garde les ensembles ditems avec un support minimum: les ensembles ditems frquents

13
ALGORITHME APRIORI

14
Algorithme APRIORI
EXEMPLE AVEC MINSUP=2

15
ALGORITHME APRIORI

Points faibles
Le calcul des supports est coteux
La gnrations des rgles est coteuse
Le parcours des donnes initiales est rcurrent

16
ALGORITHME CLOSE

repose sur l'extraction de gnrateurs d'ensemble de mots ferms frquents


La fermeture d'un ensemble de mots A est un ensemble de mots B tel que B
apparait dans les mmes textes que A.
Pour la calculer on utilise deux fonctions :
f : associe un ensemble de mots les textes o il apparait
g : associe un ensemble de textes les mots qu'ils ont en commun

17
ALGORITHME CLOSE

Exemple:

f({D}) = {1,5}
g({1,5}) = {B,D}
fermeture({D}) = {B,D}
{D} est un gnrateur de {B,D}

18
ALGORITHME CLOSE
Principe de lalgorithme Close:
Initialisation de l'ensemble des gnrateurs avec l'ensemble des singletons
forms par les mots du corpus
Calcul de la fermeture des gnrateurs de niveau k et de leur support
Ajout des fermetures des gnrateurs l'ensemble des ensembles de mots
fermes frquents
Gnration des gnrateurs de niveau k + 1

19
ALGORITHME CLOSE

20
ALGORITHME CLOSE
EXEMPLE :

21
ALGORITHME CLOSE
EXEMPLE :

22
RECHERCHE DE RGLE DASSOCIATION:
II Gnration des rgles
Lobjectif est dextraire toutes les rgles de grande confiance partir des
ensembles ditems frquents trouvs dans ltape prcdente. Ces rgles sont
appeles rgles fortes.

23
ALGORITHMES D'EXTRACTION DES RGLES

GEN-REGLES (Agrawal & Al, 1994)


OPUS (Webb, G.I. (1995) )
GEN_RULES, Eclat, GUHA,Tertius

24
ALGORITHME GEN-REGLES

25
Algorithme GEN-REGLES
EXEMPLE AVEC MINCONF=1/2

26
CONCLUSION
Cette approche est trs importante dans plusieurs domaines tel que le domaine mdical,
commercial,
Plusieurs algorithmes sont galement utilis pour lextraction d items frquents la base de la
gnration des rgles d'association et la rduction transitive de la base
Les perspectives de travaux ultrieurs concernent l'tude des diverses techniques
d'implmentation et structures de donnes afin d'amliorer les processus d'extraction de
connaissances dans les bases de donnes selon leurs proprits et les diffrents types de
donnes.

27
RFRENCES
[AS94] : R. Agrawal, R. Srikant. Fast algorithms for mining association rules in large databases. Proc. VLDB conf., pp
478499, September 1994.
[BMUT97] : S. Brin, R. Motwani, J. D. Ullman, S. Tsur. Dynamic itemset counting and implication rules for market
basket data. Proc. SIGMOD conf., pp 255264, May 1997.
[MTV94] : H. Mannila, H. Toivonen, A. I. Verkamo. Efficient algorithms for discovering association rules. AAAI KDD
workshop, pp 181192, July 1994.
[SON95] : A. Savasere, E. Omiecinski, S. Navathe. An efficient algorithm for mining association rules in large
databases. Proc. VLDB conf., pp 432444, September 1995.
Data Mining. Algorithmes dextraction et de reduction des regles dassociation dans les bases de donnees (PhDThesis
Pasquier 2000)
Extraction de regles d'association - Thierry Lecroq (Univ. Rouen)
GNRATION DES RGLES D'ASSOCIATION: TREILLIS DE CONCEPTS DENSES (ALAlN BOULANGER)

28