Vous êtes sur la page 1sur 10

règle d’association 

 
 
chergui oussama
gr02
introduction: 
 
Data Mining est la découverte d'informations cachées dans les bases de données et peut 
être consulté comme une étape dans le processus de découverte des connaissances .  
Techniques de Data Mining inclure clustring, la classification, la prédiction et l'analyse de 
associations. 
Un des plus les Techniques importantes de Data Mining sont celles des règles 
d'association, d'abord introduit en 1993 [Agrawal 1993], sont utilisés pour identifier les 
relations entre un ensemble d'éléments dans un base de données. Ces relations ne sont 
pas basées sur les propriétés inhérentes des données elles-mêmes avec des 
dépendances fonctionnelles), mais plutôt sur la co-occurrence des éléments de données. 
 

 
 
 
 
 
 
 
 
 
 
 
 
 
 
1. Définition de la technique 

Definition​:
 
La règle d'association est une méthode permettant de découvrir des relations 
intéressantes entre des variables dans de grandes bases de données. Il est destiné à 
identifier les règles fortes découvertes dans les bases de données en utilisant quelques 
mesures d'intérêt. 
Elle peut contenir les caractéristiques suivantes : 
● des informations statistiques sur la fréquence d'apparition 
● la fiabilité 
● l'importance de cette relation 
 
Soit un ensemble de n attributs appelés items et 
l'ensemble des Obsertvations (transactions). Chaque transaction  
dans D a un ID de transaction unique, et il consiste en un sous-ensemble de jeux 
d'éléments dans I. 
Une règle peut être définie comme une implication où et sont des 
sous-ensembles de , et ils n'ont aucun élément en commun, à savoir 
. et sont les antécédent et le conséquent de la règle, respectivement. 
 
soit l’example suivant. cet fichier comporte 6 observation(transactions) et 5 items: 

transactions S1 S2 S3 S4 S5

t1 1 1 1 0 0

t2 0 1 1 1 0

t3 0 0 0 1 1

t4 1 1 0 1 0

t5 1 1 1 0 1

t6 1 1 1 1 1
Item​ :  
Un item correspond à un produit. Nous avons 5 items (S1, S2, S3, S4 et S5 ). 

Itemset​ :
​Un itemset est un ensemble d’items (ex. {S1,S2,S3} est un itemset de cardinal CARD({S1, S2} = 3) 

SUPPORT​ :
Le support d'un itemset X, supp (X) est la proportion de transaction dans la base de données dans 
laquelle l'item X apparaît. Cela signifie la popularité d'un ensemble d'éléments. 

 
Dans l'exemple ci-dessus: supp(S1)=4/6=0.666. 

Itemset fréquent ​:
​ n itemset est dit fréquent si son support est supérieur à un seuil défini à l’avance, paramètre de 
U
l’algorithme de recherche. 

Itemset fermé ​(closed itemset) : 


Un itemset fréquent est dit fermé si aucun de ses supersets n’a de support identique. 
 
Itemset maximal​ ​(maximal itemset) : 
Un itemset est dit maximal si aucun de ses supersets n’est fréquent. 
 
Confidence ​(confiance) : 
La confiance d'une règle d'association est une valeur en pourcentage qui indique à quelle 
fréquence la tête de règle se produit parmi tous les groupes contenant le corps de règle. La valeur 
de confiance indique à quel point cette règle est fiable. 

 
exemple: conf({S1,S2}=>{S3})=supp({S1,S2,S3})/supp({S1,S2})=3/6*6/4=0.75=75%. 
 
Lift​ : 
Le lift d'une règle est défini comme: 

 
La valeur ​lift​ d'une règle d'association est le facteur par lequel la confiance dépasse la confiance 
prévue. Elle est déterminée en divisant la confiance de la règle par le support de la conclusion de 
la règle.  
Dans l'exemple ci-dessus: 
lift({S1,S2}=>{S3})=supp({S1,S2,S3})/(supp({S1,S2})*supp({S3}))=3/6*6/4*6/4=1.125. 
 
Conviction​ :  
La conviction d'une règle peut être définie comme: 

pour {S1,S2}=>{S3}:conv({S1,S2}=>{S3})=(1-supp({S3}))/(1-conf({S1,S2}=>{S3}))=1.32. 
La valeur de conviction de 1.32 signifie que la règle {S1, S2} => {S3} serait incorrecte 32% plus 
souvent si l'association entre X et Y était une chance accidentelle. 
 
 
 
étapes de la règles d’association: 
une stratégie adoptée par la plupart des algorithmes de recherche de règles d'association consiste 
à décomposer le problème en deux étapes: 
1. génération des ensembles d'items fréquents,trouver tous les itemsets qui se produisent 
au moins aussi souvent que le nombre minimum de supports prédéfinis(minsup) 
2. génération des règles,La deuxième étape consiste à générer des règles d'association 
fortes à partir des itemsets fréquents. Et la règle d'association est considérée comme 
forte si elle satisfait à la fois un support minimum et un minimum de confiance 
 
Algorithme APriori: 
L’algorithme  A-priori  est  un  algorithme  d’exploration  de  données  conçu  en  1994,  par 
Rakesh  Agrawal  et  ​Ramakrishnan  Sikrant​,  Il  sert  à  reconnaître  des  propriétés  qui 
reviennent  fréquemment  dans  un  ensemble  de  données  et  d’en  déduire  une 
catégorisation. 
 
Principe de l’algorithme a priori: 
● Generation d’ensemble d’items 
● Calcul des frequence des ensembles d’items 
● On garde des ensembles d’items avec un supmin:les ensembles d’items frequents. 
 
Exemple Avec minsup=2: 
2. Application 
 
 
Règles d'association avec TANAGRA: 
 
 
1 .Importer le DATASET​:  
nous créons un nouveau diagramme et importons le dataset avec le menu FILE / NEW. nous 
sélectionnez dataset mushroom.txt. 
 

 
 
 
 
 
 
 
 
2 . Définir les attributs:  
Nous ajoutons un composant DEFINE STATUS dans le diagramme; et définir tous les attributs 
comme IN
3 .A PRIORI algorithme:

On clique sur le menu contextuel des PARAMETRES le composant: 


Le support minimal est fixé à 0,4, la confiance minimale à 0,75; nous n'utilisons que des 
itemsets fréquents de cardinal inférieurs ou égaux à 4; les règles avec un LIFT inférieur à 
1 sont supprimées. 

4 .Calculer les règles d’association: ​Nous sélectionnons VIEW pour voir les règles. 

Nous obtenons 1390 règles.