Vous êtes sur la page 1sur 11

Règles d’association

A priori

Hicham BEHJA
Règles d’association

● Une règle d'association est une relation d'implication X à Y entre deux


ensembles d'attributs X et Y. Cette règle indique que les transactions
qui contiennent les attributs de l'ensemble X ont tendance à contenir
les attributs de l'ensemble Y.

● L’extraction de règles d'association est l'un des principaux problèmes


de l'ECD

● Ce problème fut développé, à l'origine, pour l'analyse de bases de


données de transactions de ventes. Chaque transaction est constituée
d'une liste d'articles achetés, afin d'identifier les groupes d'articles
vendus le plus fréquemment ensembles.

2
Règles d’association : un
exemple
" Un client qui achète du poisson et du citron a tendance à acheter du persil".

La principale application des règles d'association est donc "l'analyse du panier


de la ménagère", mais aujourd'hui, cette technique est appliquée à tout domaine
cherchant à regrouper des produits ou services. Le problème d'extraction de
règles d'associations s'est étendu au secteur bancaire, médical, industriel, des
nouvelles technologies, ….
Tickets Produits achetés

règle d’association : prémisse conclusion


3
Utilité des règles
● La méthode d'extraction de règles d'association peut
produire des règles d'association triviales ou inutiles.
Les règles triviales sont des règles évidentes:
– (par exemple : SI achat d'un stylo plume ALORS achat de
cartouches d'encre) qui n'apporte pas d'information
supplémentaire.

● Les règles inutiles sont des règles difficiles à


interpréter qui peuvent provenir de particularités
propres à la liste des transactions ayant servi à
l'apprentissage.

4
Support-Confiance-Intérêt
● Sa forme: Si condition alors conclusion

● Support ou couverture : rapport du nombre d’instances pour


lesquelles à la fois les conditions et les conclusions
apparaissent, sur le nombre total d’instances.
P(X,Y)= n(XY)/n
● Fiabilité ou confiance : rapport du nombre d’instances pour
lesquelles à la fois les conditions et les conclusions
apparaissent, sur le nombre d’instances pour lesquelles au
moins les conditions apparaissent.
P(Y/X)=n(XY)/n(
X)
● Intérêt = Confiance/P(Conclusion)
– Une règle est intéressante lorsque son intérêt dépasse 1

5
Définitions formelles
● L = {i1,i2,… im} un ensemble d’attributs

● Une base de données D est un ensemble de transactions

● Une transaction T est un ensemble d’attributs tel que T ⊆ L

● Soient X et Y deux ensembles d’attributs

● La règle d’association, X ⇒ Y
– X ⊆ T, Y ⊆ T, X ∩ Y = ∅
est au moins définie par deux mesures de qualité: support et la confiance

● Soit D une base de données, I un itemset et smin un support minimal alors I


est considéré comme fréquent ssi
support(I) ≥ smin

6
Définition du problème
● Etant donné un ensemble de transactions D, nous
souhaitons trouver toutes les règles d’association ayant un
support et une confiance supérieurs aux seuils minimaux
prédéfinis par l’utilisateur (minsup et minconf)

● Deux sous-problèmes :
1. Trouver tout les itemsets ayant un support supérieur ou égal à
minsup : FIS

2. A partir des FIS, engendrer l’ensemble des règles d’association


ayant une confiance supérieure ou égale à minconf

7
Algorithme à priori

● Principe:
– générer les ensembles d’items
– calculer leur fréquence
– garder ceux dont la fréquence dépasse un certain seuil
– générer les règles à partir de ces ensembles
– garder celles dont la fiabilité dépasse un certain seuil

● Ensemble d’items fréquent: ensemble d’items dont la fréquence


d’apparition dépasse un certain seuil.

● Propriété:
– Tous sous ensemble d’un ensemble fréquent est fréquent
– Tous sur ensemble d’un ensemble non fréquent est non fréquent

8
Algorithme a priori –Génération
des candidats
● Principe pour générer un ensemble d’items de taille k:
– le construire itérativement à partir d’un ensemble de taille 1
– Prenons un ensemble fréquent de taille k-1, noté Lk-1.
– On construit l’ensemble candidat Ck en prenant la jointure de Lk-1avec lui-même.
● Cette jointure correspond à l’ensemble des unions d’ensembles ayant seulement un élément différent.
– On obtient Lk en éliminant de Ck tous les ensembles d’items pour lesquels il existe un
sous-ensemble n’appartenant pas à Lk-1, ou bien dont la fréquence n’est pas assez élevée.

● Algorithme :

L1= {ensemble d’items fréquent};


Pour (k = 1; Lk!=∅; k++)
Ck+1= candidats générés à partir de Lk
Pour chaque instance t de la BD
Incrémenter le compte de chaque candidat de Ck+1contenu dans t
Lk+1= candidats contenus dans Ck+1avec une fréquence minimale
Renvoyer Uk Lk

9
Exemple de génération des
candidats
● Considérons les ensembles de 3 items suivants:
S={(A,B,C),(A,B,D),(A,C,D),(A,C,E),(B,C,D)}

● La jointure de S avec lui-même nous donne 3


ensembles (A,C,D,E), (A,B,C,E) et (A,B,C,D):
– (A,C,D,E) (resp. (A,B,C,E)) n’est pas un ensemble de
4 items, car (C,D,E) (resp. (B,C,E)) n’est pas dans S.
– (A,B,C,D) est un ensemble de 4 items à retenir.

10
Extraction des règles
● A partir de (A,B,C) on peut construire 6
règles avec le même support mais pas la
même confiance:
– A B,C
– B A,C
– C A,B
– A,B C
– A,C B
– B,C A

11

Vous aimerez peut-être aussi