Vous êtes sur la page 1sur 21

Analyse et fouille de données

Chapitre 2 : Découverte des règles


d’associations

Ali Ben Mrad

A.U : 2022/2023 ISAAS 2ème BI


Introduction
2

De nombreuses entreprises commerciales accumulent d’importantes


quantités de données lors de leurs opérations quotidiennes. Par exemple,
les grands magasins collectent énormément de données sur les achats
des consommateurs via les tickets de caisse.

Les commerçants sont intéressés par l’analyse de ce type de données


pour mieux connaître les comportements d’achat de leurs clients. Ces
informations servent à bien mener les compagnes marketing, mieux
gérer les inventaires ou améliorer les relations clients.
Règles d’association
3

 Trouver les motifs fréquents, associations, corrélations, règles et structures

causales à partir d’un ensemble de données

 Traditionnellement liées au secteur de la distribution

 Découvrir la connaissance cachée par le grand volume de données


Représentation binaire
4

 Exemple: Chercher des associations entre produits sur les tickets de caisse
 Soit la base de données suivante de 5 transactions (tickets)
T1 = { 𝟏, 𝟐, 𝟑, 𝟒, 𝟓}

𝟏 = / 𝟐 = / 𝟑 = / 𝟒 = / 𝟓 =
Ensemble des items
5

𝟏 = / 𝟐 = / 𝟑 = / 𝟒 = / 𝟓 =
Un ensemble d’items X de cardinalité k est appelé un k-itemset
1-itemset : Ensemble de descripteurs
X = {x1=A, x2=B, x3=C, x4=D, x5=E}
2-itemset : Ensemble de descripteurs
X = {x1=AB, x2=AC, x3=AD, x4=AE, x5=BC, x6=BD, x7=BE, x8=CD, x9=CE, x10=DE}
3-itemset : Ensemble de descripteurs
X = {x1 = ABC, x2 = ABD, …}
Calcul de support
6

 Support(xi) : le pourcentage de toutes les transactions qui supportent l’item xi

Avec est le nombre de transaction qui supporte xi


n est le nombre de transaction dans la base

 Soit Smin, le seuil minimal des supports acceptés


 Si supp(xi) ≥ Smin Alors l’item xi est dit fréquent
Calcul de support : Propriétés
7

 Toutes les transactions qui supportent y supportent nécessairement x


Soient les items x et y, si x y alors supp(x) ≥ supp(y)
 Les sous-ensembles d’ensembles fréquents sont fréquents
Si l’item ABC est fréquent alors les sous-ensembles d’items AB, AC, BC
sont aussi fréquents
 Les sur-ensembles d’ensembles non fréquents sont non fréquents
AB est non fréquent alors ABC est aussi non fréquent
Calcul de support : Exemple
8

𝟏 = X={ , , } 1-itemset Smin = 40%


𝟐 = Y={ , , } 2-itemset
𝟑 = Z={ } 3-itemset
1- Calculer les supports supp( ), supp( ) et supp( )?

2- Est-ce que les items et sont fréquents? (sans faire le calcul de support)

3- Est-ce que l’item est fréquent? (sans faire le calcul de support)


Calcul de support : Exemple
9

𝟏 = X={ , , } 1-itemset Smin = 40%


𝟐 = Y={ , , } 2-itemset
𝟑 = Z={ } 3-itemset
1- Calculer les supports supp( ), supp( ) et supp( ) ?
supp( ) = 1/3= 0.33
supp( ) = 2/3= 0.66
supp( ) = 2/3= 0.66
2- Est-ce que les items et sont fréquents? (sans faire le calcul de support)

3- Est-ce que l’item est fréquent? (sans faire le calcul de support)


Calcul de support : Exemple
10

𝟏 = X={ , , } 1-itemset Smin = 40%


𝟐 = Y={ , , } 2-itemset
𝟑 = Z={ } 3-itemset
1- Calculer les supports supp( ), supp( ) et supp( ) ?
supp( ) = 1/3= 0.33
supp( ) = 2/3= 0.66
supp( ) = 2/3= 0.66
2- Est-ce que les items et sont fréquents? (sans faire le calcul de support)
supp( ) = 0.66 ≥ Smin alors est fréquent → fréquent et fréquent
3- Est-ce que l’item est fréquent? (sans faire le calcul de support)
Calcul de support : Exemple
11

𝟏 = X={ , , } 1-itemset Smin = 40%


𝟐 = Y={ , , } 2-itemset
𝟑 = Z={ } 3-itemset
1- Calculer les supports supp( ), supp( ) et supp( ) ?
supp( ) = 1/3= 0.33
supp( ) = 2/3= 0.66
supp( ) = 2/3= 0.66
2- Est-ce que les items et sont fréquents? (sans faire le calcul de support)
supp( ) = 0.66 ≥ Smin alors est fréquent → fréquent et fréquent
3- Est-ce que l’item est fréquent? (sans faire le calcul de support)
supp( ) = 0.33 < Smin alors est non fréquent → non fréquent
Règles d’association
12

 Application de la forme R : →
et sont des items disjoints ( = )
Conséquent Antécédent
Condition Résultat
x → y
"Puisque j’achète une pizza, il me faut aussi une Coca-Cola "
Une règle d’association traduit une cooccurrence et non une causalité
 La force d’une règle d’association est mesurée en utilisant
 son Support, supp( → )
 et sa Confiance, conf( → )
 R: → [ %, %]
Règles d’association
13

 Support supp( → ) : le pourcentage de toutes les transactions qui


supportent et ensemble
supp( → ) = supp( )

Avec est le nombre de transaction qui supporte x


n est le nombre de transaction dans la base

 Confiance conf( → ) : le rapport entre le nombre de transaction


supportant et , et le nombre de transactions supportant
EXTRACTION DES
RÈGLES D’ASSOCIATION
Extraction des règles d’association
15

 Extraire les règles d’association revient à choisir les règles ayant un


support suffisant et une confiance maximale
 Étant donné un ensemble de transaction T, trouver tous les règles
ayant un Support ≥ Smin et une Confiance ≥ Confmin

 La plupart des méthodes d’extraction procèdent :


1. Génération de tous les itemsets possibles
2. Génération de toutes les règles possibles
3. Filtrage avec Smin et Confmin
Algorithme
A priori
Algorithme Apriori
17

Entrée T : Base de transactions de descripteurs


Smin : support minimum
Sortie Ensemble des items fréquents

Générer les 1-itemsets fréquents ;


Répéter
Générer les (k+1)-itemsets candidats à partir des (k)-itemsets fréquents ;
Elaguer les candidats contenant des sous ensembles non fréquents de taille k ;
Calculer le support de chaque candidat en lisant la base ;
Eliminer les candidats non fréquents ;
jusqu’à n’avoir aucun nouveau itemset fréquent

17
Algorithme Apriori : Exemple
18

Exemple :
Déterminer l’ensemble d’item fréquents associés à la base de transactions
suivantes : , 𝟐 , 𝟑 , 𝟒 avec Smin=40%
1
𝟏{

𝟏
=0.75 =0.5 =0.75 =0.25

𝟏
{

1 2
𝟐{
=0.25 =0.5 =0.5
𝟐
{
{
Sélection des règles d’association pertinentes
19

À partir de l’ensemble des items fréquents :


Calculer toutes les combinaisons possibles de règles
Garder celles avec une confiance Confmin

Exemple :
Déterminer les règles d’association pertinentes associées à la base de transactions
suivantes : , 𝟐 , 𝟑 , 𝟒 sachant que l’ensemble des
items fréquents ={ , } et Confmin=70%

R: R:
R: R:
0.666 (66.6%) 1 (100%)

0.666 (66.6%) 0.666 (66.6%)


Règles d’association redondantes
20

Étant donnée deux règles R1 : 𝟏 𝟏 et R2 : 𝟐 𝟐

R2 est redondante par rapport à R1 ssi :


𝟏 = 𝟐 (même résultat)
𝟏 et 𝟐 correspond à 1-item
𝟏 𝟐
Ou bien
𝟏 = 𝟐 (même condition)
𝟏 et 𝟐 correspond à 1-item
𝟐 𝟏
Exemple :
R1 : R1 :
R2 : R2:

Éliminer R2
21

: Taux d’amélioration d’une règle [0, [


Étant donnée R :
R
R
 Si R alors estR est intéressante
 Si R alors R est non-intéressante

NB. Des règles avec un haut degré de confiance ne sont pas nécessairement
intéressantes
Exemple : , 𝟐 , 𝟑 , 𝟒

R1 : R1 0.88 R1 est non-intéressante


R2 : R1 0.88 R2 est non-intéressante
R3 : R3 1.33 R3 est intéressante
R4 : R4 1.32 R4 est intéressante

Vous aimerez peut-être aussi