Vous êtes sur la page 1sur 20

Analyse et Fouille de Données

Méthodes descriptives:
Recherche de Règles
d’Associations
Dr. Mouna Chebbah

2021-2022
Introduction
Découverte d’associations et de corrélations entre les articles achetés par
les clients en analysant les achats effectués dans leurs paniers.
Introduction
Input:
!Une base de données de transactions de clients, où chaque transaction est
représentée par un ensemble d’articles: « set of items » (ex., produits).
Objectif:
!Trouver les groupes d’articles (itemset) achetés fréquemment ensemble.
Motivation
Extraction d’informations sur le comportement des clients:
!SI achat de lait + café ALORS achat de cake (avec fort degré de probabilité).
Intérêt de l’information:
!Suggérer la disposition des produits dans le magasin;
!Choisir les produits à mettre en promotion, gestion de stock, …
Approche applicable dans d’autres domaines:
!Cartes de crédit, e-commerce, …;
!Services des compagnies de télécommunication;
!Services bancaire;
!Traitements médicaux.
Règles d’association
Recherche de règles d’association
Découvrir des motifs (patterns), corrélations, associations fréquentes, à
partir des ensembles d’items stockés dans des base de données. Ces
associations fréquentes sont:
!Compréhensibles: Facile à comprendre
!Utiles : Aide à la décision
!Applications: Analyse des achats de clients, Marketing, AccésWeb, Design de
catalogue, Génomique, etc…
Règles d’associations
Formats de représentation des règles d’association
!couches ⇒bière[0.5%, 60%]
!achat:couches ⇒achat:bière[0.5%, 60%]
!“SI achat de couches ALORS achat de bière dans 60% de cas. Les couches et la
bière sont tous deux achetés dans 0.5% des transactions de la base de données."
Autres représentations:
!achat(x, “couches") ⇒achat(x, “bière") [0.5%, 60%]
Règles d’association
“SI achat couche,
ALORS achat bière,
Dans 60% des 0.5% des
items de la base"

1. Condition: partie gauche de la règle.


2. Conséquence: partie droite de la règle.
3. Support: fréquence. “Condition et Conséquence sont présentes
ensemble dans la base”.
4. Confiance: “si la condition de la règle est vérifiée, la confiance est la
probabilité que la conséquence de la règle soit vérifiée“.
Règles d’association:
Support, Confiance
!Support : pourcentage d’instances de la base vérifiant la règle.
𝑆𝑢𝑝𝑝𝑜𝑟𝑡 𝐴 ⇒ 𝐵 𝑠, 𝑐 = 𝑝(𝐴 ∪ 𝐵) = 𝑆𝑢𝑝𝑝𝑜𝑟𝑡({𝐴, 𝐵})

!Confiance: pourcentage d’instances de la base vérifiant l’implication


!(#∪%)
Confiance 𝐴 ⇒ 𝐵 𝑠, 𝑐 = 𝑝(𝐵/𝐴) =
!(#)
𝑆𝑢𝑝𝑝𝑜𝑟𝑡( 𝐴, 𝐵 )
=
𝑆𝑢𝑝𝑝𝑜𝑟𝑡( 𝐴 )
Règles d’association:
Support, Confiance
!Règles: 𝑋 ⇒ 𝑠, 𝛼 𝑌

𝜎({𝑋 ∪ 𝑌})
!Support : 𝑠 = |𝑇|
o 𝜎({𝑋 ∪ 𝑌}): nombre de lignes où X et Y apparaissent ensemble;
o |T|: nombre de lignes total dans la base.

𝜎({𝑋 ∪ 𝑌})
!Confiance: 𝛼=
𝜎({𝑋})
o 𝜎 𝑋 : nombre de lignes où X apparaît.
Exemple
TID Items
1 Pain, Lait
2 Fromage, Couches, Pain, Œufs
3 Fromage, Coca, Couches, Lait
4 Fromage, Pain, Couches, Lait
5 Coca, Pain, Couches, Lait

Soit la règle d’association: 𝐶𝑜𝑢𝑐ℎ𝑒𝑠, 𝐿𝑎𝑖𝑡 ⇒ 𝑠, 𝛼 𝐹𝑟𝑜𝑚𝑎𝑔𝑒


Quel est sont support et sa confiance?
Exemple
TID Items
1 Pain, Lait
2 Fromage, Couches, Pain, Œufs
3 Fromage, Coca, Couches, Lait
4 Fromage, Pain, Couches, Lait
5 Coca, Pain, Couches, Lait
Règle: 𝐶𝑜𝑢𝑐ℎ𝑒𝑠, 𝐿𝑎𝑖𝑡 ⇒ 𝑠, 𝛼 𝐹𝑟𝑜𝑚𝑎𝑔𝑒

! {#$%&'(),+,-.,/0$1,2(} 9
𝑠= 4$150( .$.,6 7! -8).,8&(
= :=0.4

!( #$%&'(),+,-.,/0$1,2( ) 9
𝛼= = =0.66
!({#$%&'(),+,-.}) =
Conclusion: 𝐶𝑜𝑢𝑐ℎ𝑒𝑠, 𝐿𝑎𝑖𝑡 ⇒ 𝐹𝑟𝑜𝑚𝑎𝑔𝑒 [40%, 66%]
Recherche des Règles
d’association
Soient une liste de n articles et de m achats:
1. Calculer le nombre d’occurrences de chaque article;
2. Calculer les cooccurrences pour les paires d’articles;
3. Déterminer les règles de niveau 2 en utilisant les valeurs de support et
confiance minimums.
4. Calculer les cooccurrences pour les triplets d’articles.
5. Déterminer les règles de niveau 3 en utilisant les valeurs de support et
confiance minimums.
6. Suivre les même étapes pour extraire les règles de niveau 4, 5, …
Seuil de Confiance et Support
Support minimum 𝝈:
!Elevé ⇒ peu d’itemsets fréquents
⇒peu de règles valides qui ont été souvent vérifiées
!Réduit ⇒ plusieurs règles valides qui ont été rarement vérifiées
Confiance minimum 𝜸:
!Elevée ⇒ peu de règles, mais toutes “pratiquement” correctes
!Réduite⇒ plusieurs règles, plusieurs d’entre elles sont “incertaines”
Exemple:
!𝜎 = 2 − 10%
!𝛾 = 70 − 90%
Exemple
TID Items
1 Pain, Lait
2 Fromage, Couches, Pain, Œufs
3 Fromage, Coca, Couches, Lait
4 Fromage, Pain, Couches, Lait
5 Coca, Pain, Couches, Lait

!Trouver toutes les règles avec un support et une confiance minimum


donnés:
!Support min: 𝜎 = 50% donc 𝜎 = 3
!Confiance min: 𝛾 = 50%
Exemple
Données
Pain Lait Fromage Couches Œufs Coca
Achat 1 X X
Achat 2 X X X X
Achat 3 X X X X
Achat 4 X X X X
Achat 5 X X X X
Support 4 4 3 4 1 2

Les items Œufs et coca ne sont pas fréquents.


Exemple
Etape 1: Tableau de cooccurrences des tuples: combien de fois deux produits ont été achetés ensemble ?
!∗(!$%)
o Nombre de paires d’articles: =6
'

Pain, Lait Pain, Fromage Pain, Couches Lait Lait, Couches Fromage, Couches
,Fromage
Occurrence 3 2 3 2 3 3
Support 3 2 3 2 3 3
! Règles à partir de l’itemset fréquent {Pain, Lait}:
(
o 𝑃𝑎𝑖𝑛 ⇒ 𝐿𝑎𝑖𝑡: 𝛾 =
!
(
o 𝐿𝑎𝑖𝑡 ⇒ 𝑃𝑎𝑖𝑛: 𝛾 = !
o Les deux règles sont retenues puisque ¾>0.5
! Déduire les règles à partir des itemsets fréquents {Pain, Couches}, {Lait, Couches} et {Fromage,
Couches}
! Quelles règles peut-on déduire?
Exemple
!Etape 2: Tableau de cooccurrences des triplets: combien de fois trois
produits ont été achetés ensemble ?
$∗ $&' ∗($&))
!Nombre de paires d’articles: =4
+
Pain, Lait, Fromage Pain, Lait, Couches Pain, Fromage, Lait, Fromage,
Couches Couches
Occurrence 1 2 2 2

!Combien de règles peut-on déduire?


Exercice
Etant donné une base de données de transactions, où chaque transaction est un
ensemble d’articles (items) achetés dans le même panier.
TID Items
100 A, B, C
200 A, C
400 A, D
500 B, E, F

!Trouver toutes les règles avec un support et une confiance supérieurs à:


• Support min: 𝜎 = 50%
• Confiance min: 𝛾 = 50%
Complexité
Soient :
!n : nombre de transactions (lignes) dans la BD
!m : Nombre d’attributs (items) différents

Complexité
!Nombre de règles d’association : 𝑶(𝒎 ∗ 𝟐𝒎-𝟏)
!Complexité de calcul : 𝑶(𝒏 ∗ 𝒎 ∗ 𝟐𝒎)
Réduction de la compléxité
!n : nombre de lignes de l’ordre du million (parcours de la liste nécessaire)
!Taille des tableaux en fonction de m et du nombre d’articles présents dans la règle:

n nb 2 3 4
item
n n(n-1)/2 n(n-1)(n-2)/6 n(n-1)(n-2)(n-3)/24
100 4 950 161 700 3 921 225
10000 5.107 1.7 1011 4.2 1014

!Conclusion de la règle restreinte à un sous-ensemble de l’ensemble des articles vendus.


o Exemple: articles nouvellement vendues.
!Création de groupes d’articles (différents niveaux d’abstraction).
!Elagage par support minimum.

Vous aimerez peut-être aussi