Vous êtes sur la page 1sur 45

Mohamed Mediouni( Ecole Nationale d’Ingénieurs

de Tunis (ENIT)).
(mohamedmediouni1@hotmail.com)
Téléphone :+21622582534
Introduction
Définition du DATA MINING

Quelques tâches du DM
Exemples du Panier de la Ménagère

Les Règles Associatives


Algorithme d’extraction des Règles (à Priori)

Conclusion
29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 3
29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 4
Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 Multiplicité et variété des données (millions de milliards


d’instances)  Naissance des bases de données très larges
(VLDB – Very Large Data base)
 Densité des bases de données
 Méthodes classiques passives et limitées
 Nécessité de la mise au point d’un traitement en temps réel
 concurrence du marché
 Cycle de vie des produits demeure très restreint
 Développement technologique  Supporter de gros volumes
d’informations + Hétérogénéité des supports de stockage

Apparition du DATA MINING

29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 5


Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

Données Connaissances
K.D.D.
entrepôt (Knowledge Discovery
in Databases)

Fouille de données – Un tour d’horizon /E.G.TALBI


29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 6
Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 Objectifs :
 Apporter de nouvelles techniques de statistique en provence de
l’apprentissage automatique (Intelligence Artificielle) et les
bases de données
 Extraction des connaissances sans utiliser des enquêtes ou des
sondages : Limiter l’intervention de l’utilisateur
 Simplicité de la représentation des connaissances
 Donner la possibilité de traiter des images et des vidéos pour la
préparation des données
 Développer des techniques et des systèmes efficaces ayant
pour objectifs l’exploration des BD larges et
multidimensionnelles

29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 7


29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 8
Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 « Le Data Mining est le fait d’extraire automatiquement de la


connaissance intéressante, intelligible et cachée dans les bases de
données. » [Gardarin, 99]
 C’est le cœur du KDD(processeur de découverte du savoir dans
les bases des données)
 Processus inductif, itératif et interactif de découverte dans les BD
larges de modèles de données valides, nouveaux, utiles et
compréhensibles
 Ensemble de techniques d'exploration de données afin d'en tirer
des connaissances sous forme de modèles présentés à l’utilisateur
Une démarche ayant pour objet de découvrir des relations et des
faits, à la fois nouveaux et significatifs, sur de grands ensembles de
données
29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 9
29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 10
Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 Classification

 Clustering (ou Segmentation)

 Recherche de séquences

 Détection de déviation

 Recherche d’associations

29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 11


29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 12
Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

Y’a-t-il un lien entre les produits achetés ??


29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 13
Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 L’analyse du panier de la ménagère peut révéler


des associations et des corrélations entre les
articles achetés par le client
 Extraction des informations sur le comportement
du client
Exemple:
Si (achat lait + œuf) Alors achat du sucre (avec une
grande probabilité)

29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 14


Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 Raisons des extractions des informations:


Disposition des produits dans le magasin
Quels produits mettre en promotion, gestion de
stock, …?

 Comment peut-on donc extraire et représenter


telles associations ??

29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 15


29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 16
Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 Objectif :
 Découvrir des patterns, corrélations, associations
fréquentes à partir d’ensembles d’items contenus dans des
bases de données

Reprenons l’exemple du PANIER DE LA MENAGERE

29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 17


Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 Représentation des Données :


Les données sont regroupées sous forme de transactions
(set of items) (où chaque transaction est représentée par un
ensemble d’articles acheté fréquemment ) dans des bases
de données
Ensemble d’articles du
client 1

B Transaction:
A <1,{A,B,C}>
Base de
C données
29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 18
Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 Format de Représentation des Règles :


• Lait  œuf * 0.5% , 60% +
• Achète : lait  achète : œuf * 0.5% , 60% +
• Achète(x, ‘’lait’’)achète(x, ‘’œuf’’) * 0.5% , 60% +

Si (achète lait) Alors (achète œufs dans 60% de cas)


Le lait et les œufs sont achetés dans 0.5% des
transactions de la base de données.

29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 19


Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

• Lait  œuf * 0.5% , 60% +


1 2 3 4
• 1 - condition: partie gauche de la règle
• 2 - conséquence: partie droite de la règle
• 3 - support (partie gauche et droite sont
présentes ensembles dans la base)
• 4 - confiance (si partie gauche de la règle est
vérifiée, il est donc probable que la partie droite
de la règle soit aussi vérifiée)

29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 20


Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 Calcul des indicateurs de Pertinence :


Soit la règle X  Y :
• Support = Prob (X,Y)
Nbre (trans.contenant (X et Y))
Sup=
Nbre_total trans

• Confiance = Prob (X et Y/ X)

Nbre (trans.contenant (X et Y))


Conf=
Nbre (trans.contenant X )
29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 21
Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 Exemple de Calcul des indicateurs :


Règle : , ‘’lait" }  , ‘’oeuf" }
CID : PRODUITS :

1 Œuf, lait, céréale, sucre


2 Œuf, lait
3 céréale
4 Œuf, lait, sucre, pain
5 pain

29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 22


Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

Exemple:
• Support = Prob (lait, œuf)
Nbre (trans.contenant (lait et œuf))
3
Sup = CID : PRODUITS : = = 0.6
Nbre_total trans 5
1 Œuf, lait, céréale, sucre
• Confiance
2 = Prob (lait et œuf
Œuf, lait / lait)
3 céréale
Nbre (trans.contenant (lait et œuf)) 3
Conf = 4 Œuf, lait, sucre, pain
= = 1
5 Nbre (trans.contenantpainlait) 3

29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 23


Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 Types de Règles Associatives :

 Règles Mono Dimensionnelles :

• Simple:
– Achat(cid, "lait")  Achat(cid, "œuf")

• Conjonctive:
– Achat(cid, " œuf") & Achat(cid, " lait")  Achat(cid,
"sucre")

29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 24


Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 Règles Multi Dimensionnelles :


• Mettent en jeu plusieurs attributs
– Achats(cid, âge>50)  Achats(cid, produit =
« médicament »)
– en abrégé : âge>50  produit=« médicament »

• Voir plusieurs relations


– Personne(cid, âge>50) & Personne(cid, salaire>10000)
 Achats(cid, produits="luxe")
– il est possible de se ramener à une table par jointure
• Personne  Achats
29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 25
Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 Règles cycliques :
– Règles vérifiées périodiquement
Exemple: Tous les matins, café => sucre, gâteaux
– X =>Y cycle (L,t) signifie que X=>Y tous les L unités de temps en
commençant au temps t.
 Les Patterns Séquentiels :

– séquence d’items
– similaires aux règles associatives mais, l’ordre est important
Exemple : Achat de chaussures, puis de pantalons, puis de
chemises

29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 27


Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 Recherche des Règles d’associations :

Exemple: « Panier de la Ménagère »

NB : Pour simplifier la représentation des données, on


restreint le travail aux règles mono dimensionnelles

29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 28


Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

Tableau de co-occurrence: Combien de fois deux


produits ont été achetés ensembles ?
Produit Produit Produit Produit Produit
A B C D E
Produit
Produit A
A 4
4 1
1 1
1 2
2 1
1
Produit
Produit B
B 1
1 2
2 1
1 1
1 0
0
Produit
Produit C
C 1
1 1
1 1
1 0
0 0
0
Produit
Produit D
D 2
2 1
1 0
0 3
3 1
1
Produit
Produit EE 1
1 0
0 0
0 1
1 2
2

29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 29


Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 Règles d’associations:
• Si A alors B (Règle 1)
• Si A alors D (Règle 2)
• Si D alors A (Règle 3)
 Supports: Produit Produit Produit Produit Produit
A
• Support(1) = nbre trans(A B
et B)/nbre totCtrans D E
Produit=A1/5=20%
4 1 1 2 1
• Support(2) = 2/5 = 0.4
Produit B 1
= 40% 2 1 1 0
• Support(3) = 2/5 = 0.4 = 40%
 Confiance:
Produit C 1 1 1 0 0
• Confiance(2)
Produit D= nbre2 trans contenant(A
1 et0 D)/nbre trans
3 cont(A)1
Produit E
= 2/4 =1 0.5 = 50%0 0 1 2
• Confiance(3) = 2/3 = 0.66 = 66%

 On préfère donc la règle 3 par rapport la règle 2


29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 30
Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 Recherche des Règles d’associations (RESUME) :


1. Calculer le nombre d’occurrences de chaque
article.
2. Calculer le tableau des co-occurrences pour les
articles.
3. Déterminer les règles en utilisant les valeurs de
support et de confiance.
4. Généralement, une règle est retenu ssi sa
confiance c ≥ confiance min.
29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 31
Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 Quelques Algorithmes D’extraction des données :


 Algorithme de Comptage Dynamique (DIC – Dynamic Counting ,
BRIN, 97)

 Comptage par Bitmap GPW, 98

 Algorithme FP-Grows (Ham, 00)

 l’Algorithme génétique (J.Holland, 1975)

 Algorithme d’extraction des règles (à priori)

29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 32


29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 33
Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

Il est basé sur deux étapes:


1. Recherche des k-itemsets fréquents
(Ex: (lait, œuf, sucre)= 1-itemset)
NB: on dit un ensemble fréquent SSI son support ≥ supmin
• Principe: Les sous-itemsets d’un k-itemset fréquent sont
obligatoirement fréquents
2. Construction des règles à partir des k-itemsets trouvés
• Une règle fréquente est retenue si et seulement si sa
confiance c ≥ MINCONF

29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 34


Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 Algorithme [Agrawal, 93] :


L1 = {1 – itemsets fréquents};
For (k=2;Lk-1≠φ; k++) do
Ck = Apriori_gen(Lk-1);
forall instances t∈T do
Ct = subset(Ck,t);
forall candidats c ∈Ct do
c.count++;
Lk= { c∈Ck/ c.count ≥MINSUP -
L = ∪i Li;
29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 35
Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 La procédure Apriori_gen () :
{ Jointure Lk-1*Lk-1; k-2 éléments communs}
Insert into Ck;
Select p.item1, p.item2, …, p.itemk-1, q.itemk-1
from Lk-1p,Lk-1q
Where p.item1 = q.item1, …, p.itemk-2=q.itemk-2
…, p.itemk-1< q.itemk-1
forall itemsets c ∈Ck do
forall (k-1) – itemsets s⊂c do
If s∉Lk-1 then
Delete c from Ck;
29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 36
Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 Trace d’exécution : « Panier de la ménagère »

Produits Manipulés
Produit Symbole
Lait A
Pain B
Beurre C
Œuf D
Sucre E
Eau F

29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 37


Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 Les données:
 Les produits(Items) : I = {A, B, C, D, E, F}
 Les transactions : T = {AB, ABCD, ABD, ABDF, ACDE, BCDF}
 MINSUP = ½ (fixée par le Marqueteur)
 Les connaissances :
Calcul de L1 (ensemble des 1-itemsets)
• C1 = I = {A,B,C,D,E,F} // C1 : ensemble de 1-itemsets candidat
• s(A) = s(B) = 5/6, s(C) =3/6, s(D) = 5/6, s(E) =1/6, s(F) = 2/6
• L1 = {A, B, C, D}

29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 38


Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 Calcul de L2 (ensemble des 2-itemsets)


• C2 = L1xL1 = {AB,AC, AD, BC, BD, CD}
• s(AB) = 4/6, s(AC) = 2/6, s(AD) = 4/6, s(BC) = 2/6,
s(BD) = 4/6, s(CD) =3/6
• L2 = {AB,AD, BD, CD}

 Calcul de L3 (ensemble des 3-itemsets)


C3 = {ABD} (ABC ∉C3 puisque AC ∉L2)
s(ABD) = 3/6
L3 = {ABD}

29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 39


Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 Calcul de L4 (ensemble des 4-itemsets)


C4 = φ
L4 = φ

 Calcul de L (ensembles des itemsets fréquents)


L = ∪Li = {A, B, C, D, AB, AD, BD, CD, ABD}

 C’est l’ensemble des règles fréquentes qui seront retenues

29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 40


Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

Avantages :
 Résultats clairs : Règles faciles à interpréter
 Simplicité de la méthode
 Aucune hypothèse préalable (Apprentissage non supervisé)
 Méthode facile à adopter aux séries temporelles

Inconvénients :
 Méthode très coûteuse en temps
 Qualité des règles : Production d’un nombre important de règles
triviales ou inutiles
 Méthode non efficace pour les articles rares

29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 41


29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 42
Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

 DATA MINING (DM)  Domaine crucial : Constitue l’une des bases


indispensables du KDD
 Diversité de ses domaines d’applications
 Donner la possibilité d’extraire des informations de divers types de
bases de données (Relationnel, OO,…)
 Règles Associatives  Branche fondamentale dans le DM pour :
 Représentation des données
 Résolution des problèmes de gestion de hautes complexités
 Basés sur : Des Règles applicatifs sur des exemples concrets
Des Algorithmes normalisés

29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 43


Introduction Définition Tâches du DM Exemple du Panier de la Ménagère Règles Associatives Algorithme à Priori Conclusion

Manque de sécurité et de confidentialité


La maintenance des règles associatives n’est pas évidente

 Malgré l’importance de la recherche d’associations, elle reste encore une


branche non adaptée à notre vie quotidienne car, elle est inapte de satisfaire tous
les besoins des utilisateurs malgré quelques exemples d’applications.

Mais, la question qui se pose :


Arrivera-t-il un jour où l’implantation de ces règles
associatives dans notre vie demeure une nécessité ??

29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 44


29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 45
 « Le Data mining », R. Lefebure et G. Venturi, ed. Eyrolles, 2001
 « Data Mining et Scoring », S. Tufféry, ed. Dunod, 2002
 « Analyse discriminante – Application au risque et au scoring financier »,
M. Bardos,
Ed. Dunod, 2001
 «Machine Learning », T. Mitchell, Mc Graw-Hill Editions, 1997
 Georges Gardarin - Université de Versailles (laboratoire PRISM)
Internet/intranet et bases de données –Data Web, Data Warehouse, Data
Mining, Ed. Eyrolles

 http://torquenada.prism.uvsq.fr/~gardarin/home.html
 http://chirouble.univ-lyon2.fr/~ricco/data-mining
 http://www.kdnuggets.com
 http://www.web-datamining.net
 http://eric.univ-lyon2.fr
 http://wikipedia.fr
29 / 11 / 2008 DATA MINING : LES RÈGLES ASSOCIATIVES 46