Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Le data mining par ses outils et objectifs est venu aux secours de ces décideurs.
Nous présentons comme outils d’abord les techniques d’extraction des motifs
fréquents et des règles d’association.
d. Représentation canonique:
Afin de faciliter les calculs d'extraction des motifs, une représentation
canonique (standard) sous forme de codes binaires des produits dans un
itemset est utilisée. Ce principe est illustré pour l'exemple précédent
dans la matrice suivante:
x possède p xRp
Plus clairement, f renvoie l'ensembles des objets x qui possèdent un motif donné
m.
Exemple:
f(bc) = {x2,x3,x5,x6} et f(abcde}=.
Alors que g renvoie l'ensemble des propriétés que possèdent tous les éléments
d'un ensemble X, sous-ensemble des partitions de tous les objets dans O. g est
dite duale de f et f duale de g.
On dit aussi que f(m) est l’image du motif m.
CAD:
si m est un sous-motif de m' (m m')
Support(m) ≥ Support(m')
- Le support mesure la fréquence d’un motif, relativement à la taille de O:
plus il est élevé, plus le motif est fréquent.
Nous distinguons alors les motifs fréquents des motifs non fréquents à l’aide
d’un seuil s (sigma seuil).
Si Support(m) ≥ s.
L’analyse de cet algorithme montre que Apriori repose sur deux constations
fondamentales du point de vue de la notion des motifs fréquents:
e3. Génération des candidats de taille 3 : Combinaison des des candidats de taille
2 de F2 et F1.
s=1/2
Taille1: Support a: 3/4; b: 3/4, c: 1/4
Item Fréquents: {a, b}
Taille 2: {ab}; Support: 2/4
Taille 3:
Exemple:
Soit l'itemset i={Beef, Chicken, Cheese}
Une règle d'association à tirer de I est: Beef, Chicken Cheese
Qui rapporte la connaissance nouvelle que, le fromage est acheté avec le bœuf et
le poulet.
c. Support brute (Support Count) d'un itemset X dans T est par définition le
nombre de transactions de T couvrant X
Le Support Count de X est noté: X.count
Confiance(XY)=Pr(Y|X)
s = 30%
c= 80%,
Règles:
Définition: Un motif est dit rare (Infrequent) si son support est inférieur ou
égal à un support maximum (noté sMax).
Ce genre de connaissance est valable aussi bien pour les motifs que pour les
règles d’associations.
Les motifs rares sont utiles dans le diagnostique de données de diverses sortes:
ex. Médecine, sismologie.
Références Utiles/Utilisées :
[D’Aubigny, 2001] Gérard D’Aubigny, Discussion et commentaires. Data mining et
,)statistique, Journal de la société française de statistique, tome 142, no 1 (2001
p. 37-52.
[Cugliari, 2015 ] Jairo Cugliari, Fouille de Données, Master 2 IDS-Kharkiv, S2
2014-2015, Université Lumière-Lyon2.
[Sumathi & Sivanandam, ] Introduction to Data Mining and its Applications,
Studies in Computational Intelligence, Volume 29, Springer-Verlag Berlin
Heidelberg 2006.
[Preux, 2011] Ph. Preux, Fouille de données, Notes de cours, Université de Lille 3.
[Tuffery, 2014] Stéphane Tuffery, Cours de data mining, M2 Ingénierie
économique et financière, Université Rennes 1, 2014.
[Lieber, 2007] Jean Lieber, Fouille de données : Notes de cours, 2007.
[Zaki & Meira, 2014] Mohammed J. Zaki & Wagner Meira Jr, Data mining and
analysis: Fundamental Concepts and Algorithms, Cambridge University Press,
2014.