FIASCO-un Nouvel Algorithme D'extraction D'itemsets

Manuscrit auteur, publi dans "EGC'08, Nice : France (2008)"
FIASCO
: un nouvel algorithme dextraction ditemsets frquents dans les ots de donnes
Lionel V INCESLAS , Jean-mile S YMPHOR , Alban M ANCHERON et Pascal P ONCELET
G RIMAAG, Universit des Antilles et de la Guyane, Martinique, France. {lionel.vinceslas,je.symphor,alban.mancheron}@martinique.univ-ag.fr, EERIE, Parc Scientique Georges Besse, 30035 Nmes Cedex, France. pascal.poncelet@ema.fr
EMA - LG 2 IP /site
hal-00447421, version 1 - 15 Jan 2010
Rsum. Nous prsentons dans cet article un nouvel algorithme permettant la construction et la mise jour incrmentale du FIA 1 : FIASCO. Notre algorithme effectue un seul passage sur les donnes et permet de prendre en compte les nouveaux batches, itemset par itemset et pour chaque itemset, item par item.
Introduction
Le FIA est un nouvel automate qui permet de traiter de faon efcace la problmatique de lextraction des itemsets frquents dans les ots de donnes. FIASCO est lalgorithme qui permet de construire et de mettre jour le FIA en effectuant un seul passage sur les donnes. Notre objectif dans cet article est de prsenter et dillustrer par lexprimentation lapplicabilit et le passage lchelle de FIASCO dans le cas des ots de donnes.
FIASCO (Frequent Itemset Automaton Stepwise Construction Operator)
Le FIA est un automate dterministe et acyclique, ce qui nous permet dtablir une relation dordre sur ses tats (note ). De par cette relation dordre, nous introduisons un algorithme en deux passes pour la construction de cet automate, en utilisant des bits positions : FIASCO2. Cet algorithme utilise les proprits dApriori an doptimiser sa construction, ce qui le rend efcace dans le cas dune base de donnes (cf. section 3). Nous proposons aussi un algorithme en une passe (FIASCO1), pour les ots de donnes, permettant de mettre jour incrmentalement le FIA , item par item, avec une phase dlagage en utilisant un support statistique.
Exprimentations
Les exprimentations ont t ralises sur les jeux de donnes2 kosarak et T10I4D100K, sur une machine munie dun bi-processeur AMD ATHLON 3600+ 64 bits, avec 1Go de RAM.
1 Le FIA est 2 disponibles
prsent comme article long EGC08 lURL http://fimi.cs.helsinki.fi/data
FIASCO
kosarak 12 11 10 9 8 7 6 5 4 3 2.02 FIASCO2 FP-Growth Apriori
kosarak FIASCO2 FP-Growth Apriori
Temps (secondes)
Memoire (Ko) 35 40
10000
10
15
20
25
30
2.02
10
15
20
25
30
35
40
Support (%) kosarak 100000 Etats et noeuds 10000 1000 100 10 1 2.02 10 15 20 25 30 35 40 FIA FP-Tree
Support (%)
hal-00447421, version 1 - 15 Jan 2010
Les rsultats conrment bien lapplicabilit du FIA dans les ots de donnes (cf. courbes du jeu de donnes T10I4D100K). Les rsultats obtenus sont comparables voire meilleurs pour certaines valeurs de support que Apriori et FP-Growth, sachant que le FIA est une structure qui indexe les itemsets frquents du ot de donnes.
T10I4D100K 500 450 Memoire (Ko) 400 350 300 250 200 150 100 FIASCO1
Support (%)
T10I4D100K 50 Temps (secondes) 45 40 35 30 0 2 4 6 8 10 Batchs 12 14 16 18 20 FIASCO1
10 12 14 16 18 20 Batchs
Conclusion
Nous prsentons dans cet article un nouvel algorithme, FIASCO, qui permet de construire et de mettre jour incrmentalement le FIA appliqu aux ots de donnes. Cet algorithme est en une passe, avec une granularit par item. Les exprimentations, avec une analyse en temps et en espace, montrent lapplicabilit et le passage lchelle de lalgorithme.
Summary
We present in this paper a new algorithm for constructing and incrementally updating the : FIASCO. Our algorithm only needs one scan over the data and takes into account the new batches, itemset per itemset and for each itemset, item per item.
FIA
RNTI - E - 2

FIASCO-un Nouvel Algorithme D'extraction D'itemsets

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

FIASCO-un Nouvel Algorithme D'extraction D'itemsets

Transféré par

Droits d'auteur :

Formats disponibles

Manuscrit auteur, publi dans "EGC'08, Nice : France (2008)"

: un nouvel algorithme dextraction ditemsets frquents dans les ots de donnes

Lionel V INCESLAS , Jean-mile S YMPHOR , Alban M ANCHERON et Pascal P ONCELET

hal-00447421, version 1 - 15 Jan 2010

FIASCO (Frequent Itemset Automaton Stepwise Construction Operator)

prsent comme article long EGC08 lURL http://fimi.cs.helsinki.fi/data

kosarak 12 11 10 9 8 7 6 5 4 3 2.02 FIASCO2 FP-Growth Apriori

kosarak FIASCO2 FP-Growth Apriori

hal-00447421, version 1 - 15 Jan 2010

Vous aimerez peut-être aussi