Vous êtes sur la page 1sur 2

Manuscrit auteur, publi dans "EGC'08, Nice : France (2008)"

FIASCO

: un nouvel algorithme dextraction ditemsets frquents dans les ots de donnes

Lionel V INCESLAS , Jean-mile S YMPHOR , Alban M ANCHERON et Pascal P ONCELET

G RIMAAG, Universit des Antilles et de la Guyane, Martinique, France. {lionel.vinceslas,je.symphor,alban.mancheron}@martinique.univ-ag.fr, EERIE, Parc Scientique Georges Besse, 30035 Nmes Cedex, France. pascal.poncelet@ema.fr

EMA - LG 2 IP /site

hal-00447421, version 1 - 15 Jan 2010

Rsum. Nous prsentons dans cet article un nouvel algorithme permettant la construction et la mise jour incrmentale du FIA 1 : FIASCO. Notre algorithme effectue un seul passage sur les donnes et permet de prendre en compte les nouveaux batches, itemset par itemset et pour chaque itemset, item par item.

Introduction

Le FIA est un nouvel automate qui permet de traiter de faon efcace la problmatique de lextraction des itemsets frquents dans les ots de donnes. FIASCO est lalgorithme qui permet de construire et de mettre jour le FIA en effectuant un seul passage sur les donnes. Notre objectif dans cet article est de prsenter et dillustrer par lexprimentation lapplicabilit et le passage lchelle de FIASCO dans le cas des ots de donnes.

FIASCO (Frequent Itemset Automaton Stepwise Construction Operator)

Le FIA est un automate dterministe et acyclique, ce qui nous permet dtablir une relation dordre sur ses tats (note ). De par cette relation dordre, nous introduisons un algorithme en deux passes pour la construction de cet automate, en utilisant des bits positions : FIASCO2. Cet algorithme utilise les proprits dApriori an doptimiser sa construction, ce qui le rend efcace dans le cas dune base de donnes (cf. section 3). Nous proposons aussi un algorithme en une passe (FIASCO1), pour les ots de donnes, permettant de mettre jour incrmentalement le FIA , item par item, avec une phase dlagage en utilisant un support statistique.

Exprimentations

Les exprimentations ont t ralises sur les jeux de donnes2 kosarak et T10I4D100K, sur une machine munie dun bi-processeur AMD ATHLON 3600+ 64 bits, avec 1Go de RAM.
1 Le FIA est 2 disponibles

prsent comme article long EGC08 lURL http://fimi.cs.helsinki.fi/data

FIASCO

kosarak 12 11 10 9 8 7 6 5 4 3 2.02 FIASCO2 FP-Growth Apriori

kosarak FIASCO2 FP-Growth Apriori

Temps (secondes)

Memoire (Ko) 35 40

10000

10

15

20

25

30

2.02

10

15

20

25

30

35

40

Support (%) kosarak 100000 Etats et noeuds 10000 1000 100 10 1 2.02 10 15 20 25 30 35 40 FIA FP-Tree

Support (%)

hal-00447421, version 1 - 15 Jan 2010

Les rsultats conrment bien lapplicabilit du FIA dans les ots de donnes (cf. courbes du jeu de donnes T10I4D100K). Les rsultats obtenus sont comparables voire meilleurs pour certaines valeurs de support que Apriori et FP-Growth, sachant que le FIA est une structure qui indexe les itemsets frquents du ot de donnes.
T10I4D100K 500 450 Memoire (Ko) 400 350 300 250 200 150 100 FIASCO1

Support (%)
T10I4D100K 50 Temps (secondes) 45 40 35 30 0 2 4 6 8 10 Batchs 12 14 16 18 20 FIASCO1

10 12 14 16 18 20 Batchs

Conclusion

Nous prsentons dans cet article un nouvel algorithme, FIASCO, qui permet de construire et de mettre jour incrmentalement le FIA appliqu aux ots de donnes. Cet algorithme est en une passe, avec une granularit par item. Les exprimentations, avec une analyse en temps et en espace, montrent lapplicabilit et le passage lchelle de lalgorithme.

Summary
We present in this paper a new algorithm for constructing and incrementally updating the : FIASCO. Our algorithm only needs one scan over the data and takes into account the new batches, itemset per itemset and for each itemset, item per item.
FIA

RNTI - E - 2