Académique Documents
Professionnel Documents
Culture Documents
ZENITH
Gestion de
donnes
scientifiques
Effectifs
au 30/06/2013 :
9 permanents (7 ETP)
8 doctorants (8 ETP)
4 autres personnels (4 ETP)
Nombre de thses soutenues
entre le 01/01/2008
et le 30/06/2013 : 14,5
Responsables :
Esther Pacitti,
Patrick Valduriez
Page Internet de lquipe :
http://team.inria.fr/zenith
Prsentation
Zenith sattaque aux dfis poss par la gestion (stockage, partage, traitement,
recherche et analyse) des donnes scientifiques qui relvent du big data. Ces
dfis (correspondant aux trois big V : Volume, Velocity, Variety) peuvent se
rsumer ainsi:
1. trs grande chelle (big data, big analytics);
2. donnes en continu (produits par des capteurs, des appareils mobiles,
etc.) ;
3. htrognit et complexit des donnes (diffrences smantiques,
donnes incertaines ou multi-chelles, etc.).
Notre objectif est dapporter des solutions innovantes, en dmontrant des
avantages en termes de passage lchelle, fonctionnalit, facilit dusage
et performance, dans des environnements distribus et parallles (P2P, grid,
cloud).
Nous cherchons produire des rsultats fondamentaux et algorithmiques,
que nous pouvons implmenter dans des environnements spcifiques, par
ex. Grid5K. Pour valider nos solutions, nous collaborons avec des partenaires
scientifiques (INRA, CIRAD, IRD, etc.) et industriels (Data Publica, Bull, EDF,
Orange, Microsoft, MonetDB, Sparsity, etc.).
Evolution de lquipe
Zenith est une quipe-projet INRIA commune avec lUM2 depuis janvier 2011.
Elle a t cre par E. Pacitti (PR UM2) et P. Valduriez (DR INRIA), arrivs
au LIRMM en oct. 2009, et rejoints par 4 CR1 INRIA (R. Akbarinia, A. Joly,
F. Masseglia, D. Parigot) en 2010. Du ct UM2, lquipe initiale comptait
trois EC provenant de lquipe IDC (Z. Bellahsne, M. Cart, R. Coletta) et
un EC recrut en 2010 (H. Bouziane). Fin 2011, R. Coletta a rejoint lquipe
Coconut, tout en continuant collaborer avec Zenith. En oct. 2012, M. Cart
est devenue chercheur associ et K. Todorov a t recrut. En juin 2013,
lquipe Zenith comptait 5 chercheurs INRIA et 4 EC UM2, trois ingnieurs
INRIA en CDD, 1 ATER UM2, 1 post-doc INRIA et 8 doctorants.
www.lirmm.fr
Activits scientifiques
Thmes de recherche
Logiciels
3. Analyse de donnes
SnoopIM: un moteur de recherche par contenu pour
dcouvrir et retrouver de petits objets (par ex. des
logos) dans de grandes collections de photos et en
Rsultats scientifiques
lincertitude, avec des algorithmes pseudopolynomiaux pour excuter les requtes probabilistes
dagrgation [AVtkde13], et une solution incrmentale
lintgration de donnes incertaines qui exploite
les dpendances fonctionnelles [AAdapd13].
Des algorithmes efficaces pour le partitionnement
dynamique de masses de donnes arrivant en continu
[LAdexa12].
Diverses techniques (mesures terminologiques,
index) qui amliorent la qualit de lalignement de
grandes ontologies [NBcaise11, NBkekm2012].
Des techniques de hachage de donnes vectorielles
de grande dimension et des algorithmes MapReduce
associs pour la recherche de k-plus proches voisins
[TJicmr12].
Une architecture P2P/cloud, adapte la
nature collaborative des applications scientifiques
[PVercimnews12].
Une solution P2P la gestion de contenu de
type Content Data Distribution (CDN) [EPis122011]
qui combine les techniques de gossiping et de hachage
distribu.
Une approche de recommandation P2P qui
Rayonnement scientifique
Zenith a produit des livres majeurs : la troisime
3. Analyse de donnes
ParallelGDB, un systme de gestion de
donnes graphes pour clusters, avec des techniques
de partitionnement de graphes et de gestion de cache
[BMideas11].
StreamCLoud, un systme lastique de gestion
de flux de donnes pour des masses de donnes dans le
cloud [GJtpds12].
Un algorithme dextraction des itemsets
frquents volutifs dans un environnement de flux de
donnes o les itemsets comme le flux sont mis jour
et sont considrs sur deux dimensions [ZMictai12,
ZMtime12].
Une mthode dextraction des motifs dvolution
dans les images satellites permettant de dtecter des
zones durbanisation sensibles [PMijns11].
La premire proposition de fouille ditemsets
avec supports probabilistes dans des flux de donnes
[PKDDam13].
Des algorithmes scalables de recherche, de
fouille et de dcouverte dobjets visuels dans des grandes
collections multimdia [GJacmmm11, LJacmmm12].
Faits marquants
Analyse de grandes collections multimdias
Animation
Zenith a une forte implication dans la communaut
nationale, par sa participation au pilotage de BDA, et
internationale, par sa participation lorganisation
dImageCLEF (campagne dvaluation sur la recherche
dinformation visuelle). Au niveau rgional, P. Valduriez
anime le thme donnes scientifiques du labex NUMEV
et dirige le workpackage intgration de donnes
biologiques de IBC. Enfin, il a anim le groupe de travail
Intgration de donnes
Alignement dontologies
Collaborations externes
UFRJ (Brsil) : codirection de 3 thses (1 soutenue
en 2011, 2 en cours), collaboration sur workflows
scientifiques dans plusieurs projets CNPq-INRIA et
lquipe associe INRIA Sarav.
UCSB (USA) : quipe associe INRIA BigdataNet (20132015) sur la gestion de donnes dans une architecture
hybride P2P/cloud.
UPC, Barcelone : projet Egide PICASSO Scaling
GraphDB (2010-2011) sur la gestion de Large Graph
Databases (LGD).
Universit de Madrid : co-direction dune thse
(soutenue en 2012), collaboration dans le projet
StreamCloud et le projet IP CoherentPaaS.
Publications majeures
R. Akbarinia, F. Masseglia. Fast and Exact Mining of
Probabilistic Data Streams. European Conference
on Machine Learning and Principles and Practice of
Knowledge Discovery in Databases (ECML PKDD),
2013.
R. Akbarinia, P. Valduriez, G. Verger. Efficient
Evaluation of SUM Queries Over Probabilistic Data.
IEEE Transactions on Knowledge and Data Engineering,
Data. Vol. 25, No. 4, 764-775, 2013.
M. El Dick, E. Pacitti, R. Akbarinia, B. Kemme.
Building a Peer-to-Peer Content Distribution Network
with High Performance, Scalability and Robustness,
Information Systems, Vol. 36, No 2, p. 222-247, 2011.