Vous êtes sur la page 1sur 4

Informatique

ZENITH
Gestion de
donnes
scientifiques

Effectifs
au 30/06/2013 :
9 permanents (7 ETP)
8 doctorants (8 ETP)
4 autres personnels (4 ETP)
Nombre de thses soutenues
entre le 01/01/2008
et le 30/06/2013 : 14,5
Responsables :
Esther Pacitti,
Patrick Valduriez
Page Internet de lquipe :
http://team.inria.fr/zenith

BIG DATA, GESTION DE DONNEES DISTRIBUEES ET PARALLELES,


RECOMMANDATION
ET
RECHERCHE
DINFORMATION,
WORKFLOWS SCIENTIFIQUES

Prsentation
Zenith sattaque aux dfis poss par la gestion (stockage, partage, traitement,
recherche et analyse) des donnes scientifiques qui relvent du big data. Ces
dfis (correspondant aux trois big V : Volume, Velocity, Variety) peuvent se
rsumer ainsi:
1. trs grande chelle (big data, big analytics);
2. donnes en continu (produits par des capteurs, des appareils mobiles,
etc.) ;
3. htrognit et complexit des donnes (diffrences smantiques,
donnes incertaines ou multi-chelles, etc.).
Notre objectif est dapporter des solutions innovantes, en dmontrant des
avantages en termes de passage lchelle, fonctionnalit, facilit dusage
et performance, dans des environnements distribus et parallles (P2P, grid,
cloud).
Nous cherchons produire des rsultats fondamentaux et algorithmiques,
que nous pouvons implmenter dans des environnements spcifiques, par
ex. Grid5K. Pour valider nos solutions, nous collaborons avec des partenaires
scientifiques (INRA, CIRAD, IRD, etc.) et industriels (Data Publica, Bull, EDF,
Orange, Microsoft, MonetDB, Sparsity, etc.).

Evolution de lquipe
Zenith est une quipe-projet INRIA commune avec lUM2 depuis janvier 2011.
Elle a t cre par E. Pacitti (PR UM2) et P. Valduriez (DR INRIA), arrivs
au LIRMM en oct. 2009, et rejoints par 4 CR1 INRIA (R. Akbarinia, A. Joly,
F. Masseglia, D. Parigot) en 2010. Du ct UM2, lquipe initiale comptait
trois EC provenant de lquipe IDC (Z. Bellahsne, M. Cart, R. Coletta) et
un EC recrut en 2010 (H. Bouziane). Fin 2011, R. Coletta a rejoint lquipe
Coconut, tout en continuant collaborer avec Zenith. En oct. 2012, M. Cart
est devenue chercheur associ et K. Todorov a t recrut. En juin 2013,
lquipe Zenith comptait 5 chercheurs INRIA et 4 EC UM2, trois ingnieurs
INRIA en CDD, 1 ATER UM2, 1 post-doc INRIA et 8 doctorants.

www.lirmm.fr

Organisation et Vie de lquipe


Lquipe est structure par son projet scientifique qui se dcline en trois
thmes : (1) gestion de donnes et mtadonnes, (2) partage des donnes et
des processus, (3) analyse de donnes. Chaque chercheur permanent a son
propre programme de recherche qui porte en priorit sur un thme, tout en
pouvant contribuer aux autres thmes, ce qui favorise les collaborations et
synergies entre diffrents chercheurs.
La vie de lquipe est anime par les sminaires rguliers o interviennent les
membres de lquipe pour y prsenter leurs ides ou rsultats, voire un tat
de lart sur un sujet dintrt gnral. Les interactions avec nos chercheurs
invits apportent aussi un regard externe sur nos travaux. Enfin, la proposition
rgulire de projets ou de sujets de thse communs et la participation des
projets rgionaux, nationaux et internationaux favorisent la dynamique de
groupe.
Cette organisation est reflte par le site web de lquipe, o toutes les
informations concernant la vie au quotidien (sminaires dquipe, confrences
invites, news, sujets de thse, etc.) sont systmatiquement jour.

Activits scientifiques

driver des statistiques.

Pl@ntnet: Dans le cadre du projet RTRA Pl@ntNet

(INRIA, CIRAD, INRA, IRD, Tela Botanica) soutenu


par la fondation Agropolis, Zenith a particip au
dveloppement de trois logiciels majeurs : Pl@ntnet
iphone app: une application de recherche et de
partage dimages sur Smartphone, mise la disposition
du grand public en 2013 ; Pl@ntNet-Identify: une
application web ddie lidentification des plantes
par des images ; Pl@ntNet-DataManager: un systme
de gestion de donnes botaniques htrognes.

Nos activits font lobjet dun rapport dtaill chaque


anne (voir les RA 2011 et 2012 en fin de la page
Recherche de notre site Internet)

Thmes de recherche

Le projet Zenith est organis en trois thmes :


1.
Gestion de donnes et mtadonnes :
intgration de donnes et mtadonnes (schmas,
ontologies), stockage de big data, rsolution dentits
incertaines et traitement de requtes probabilistes.
2.
Partage de donnes et processus : gestion
des donnes et processus scientifiques dans des
environnements distribus et parallles, avec partage
de donnes en P2P, recommandation et workflows
scientifiques.
3.
Analyse de donnes : fouille de donnes et
recherche de donnes par contenu en exploitant le
paralllisme du cloud et les nouvelles technologies NoSQL
et MapReduce.
Ces trois thmes refltent le continuum qui va de la
capture des donnes, en passant par leur intgration,
gestion et partage, jusqu leur analyse, afin de produire
informations et connaissances.

Logiciels

Le dveloppement de logiciels est important pour valider,


dmontrer et valoriser nos rsultats. Cest aussi la base
de nos collaborations institutionnelles et industrielles.
Les voici par thme.

1. Gestion de donnes et mtadonnes


WebSmatch: un environnement dintgration de

sources de donnes htrognes du web. Il est


utilis par la socit Data Publica dans sa chaine de
traitement dopen data, et par nos partenaires IBC
(CIRAD et IRD).
ProbDB: un systme de gestion de donnes incertaines
(probabilistes) qui fonctionne sur SGBD relationnels
(en loccurrence PostgreSQL).
YAM++: un outil dalignement dontologies.

2. Partage de donnes et processus


SON (Shared-data Overlay Network): une plateforme

de dveloppement P2P, utilise par les logiciels P2Prec


et P2Pshare. Cest aussi la brique technologique pour
la nouvelle action de dveloppement INRIA Scifloware
(2013-2015), un middleware pour workflows
scientifiques.
P2Prec: un systme de recommandation P2P qui
exploite les donnes sociales des utilisateurs et la
smantique de leurs contenus. Son intgration avec
les logiciels ProbDB et WebSmatch a donn le logiciel
P2PShare, un systme de partage de donnes dans les
communauts scientifiques.

3. Analyse de donnes
SnoopIM: un moteur de recherche par contenu pour
dcouvrir et retrouver de petits objets (par ex. des
logos) dans de grandes collections de photos et en

Rsultats scientifiques

Les rsultats sur la priode 2011-2013 sont nombreux et


ont t publis dans de grandes revues et confrences
du domaine. Nos rsultats principaux par thme sont les
suivants:

1. Gestion de donnes et mtadonnes


Un modle de donnes probabiliste pour capturer

lincertitude, avec des algorithmes pseudopolynomiaux pour excuter les requtes probabilistes
dagrgation [AVtkde13], et une solution incrmentale
lintgration de donnes incertaines qui exploite
les dpendances fonctionnelles [AAdapd13].
Des algorithmes efficaces pour le partitionnement
dynamique de masses de donnes arrivant en continu
[LAdexa12].
Diverses techniques (mesures terminologiques,
index) qui amliorent la qualit de lalignement de
grandes ontologies [NBcaise11, NBkekm2012].
Des techniques de hachage de donnes vectorielles
de grande dimension et des algorithmes MapReduce
associs pour la recherche de k-plus proches voisins
[TJicmr12].

2. Partage de donnes et processus


Une architecture P2P/cloud, adapte la
nature collaborative des applications scientifiques
[PVercimnews12].

Une solution P2P la gestion de contenu de
type Content Data Distribution (CDN) [EPis122011]
qui combine les techniques de gossiping et de hachage
distribu.

Une approche de recommandation P2P qui

exploite les relations entre collaborateurs scientifiques,


notamment la diversit des profils, avec de nouveaux
algorithmes de recherche de documents [DPcikm11,
SPsrs13].

Une approche algbrique pour optimisation rt
excution parallle pour les workflows scientifiques
[OOpvldb11].

Une approche collaborative pour lidentification
des plantes partir de contenus image [RJicmr12].

ModSiCS2020 (Modeling and Simulation of Complex


Systems in 2020) de UM2 afin didentifier les directions
de recherche et proposer des actions concrtes.

Partenariats avec lindustrie








Data Publica (2011-prsent) : open data.


EDF (2013) : confidentialit et P2P.
Microsoft (2013-2017) : workflows et cloud.
INA (2013-2016) : analyse dimage et MapReduce.
X-data (PIA 2013-2015 avec Data Publica, Orange,
La Poste, EDF, Cinequant, Hurence) : croisement de
donnes publiques et prives.
Datascale (PIA 2013-2015 avec Bull, CEA, ActiveEon
SAS, Armadillo, Twenga, IPGP, Xedix) : infrastructure
big data.
CoherentPaaS (projet FP7 IP 2013-2016 avec MonetDB,
QuartetFS, Sparsity, Neurocom, Portugal Telecom et
U. Madrid, FORTH, INESC, ICCS) : accs SQL et NoSQL
dans le cloud.

Rayonnement scientifique
Zenith a produit des livres majeurs : la troisime
3. Analyse de donnes


ParallelGDB, un systme de gestion de
donnes graphes pour clusters, avec des techniques
de partitionnement de graphes et de gestion de cache
[BMideas11].

StreamCLoud, un systme lastique de gestion
de flux de donnes pour des masses de donnes dans le
cloud [GJtpds12].

Un algorithme dextraction des itemsets
frquents volutifs dans un environnement de flux de
donnes o les itemsets comme le flux sont mis jour
et sont considrs sur deux dimensions [ZMictai12,
ZMtime12].

Une mthode dextraction des motifs dvolution
dans les images satellites permettant de dtecter des
zones durbanisation sensibles [PMijns11].

La premire proposition de fouille ditemsets
avec supports probabilistes dans des flux de donnes
[PKDDam13].

Des algorithmes scalables de recherche, de
fouille et de dcouverte dobjets visuels dans des grandes
collections multimdia [GJacmmm11, LJacmmm12].

dition du livre de rfrence Principles of Distributed


Database Systems (zsu et Valduriez, 850 pages) par
Springer en 2011 et le premier textbook sur la gestion
de donnes P2P P2P Techniques for Decentralized
Applications (Pacitti, Akbarinia et El Dick) par
Morgan & Claypool Publishers en 2012.
Nous participons des comits de lecture de grandes
revues (VLDB Journal, PVLDB, Distributed and
Parallel Databases, Internet and Databases, etc.)
et confrences (ACM Multimedia, ACM ICMR, ACM
SIGMOD, ICDE, EDBT, CIKM, ICDM, IPDPS, etc.).
P. Valduriez a t distingu ACM Fellow 2012. Il a t
keynote speaker DEXA 2011.

Faits marquants
Analyse de grandes collections multimdias

Nos rsultats ont t appliqus dans le projet Pl@ntNet,


pour laide lidentification des plantes par limage.
La ralisation phare, Pl@ntnet iphone app, annonce
au salon de lagriculture en fvrier 2013, permet de
rechercher lespce probable dune plante en prenant en
photo ses feuilles, ses fleurs ou le tronc.

Partage de donnes en P2P

Animation
Zenith a une forte implication dans la communaut
nationale, par sa participation au pilotage de BDA, et
internationale, par sa participation lorganisation
dImageCLEF (campagne dvaluation sur la recherche
dinformation visuelle). Au niveau rgional, P. Valduriez
anime le thme donnes scientifiques du labex NUMEV
et dirige le workpackage intgration de donnes
biologiques de IBC. Enfin, il a anim le groupe de travail

Nos contributions en P2P (logiciel P2Pshare, CDN,


recommandation, traitement de requtes) ont t la
base de projets innovants, notamment ANR DataRing,
NUMEV, IBC et Mastodons, de nos collaborations
internationales avec UFRJ (Brsil) et UCSB (USA), et de
notre partenariat avec EDF. Dautre part, Le logiciel SON
est la base dun i-lab INRIA que nous mettons en place
avec la startup Beepeers sur la gestion de donnes P2P
dans des appareils mobiles.

Intgration de donnes

Le logiciel WebSmatch est la base de notre collaboration


avec Data Publica sur lopen data.

Alignement dontologies

Lors de la comptition 2012 de la AOEI qui value la


qualit et la performance des outils dalignement
dontologies, YAM++ a termin premier dans la catgorie
Large Biomedical Ontologies.

Projets majeurs accepts en 2013

Zenith participe deux projets industriels Big Data


(X-data et DataScale) slectionns dans le cadre du volet
numrique des investissements davenir, et au projet IP
CoherentPaaS.

Collaborations externes
UFRJ (Brsil) : codirection de 3 thses (1 soutenue
en 2011, 2 en cours), collaboration sur workflows
scientifiques dans plusieurs projets CNPq-INRIA et
lquipe associe INRIA Sarav.
UCSB (USA) : quipe associe INRIA BigdataNet (20132015) sur la gestion de donnes dans une architecture
hybride P2P/cloud.
UPC, Barcelone : projet Egide PICASSO Scaling
GraphDB (2010-2011) sur la gestion de Large Graph
Databases (LGD).
Universit de Madrid : co-direction dune thse
(soutenue en 2012), collaboration dans le projet
StreamCloud et le projet IP CoherentPaaS.

Publications majeures
R. Akbarinia, F. Masseglia. Fast and Exact Mining of
Probabilistic Data Streams. European Conference
on Machine Learning and Principles and Practice of
Knowledge Discovery in Databases (ECML PKDD),
2013.
R. Akbarinia, P. Valduriez, G. Verger. Efficient
Evaluation of SUM Queries Over Probabilistic Data.
IEEE Transactions on Knowledge and Data Engineering,
Data. Vol. 25, No. 4, 764-775, 2013.
M. El Dick, E. Pacitti, R. Akbarinia, B. Kemme.
Building a Peer-to-Peer Content Distribution Network
with High Performance, Scalability and Robustness,
Information Systems, Vol. 36, No 2, p. 222-247, 2011.

P. Letessier, O. Buisson, A. Joly, N. Boujemaa, Scalable


Mining of Small Visual Objects, ACM Multimedia
Conference, 2012.
E. Ogasawara, D. De Oliveira, P. Valduriez, J. Dias, F.
Porto, M. Mattoso. An Algebraic Approach for DataCentric Scientific Workflows, Proceedings of VLDB,
Vol. 4, No 11, p. 1328-1339, 2011.

Vous aimerez peut-être aussi