Vous êtes sur la page 1sur 4

< Regard Aubay >

Le Big Data
Le terme mme de Big Data a t voqu la premire fois par le cabinet dtudes Gartner en 2008 mais des traces de la gense de ce
terme remontent 2001 et ont t voques par le cabinet Meta Group.
Il fait rfrence lexplosion du volume des donnes (de par leur nombre, la vitesse laquelle elles sont produites et leur varit) et
aux nouvelles solutions proposes pour grer cette volumtrie tant dans la capacit stocker et explorer celles-ci que, rcemment, la
capacit analyser et exploiter ces donnes dans une approche temps rel.

Pourquoi le Big Data devient un lment cl des SI ?


> Les donnes non structures, un vivier dinformations
inexploites

> Un chiffre cl, laccroissement du volume de donnes


Chaque jour, nous gnrons 2,5 trillions doctets de donnes. A tel point
que 90% des donnes dans le monde ont t cres au cours des deux
dernires annes seulement.

Il ny aurait que 10% de donnes structures en entreprise, la quasitotalit constituant ce remarquable bazar ambiant qui va de la messagerie
lectronique, en passant par les .pdf, les .ppt et autres joyeuses abrviations
dsignant aussi bien des fichiers texte, quaudio ou vido.

Ces donnes proviennent de partout : de capteurs utiliss pour collecter


les informations climatiques, de messages sur les sites de mdias sociaux,
dimages numriques et de vidos publies en ligne, denregistrements
transactionnels dachats en ligne et de signaux GPS de tlphones mobiles,
pour ne citer que quelques sources. IBM

Le problme, cest que ces donnes ont la fcheuse tendance doubler en


volume tous les deux mois, ce qui reprsente la bagatelle dune croissance
de +6.400% lan (source IDC) ! A linverse, la croissance des donnes
structures ne connatrait quune (petite) croissance de 4% par an (source
OTC). OpenText

Cet accroissement de volume est principalement li, dans les secteurs


de la banque, de lassurance ou encore des oprateurs, la volont
de ces derniers de sans cesse mieux connatre leurs clients en croisant
lensemble des informations disponibles sur celui-ci et sur ces actions
quelle quen soit lorigine.

Outre la production de documents internes, une des sources


des donnes non structures rside dans les changes client
par lintermdiaire de-mails, mais aussi par la combinaison de
technologies, comme les courriers/dossiers papier (reconnaissance de
texte) et les changes tlphoniques (vocal vers fichier texte).

Derrire le Big Data, un concept cl : les 5 Vs


Volume : reprsente la quantit de donnes gnres, stockes
et exploites au sein du SI. Laccroissement au sein des SI de la
volumtrie sexplique par laugmentation de la quantit de donnes
gnres et stockes mais aussi et surtout par le besoin dexploiter
des donnes qui, jusqu prsent, ne ltaient pas.

Virality : reprsente la capacit diffuser rapidement linformation


dans lorganisation afin de permettre la prise en compte de celles-ci
au sein des processus mtier.

Variety : reprsente la dmultiplication des types de donnes gres


par un SI, on parle ici de type de donnes au sens fonctionnel du
terme et non pas uniquement au sens technique. Dmultiplication
qui entrane aussi la complexification des liens et des types de lien
entre ces donnes.
Velocity : reprsente la frquence laquelle les donnes sont
gnres, captures et partages. Les donnes arrivent par flux et
doivent tre analyses en temps rel pour rpondre aux besoins des
processus chrono-sensibles.
Viscosity : reprsente la rsistance laquelle se heurte lorganisation
pour explorer, exploiter les donnes disponibles au sein des processus
mtier.

Aubay - Suivez toute lactualit Aubay sur notre web TV, twitter et notre site Internet www.aubay.com

Derrire le concept, des approches


Comme nous lavons vu, le Big Data rside dans la capacit grer en temps rel un volume sans cesse croissant et changeant de
donnes issues de diverses sources. Afin dapprofondir les solutions rpondant ce besoin, il convient de distinguer les diffrents cas
dusage que lon va dcliner en fonction du type de donnes manipules et de lusage que lon dsire faire de ces donnes.

Donnes non structures, le virage du Text Mining


Le Text Mining (fouille de textes) permet au sein dun ensemble
de documents deffectuer une analyse de leur contenu au travers
dune recherche smantique reposant sur lanalyse du langage
naturel (le franais par exemple) et la gestion dontologies1
spcialises (pour un secteur dactivit, un mtier). Cette fouille
peut permettre de dterminer le contenu dun document, mais
aussi daller jusqu faire de lanalyse de sentiment au travers des
tournures de phrases afin de savoir par exemple si un client se
plaint ou fait une simple demande dinformation.
A lissue de cette fouille, on produit la liste des concepts
et relations 2 abords dans un document afin de pouvoir
alimenter une base de connaissances qui permet :
soit deffectuer des recherches au sein de ce fond
documentaire,
soit dextraire des donnes qui serviront alimenter
dautres systmes.
La diffrence entre une analyse smantique et une indexation
classique de document est que lindexation se contente de
rfrencer les mots prsents dans un document sans sintresser
au sens, lusage fait de celui-ci.
Les donnes non structures
Elles sont dfinies, par opposition, comme des donnes
disponibles mais non directement exploitables. De fait il sagit
des donnes que lon peut extraire de tous types de documents
lectroniques (e-mail, document Word, vido, image, SMS,
courrier digitalis, page Web, rseau social).

Donnes structures, le virage de la Big Analytic


(ou Big Data Analytic)
Dans cette approche, lanalyse des donnes structures volue
de par la varit et la vlocit des donnes manipules. On
ne peut donc plus se contenter danalyser des donnes et de
produire des rapports, la grande varit des donnes fait que
les systmes en place doivent tre capables daider lanalyse
des donnes.
Lanalyse consiste dterminer, de faon automatique, au sein
dune varit de donnes voluant rapidement les corrlations
entre les donnes afin daider lexploitation de celles-ci.
Les donnes structures
Elles sont dfinies par le fait quelles sont disposes de faon
tre traites automatiquement et efficacement par un logiciel,
mais non ncessairement par un humain.

Le Text Mining et la Big Analytic, un lien possible


La Big Analytic repose sur lanalyse de donnes structures.
Mais comme, nous lavons vu les donnes non structures
constituent un vivier dinformations qui devient essentiel. Do
la question : comment exploiter ces donnes dans la cadre de
la Big Analytic ? Une des solutions consiste utiliser le Text
Mining pour retrouver des donnes cls dans des lments non
structurs afin dalimenter un rfrentiel de donnes structures
que pourra exploiter la Big Analytic.

On appelle ontologie un ensemble structur de termes et de concepts reprsentant le sens dun champ dinformations. Applique au Text
Miming il sagit donc dun modle de donnes conceptualis sous forme de graphe qui dfinit lensemble des concepts lis un domaine et la faon
dont sont lis ces concepts (cf. notion de concept et relation).
1

La notion de concept et relation est issue de la smantique sur laquelle reposent les solutions des Text Mining. Elle dfinit lextraction de motscls issus dun langage courant ou spcifique un mtier (les concepts) et de liens entre ces mots-cls dtermins partir de la structure grammaticale dune phrase ou dun paragraphe (les relations).
2

Le Big Data et ses technologies


Si aujourdhui le Big Data est possible, cest grce aux volutions technologiques (logicielle ou hardware) qui permettent de
rpondre au 5Vs et aux usages nouveaux que lon souhaite faire des donnes.

> Les solutions de stockage


Les Big Database : il sagit de nouvelles solutions de SGBD permettant de grer de gros volumes de donnes, dans une
approche de varit et de vlocit fortes. Ces solutions reposent sur de nouveaux systmes de gestion de fichiers partags
et permettent de grer diffremment le stockage, la modlisation et le requtage des donnes.
On retrouve derrire ces nouvelles solutions le concept de SGBD NoSQL.
Dabord dfini comme NO SQL , ce terme a trs vite volu vers Not Only SQL .Ce concept exprime la possibilit de
sortir dune approche classique relationnelle (SGBD/R) sur le stockage et la manipulation des donnes.

Wide Column Store

Document Store

Avec une approche de stockage des informations par colonne


et non par ligne, comme les SGBD relationnel classique. Ces
solutions offrent comme avantage une meilleure capacit
dvolution de la structure dune table et, pour le stockage, la
capacit de compresser les donnes de faon plus efficace.

Ces solutions permettent de stocker et de grer des documents.


Elles ont une approche de gestion de donnes semi-structures
permettant de dfinir et dassocier des mtadonnes un
document et de grer la classification de ceux-ci.

Les principaux acteurs : Cassandra, BigTable, Hive, Hbase,


Cloudera.

Les principaux acteurs : MongoDB, CouchDB, RethinkDB,


TerraStore, SimpleDB, Riak.

Key Value / Tuple Store

Graph

Ces solutions permettent de grer les informations sous


forme de couple cl/valeur lis entre eux pour former un
enregistrement (row). Elle offre lavantage de permettre de
crer des enregistrements variables dans les donnes qui les
constituent, contrairement une approche de type table (base
relationnelle) o les colonnes dfinissant un enregistrement
sont fixes.

Ces solutions sont conues pour optimiser la gestion de relations


(notion darc en thorie des graphes) entre des objets (notion
de nud). Lide principale est de permettre de retrouver des
informations par les liens qui les unissent. Ces systmes sont
donc particulirement adapts aux moteurs smantiques car ils
permettent de modliser facilement les concepts et relations
qui sont le cur de la smantique.

Les principaux acteurs : Amazon Dynamo, LevelDB, FundationDB,


BerkeleyDB, Memcache DB. Cach (InterSystem), PI (OsiSoft).

Les principaux acteurs : Neo4j, InfiniteGraph, HyperGraphDB,


InfoGrid, Trinity.

Bien sr, les solutions de SGBD plus classiques restent utilisables de par lvolution de leur architecture. Cest le cas
pour les bases relationnelles, les bases objets, les bases multidimensionnelles, dont les capacits ont volu au travers des
architectures massivement parallles ou InMemory3.

Le terme InMemory dsigne les nouvelles architectures de gestion de bases de donnes (IMDB) qui utilisent la mmoire vive des serveurs pour
le stockage des donnes, permettant ainsi un accs plus rapide celles-ci. De plus, les IMDB grent la rpartition des donnes sur plusieurs serveurs
et leur rplication sur des supports de stockage physique (HDD, SDD, etc.) afin de garantir le support ACID (Atomicity, Consistency, Isolation, Durability) indispensable un SGBD.
3

> Les nouvelles solutions logicielles

> Les matriels et les architectures

Les moteurs smantiques (Text Mining) : gnralement coupls


avec un moteur de recherche, ils permettent de faire une
analyse smantique des documents afin den comprendre le
contenu et ainsi de permettre de retrouver, au sein dune base
documentaire, le(s) document(s) traitant dun sujet, parlant
dune personne.

La puissance de calcul : inutile de revenir sur la fameuse loi


de Moore qui prdit un doublement annuel de la puissance
des processeurs. A celle-ci, sajoute les capacits dalgorithmes
de type MapReduce, du Grid Computing ou des architectures
massivement parallles de type Appliances qui offrent
moindre cot lquivalent de supercalculateurs, linstar de ce
que propose Oracle avec Exadata ou IBM avec Netezza ou BCU.

Parmi les solutions les plus connues : Fise, Zemanta, iKnow


(InterSystems), Noopsis, Luxid (Temis), LingWay.
Les solutions danalytique : ce sont des solutions qui permettent
de grer la varit des donnes exploites par une visualisation
nouvelle de celles-ci avec une premire analyse qui les
contextualise, compartimente, corrle. Pour cela, ces nouvelles
solutions cherchent aller au-del dune analyse statistique des
donnes pour aller vers une analyse prdictive et la prise en
compte de la temporalit des donnes.
Parmi les solutions les plus connues : QlickView, PowerPivot,
Tableau.
Ainsi que, pour la manipulation des donnes : Aster, Datameer,
SPSS, SAS ou Kxen pour le DataMining.

Les capacits de stockage : lvolution du stockage vers des


systmes distribus o un mme fichier peut tre rparti sur
plusieurs systmes permet denvisager des volumes de stockage
qui taient auparavant inconcevables. Les technologies mme
de stockage voluent pour offrir des accs toujours plus rapides
la donne.
Le cloud : la capacit de stockage et la puissance de calcul
devient un consommable de base au mme titre que leau ou
llectricit. Vu sous langle Big Data , ceci ouvre de nouveaux
horizons, puisquau lieu de dimensionner les infrastructures pour
les pics de stockage ou de traitement, les organisations peuvent
dsormais ajuster la taille et donc le cot de leurs infrastructures
de calcul et de stockage au gr de lvolution de leurs besoins.

Vous voulez en savoir plus


Sur le Big Data en gnral : wikipedia.org/wiki/Big_data ou www.techrepublic.com/blog/big-data-analytics.
Sur les technologies et les approches :
Le NoSQL et les nouvelles solutions de SGBD : nosql-database.org
La smantique, ce que cela apporte et comment : www.proxem.com/2012/04/25/recherche-semantique-33-quapporte-lanalyse-semantique

Vous voulez approfondir avec nous ?


Dans le cadre des recherches de la cellule Innovation, Aubay va poursuivre sur la fin de lanne 2013 plusieurs projets de
veille technologique afin dapprofondir son expertise technique autour du Big Data et plus particulirement des SGBD
NoSQL et du Text Mining.
Si vous tes intress soit pour tre tenu au courant de lavance de ces travaux et des rsultats obtenus soit pour
participer avec nous au droulement de ces travaux, nhsitez pas nous contacter (innov-dt@aubay.com).dun plug-in
particulier ou dun device spcifique (type LeapMotion ou Kinect).

Vous souhaitez rejoindre une des premires ESN europennes ?


Vritable aventure entrepreneuriale, Aubay est la plus importante
Entreprise de Services du Numrique ne aprs 1998. 9me ESN cote
sur EURONEXT PARIS, le Groupe Aubay compte en 2014 plus de 3 300
collaborateurs en Europe et prs de 2 000 collaborateurs en France.

www.youtube.com/AubayTV
@groupeaubay
www.aubay.com nos offres demploi et de stage