Vous êtes sur la page 1sur 49

BIG DATA

Analyse et valorisation
de masses de donnes

I .T I S O P E N
I - PREAMBULE
I.1 SMILE
Smile est une socit dingnieurs experts dans la mise en uvre de solutions open
source et lintgration de systmes appuys sur lopen source. Smile est membre du
CNLL, le Conseil National du Logiciel Libre, association d'associations pour la
promotion et la dfense du logiciel libre.
Smile compte 1200 collaborateurs dans le monde, ce qui en fait la premire socit
en France et en Europe spcialise dans lopen source.
Depuis 2000, Smile mne une action active de veille technologique qui lui permet de
dcouvrir les produits les plus prometteurs de lopen source, de les qualifier, de les
valuer, puis de les dployer, de manire proposer ses clients les produits les plus
aboutis, les plus robustes et les plus prennes.
Cette dmarche a donn lieu toute une gamme de livres blancs couvrant diffrents
domaines dapplication. La gestion de contenus, les portails, le dcisionnel, les
frameworks PHP, la virtualisation, la Gestion Electronique de Documents, les ERP, le
big data
Chacun de ces ouvrages prsente une slection des meilleures solutions open source
dans le domaine considr, leurs qualits respectives, ainsi que des retours
dexprience oprationnels.

Au fur et mesure que des solutions open source solides gagnent de nouveaux
domaines, Smile est et sera prsent pour proposer ses clients den bnficier sans
risque.
Smile apparat dans le paysage informatique franais et europen comme le
prestataire intgrateur de choix pour accompagner les plus grandes entreprises dans
ladoption des meilleures solutions open source.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
Ces dernires annes, Smile a galement tendu la gamme des services proposs.
Depuis 2005, un dpartement consulting accompagne nos clients, tant dans les
phases davant-projet, en recherche de solutions, quen accompagnement de projet.
Depuis 2000, Smile dispose dune Agence Interactive, proposant outre la cration
graphique, une expertise e-marketing, ditoriale, et interfaces riches. Smile dispose
aussi dune agence spcialise dans la Tierce Maintenance Applicative, linfogrance
et lexploitation des applications.

Enfin, Smile est implant Paris, Lyon,


Nantes, Bordeaux, Lille, Marseille et
Montpellier. Et prsent galement en Suisse,
en Ukraine, aux Pays-Bas, au Maroc ainsi
quen Cte dIvoire. Quelques rfrences de
Smile

I.2 OPEN SOURCE


En parallle ces publications, pour bien comprendre la rvolution en marche de
lopen source, Smile a publi plusieurs livres blancs expliquant les spcificits, les
modles conomiques, les sous-jacents ainsi que les atouts de lopen source.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
I.3 QUELQUES REFERENCES DE SMILE
Smile est fier davoir contribu, au fil des annes, aux plus grandes ralisations Web
franaises et europennes ainsi qu limplmentation de systmes dinformation pour
des socits prestigieuses. Vous trouvez ci-dessous quelques clients nous ayant
adress leur confiance.
Web
EMI Music, Salon de lAgriculture, Mazars, Areva, Socit Gnrale, Gtes de France,
Groupama, Eco-Emballage, CFnews, CEA, Prisma Pub, Volia, JCDecaux, 01
Informatique, Spie, PSA, Boiron, Larousse, Dassault-Systmes, Action Contre la Faim,
BNP Paribas, Air Pays de Loire, Forum des Images, IFP, BHV, Gallimard, Cheval Mag,
Afssaps, Bnteau, Carrefour, AG2R La Mondiale, Groupe Bayard, Association de la
Prvention Routire, Secours Catholique, Canson, Veolia, Bouygues Telecom, CNIL,
Danone, Total, Crdit Agricole

E-Commerce
Krys, La Halle, The North Face, Kipling, Vans, Pepe Jeans, Hackett, Minelli, Un Jour
Ailleurs, Decitre, ANWB, Solaris, Gibert Joseph, De Dietrich, Macif, Figaroclassifieds,
Furet du Nord, Gtes de France, Camif Collectivit, GPdis, Projectif, ETS, Yves Rocher,
Bouygues Immobilier, Nestl, Stanhome, AVF Primdical, CCI, Snowleader,
Darjeeling, Cultura, Belambra

Collaboratif
HEC, Bouygues Telecom, Prisma, Veolia, Arjowiggins, INA, Primagaz, Croix Rouge,
Eurosport, Invivo, Faceo, Chteau de Versailles, Eurosport, Ipsos, VSC Technologies,
Sanef, Explorimmo, Bureau Veritas, Rgion Centre, Dassault Systmes, Fondation
dAuteuil, Gaz Electricit de Grenoble, Ville de Niort, Ministre de la Culture,
PagesJaunes Annonces, Primagaz, UCFF, Apave, Goservices, Renault F1 Team,
INRIA, CIDJ, SNCD, CS informatique, Serimax, Volia Propret, Netasq, Corep,
Packetis, Alstom Power Services, Mazars, COFRAC, Assemble Nationale, DGAC, HEC

Systmes dInformation
Veolia Transport, Solucom, Casden Banque Populaire, La Poste, Christian Louboutin,
PubAudit, Effia Transport, France 24, Publicis, Nouvelles Frontires, Jus de Fruits de
Moora, Espace Loggia, Bureau Veritas, Skyrock, Lafarge, Cadremploi, Groupe Vinci,
IEDOM, Carrefour, Corsair, Le Bon Coin, Jardiland, Trsorerie Gnrale du Maroc, Ville
de Genve, ESCP, Faiveley Transport, INRA, Yves Rocher, ETS, Perouse Mdical,
Auchan ecommerce, Viapresse, Danone

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
Infrastructure
Agence Nationale pour les Chques Vacances, Pierre Audoin Consultants, Rexel,
Motor Presse, OSEO, Sport24, Eco-Emballage, Institut Mutualiste Montsouris, Ionis,
Osmoz, SIDEL, Atel Hotels, Cadremploi, Institut Franais du Ptrole, Mutualit
Franaise, Bouygues Telecom, Total, Ministre de lcologie, Orange, Carrefour,
Jardiland, Kantar, Coyote, France Televisions, Radio France,

Consultez nos rfrences, en ligne, ladresse : http://www.smile.fr/clients.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
II - SOMMAIRE
I- PREAMBULE 2
I.1 SMILE 2
I.2 OPEN SOURCE 3
I.3 QUELQUES REFERENCES DE SMILE 4
II - SOMMAIRE 6
III - EN RESUME 8
III.1 LE BIG DATA GENERATEUR DOPPORTUNITES POUR LES ENTREPRISES ET COLLECTIVITES
8
III.1.a Une croissance des masses de donnes 8
III.1.b Des gisements de donnes qui se multiplient 8
III.1.c La transformation de la matire premire data en valeur pour lentreprise et ses
clients/usagers 8
III.2 UNE TENDANCE DE FOND POUR LANALYSE DE DONNEES MASSIVES 9
III.3 CHECKLIST DUN PROJET BIG DATA 10
III.3.a Cadrer les opportunits mtier 10
III.3.b Cadrer larchitecture 10
IV - CE LIVRE BLANC 11
IV.1 VERSION 2015 11
IV.2 APPROCHE 11
IV.3 SUJETS TRAITES 11
V - CONCEPTS ET DEFINITIONS 12
V.1 BIG DATA 12
V.2 ENTREPOT DE DONNEES OU DATAWAREHOUSE 12
V.3 STOCKAGE DISTRIBUE - NOSQL 12
V.3.a Limites des SGBDR dans les architectures distribues 13
V.3.b Principes de distribution et de rplication des donnes 13
V.3.c Structures des bases et organisation des donnes NoSQL 14
V.3.d Fdration de donnes NoSQL dans des bases relationnelles 16
V.4 INTEGRATION ET TRAITEMENT (DISTRIBUE) DE DONNEES MASSIVES 16
V.4.a ETL 16
V.4.b Frameworks de traitements distribus - Map-Reduce 17
V.5 LANALYSE MULTIDIMENSIONNELLE OU OLAP 17
V.6 REQUETAGE AD-HOC EN LANGAGE NATUREL 17
V.7 DATA MINING 17
VI - CAS DUSAGES 18
VI.1 USAGES COUVERTS PAR LES SOLUTIONS BIG DATA POUR LANALYSE ET LA
VALORISATION 18
VI.2 MARKETING 18
VI.2.a Vue 360 des clients et analyse des comportements de consommation 18
VI.2.b Ressenti sur les services, produits et concepts 18
VI.2.c Rtention de clients 19

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
VI.2.d Implantation de points de vente 19
VI.3 E-COMMERCE 20
VI.3.a Le Big Data acclrateur des ventes 20
VI.3.b Le NoSQL pour grer facilement des catalogues produits riches 20
VI.4 LOGISTIQUE ET CHAINE DAPPROVISIONNEMENT 20
VI.4.a Le Big Data au service de la traabilit 20
VI.4.b Le Big Data facteur doptimisation de la chane d'approvisionnement 20
VI.5 OBJETS CONNECTES 21
VI.6 TELECOMS 21
VII - PANORAMA DES SOLUTIONS BIG DATA 22
VII.1 OBSERVATION SUR LE POSITIONNEMENT ACTUEL DES COMPOSANTS 22
VII.2 SYNTHESE DES SOLUTIONS BIG DATA 22
VII.3 HADOOP 25
VII.4 SPARK 29
VII.5 MONGODB 30
VII.6 ETL TALEND FOR BIG DATA 31
VII.7 SUITE PENTAHO 36
VII.8 ELASTICSEARCH 41
VII.9 JASPERSOFT 43
VII.10 APACHE ZEPPELIN 45
VII.11 SPAGOBI 47

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
III - EN RESUME
III.1 LE BIG DATA GENERATEUR DOPPORTUNITES POUR LES
ENTREPRISES ET COLLECTIVITES
III.1.a Une croissance des masses de donnes
Chaque jour, la quantit de donnes cres et manipules ne cesse daugmenter, et
ce quel que soit le secteur dactivit concern.

Cette croissance, exponentielle, est lie :


lvolution du nombre dutilisateurs des solutions IT
la gnration de donnes par des machines et capteurs
lvolution des primtres couverts et des usages (mobile,...)
la finesse de linformation trace
la croissance des volumes oprationnels
lvolution de lhistorique de donnes disponible.

III.1.b Des gisements de donnes qui se multiplient


Ces donnes sont issues de sources multiples :
RFID, compteurs dnergie, oprations commerciales en volumes, transactions
financires, blogs, rseaux de capteurs industriels, rseaux sociaux, tlphonie,
indexation Internet, parcours de navigation GPS, dtails d'appels en call center, e-
commerce, dossiers mdicaux, informatique embarque, Internet des objets, donnes
biologiques, donnes de jeux massivement en ligne, textes de tickets ou mails,
sondages, logs,...

Ces masses de donnes apportent des opportunits danalyses plus larges et plus
fines ainsi que de nouveaux usages de linformation, quelle soit pleinement ou
partiellement structure la source.

III.1.c La transformation de la matire premire data en valeur


pour lentreprise et ses clients/usagers
La question n'est plus "Le Big Data peut-il devenir un avantage concurrentiel pertinent
?" mais "Comment pouvons-nous exploiter les possibilits offertes par ces solutions
pour optimiser nos processus danalyse et de prise de dcision ?.

En effet, les masses de donnes constituent un matriau brut. Au del de leur


exploitabilit (pertinence, disponibilit et qualit), cest la capacit les transformer en
analyse et en service qui apporte une valeur maximale.

Le Big Data transforme progressivement les organisations autour de la valorisation de


linformation. Avec la finesse dinformation sur les oprations passes et de plus en
plus dinformations prospectives, le Big Data va permettre lclosion de modles
prdictifs plus pertinents.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
III.2 UNE TENDANCE DE FOND POUR LANALYSE DE DONNEES
MASSIVES
Les systmes de base de donnes relationnelles et les outils daide la dcision nont
initialement pas t crs afin de manipuler une telle quantit et richesse de donnes,
et il peut vite devenir compliqu et improductif pour les entreprises daccder ces
masses de donnes avec les outils classiques.

Cette nouvelle problmatique a donn naissance aux systmes de gestion de base de


donnes appels NoSQL (Not Only SQL), qui ont fait le choix dabandonner
certaines fonctionnalits des SGBD classiques au profit de la simplicit, la
performance et de la capacit monter en charge.
Des frameworks comme Hadoop ont galement t crs et permettent le
requtage, lanalyse et la manipulation de ces donnes en masse.

Nous relevons que les principales solutions de Big Data sont open source. Ce
contexte favorise leur vitesse de dveloppement et de diffusion au sein des
entreprises et collectivits.
Et ce moindre cot par rapport des solutions dont lvolution de la capacit est
verticale : cot des ressources matrielles, licences,...

Il est possible de mettre en place une solution Big Data complte uniquement base
sur des solutions open source sans cot de licence. Toutefois, des versions
commerciales bases sur de lopen source apportent des facilits qui vont dans le
sens de la productivit de mise en oeuvre et de lexploitabilit des solutions avec des
outils dadministration complmentaires notamment.

Beaucoup dentreprises et de collectivits publiques utilisent dj des solutions Big


Data, souvent hberges dans le cloud (ex : Google Analytics, rseaux sociaux,
Salesforce,...).
Les solutions Big Data ont fait leurs preuves et sont mres pour un dploiement en
production.

Les fonctionnalits de visualisation graphique (DataViz), pour illustrer des analyses


portant sur des masses de donnes, et de datamining prennent avec le Big Data toute
leur importance.
Ce mouvement va de pair avec le dveloppement des librairies JavaScript de
visualisation graphique avances (d3.js,...) et des frameworks Javascript dinteractivit
avec les donnes.

Nous relevons aussi les possibilits de consolidation de donnes (massives) et


htrognes la vole en complment de lentrept de donnes : la fdration de
donnes.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
III.3 CHECKLIST DUN PROJET BIG DATA
Au del des principes et bonnes pratiques de mises en oeuvre de solutions IT, une
vigilance sur les points suivants peut viter des cueils lors du cadrage dun projet Big
Data :

III.3.a Cadrer les opportunits mtier


identifier des leviers de gain dexploitation de masses de donnes sur les activits
de lentreprise
identifier le primtre (lgal, technique, historique) dinformation disponible : SI
interne, donnes fournies par des partenaires, OpenData, ...
identifier le ou les cas d'utilisation rsultant de ladquation entre les leviers de
gain et le primtre dinformation disponible

III.3.b Cadrer larchitecture


dfinir une architecture flexible adapte au(x) cas dutilisation; il nexiste pas un
modle darchitecture Big Data idal adapt tous les usages
valider la disponibilit et lexploitabilit des donnes sources
valider larchitecture (matrielle, rseau, applicative) par un test de monte en
charge.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
IV - CE LIVRE BLANC
IV.1 VERSION 2015

Cette nouvelle version du livre blanc (la premire datant de fvrier 2014) nous permet
de complter les usages et de prendre en compte les derniers apports de l'co-
systme Big Data qui voit des volutions rapides, notamment autour dHadoop et de
Spark, ainsi que des nouvelles versions de solutions open source.
IV.2 APPROCHE

Comme les autres livres blancs publis par Smile, cet ouvrage sefforce de runir :
une approche gnrale de la thmatique, ici : lanalyse et la valorisation de
masses de donnes, ses concepts, ses champs dapplication, ses besoins
spcifiques.
un recensement des meilleures solutions open source dans ce domaine.
une prsentation assez complte de ces solutions, de leurs forces, de leurs
limites, de leur maturit et de leur aptitude satisfaire des besoins
oprationnels.

Cette tude, ralise par notre quipe de consultants, a t fonde sur plusieurs
annes de travail de recherche et de premiers dploiements effectifs de solutions Big
Data.
Cet ouvrage vient complter livres blancs Smile Dcisionnel et NoSQL.
Les marques et logos prsents dans ce livre blanc sont la proprit des entreprises
concernes.
IV.3 SUJETS TRAITES
Ce livre blanc est concentr sur les solutions applicatives de collecte et de
valorisation de masses de donnes.
Dautres aspects de lexploitation des masses de donnes sont importants mais non
dcrits ici :

Qualit des donnes : prendre en compte la qualit et le nettoyage des


donnes, ainsi que la gestion du cycle de vie des donnes rfrentielles dans le
scope du projet vite d'aboutir une masse de donnes inexploitable. Des
solutions de traitement, qualification et nettoyage automatique des donnes
existent : fonctionnalits intgres aux flux de donnes ETL, briques
complmentaires telles DataQuality de Talend.
Infrastructures techniques : les solutions Big Data ncessitent une architecture
rpartie. La composante systme et rseaux est un facteur cl de performance
et dexploitabilit dune solution Big Data.
Scurit de linformation : les aspects de scurisation des accs et de gestion
de lintgrit des donnes sont importants pour la mise en oeuvre dune solution
prenne.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
Respect de la vie prive : les solutions Big Data peuvent apporter une
puissance informative importante. Cette puissance doit respecter les liberts
individuelles.
Solutions : lcosystme des solutions Big Data est riche et volutif. Il nous serait
difficile de dtailler toutes les solutions. Nous nous sommes concentrs sur les
solutions les plus pertinentes lheure actuelle.

V - CONCEPTS ET DEFINITIONS
V.1 BIG DATA
Le Big Data consiste en un ensemble de donnes plus ou moins structures qui
deviennent tellement volumineuses qu'elles sont difficiles travailler avec des outils
classiques de gestion de base de donnes.

En 2012, Gartner a pos les bases de la dfinition du Big Data, base sur les 3V :
Volume
Vitesse
Varit des donnes.

"Big data is high volume, high velocity, and/or high variety information assets that
require new forms of processing to enable enhanced decision making, insight
discovery and process optimization."

Sans seuil ni repre, beaucoup de bases de donnes classiques peuvent prtendre


rpondre ces trois critres.
Dans le prsent livre blanc, pour les usages d'analyse, nous complterons
pragmatiquement la combinaison des 3V avec une considration de volumtries en
dizaines de millions d'enregistrements minimum.

V.2 ENTREPOT DE DONNEES OU DATAWAREHOUSE


L'entrept de donnes est une base de donnes qui concentre de linformation issue
de diffrents systmes dinformation de lentreprise, des fins d'analyse et de
reporting des activits et marchs.

V.3 STOCKAGE DISTRIBUE - NOSQL


NoSQL, pour Not Only SQL dsigne les systmes de gestion de base de donnes qui
ne sappuient plus, du fait des volumtries et de la varit des donnes contenues, sur
une architecture relationnelle et transactionnelle.
Ces systmes privilgient la simplicit et lvolutivit de la capacit via des
architectures distribues.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
V.3.a Limites des SGBDR dans les architectures
distribues
Outre leur modle relationnel, la plupart des moteurs de SGBDR (Systme de
Gestion de Bases de Donnes Relationnelles) sont transactionnels ce qui leur impose
le respect des contraintes Atomicity Consistency Isolation Durability, communment
appel par son acronyme ACID.

Thorme de CAP

Il est actuellement impossible dobtenir ces trois proprits en mme temps dans un
systme distribu. Sur de nombreux SGBDR classiques, la rplication devient plus
complexe avec de fortes volumtries et une forte vlocit des donnes.

V.3.b Principes de distribution et de rplication des


donnes
Les capacits de monte en charge des bases NoSQL reposent, au del de leur
simplicit, sur la distribution (sharding) et la rplication des donnes sur diffrents
noeuds (cluster de quelques serveurs plusieurs DataCenter).
Pour simplifier, une analogie peut tre faite entre les mcanismes de partitionnements
verticaux (sur plusieurs tables physiques de la mme instance) de certains moteurs de
bases de donnes relationnelles et la distribution horizontale (sur plusieurs serveurs)
des donnes en NoSQL.
Les donnes peuvent galement tre rpliques, sur un principe analogue aux
mcanismes de stockage en RAID, afin de garantir un haut niveau de service, mme
en cas de problme ou de maintenance dun nud du cluster.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
V.3.c Structures des bases et organisation des donnes
NoSQL
Il existe plusieurs paradigmes au niveau des systmes de stockage NoSQL :

Type documentaire
Les bases de donnes documentaires sont constitues de collections de
documents. Les collections sont gnralement assimiles des tables dun modle
relationnel.

Bien que les documents soient structurs, ces bases sont sans schma de donnes
prdfini. Il nest donc pas ncessaire de dfinir au pralable lensemble des champs
utiliss dans un document. Les documents peuvent donc avoir une structure
htrogne au sein de la base.

Un document est compos de champs et de valeurs associes, ces dernires


pouvant tre
requtes. Les valeurs peuvent tre, soit dun type simple (entier, chane de
caractre,
date, ...), soit composes de plusieurs couples cl/valeur (imbrications nested sets).
Les structures de donnes sont donc trs souples.

La souplesse du modle de donnes, les performances et les capacits de requtage


orientent lusage des bases documentaires vers du stockage oprationnel de masse
(ODS) dans un systme dcisionnel.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
Type graphe
Au del du moteur de stockage sous la forme dune base documentaire, ce type de
base propose galement des relations entre objets. Ces derniers sont orients et
peuvent porter des proprits.

Type orient colonnes


La colonne reprsente lentit de base de la structure de donnes. Chaque colonne
dun objet est dfini par un couple cl / valeur. Une colonne contenant dautres
colonnes est nomme super-colonne.

Ces types de bases sont adapts au stockage oprationnel de masse (ODS) et de


source danalyses massives dans un systme dcisionnel.

Type cl/valeur
Dans ce modle, chaque objet/enregistrement est identifi par une cl unique.
La structure de lobjet est libre.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
Dans ce modle on ne dispose gnralement que des quatre oprations Create,
Read, Update, Delete (CRUD) en utilisant la cl de lenregistrement manipuler.

Du fait des limites fonctionnelles daccs aux donnes de ces types de base, nous ne
leur voyons pas dapplication dcisionnelle.

V.3.d Fdration de donnes NoSQL dans des bases


relationnelles
Plusieurs moteurs de bases de donnes relationnelles permettent de fdrer des lacs
de donnes massives NoSQL externes au sein de bases de donnes classiques.
Le modle est ici dutiliser un moteur de stockage NoSQL (rparti et qui reste
accessible de manire autonome) au sein dune base de donnes relationnelle pour
son exploitation.
Citons par exemple le mcanisme de Foreign Data Wrapper de PostGreSQL ou le
connecteur Cassandra de MariaDB.

Ces mcanismes offrent lavantage dintgrer facilement des donnes de bases


NoSQL au sein dun ODS ou un entrept de donnes de type base de donnes
relationnelle et ainsi dy accder avec un langage SQL classique.
Par exemple, cela peut tre une source de fait MongoDB trs forte volumtrie et
vlocit intgre de manire transparente un ODS PostGreSQL.

Par contre, il faut bien garder lesprit les limites de ce modle :


limites de performances techniques du moteur de la base de donnes
fdratrice par rapport un systme de traitement rparti (agrgation de
masses de donnes notamment)
perte de performance due lintgration dun systme tiers
mapping rigide des champs entre la base NoSQL et les tables virtuelles de la
base de donnes fdratrice.

V.4 INTEGRATION ET TRAITEMENT (DISTRIBUE) DE DONNEES


MASSIVES
V.4.a ETL
Afin dalimenter un datawarehouse partir des diffrentes sources de donnes ou de
synchroniser en batch des donnes entre systmes, on utilise une gamme doutils
appels ETL, pour Extract, Transform, Load .
Comme le nom lindique, ces outils permettent dextraire des donnes partir de
diffrentes sources, de les transformer (rapprochement, format, dnomination,
calculs), et de les charger dans une cible, comme un datawarehouse dans le cas dun
projet dcisionnel.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
LETL permet de masquer, grce une modlisation visuelle, la complexit de
manipulations (rparties) des donnes (htrognes) au sein des traitements et ainsi
den rduire fortement les cots de dveloppement, de maintenance et dexploitation.
Un ETL est gnralement compos dun studio de modlisation des traitements ainsi
que dun ou plusieurs environnements dexcution et des outils dadministration voire
de visualisation de donnes suivant les versions.

V.4.b Frameworks de traitements distribus - Map-


Reduce
Modle darchitecture portant sur la distribution et la rpartition des traitements de
donnes sur plusieurs noeuds dune grappe de serveurs (cluster).
Dans l'tape Map, les donnes traiter et traitements effectuer sont rpartis sur les
noeuds de traitement.
Dans l'tape Reduce, les nuds de traitements remontent leur rsultat pour
agrgation (il peut y avoir plusieurs niveaux de traitement).
V.5 LANALYSE MULTIDIMENSIONNELLE OU OLAP
Lanalyse multidimensionnelle permet lanalyse de mesures suivant diffrents aspects
mtiers appels dimensions ou axes danalyse et ce, plusieurs niveaux de
regroupement.
Par exemple, la mesure de Montant HT dune ligne de facture peut tre agrge par :
jour mois trimestre anne
produit catgorie de produits ligne de produits
client segment de client.
V.6 REQUETAGE AD-HOC EN LANGAGE NATUREL
Le requtage ad-hoc permet des non informaticiens de construire visuellement des
requtes, en sappuyant sur un dictionnaire dinformations en langage naturel
(mtadonnes) faisant abstraction du langage technique daccs aux bases de
donnes (SQL, JSON).
V.7 DATA MINING
Le data mining consiste rechercher des informations statistiques utiles caches dans
un grand volume de donnes.
Lutilisateur est la recherche dune information statistique quil nidentifie pas encore.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
VI - CAS DUSAGES
VI.1 USAGES COUVERTS PAR LES SOLUTIONS BIG DATA POUR
LANALYSE ET LA VALORISATION
Il existe de nombreux cas dusage des solutions de valorisation et danalyse massive
de donnes.
Nous en avons dtaill quelques uns ci-dessous mais nous pouvons aussi citer
lanalyse fine de processus, la recherche scientifique, les analyses politiques et
sociales, lanalyse de donnes de capteurs sur les chanes industrielles...

VI.2 MARKETING
Le Big Data transforme en profondeur les mtiers du marketing, avec les facilits
suivantes :

VI.2.a Vue 360 des clients et analyse des comportements de


consommation
Une vue complte de chaque client ncessite la consolidation de larges ensembles
de donnes:
informations sur le client stockes dans le SI : ERP, CRM, bases oprationnelles...
segmentation
parcours omnicanal / historique de la relation depuis la prospection
comportements dachat : dtail des commandes, frquence, canaux
enqutes de satisfaction, rseaux sociaux publiques
niveau dengagement; parrainage dautres clients
exprience d'utilisation dobjets connects
utilisation des services aprs-vente.

La collecte et la consolidation de toutes ces donnes reprsente une tche


fastidieuse, rarement faite ou uniquement sur un petit panel de clients. Les solutions
Big Data peuvent permettre dautomatiser cela et apporter les gains suivants :
dtecter des besoins rendus visibles aprs corrlation de donnes
optimiser ladquation des produits et services proposs
affiner les ciblages et optimiser les communications avec chaque client : canal,
message,...

VI.2.b Ressenti sur les services, produits et concepts


Corrler les donnes provenant :
des activits et changes de support aprs-vente
des avis, enqutes de satisfaction et de lanalyse de mots posts sur les rseaux
sociaux publics.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
VI.2.c Rtention de clients
Le Big Data permet de dtecter des signes de dsengagements de clients en utilisant la
consolidation d'informations de plusieurs capteurs digitaux de la relation/de l'interaction
client tels les appels ou tickets Back Office, la lecture de procdures de retrait sur le site
web, des messages de rseaux sociaux publics,...

VI.2.d Implantation de points de vente


La technologie Big Data offre la possibilit de corrler des donnes de diffrentes
natures et de diffrentes sources pour dterminer le meilleur emplacement pour un
point de vente :
OpenData mises disposition par les collectivits
donnes gographiques
donnes socio-conomiques
informations disponibles sur le march et la concurrence.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
VI.3 E-COMMERCE
Le-commerce est par nature une activit o la relation client est digitale et donc
consommatrice et gnratrice de donnes utiles au processus marketing et de vente.
Les principales solutions danalyse daudience web (pages visites, recherches,...) du
march utilisent des solutions Big Data.

VI.3.a Le Big Data acclrateur des ventes


Le Big Data peut apporter des solutions pour :
analyser les tunnels de vente dans un contexte omnicanal --> les leviers et freins
de transformation partir de plusieurs sources de donnes / canaux
analyser des comportements dachat des clients afin doptimiser leur exprience
corrler les ventes avec les retours, livraisons et donnes financires
analyser finement lusage et les interactions des utilisateurs avec le site e-
commerce :
prdire chaud la prochaine tape dans le processus de vente
Real User Monitoring
analyser un positionnement tarifaire par rapport au march et aider
loptimisation des prix dans des objectifs de volumes et de rentabilit
dtecter des fraudes.

VI.3.b Le NoSQL pour grer facilement des catalogues produits


riches
Par ailleurs, les bases NoSQL documentaires sont particulirement adaptes
l'entreposage et lanalyse de donnes souples et complexes, telles les caractristiques
de produits.

VI.4 LOGISTIQUE ET CHAINE DAPPROVISIONNEMENT


VI.4.a Le Big Data au service de la traabilit
Les solutions Big Data permettent une pleine traabilit des oprations logistiques :
mouvements de stock - RFID
produits frais ou sensibles
suivi de flotte ou de colis, y compris lors de transport intermodal.

Ces solutions facilitent les oprations de suivi des voyages dans le temps : geo
corridoring, analyse des voyages et taux de rotation

VI.4.b Le Big Data facteur doptimisation de la chane


d'approvisionnement
La masse de donnes disponible sur tous les mouvements permet danalyser et de
piloter plus finement les processus logistiques et dapprovisionnement.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
La richesse dinformation permet de combiner les diffrents facteurs de qualit
(dlais, dfauts, qualit de service,...) et conomiques (prix dachat, cot de possession
et de stockage,...) dans les analyses.

Le Big Data permet dintgrer plus facilement les donnes logistiques dans les
informations du cycle de vie des objets (commande, logistique, exploitation,
recyclage,...) et permet ainsi une vision 360 autour de la fonction
dapprovisionnement.

VI.5 OBJETS CONNECTES


Ces dernires annes ont vu le dveloppement et la diffusion de masse dobjets
connects grand public, notamment autour des thmes de la sant et du sport ainsi que
de la maison connecte.
Une illustration de lapport des technologies Big Data est lutilisation de thermostats
connects qui permettent de raliser des conomies dnergies grce lapplication de
machine learning sur les donnes issues des sondes consolides avec des prvisions
mtorologiques et paramtres de lutilisateur.

VI.6 TELECOMS
Les tlcoms gnrent des masses de donnes sur les flux transits. Le Big Data est
une solution utile pour :
lanalyse de capacit
la segmentation des usagers et des comportements dusage des rseaux
la corrlation avec les processus de vente et de support
la qualit de service de rseaux complexes, la corrlation avec les appels aux
call center.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
VII - PANORAMA DES SOLUTIONS BIG
DATA
VII.1 OBSERVATION SUR LE POSITIONNEMENT ACTUEL DES
COMPOSANTS

Lcosysteme big data est riche, et une solution unique ne rpond pas tous les
besoins, imposant une interoprabilit forte entre les solutions. Aussi, au del du choix
de telle ou telle solution, il sera important de savoir associer les solutions entre elles
pour en tirer le meilleur, dans votre contexte.

Par exemple :
l'intgration de briques de traitement et requtage Hadoop avec du stockage
MongoDB ou Cassandra.
plusieurs ETL peuvent sappuyer sur les frameworks de traitement distribu
Hadoop.

VII.1.a Projets de la fondation Apache


Les principales technologies big data ont t inities par les acteurs du web comme
Google, Facebook, Twitter ou Yahoo, puis reverses en open source, sous licence
libre. Ceci leur assure un dveloppement communautaire et une diffusion plus large,
avec lambition de constituer un standard sinon un socle rutilisable.

La grande majorit des projets reverss est plac sous la gouvernance de la fondation
Apache, ce qui en fait le leader actuel en termes de big data.

VII.2 SYNTHESE DES SOLUTIONS BIG DATA


VII.2.a Composants dintgration et de traitement de donnes

Type Solution Site web de la solution

Intgration de logs Apache Flume http://flume.apache.org

Intgration de flux Apache NIFI https://nifi.apache.org

Interface SQL Apache Hive http://hive.apache.org

Interface SQL Apache Drill https://drill.apache.org

Interface SQL Presto https://prestodb.io

Framework de Apache Pig https://pig.apache.org

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
requtage et traitement

Interface SQL Cloudera Impala http://www.cloudera.co


m/content/cloudera/e
n/products-and-
services/cdh/impala.ht
ml

ETL Talend for Big Data http://fr.talend.com/pro


ducts/big-data

ETL Pentaho Data Integration http://www.pentaho.fr/


explore/pentaho-data-
integration

Framework de Hadoop YARN & https://hadoop.apache.


traitement MapReduce org

Outil et langage haut Pig https://pig.apache.org


niveau de
dveloppement

Framework de Storm http://storm-project.net


traitement orient temps
rel

Framework de Spark http://spark.apache.org


traitement

Framework de Tez https://tez.apache.org


traitement

Intgration de donnes Apache Sqoop http://sqoop.apache.or


en SGBDRs g

Systme de messages Apache Kafka http://kafka.apache.org


distribu

Composants de stockage de donnes


Type Solution Site web de la
solution

NoSQL Colonne Apache Cassandra http://cassandra.apac


he.org
Base de donnes
rpartie en Peer to Peer

NoSQL Colonne Apache HBase http://hbase.apache.o


Base de donnes du rg
framework Hadoop

Voir Hadoop pour sa

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
description

NoSQL Colonne Kudu http://getkudu.io

NoSQL Document MongoDB http://www.mongodb


.org

NoSQL Document ElasticSearch http://www.elasticsea


rch.org

NoSQL Graph Neo4j http://www.neo4j.org

Systme de fichiers Hadoop HDFS https://hadoop.apach


distribu e.org

VII.2.b Composants danalyse et de restitution

Type Solution Site web de la


solution

Portail dcisionnel Pentaho Business http://www.pentaho.f


complet Analytics r

Portail dcisionnel JasperSoft BI Suite http://www.jaspersoft


complet .com/fr

Portail dcisionnel Spago BI http://www.spagobi.o


complet rg

Portail de tableaux de ElasticSearch Kibana http://www.elasticsea


bord web rch.org/overview/kib
ana

Portail dcisionnel Vanilla Platform http://bpm-


complet conseil.com

Portail danalyse et de Apache Zeppelin https://zeppelin.incub


visualisation de ator.apache.org/
donnes

Moteur OLAP Big Data Apache Kylin http://kylin.incubator.


apache.org

Framework web pour R Shiny http://shiny.rstudio.co


m

Framework web de D3.js http://d3js.org


data-visualisation

Portail de reporting JSReport http://jsreport.net

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
VII.3 HADOOP
Editeur : Fondation Apache
Licence : Apache Licence V2 et commerciales (suivant
la distribution et la version)
Version actuelle : 2 (pour le cur)

VII.3.a

Hadoop est un ensemble de projets et doutils open source de la fondation Apache


permettant de stocker et traiter massivement des donnes. Hadoop a t
dvelopp lorigine par Facebook et Yahoo.

VII.3.b Principes
Rpartir le stockage et les traitements
traiter au plus proche du stockage, afin de limiter les changes de donnes
massives entre noeuds du cluster

VII.3.c Distributions Hadoop


De manire analogue Linux, et sil est possible de compiler, paramtrer et intgrer
manuellement les diffrents composants, il existe plusieurs distributions de
Hadoop, simplifiant le dploiement et ladministration, telles que Hortonworks,
Cloudera et MapR.

Chaque distribution apporte une valeur ajoute diffrente, et il nexiste pas une
solution unique qui correspond tous les usages.

VII.3.d Principaux composants Hadoop

Framework de traitements parallliss Map-Reduce


Hadoop Map-Reduce est un puissant framework Java de traitement de donnes
massives.
A noter que dans le cas de lutilisation conjointe avec HDFS et HBase et suivant la
configuration du cluster Hadoop, une partie des traitements sont effectus au niveau
des noeuds de stockage.

HDFS : Hadoop Distributed File System


HDFS est un systme de fichiers distribu sur des noeuds dun cluster Hadoop.
HDFS est adapt au stockage et la rplication de fichiers de grande taille (>256MB).
A noter quil existe plusieurs formats de stockage des donnes dans HDFS dont
certains en colonne comme ORC, Parquet,...

Hive

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
Hadoop Hive permet de fournir une interface SQL Hadoop, de manire analogue
une base de donnes classique. La prsence de connecteurs JDBC et ODBC permet
une connexion facile depuis des portails BI, tableurs, applicatifs mtier,
Hive permet de dfinir des tables appuyes sur des donnes du cluster Hadoop et
externes.
Hive sappuie sur les moteurs de traitement MapReduce, Spark et Tez (le choix du
moteur est paramtrable) pour oprer les requtes. Depuis la version 0.14, il est
possible de raliser des oprations de type INSERT, UPDATE et DELETE.
De part linitiative Stinger (et Stinger.next), les performances de Hive ont t
grandement amliores, permettant de passer un usage batch/forte latence un
usage interactif.

Hbase
HBase est une base de donnes NoSQL rpartie en colonnes, inspire de Google
BigTable.
La mise en oeuvre de HBase repose gnralement sur un systme de fichiers rpartis
HDFS.
HBase peut tre exploit en SQL avec une connectivit JDBC au travers dApache
Phoenix ou de Hive.

Pig
Pig est un outil de dveloppement haut-niveau de flux Big Data pour manipuler des
ensembles de donnes. Dans la pratique, Pig est surtout utilis pour du raffinage de
donnes.
Pig permet l'intgration de fonctions et librairies externes afin d'tendre ses capacits
de traitement. L'excution peut exploiter les moteurs Spark et Tez au del de
MapReduce.

Tez
Tez est un moteur de traitement apportant la capacit deffectuer les traitements
rpartis et successifs sans stockage intermdiaire (directed-acyclic-graph), amliorant
ainsi les performances/rduisant la latence par rapport MapReduce.

Kafka
Kafka permet lintgration de messages applicatifs (broker) forte volumtrie.

Flume
Flume permet lintgration distribue de logs et de donnes issues de rseaux
sociaux.

Sqoop
Sqoop intgre des donnes partir et vers des bases de donnes relationnelles.

SolR
SolR est un puissant moteur de recherche, bas sur Apache Lucene, intgr
Hadoop.

Oozie

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
Oozie est un moteur dordonnancement, de workflow et de coordination de tches
Hadoop (Mapr-Reduce, Pig,...).

Zookeper
Zookeper est un module de gestion de configuration pour les systmes distribus.

Mahout
Mahout est une librairie Java qui permet dimplmenter diffrents algorithmes de data
mining sur un cluster Hadoop.
Ces algorithmes sont dvelopps partir de MapReduce. Cependant, ils ne se limitent
pas uniquement Hadoop et certains fonctionnent sur dautres environnements, dont
non distribus.

Hue
Hue est un portail web dexploitation de clusters Hadoop qui permet de:
raliser des requtes Hive (Beeswax) :

diter, grer et excuter des traitements (jobs MapReduce, scripts Pig et Spark
avec coloration syntaxique)
construire des tableaux de bords interactifs avec un filtrage bas sur la
recherche.

VII.3.e Usages et possibilits pour le dcisionnel


Big Data
Lensemble Hadoop fournit un co-systme permettant de traiter de nombreux cas
dusages pour le dcisionnel Big Data :
lentreposage de donnes oprationnelles (ODS HDFS ou Hbase) ou en entrept
de donnes (Hbase et Hive).
lintgration et le traitement paralllis de donnes (YARN, Map-Reduce, Pig,
Spark)
le requtage et lanalyse de masses de donnes (Hive+YARN, Map-Reduce, Pig,
Spark)
le datamining (Mahout, Spark MLlib, RHadoop).

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
Notons que les principaux portails dcisionnels open source intgrent directement un
connecteur Hive pour une exploitation des donnes traites dans un cluster Hadoop.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
VII.4 SPARK
Editeur : Fondation Apache
Licence : Apache V2
Version actuelle : 1.5

Spark est un moteur de traitement de donnes distribu orient mmoire. Il permet


ainsi de traiter massivement des donnes avec une faible latence.
Spark peut tre utilis seul et sintgre avec HADOOP, Cassandra, MongoDB,
ElasticSearch, des bases de donnes avec connecteur JDBC,...

Cest une brique de traitement de plus en plus utilise, et un co-systme sest


dvelopp autour de Spark :
SparkSQL
Spark Streaming
MLlib
GraphX
Spark-jobserver

VII.4.a Intgration avec HADOOP


Sil peut fonctionner de manire autonome, Spark, intgr plusieurs distributions
HADOOP, permet dexploiter les donnes stockes dans HDFS (et Hbase).
Il peut galement servir de moteur de traitement Pig et Hive.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
VII.5 MONGODB
Type NoSQL : document
Editeur : MongoDB
Licences : GNU AGPL v3.0 et commerciale (suivant la
version)
Version actuelle : 3

VII.5.a

MongoDB est une base de donnes NoSQL de type document, la dfinition des
donnes est trs souple et chaque enregistrement a sa propre structure, dont les
objets sont stocks au format JSON binaire (BSON).

MongoDB permet de grer la rplication et la rpartition de donnes sur un ensemble


de serveurs (cluster), ce qui assure un service en trs haute disponibilit.

VII.5.b Connectivit, requtage et traitement


Lavantage du format JSON est son utilisation native dans de nombreux langages de
programmation, notamment le Javascript; la console MongoDB est dailleurs un
interprteur Javascript.
MongoDB fournit galement des fonctions JavaScript de traitement rparti : MongoDB
Map-reduce.

VII.5.c Usages Big Data BI


MongoDB peut servir dOperating Data Store.
Avec ses connecteurs disponibles au sein de la plupart des solutions BI, open source
ou non, MongoDB peut aussi servir dentrept de donnes de masse des fins de
requtage et de reporting.

Lanalyse multidimensionnelle (OLAP) avec MongoDB ncessite actuellement lemploi


combin dun composant supplmentaire, tel :
Hadoop Hive+Map-Reduce
une fdration de donnes JDBC :
lETL Pentaho Data Integration avec son connecteur JDBC et du moteur
Map-Reduce de MongoDB
Foreign Data Wrapper de PostGreSQL.

VII.5.d Conclusion
A lheure o nous crivons ces lignes, MongoDB est la base NoSQL la plus populaire
daprs le site db-engines.com, bnficiant dune relative facilit de mise en oeuvre ainsi
que dun scope fonctionnel utile l'entreposage oprationnel de masse de donnes.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
VII.6 ETL TALEND FOR
BIG DATA
Editeur : Talend
Licences : Apache V2 et commerciale (suivant la
version)
Version actuelle : 6 (TOS); 5.6 (EE)

diteur et solutions
Talend est un diteur bas en France (Talend SA) et en Californie (Talend Inc.). La
socit Talend, fonde en 2005, est soutenue dans son dveloppement par des
investisseurs tels Idinvest Partners (AGF Private Equity), Silver Lake Sumeru, Balderton
Capital, Bpifrance et Iris Capital. Talend a russi une leve de fonds de 40 millions de
dollars fin 2013.

Talend offre un large ventail de solutions middleware rpondant aux besoins de


gestion de donnes et dintgration dapplications, travers une plateforme unifie et
flexible :
lintgration de donnes (ETL)
la qualit de donnes (DQ)
les architectures orientes services (ESB)
la gestion de rfrentiels de donnes (MDM).

Talend obtient une reconnaissance forte de la part des observateurs tel le Gartner
(Magic Quadrants).
Les solutions sont disponibles en version communautaire (Talend Open Studio for
Data Integration / Big Data) et en version commerciale avec des fonctionnalits
supplmentaires et un support diteur.
Les fonctionnalits ETL classiques de Talend sont prsentes plus en dtail dans le
livre blanc Dcisionnel de Smile (http://www.smile.fr/Livres-blancs/Erp-et-
decisionnel/Le-decisionnel-open-source).

Talend et le Big Data


Talend propose depuis dbut 2012 une gamme de solutions Big Data, allant de la
version Open Studio la plateforme dintgration massive de donnes (Talend
Platform for Big Data).
Talend a tabli des partenariats avec des acteurs majeurs du Big Data, notamment :
Cloudera, EMC Greenplum, Google, HortonWorks, MapR.

Plus dinformations :
http://fr.talend.com/solutions/etl-analytics
http://www.talend.com/solutions/big-data
http://fr.talend.com/products/platform-for-big-data

VII.6.a Fonctionnalits

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
ETL Talend Open Studio for Big Data
Talend est un ETL de type gnrateur de code , cest--dire quil offre la capacit
de crer graphiquement des processus (rpartis) de manipulation et de
transformation de donnes puis de gnrer lexcutable correspondant sous forme
de programme Java (et scripts Pig).

Ce programme peut ensuite tre dploy sur un ou plusieurs serveur(s) dexcution.

La modlisation des traitements se fait dans le Studio Talend, qui permet d'utiliser des
connexions prdfinies et les tches de transformations pour collecter, transformer et
charger les donnes par simple glisser-dposer dans l'espace de modlisation.

Palette de connecteurs Big Data


L'ETL Talend fournit nativement une large palette de
connecteurs permettant de sinterfacer la plupart des
systmes existants : bases de donnes, fichiers locaux ou
distants, web services, annuaires,...

Si lETL classique Talend peut se connecter aux principales


bases NoSQL via des connecteurs communautaires ou APIs, la
version Talend Open Studio for Big Data fournit nativement toute
la flexibilit et les connecteurs dintgration de masses de
donnes, dont :
les bases NoSQL : MongoDB, Apache Hadoop/Hive, Cassandra, Google
BigQuery, Neo4j
HDFS, HCatalog
le chargement massif de bases NoSQL MongoDB et Cassandra ainsi quApache
Sqoop.
Composants de transformation
Les composants de transformation permettent entre autres :
les multiplexages et jointures
les filtrages (lignes, colonnes), le ddoublonage
lexcution doprations sur des vnements en base ou sur des fichiers
les manipulations de fichiers locaux ou distants
La liste des composants Talend est disponible l'adresse suivante :
http://www.talendforge.org/components/index.php
Les capacits de traitement des donnes peuvent tre tendues avec :
les composants communautaires disponibles sur Talend Exchange
lintgration de librairies externes
des fonctions de traitement spcifiques Java ou Pig.
Gestion des diffrents environnements dexcution des traitements
LETL Talend gre des contextes dexcution permettant dexternaliser lensemble
des paramtres d'accs et variables dexcution utiliss dans les composants / jobs.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
Les utilisateurs peuvent ainsi configurer les paramtres la vole lors de lexcution
ou utiliser des paramtres diffrents pour chaque contexte dexcution : le
dveloppement, la recette et la production.
Intgration avec Hadoop

Paramtrage de cluster
LETL Talend for Big Data permet de paramtrer un cluster de manire analogue une
connexion classique une base de donnes au travers dun assistant :

Une fois le cluster paramtr, linterface propose une dcouverte automatique des
services Hadoop dploys et accessibles du cluster, afin den faciliter lutilisation au
sein des traitements ETL:

Dcouverte automatique et slection des services dun cluster Hadoop

Gnration de traitements rpartis Pig


Talend for BigData propose de produire visuellement des traitements (rpartis)
Hadoop.
En effet, partir dune modlisation de flux avec des composants graphiques
prdfinis disponibles dans la palette, Talend for Big Data gnre le code Pig,
permettant de bnficier de la puissance de traitement du cluster Hadoop sans avoir
saisir du code.

Intgration et requtage SQL avec Hive


Il est galement possible dutiliser le mode ELT (Extract, Load and Transform) avec
Hive pour rpartir des requetes et traitements sur un cluster Hadoop.

Talend Enterprise for Big Data


De manire analogue Talend Enterprise for Data Integration pour lETL, cette version
commerciale apporte notamment :

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
La console Talend Administration Center
gestion des rfrentiels des projets dintgration, utilisateurs et droits associs
ordonnancement des traitements (Job Conductor)
console de monitoring AMC (Activity Monitoring Console) web
gestion des reprises de traitements sur erreur dexcution
gestion des environnements dexcution des traitements.

Job Conductor Talend - Activity Monitoring Console Talend

Autres fonctionnalits de productivits et dexploitabilit


Cette version apporte galement :
le versionning des traitements
la capacit de dfinir des points de reprise des traitements en cas derreur
dexcution
un moteur de rgles (Drools)
joblets : morceaux de jobs rutilisables pour la factorisation des
dveloppements
design de jobs partir de templates
visualisateur de donnes en sortie des composants
change data capture

Jobs MapReduce et Spark


Cette version offre la possibilit de dvelopper visuellement des traitements
purement MapReduce ou Spark, dont lexcution peut se faire sur un cluster Hadoop.
Lexcution de jobs MapReduce depuis le studio offre un suivi davancement visuel de
chaque tape map et reduce.

Talend Platform for Big Data


Cette version apporte notamment des fonctionnalits complmentaires et intgres
de qualit de donnes et de gestion de mapping complexes (XML, EDI) :
Profilage des donnes
Les analyses modlises depuis le studio unifi, se font sur des sources, dont la
dfinition peut tre partage avec les mtadonnes dfinies au niveau de lintgration.
Loutil produit des mtriques sur le taux dunicit, de remplissage, la conformit un
format, la diversit des formats ...
Des rapports, tableaux de bords et donnes requtables peuvent tre produits et
publis sur un portail dcisionnel intgr (bas sur SpagoBI, prsent plus loin dans le

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
document) partir des analyses de donnes afin de piloter le processus
damlioration de la qualit des donnes :

Composants de correction et enrichissement des donnes


Le studio de modlisation est enrichi de composants de traitement et correction
supplmentaires de qualit des donnes :
correction/enrichissement d'adresses postales via des services tiers QAS,
Google
rapprochements complexes en utilisant des technologies de logique floue
cration de tches de correction manuelle des donnes.
Workflow web de correction des donnes
La solution intgre la console web Data Stewardship avec la dfinition de workflows
de correction et validation de donnes :

Liste des tches de correction/validation de donnes

Dtail dune tche de rsolution de donnes

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
VII.7 SUITE PENTAHO
Editeur : Pentaho
Licence : Apache V2 et commerciale (suivant la
version)
Version actuelle : 5.4

VII.7.a Prsentation

Editeur et solutions
Pentaho est un diteur bas en Floride et en Californie, avec des bureaux en France.
Lditeur est un acteur impliqu de lopen source, qui a ralli ds le dbut des
produits open source comme Kettle ou Mondrian et qui anime sa communaut.

Au del de la solution dintgration de donnes, Pentaho fournit aussi une solution


complte danalyse et dexploitation dcisionnelle des donnes : Pentaho Business
Analytics, prsents plus loin dans le document.

Pentaho et le Big Data


Pentaho a tabli des partenariats avec des acteurs majeurs du Big Data, notamment :
MongoDB, HortonWorks, Cloudera, MapR et DataStax.
Lditeur publie galement un portail web ddi aux problmatiques Big Data :
http://www.pentahobigdata.com

VII.7.b Fonctionnalits de lETL Pentaho Data Integration


Pentaho Data Integration (PDI) est un ETL qui permet de concevoir et excuter des
oprations de manipulation et de transformation de donnes.
Grce un modle graphique base dtapes, il est possible de crer dans le studio
de modlisation (Spoon), sans programmation, des processus composs dimports et
dexports de donnes, et de diffrentes oprations de transformation (conversions,
jointures, application de filtres, ou mme excution de fonctions Javascript si besoin).

Les fonctionnalits ETL classiques de Pentaho Data Integration sont prsentes plus
en dtail dans le livre blanc Dcisionnel.

PDI Community Edition


LETL Pentaho Data Integration propose des connecteurs aux principales Bases
NoSQL/Big Data telles Hadoop (HDFS, HBase, Hive et MapReduce), Cassandra,
CouchDb, MongoDB, ElasticSearch ainsi quaux bases de donnes Amazon S3 et aux
rseaux sociaux Twitter et Facebook.

Pour les traitements en masse, la connectivit avec Hadoop Map-Reduce et le moteur


MongoDB Map-reduce sont intressants, tout comme les capacits de rpartition de
charge des traitements ETL dans une configuration cluster de PDI.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
En sus des composants et techniques ddis aux technologies Big Data, il y a d'autres
options de PDI qui permettent une meilleure gestion de grosses volumtries de
donnes :
lecture en parallle de fichiers plats de grande taille tels que des fichiers de logs
excution concurrente de plusieurs copies d'une mme tape d'une
transformation avec distribution alatoire en entre des donnes en
consquence
partitionnement, mme option que la prcdente avec une distribution plus
intelligente des donnes l'aide d'algorithmes proposs ou possibilit de
dvelopper des algorithmes de rpartition spcifiques
pour un environnement distribu, possibilit depuis la version 5.0 de faire du
load balancing pour la distribution des donnes entre deux tapes d'une
transformation.

PDI Enterprise Edition


La version Enterprise apporte plusieurs outils pour plus de productivit dans la
manipulation de donnes massives.
Les possibilits de visualisation et danalyse intgres Instaview sont utiles aux
Data Scientists1 pour dvelopper rapidement des applications analytiques Big Data, en
limitant les allers-retours entre outils :

1
http://blog.smile.fr/Pentaho-4-8-l-analyse-instantanee-et-interactive-des-donnees-mobiles-et-big-data

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
Perspective Instaview de Pentaho Data Integration Enterprise Edition

En effet, dans le cadre de la mthodologie AgileBI, cette perspective intgre au


studio de modlisation des traitements ETL permet danalyser avec loutil Analyzer
Pentaho des donnes, Big Data ou non, issues des transformations et mises en cache
dans une base MongoDB.
Fdration de donnes
La version Enterprise propose galement des possibilits de fdration de donnes
au travers dun connecteur JDBC. Ce dernier permet de projeter une transformation
PDI comme source de donnes JDBC : cela ouvre des perspectives intressantes de
connectivit et de restitutions en quasi temps rel sur des processus mtiers
distribus au niveau applicatif.
Cela permet galement de faire une interface entre des technologies Big Data,
NoSQL et certains outils de restitutions plutt orients SQL (workbench/Mondrian). Et
ainsi, permet d'viter dans certains cas une structure de stockage hybride (NoSQL /
SQL).
Connectivit Hadoop
Pentaho Data Integration propose une interface de paramtrage de cluster Hadoop :

Pentaho MapReduce
Pentaho MapReduce permet le dveloppement de traitements MapReduce (mettant
en uvre une transformation pour ltape map et une transformation pour ltape
reduce) depuis le studio de modlisation des traitements ETL.
Ils sont ensuite excutables sur un cluster Hadoop.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
Pentaho Predictive Analytics
En plus des mthodes d'analyse classiques (analyse d'vnements passs et/ou
prsents), un des enjeux du Big Data notamment dans le domaine scientifique est de
faire parler ces gros volumes de donnes pour de la prvision.

Weka est un projet data mining open source dont Pentaho est un acteur majeur, dans
ce contexte de nombreux plugins sont disponibles par dfaut ou non pour l'utilisation
de certaines briques de Weka (Scoring, Knowledge Flow, ...) via Pentaho Data
Integration.
Pour plus de prcision sur les possibilits en termes de Data Mining via Pentaho,
rendez-vous sur :
http://wiki.pentaho.com/display/DATAMINING/Pentaho+Data+Mining+Community+D
ocumentation.

VII.7.c Fonctionnalits du portail Pentaho Business Analytics


Pentaho Business Analytics est un portail dcisionnel qui permet la distribution doutils
danalyse et requtage en langage naturel ainsi que des documents dcisionnels un
grand nombre de personnes par l'intermdiaire d'une interface web :

Page daccueil de Pentaho Business Analytics

Pentaho est propos en version communautaire et en version entreprise soumise


souscription annuelle, avec des modules supplmentaires (Pentaho Analyzer) ainsi
quun support produit.

La communaut enrichit le portail en version communautaire sous forme de modules


disponibles depuis le Pentaho MarketPlace, parmi lesquels linterface danalyse Saiku
et les CTools qui ont le vent en poupe.

Pentaho fournit un portail dcisionnel complet, permettant aux utilisateurs finaux :


lanalyse multidimensionnelle : Pentaho Analyzer, Saiku Analytics
le requtage ad-hoc : Interactive Report, Saiku Reporting (une nouvelle version
de Saiku Reporting compatible avec les nouvelles versions du portail Pentaho
est annonce par Meterit.bi), WAQR
lexploitation de tableaux de bords dynamiques (CTools).

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
Les capacits de rpartition de charge (load balancing) entre plusieurs instances
Pentaho Business Analytics sont intressantes dans le cadre danalyses en masses.

Connectivit NoSQL et exploitation de donnes massives


Pentaho fournit nativement des connecteurs Big Data au niveau des connections du
portail pour les sources NoSQL offrant une connectivit JDBC :
Hive
Impala
connecteur JDBC gnrique.
A noter quil est galement possible daccder dautres sources de donnes NoSQL
au sein du portail en passant par de la fdration de donnes, en utilisant lETL PDI ou
un mcanisme de stockage externe dune base relationnelle.

Loutil Pentaho Report Designer permet de plus dlaborer et de publier des rapports
partir dune source MongoDB.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
VII.8 ELASTICSEARCH
Type NoSQL : document
Editeur : Elastic
Licence : Apache V2
Version actuelle : 1.7.2 (moteur ElasticSearch); 4
(Kibana)

Lditeur Elastic (ex ElasticSearch) a publi une pile applicative avec :


un moteur de recherche : ElasticSearch, propuls par Apache Lucene et une
base de donnes NoSQL documentaire.
un module de chargement de donnes dans ElasticSearch partir de logs (et
autres sources avec le paramtrage de modules complmentaires) : Logstash
un module de dashboard : Kibana, qui permet dassocier la puissance du moteur
de recherche dElasticSearch (des recherches complexes peuvent tre faites
pour filtrer les donnes pertinentes lanalyse) aux modules de reporting
classiques.
un connecteur Hadoop.
Lditeur Elastic propose un service de support en production pour ces composants.

La notorit et lutilisation dElastic prennent de plus en plus dampleur, y compris en


France. Deux exemples parmi tant dautres, dans des contextes spcifiques :
Le moteur, lemoteur.orange.fr, moteur dindexation du web, dvelopp par
Orange, et refondu autour de la technologie Elastic2, supportant plus de 150
millions de documents, avec des temps de rponse adapts au web.
Le plugin dvelopp par Smile pour Magento et les sites e-commerce,
remplaant la fonctionnalit de recherche native avec une performance et
surtout un niveau de pertinence optimiss et paramtrables en fonction de
critres de comportement ou de contexte3.

VII.8.a Moteur de recherche et base NoSQL ElasticSearch

Persistence
ElasticSearch permet la mise en cluster pour la rplication et la rpartition de donnes
A noter que les indexes (de recherche/requtage) gnrs sont de type colonne.

Connectivit, requtage et traitement


Laccs et la manipulation de donnes se fait simplement via lAPI REST et le format
JSON.
Le moteur de requtage propose des capacits d'agrgation et danalyse, utile pour
du requtage dcisionnel.

Usages Big Data BI

2
https://www.elastic.co/blog/how-elasticsearch-helped-orange-to-build-out-their-website-
search
3
https://github.com/Smile-SA/smile-magento-elasticsearch

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
ElasticSearch peut servir dOperating Data Store et la mise en oeuvre de datamarts
combins avec des outils de restitution compatibles.

VII.8.b Portail Kibana

Exemple de tableau de bord Kibana

Lusage unique de Kibana est la publication de tableaux de bords visuels, souples,


hautement paramtrables par lutilisateur final, grce aux fonctionnalits de
recherche et de filtrage offertes par ElasticSearch.
Loutil propose un rafrachissement automatique, adapt des problmatiques de
monitoring de processus en temps quasi rel.

Le design des tableaux de bord se fait via linsertion de panels (graphiques, listes,
tendances, cartographies,...) dans une structure de type tableau. Un tableau de bord
peut ainsi tre bti en quelques minutes. Les panels communiquent entre eux :
recherche, zoom,...
Les tableaux de bord peuvent tre enregistrs dans une base ElasticSearch afin dtre
r-excuts et partags.

Techniquement, le portail Kibana est maintenant motoris par Node.js, avec une
interface utilisateur crite en javascript.
Lintgration avec le module Shield permet dapporter une scurit des accs
Kibana.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
VII.9 JASPERSOFT
Editeur : JasperSoft
Licences : GPL et commerciale (suivant la version)
Version actuelle : 6.1

VII.9.a

JasperSoft BI Suite est la plateforme dcisionnelle de TIBCO JasperSoft, socit qui


dveloppe galement le gnrateur dtats JasperReports, disponible depuis 2001.
La plateforme propose des fonctionnalits de reporting et danalyse et est disponible
sous deux licences : GPL et commerciale.

VII.9.b Fonctionnalits
JasperServer, dans ses versions Professionnelle et Entreprise, offre des
fonctionnalits supplmentaires par rapport la version open source, limite la
publication et la diffusion de rapports :
outil de cration de rapports ad-hoc en ligne (listes, graphiques ou tableaux
croiss), accessible tout utilisateur
outil de composition de tableaux de bord.

Module de requtage ad-hoc de JasperServer

Connectivit NoSQL et exploitation de donnes massives


JasperSoft BI fournit nativement, en versions commerciales Professionnal et
Entreprise, un outil de requtage et danalyse ad-hoc qui permet une exploitation
directe de sources de donnes NoSQL :
MongoDB
Hadoop via Hive
Un systme de cache de donnes est prsent, pour optimiser le temps de rponse
des requtes.
JasperSoft Studio fournit galement une large palette de connecteurs au del du
JDBC classique pour le reporting et les tableaux de bord :
MongoDB

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
Hadoop via Hive
Cassandra
JSON.

Il existe aussi des connecteurs communautaires pour dautres bases NoSQL, comme
Google BigQuery ou Neo4j.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
VII.10 APACHE ZEPPELIN
Editeur : NFLabs
Licence : Apache 2.0
Version actuelle : 0.5

VII.10.a

Zeppelin est une application permettant de reprsenter les donnes sous forme
graphique et fonctionnant comme un carnet de notes. Zeppelin supporte plusieurs
langages comme Scala (avec SparkContext). Il implmente Spark et dautres
implmentations sont possibles comme Hive, D3 ou Markdown.
Notons que Zeppelin ne sadresse pas aux utilisateurs finaux car il ncessite une
connaissance de certains langages, mais plutt des data scientists/analysts ou des
dveloppeurs.

Techniquement, Apache Zeppelin est bas sur une architecture web solide avec d3.js,
grunt, bower et AngularJS. La communication client/serveur se fait via Http
REST/Websocket. La gestion des dpendances est ralise avec Maven.
Apache Zeppelin sintgre avec Apache Spark et bien dautres interprteurs dont:
PySpark
Hive
Mysql (JDBC)
Markdown
Shell
SparkSQL.

VII.10.b Fonctionnalits

Carnet de note

Visualisation de donnes et pivot


Zeppelin permet de transformer directement le rsultat de requtes en graphiques, ici
avec une requte SQL :

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
Formulaires dynamiques
Zeppelin permet de crer des paramtres, utilisables directement dans les tableaux de
bord :

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
VII.11 SPAGOBI
Editeur : Engineering Group / OW2 Consortium
Licence : Mozilla Public License V2
Version actuelle : 5.1

VII.11.a

SpagoBI est une suite dcisionnelle uniquement distribue sous licence open source,
dveloppe par la socit italienne Engineering Ingegneria Informatica au sein du
consortium OW2.

VII.11.b Fonctionnalits
Afin de couvrir les diffrents besoins fonctionnels propres la valorisation et lanalyse
de donnes, SpagoBI propose une vingtaine de modules (ou moteurs )
complmentaires, offrant des fonctionnalits de reporting/dashboarding, requtage
et analyse OLAP ad-hoc, geoBI, KPI et datamining :

Exemples de restitutions SpagoBI

Ces modules sappuient sur un ensemble de projets open source phares, offrant ainsi
une grande richesse de modules fonctionnels : lETL Talend, le moteur OLAP
Mondrian, les moteurs de reporting BIRT et Jasper, R et weka datamining.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
Modules de SpagoBI

Connectivit NoSQL et exploitation de donnes massives


Afin de rpondre la problmatique du Big Data, SpagoBI a dvelopp de nouveaux
connecteurs permettant le requtage de bases de donnes NoSQL via des datasets :
HBase: dveloppement de requte HBQL, langage de requte Hbase, intgr
nativement dans SpagoBI
Hive: dveloppement de requte HQL, langage de requte Hive trs proche du
SQL, intgr nativement dans SpagoBI
Impala: connecteur Cloudera Impala JDBC, rendu disponible par Cloudera
Cassandra: dveloppement de requtes CQL, langage de requte Cassandra.

Slection du langage dun connecteur

Dans la version 4 de SpagoBI, la dfinition de dataset a volu afin de permettre des


temps de rponses plus courts sur les larges volumes de donnes :
possibilit de planifier lalimentation des datasets pour une restitution diffre
possibilit de dfinir des datasets persistants o les donnes sont stockes en
cache.

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND
Dfinition dun dataset persistant

SpagoBI travaille actuellement introduire les problmatiques daccs en temps rel


ainsi que la mise en place dune couche smantique sur les donnes Big Data.

Nhsitez pas nous transmettre vos avis et valuations sur ce livre blanc.
Une seule adresse : contact@smile.fr

Vous souhaitez vous former ou former vos quipes aux technologies Big Data ?
Nhsitez pas contacter Smile Training ! Cursus sur-mesure, inter-entreprise, cours particuliers
ou sminaires : Smile Training, organisme agr,
est le leader de la formation open source !
Rendez-vous sur : http://training.smile.eu/

Edition octobre 2015


Reproduction autorise selon les termes Creative Commons CC BY-NC-ND