Vous êtes sur la page 1sur 120

2014 / 2015

GUIDE DU BIG DATA


LANNUAIRE DE RFRENCE
DESTINATION DES UTILISATEURS

by

ditorial

le Big Data: une nouvelle


apprhension de la socit et de lconomie
Ces 3 dernires annes ont marqu un pas important pour le Big Data en France. En 2012, lorsque
nous initiions le congrs Big Data Paris, seule une communaut restreinte dinitis utilisait ce terme
et en connaissait les enjeux. En 2013, les fournisseurs de solutions se sont empars du march,
prenant conscience du potentiel conomique, appuys par les pronostics des plus grands cabinets
dtudes mondiaux. 2014 a vu les grands projets Big Data se multiplier, prsentant des retours particulirement encourageants et retenant lattention des instances publiques, qui ont annonc les premires mesures et investissements dans le secteur.
Prescripteurs, utilisateurs, consultants ou gouvernement, on peut dsormais considrer que lensemble de lcosystme est engag sur la thmatique. Le caractre multisectoriel du Big Data continue dimpressionner et laisse la porte ouverte aux projets les plus ambitieux. Marketing, Finance,
Assurances, E-commerce, Sant, RH, Transports, Logistique, Maintenance, Industrie lourde, Environnement, Recherche, Culture et mme Humanitaire trouvent leurs usages au Big Data et en retirent
souvent des bnfices ingals. La richesse des domaines dapplication se rvle au fil des annes,
confirmant la ralit conomique de la vague Big Data.
Au-del dun march mondial prometteur- 8.9milliards de dollars prvus en 2014- le Big Data cest
galement une nouvelle apprhension de la socit et de lconomie. La donne est au cur des nouveaux processus, apportant une approche fonde sur lobservation du rel.
Ce guide vise dresser le tableau du Big Data aujourdhui, son histoire, quelques projets, les principaux enjeux actuels et quelques personnalits qui se sont dmarques sur le sujet.
Sans se vouloir exhaustif, le guide du Big Data permettra aux non-initis de se familiariser avec la
thmatique et proposera aux spcialistes un recueil de tmoignages, points de vue, chiffres et analyses qui donnent un clairage sur le Big Data en France et ltranger.
Sophie DAVIAUD
Directrice de publication
+33 (0) 1 58 12 06 88 / sdaviaud@corp-agency.com

Le Guide du Big Data est ralis par la socit Corp.

Sommaire

PARTIE DITORIALE MARCH, ENJEUX ET APPLICATIONS (PAGES 3 41)



EDITO . . . . .
CONTEXTE .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

BIG DATA : nouvelles dfinitions et concept approfondi


Le march et les enjeux : chiffres, croissance, secteurs dapplication
- Dans le monde
Les Etats-Unis, prcurseur du Big Data
Les pays mergents
Ladoption du Big Data en entreprise
-



page 3
page 5

En France/Europe
Le cas franais : offre et demande, une incompatibilit ?
Donnes personnelles et cyber-scurit : enjeux technologiques et rglementaires
Vers une cohsion europenne
Lopen data et la cration de valeur

Focus Big Data et formation : les programmes, les profils, la cration demplois
- Mise en place du Big Data : le rle des mtiers, la place de la DSI
- Les formations
- La cration demploi

PORTRAITS .

HADOOP : enfin une solution dentreprise ? Par Jos DIZ . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Axelle LEMAIRE Henri VERDIER Anne LAUVERGEON Gilles BABINET


Pashu DEWAILLY CHRISTENSEN Doug CUTTING

page 15

. . . . . . . . . . . . . . . .

page 24

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

page 29

Hadoop 1 : la nouvelle star de lanalytique est ne


- 10 ans : des origines de MapReduce Hadoop 2.x
- Le centre nvralgique HDFS et MapReduce
- Quelques briques de ldifice Hadoop
- Des manques importants fragilisant Hadoop 1

La revolution Hadoop 2
- Naissance de Yarn et rduction de MapReduce
- Une gestion des fichiers amplement amliore
- Petit panorama de quelques modules Hadoop 2
- Sans oublier : scurit, administration et gouvernance

PROJETS .

Un projet humanitaire : le dveloppement conomique et le Big Data


Un projet culturel : le data journalisme pour les flux migratoires en Europe
Un projet de lutte contre la fraude : la dtection de la contrefaon en ligne
Un projet dans le secteur automobile : lassurance volutive
Un projet dans le secteur des loisirs : les communauts virtuelles
Un projet de recherche et dveloppement dans lindustrie : lenergy-monitoring
Un projet de recherche : lInstitut de Gnomique du CEA
Un projet dans les transports : la scurit arienne
Un projet en climatologie : lvolution climatique au niveau mondial

PARTIE FOURNISSEURS ANNUAIRE DES ANNONCEURS ( PARTIR DE LA PAGE42)


37 fournisseurs: une double page par annonceur (1 page profil entreprise +1 page PROJET)
ACTUATE / A.I.D. / AMAZON WEB SERVICES / BIME ANALYTICS / BITTLE / BLUESTONE / CAPGEMINI /
CENTRALE PARIS Executive Education / CLOUDERA / Club Decision DSI / CSC / DATASTAX / EDIS CONSULTING
/ EKIMETRICS / EXALEAD / GFI INFORMATIQUE / Hewlett-Packard / IBM France / KEYRUS / MICROPOLE
/ Neo Technology / PENTAHO / PIVOTAL / QLIK / SAP France / SAS / SCINETIK / SEMDEE / SENTELIS /
SINEQUA / SPLUNK / SYNCSORT / TABLEAU SOFTWARE / TIBCO JASPERSOFT / TALEND / TERADATA
France / VISEO.
4

CONTEXTE
BIG DATA: NOUVELLES
DFINITIONS ET CONCEPT
APPROFONDI
Cest officiel, on lappellera dsormais

megadonnes. Le Big Data est un terme si


frquemment utilis que la Commission gnrale de terminologie et de nologie sen est empar, rvlant le 22 Aot dernier sa traduction
officielle en franais. La dfinition associe est
la suivante: donnes structures ou non dont
le trs grand volume requiert des outils danalyse adapts. La commission prcise que lon
trouve galement lexpression donnes massives, dailleurs souvent privilgie ces dernires annes.
Leffervescence autour de ce phnomne apparu
il y quelques annes, gnre une certaine confusion de dfinition, si tant est que certains dtracteurs y trouvent un argument de lassitude.
Sil est vrai que le mot Big Data semble parfois
utilis outrance, noublions pas que le phnomne est bien rel. Rappelons ici quelques notions, pour les initis et ceux qui le sont moins.
De faon assez communment admise, le Big
Data est dfini par les 3V, voire les 4 ou 5V.
Cest la faon la plus schmatique et synthtique possible pour expliquer ce que renferme
cette notion.
Les 3V expliquent en quoi le Big Data reprsente larrive de technologies permettant une
toute nouvelle approche de la donne. Le Big
Data, cest traiter des Volumes de donnes
consquemment suprieurs ceux traits auparavant, une Vitesse incomparable, le tout
en intgrant une Varit de donnes largement
plus riche. Chacun de ces V mrite quelques
prcisions.

Infographie : les donnes sont le nouvel or noir par EMC

La notion de volume peut sexprimer en


chiffres: aujourdhui on parle de stocker et
traiter des exaoctets (1018) voire zettaoctets
(1021) alors quil y a peine 10 ans on parlait de
mgaoctets (106), stocks sur des disquettes.
Linformation est cependant peu intelligible si
elle nest pas mise en relief: il est estim que
90% des donnes rcoltes depuis le dbut de
lhumanit ont t gnres durant les 2 dernires annes. Le plus impressionnant rside
dans le fait que la cration de donnes est exponentielle. Le graphique ci-dessous donne
quelques exemples de donnes gnres, leurs
volumes, et leur impact. (source: tude EMC).
La notion de Vitesse ncessite lillustration par
lexemple: quand une entreprise traitait ses
donnes, en mgaoctets auparavant, en plusieurs jours parfois, elle peut dsormais raliser la mme tude, sur des volumes Big Data,
en quelques heures voire minutes. Limpact
conomique et le gain defficacit sont alors
vidents.

Il est estim que 90%


des donnes rcoltes
depuis le dbut de
lhumanit ont t
gnres durant les 2
dernires annes

La notion de Varit est un peu plus technique:


les donnes pralablement utilises taient
hautement formates, renseignes selon des
critres communs qui eux seuls garantissaient
la capacit de comparaison et de traitement de
linformation. Ce que le Big Data apporte, cest
la possibilit de traiter tout type de donnes,
dans sa forme originelle, en intgrant les nouveaux modes dexpression, de mesure et dinteractions. On peut alors traiter images, sons,
vido, commentaires de blogs, logs
ces 3V, on ajoute dsormais le V de Valeur et
celui de Vracit, qui expriment le besoin de
disposer de donnes fiables, pertinentes et significatives pour donner suffisamment de sens
et dintrt conomique des analyses menes.
La relle ide derrire le terme Big Data, celle
qui justifie quon parle bien dune rvolution
et non pas dune simple amlioration du traitement de la donne, cest le fait que ces 3V
changent entirement la faon dont on aborde
linformation. La donne est au centre de cette
transformation.
Dans un premier temps, ce sont les entreprises
et institutions qui en exploitent ces nouvelles
capacits de traitement et analyse de la donne. En effet, 70% des donnes cres le sont
par des individus, mais ce sont les entreprises
qui stockent et grent 80% dentre elles.
Parler du Big Data implique donc que lon
aborde les consquences sur lconomie, les
entreprises et organisations qui lutilisent, et la
faon dont il y est mis en place.
Ce que les premiers projets montrent, cest que
le Big Data dcuple les possibilits danalyse
dans tous les secteurs et ouvre de nouveaux
horizons la prise de dcision.

LE MARCH ET LES ENJEUX:


CHIFFRES, CROISSANCE,
SECTEURS DAPPLICATION
DANS LE MONDE
Les tats-Unis, prcurseur du Big Data
Google, Yahoo, Apache. Ces 3 noms sont indniablement lis aux origines du Big Data. Une
histoire qui trouve ses dbuts dans les annes
2000, alors que Google asseyait son leadership
en tant que moteur de recherche, et que les
spcialistes sinterrogeaient sur la technologie
qui permettait au gant en devenir de proposer
un service incomparable ses concurrents.
En 2003, Google publie un premier papier sur le
Google File System, et rvle ainsi les premiers
secrets de son succs. En 2004 on dcouvre
le fonctionnement de MapReduce, et lanne
suivante, Doug Cutting et Michael Cafarella,
lpoque employs chez Yahoo et inspirs par les
travaux de Google, crent Nutch Search Engine,
qui deviendra Hadoop. Le Big Data est n.
En 2006, Yahoo lgue le projet Apache, qui
reste depuis le cur nvralgique dHadoop.
Cette petite histoire montre bien en quoi le Big
Data est n, sest construit et a lu domicile
outre Atlantique. De faon assez logique, les
premiers projets de grande ampleur ont eu lieu
en Amrique du Nord, comme celui de la socit de retail TESCO, qui reste aujourdhui lun
des cas dcole du Big Data.
Cependant il est important de noter que les
principaux clients seraient, encore ce jour,
principalement les gouvernements nord-amricains, qui demeurent les principaux investisseurs et les early-adopteurs du Big Data.
Le gouvernement Obama ny est pas pour
rien. En 2012, ltat amricain annonait la
mise disposition de 200millions de dollars
pour un fond de recherche sur la thmatique
du Big Data. Ds sa campagne, Obama avait
pressenti lutilit du Big Data et les possibilits dapplication multisectorielles. En 2012 on
apprend lexistence dtudes Big Data menes
grce des informaticiens venus de Google et
Facebook. Il est rvl en quoi elles ont permis de cibler les potentiels nouveaux lecteurs
pour Obama, et en quoi elles sont alles contre
toutes les prdictions de suffrages en annonant, et en permettant, sa rlection. Le terme
Big Data President faisait alors son apparition. Cest donc tout naturellement que le second mandat du prsident Obama a t porteur
de lourds investissements dans le domaine du
Big Data. Lorganisme MeriTalk, charg dencourager la collaboration dans le domaine de
lIT au niveau national, a publi en juin2013 une
tude estimant que le Big Data permettrait
ltat amricain de raliser 14% dconomies,
soit 500milliards de dollars.

VOIR LINFOGRAPHIE SMARTER UNCLE SAM:


THE BIG DATA FORECAST DE MERITALK

Sarah A. King

Formation, recherche, scurit nationale, sant, services publics Des programmes aux
noms les plus intrigants, tels ADAMS, Minds
Eye ou encore TCGA ont pour objectif de dcupler les capacits et lutilisation du Big Data
dans les diverses administrations.
Le dpartement de la dfense qui lui seul
regroupe plus de 10 projets Big Data et bnficie de plus de 250millions de dollars dinvestissement annuel - mne notamment le
programme ADAMS. Ce dernier a pour objectif
de reprer des comportements anormaux, des
changements dattitude inquitants chez un
soldat ou un citoyen amricain.
Minds Eye est galement un projet de la DARPA
(Defense Advanced Research Projects Agency).
Il vise amliorer les performances de reconnaissance vido et danalyse automatise.
Le projet TCGA, port par les archives nationales du cancer (The Cancer Imaging Archive),
permettra danalyser plusieurs pta-octets de
donnes de squences gntiques issues de
patients atteints.
Les exemples sont nombreux, et rvlent la
6

le Big Data permettrait


ltat amricain de
raliser 14% dconomies,
soit 500milliards de
dollars.
motivation du gouvernement amricain pour le
Big Data.
Si ltat amricain est capable destimer rapidement limmensit des gains conomiques
que lui permettrait le Big Data, certaines entreprises prives ont fait le mme calcul. En
termes dinvestissement, suivraient donc les
compagnies dassurances, les banques, le
secteur de la sant, le retail
Dbut 2014, la trs mdiatique opration

Le dpartement de
la dfense lui seul
regroupe plus de
10 projets Big Data.
dAmazon a marqu un nouveau pas dans la
faon daborder la relation commerciale et le
processus de vente. Le leader mondial de la
vente en ligne a en effet annonc quil tait dsormais en mesure de prdire le prochain acte
dachat de chacun de ses clients, et donc de le
prparer lexpdition avant mme quil ne soit
command.
Le buzzword du Big Data se cache derrire
cette opration. Une bonne campagne marketing a fait le reste. Car ce queffectue le gant
du e-commerce, cest une analyse Big Data
prdictive et presque classique. La relle innovation, cest de transformer toute la chane
logistique en adquation avec les conclusions
des analyses menes. En dautres termes, ce
qui diffrencie Amazon rside dans le fait quils
investissent et se fient aux analyses Big Data,
et ne craignent pas de mtamorphoser leur
organisation qui pourtant ne montrait pas de
failles majeures. Amazon joue l son rle de
leader, en prenant les devants sur une tendance qui ne devrait que se dvelopper dans
les annes venir.
Les pays mergents
LAmrique du Nord est indniablement en
avance sur le sujet du Big Data. LEurope suit la
tendance, tout comme la plupart des pays dvelopps, o le tissu conomique constitu de
nombreuses startups et de grands groupes ncessite et facilite ladoption du Big Data.
Les regards se portent donc souvent sur le
gant amricain, alors que des investissements colossaux ont lieu sur le continent
africain par exemple. Une tude mene par
MarketsandMarkets indique que les pays mergents sont vous grappiller leur retard dans
les annes venir et reprsenteront une part
importante de la croissance du march du Big
Data.
Quelques chiffres rendent compte du potentiel
que reprsentent les pays mergents, ne serait-ce quau niveau des tlcommunications.
Selon la Banque Mondiale, il existe 6milliards
dappareils mobiles sur Terre, dont 5milliards
se trouvent dans les pays mergents. Les applications marketing sont assez videntes,

Il existe 6milliards
dappareils mobiles sur
Terre, dont 5milliards
se trouvent dans les
pays mergents.

mais les pays mergents ne se limitent pas


a. Services, industries, finance, programmes
de dveloppement conomique: le Big Data stimule toutes ces conomies, qui ont lavantage
dtre jeunes, agiles et innovantes.
IBM a men une tude auprs de dcideurs
et dinfluenceurs IT au Nigeria et au Kenya.
64% dentre eux dclarent prvoir adopter
le Big data dans les prochaines annes et le
peroivent comme un outil pour asseoir leur
leadership dans leur zone. LAfrique, en plein
dveloppement conomique, nest pas si en retard quon pourrait le croire. LAfrique du Sud
est un rel pionnier en la matire: avec plus
de 10 datacenters sur le territoire et une pntration du Big Data dans 60% des entreprises, le pays saffiche comme un prcurseur
sur le continent, et au niveau mondial.
Le Brsil, frquemment associ au Big Data
lors de la coupe du monde, voit se dvelopper
des projets dignes des plus grandes oprations
amricaines.
Ladoption du Big Data en entreprise
8,9milliards de dollars, cest le chiffre daffaires
que devrait gnrer le march du Big data en
2014, selon une tude du cabinet Transparency
Market Research. Avec une croissance de prs
de 40% par an, le march reprsenterait dj
plus de 24.6milliards en 2016.
Malgr toutes ces promesses et prvisions,
ladoption du Big Data dans les entreprises
franaises et europennes reste encore trs
limite. Selon une tude mene par EMC fin
2013, 74% des entreprises en France sont
convaincues de lintrt du Big Data pour leur
activit, mais 41% dentre elles nont encore
engag aucunes dpenses sur la question.
En cause, la faible prvisibilit du retour conomique de ces investissements (35% des
dcideurs sinterrogent encore sur le retour
sur investissement, selon un sondage EMC).
Rassurons-nous, les entreprises franaises
ne sont pas les seules. Contrairement lide
dune Amrique fortement convaincue et engage sur le sujet, une tude du cabinet Gartner
aux tats-Unis rvle que 56% des entreprises
ne savent pas comment tirer profit du Big Data.
Jusqu prsent, les projets impliquant un traitement massif de donnes ntaient mens que
par quelques leaders du march. Une tude
publie par DELL en avril2014 affirme cependant que 41% des entreprises de middle
market - les challengers - ont dsormais
entam un ou plusieurs projets Big Data.
Parmi eux, 89% ont ds prsent identifi des
retours positifs de leurs projets. Encourageant
donc.
La source de ces interrogations se situe principalement sur le retour sur investissement. A
priori, en matire de technologies, hardware et
software, les outils se dmocratisent, notamment grce lapparition du Cloud. Cependant,
le Big Data renferme dautres cots, moins mesurables et relatifs lapproche culturelle de
lentreprise et son organisation interne.
Si au niveau mondial il faut admettre que le
secteur priv reste prudent sur les dpenses
lies au Big Data, on peut sinterroger sur son
adoption sectorielle. Y a-t-il des domaines
dactivit o le Big Data est plus reconnu, adopt et accept? De faon assez unanime, les
spcialistes saccordent dire que les acteurs
du e-commerce et les fonctions marketing ont
t les premires se lancer sur le sujet. Par
nature ancres dans linnovation et en lien di7

rect avec les consommateurs, ces fonctions ont


rapidement peru les apports du Big Data pour
leur activit. Rentabilit, efficacit et personnalisation sont les matres mots. Les concepts
de RTB (real time bidding), la golocalisation,
les cookies, le suivi du parcours client, lindividualisation et loptimisation du CRM ont alors
rvolutionn la fonction marketing. Des acteurs
comme Criteo, notre champion franais dsormais expatri aux tats-Unis, ont apport une
nouvelle approche de la vente. Une approche
fonde sur la philosophie du Big Data. Le
numro un mondial du e-commerce Amazon
na pas investi massivement sur le Big data
sans raison. Si en 2014 lentreprise a initi la
refonte de son processus de livraison, cest
que le management avait dj fait la preuve de
la rentabilit dune bonne analyse de statistiques commerciales. En effet, Amazon raliserait environ 30% de ses revenus grce aux
ventes croises, soit les suggestions dachats
effectues grce aux paniers et profils de ses
clients.

8,9milliards de
dollars, cest le chiffre
daffaires que devrait
gnrer le march
du Big data en 2014.

74

DES ENTREPRISES EN FRANCE


SONT CONVAINCUES DE LINTRT
DU BIG DATA
Au sein de lopinion publique, le Big Data est
dailleurs souvent associ au marketing et la
vente, parfois avec une connotation ngative.
Lide dun client pi, dissqu et harcel fait
souvent peur. Or un courant nouveau assure
quen tant que consommateur nous ne pourrons pas chapper cette tendance et ferions
mieux den savourer les bnfices: une meilleure connaissance de nos gots, des promotions personnalises, des recommandations
cibles. Tout le monde y trouverait alors son
compte. Reste la question de la protection des
donnes personnelles, que nous aborderons
plus tard.
Considrer le Big Data comme un serviteur du
marketing serait cependant extrmement rducteur. On connat davantage les projets lis
au marketing et la vente parce que ce sont
ceux qui sont les plus facilement intelligibles
par le grand public et qui laffectent directement.
Les plus beaux projets Big Data se trouvent
pourtant dans des secteurs que lon observe
moins, mais qui nous concernent tout autant.
Logistique, maintenance prdictive, recherche,
sant, nergie, culture et humanitaire mme.

Les domaines dapplications sont vastes. La partie projet de ce guide prsente quelques-uns de ces
projets dans des domaines varis.
Conduire plus prudemment grce au laboratoire daccidentologie PSA-Renault, optimiser les
consommations nergtiques dun btiment avec Cofely, dtecter une pidmie avec des outils
comme OpenHealth ou encore endiguer la pauvret avec les Nations Unies: le Big Data est bien une
rvolution de la socit dans son intgralit.
Chaque secteur doit donc dvelopper sa propre connaissance du Big Data, son intrt stratgique,
financier et les moyens mettre en uvre.
En termes dimage, la perception selon le domaine dapplication est souvent connote, positivement
ou ngativement.
laide dune coute mene sur plus de 150K messages, sur la priode du 27/10/2013 au 04/09/2014,
avec Focusmatic, nous avons tent de comprendre quels termes et sentiments sont le plus souvent
associs au Big Data, et cela par secteur dactivit. Les Tlcoms reprsentent la majorit des
messages connots, quel que soit laspect voqu. En dehors des Tlcoms, la sant, la grande
consommation et la publicit sont les secteurs le plus souvent associs des inquitudes et la vie
prive. Dans les domaines dactivits des RH et de la grande consommation, le Big Data est encore
un terme et procd peru comme complexe. (% des messages associs , en audience).

La connaissance du Big Data en elle-mme est discutable en France. Qui parle rellement du sujet?
Est-il si rpandu quon le dit? Ou sommes-nous encore aux prmices de ce phnomne?
Sur la mme priode, nous avons observ le profil des auteurs qui parlent le plus du Big Data. Il
sagit ici danalyser lactivit des auteurs ayant renseign leur profil twitter sur le rseau utilis. On
remarque alors que pour les auteurs se rclamant tre des spcialistes du Big Data, les thmatiques principalement abordes sont dans lordre le Big Data, lopen data, le cloud, la dataviz puis
lopensource. Les auteurs spcialistes du cloud ont une activit aussi importante que les spcialistes du Big Data, bien que moins varie en termes de thmatiques. Fait intressant, ce sont les
spcialistes de la sant qui ddient proportionnellement le plus de leurs messages lopen data. (%
des messages associs , en activit. Du 27/10/2013 au 02/09/2014)

fraude
donnespersonnelles
objets
connects

ville intelligente

EN FRANCE / EUROPE
Le cas franais: offre et demande,
une incompatibilit?
On parlait plus haut des impressionnants programmes dinvestissement amricains dans le
Big Data pour ses administrations. Le cas de
la France est bien diffrent, pour linstant du
moins.
Le plan Big Data pour la Nouvelle France industrielle, port par Franois Bourdoncle et
Paul Hermelin, et dont la feuille de route a t
valide en juillet2014, est ce jour la premire
relle impulsion conomique manant de ltat
visant dvelopper lcosystme Big Data en
France.
Une question dapproche et de stratgie se pose
alors, et on remarque, comme cest souvent le
cas, que la dmarche amricaine est bien diffrente de celle mene par ltat franais.
Les deux gouvernements sont certes, dsormais, tous deux persuads que le Big Data
est un secteur davenir, multisectoriel, plein
de promesses conomiques, sociales et environnementales. Mais les deux gouvernements
nont pas la mme faon de stimuler le secteur.
Outre Atlantique, la prise de position du gouvernement Obama passe par le dveloppement de
projets financs par les administrations et ddi leur propre utilisation. Ce sont ces grands
projets denvergure qui sont censs servir les
objectifs de ltat mais aussi montrer la voie.
Si ltat est rellement persuad de lintrt de
lutilisation du Big Data, pourquoi ne commencerait-il pas par lutiliser lui-mme? Le raisonnement est pragmatique, mais efficace.
On ne procde pas exactement pareil en France.
Tout dabord, nous avons pris du retard par rapport nos voisins amricains. Nous connaissons nos forces de trs bonnes comptences
en mathmatiques et statistiques mais nous
devons dvelopper nos potentiels. Pour ce faire,
le choix du gouvernement est de construire les
conditions de lpanouissement dune filire
Big Data en France. Le discours, les structures
daccueil, et les enveloppes budgtaires, sont
l pour atteindre cet objectif. Quelques projets
seront galement mens au sein des administrations, et on ne peut pas ignorer limportant
engagement sur le sujet de lOpen Data, notamment via Etalab. Cependant, il est vident
que lapproche nest pas la mme.
Si la France souffre encore fortement de la
crise conomique et peine dfendre son statut linternational, elle dispose encore de
grands groupes industriels puissants et agiles.
Cest l que laction du gouvernement sur le
sujet du Big Data trouve un appui non ngligeable. Les besoins de financements, les ressources humaines, la capacit dinnovation et
les structures de R & D sont disponibles au sein
du CAC40. Le plan de la nouvelle France industrielle, et sa nouvelle feuille de route, puise sa
force exactement dans cet environnement favorable. Orange, La Poste, GDF Suez, Alstom,
AXA, Socit Gnrale, Cova (le groupe MMA,
GMF et MAAF) Ces grandes entreprises ont
t choisies pour participer aux grands travaux
du plan initi par Arnaud Montebourg, et dsormais chapeaut par Franois Bourdoncle et
Paul Hermelin.
Quatorze initiatives qui couvrent la protection
des donnes personnelles, la fraude, le dveloppement des objets connects, la ville intelligente et dautres applications sectorielles.

Franois Bourdoncle et Paul Hermelin louverture de la confrence BIG DATA Paris 2014

Objectif affich: contrer limpressionnante suprmatie et capacit dinnovation des groupes


amricains comme Google, Apple, Amazon ou
Facebook.
En dfinitive, lapproche franaise est bien diffrente de lapproche amricaine. Elle prend
cependant en compte ses forces, tente de
contrer ses faiblesses, et sautorise de grandes
ambitions. Une dynamique positive donc. Reste
savoir quelle sera rellement lenveloppe alloue ces projets via la Bpi notamment
limplication des diverses parties prenantes et
le rsultat oprationnel. On parle de dizaines
de millions deuros, vraisemblablement puiss dans les 215millions dbloqus par Fleur
Pellerin en 2013.
Reste noter quelques absents non-abords
dans cette feuille de route, et pourtant abords
dans la construction du plan Big Data: la formation, lvanglisation, et la rglementation.
Sur le point de vue de la formation, nous en
reparlerons plus loin, mais les initiatives sont
nombreuses et les besoins en termes de recrutement gnrent plus ou moins naturellement les formations suprieures adaptes.
Lenseignement primaire et secondaire reste
tudier. On enseigne le latin au collge, je ne
vois pas pourquoi on ny enseignerait pas linformatique dclarait Fred Potter, CEO et fondateur de Netatmo, lors du dernier Hack4france.
Sur le plan de lvanglisation, cest--dire le
discours de vulgarisation auprs des potentiels utilisateurs du Big Data en France, on peut
galement se demander si le march agira par
lui-mme. Le meilleur moyen de promouvoir le
Big Data dans les entreprises est de montrer
des cas dapplications concrets, succs et reproductibles. Si les quatorze initiatives du plan
Big Data affichent un bilan positif, ltat tiendra
alors les meilleurs ambassadeurs possibles.
Le reste suivra, a priori.

La question de la rglementation est bien diffrente. Laction de la CNIL, les discussions


au niveau europen, les disparits au niveau
mondial: les lments de rglementation sont
complexes, pris en tau entre intrts conomiques, protection des donnes personnelles
et scurit de la proprit intellectuelle. Le dbat mrite plus de dtails.
Donnes personnelles et cyber-scurit:
enjeux technologiques et rglementaires
Le Big Data ne peut dsormais plus tre dissoci des problmatiques de scurit. Le terme
est vaste et renferme en ralit plusieurs notions bien distinctes.
Il renvoie dans un premier temps, et cest l
que se situe lessentiel du dbat public, la
protection des donnes personnelles. Une donne personnelle telle quelle est dfinie par la
CNIL (Commission Nationale de lInformatique
et des Liberts) est toute donne permettant didentifier directement ou indirectement
une personne physique. On parle donc bien
ici dindividus et non pas dorganismes, entreprises ou associations. Sont exclues les donnes utilises dans le cadre dune activit personnelle comme un rpertoire tlphonique
par exemple. Leur utilisation est soumise la
loi Informatique et Liberts et la directive du
24 octobre 1995 sur la protection des donnes
personnelles. Lhistoire de la loi Informatique
et Liberts remonte bien avant lapparition du
Big Data. Elle a t depuis adapte de nombreuses reprises, mais lorigine la loi est ne
dun scandale digne de la trs mdiatise affaire PRISM. Le gouvernement franais avait
alors pour projet la cration dun fichier administratif national identifiant chaque citoyen
9

par un numro et interconnectant les fichiers.


SAFARI, ctait son nom, a alors t vivement
dcri, entrainant la cration dune commission informatique et liberts qui proposa la loi
en 1978. Lopinion publique tait alors sensibilise lutilisation de ses donnes.
Les donnes marketing que nous voquions
plus haut sont fortement concernes. Le
concept de lopt-in est ce jour la principale
mesure permettant de contrler linformation
personnelle que nous divulguons, mais les outils numriques sous-entendent un minimum
douverture de linformation.
Il semble que suivre les tendances des nouveaux modes de consommation et communication et parfaitement protger ses donnes
personnelles soit incompatible. Sen suit une
certaine schizophrnie de la socit, hsitant
entre un dsir de modernit et la volont de
prserver son intimit et ses liberts.

VOIR LE SITE DE LA CNIL

Le volume de donnes
produites par les
internautes doublerait
tous les 18 24 mois.
Les objets connects sont au cur du dbat.
Ils vhiculent invitablement une masse importante dinformations sur nos modes de vie,
notre faon de consommer, nos habitudes, prfrences ou sur notre profil. Daprs les estimations, en 2018, chacun dentre nous possdera en moyenne 8 objets connects titre
personnel. En 2020, nous en aurons dj 10.
La tendance ne risque pas de sattnuer, tant
donn que, selon un sondage publi par Havas
Media France en janvier2014, 60% des internautes envisagent la gnralisation des objets
connects dici 5 ans, et les peroivent comme
source de progrs (75%) qui facilitent la vie
(71%). Le quantified self, en franais le
soi augment, reprsente lhumain du futur, un futur trs proche.
Courant 2014, un ingnieur a fait une trange
dcouverte. Visionnant des publicits qui lui
paraissaient de plus en plus cibles, il a compris que son tlviseur LG espionnait son comportement son insu. Le fabriquant avait activ
par dfaut une fonction de collecte de donnes.
Aprs avoir dconnect cette dernire, lingnieur a identifi que le tlviseur continuait
transmettre des informations sur ses habitudes tlvises et mme ses visionnages de fichiers privs. Laffaire a t rvle au grand
jour et LG a d prsenter publiquement ses
excuses tout en sengageant supprimer toute
collecte de donnes de ses tlviseurs. La mfiance sest alors gnralise dautres objets
potentiellement connects linsu de leurs
utilisateurs. Le parallle avec George Orwell
semble alors vident, nourrissant une certaine
psychose. Lquilibre est ncessaire et cest l
que se joue le rle de la CNIL et des instances
europennes, toutes conscientes de lurgence
dune rglementation assurant et rassurant les
citoyens.

Les objets connects seront donc part intgrante de notre quotidien. L o ils soulvent
encore davantage dinquitudes, cest lorsquils
concernent la sant connecte. Bracelets, podomtres, balances, tensiomtres, appareils
sportifs, assistants de confort, aide aux personnes ges, contrles mdicamenteux Les
donnes de sant sont considres comme
particulirement sensibles. Elles permettent
de caractriser un individu sur des lments
extrmement prcis et privs. Ces donnes
sont traites part dans les actions de la CNIL.
Les acteurs du monde de la sant sont tenus
de sengager sur lanonymisation totale des
donnes sensibles, donnes de sant comprises. La recherche mdicale en est parfois
pnalise, mais limportance de la scurisation de ces donnes est dsormais accepte.
Quelques scandales ont particip cette prise
de conscience, notamment lorsque certains
patients ont retrouv leur dossier mdical en
accs libre sur internet aprs un passage
lhpital. Comme lexplique Pierre-Yves Lastic,
Chief Privacy Officer chez SANOFI, lutilisation
des donnes de sant doit tre particulirement prcautionneuse. Sassurer que les informations sont parfaitement anonymises est un
prrequis, quel que soit le pays o se droule
leur traitement et la rglementation en vigueur
cet endroit. Un projet de recherche, mme
des fins tout fait honorables, ne doit pas justifier lutilisation de donnes aussi sensibles. Le
monde de la sant joue avec des informations
dune haute valeur aux yeux de la socit. Il se
doit de les protger.
Les objets connects cependant ne touchent
pas uniquement les donnes personnelles. Le
machine-to-machine par exemple, ou M2M,
vise rcolter un maximum dinformations sur
des installations diverses afin doptimiser leur
fonctionnement. Selon lIdate, plus de 80 milliards
de produits seront connects Internet dici
2020.
Dans lindustrie, des socits comme Airbus ou
Total utilisent dj massivement les capteurs
pour leurs projets Big Data. Dbut 2014, Google
investissait 2,3 milliards de dollars dans le rachat de la socit Nest Labs, confirmant que
le march des objets connects est vou une
croissance impressionnante.
Au-del de ce type de donnes, les entreprises
dans leur ensemble dtiennent une masse dinformation considrable. Le volume de donnes

10

Parlement Europen

produites par les internautes doublerait tous les


18 24 mois. Cest une source de valeur souvent
majeure pour un acteur priv comme public, et
galement un point de faiblesse non ngligeable.
Laffaire PRISM, rvle par Edward Snowden en
juin2013 a mis le doigt sur la criticit et la valeur des donnes. Le Big Data est cens porter
une rvolution de la donne. Cette dernire devient alors une arme puissante sur le plan conomique comme gopolitique. Dans la sphre
prive, on parle principalement de viol de lintimit ou despionnage industriel, mais dans le
domaine public il sagit bien de jeux de pouvoirs.
Le Patriot Act cach derrire laffaire PRISM rvle comment le gouvernement amricain a mis
en place les conditions dune rcolte dinforma-

tude mene avec focusmatic: Vie prive et Big Data

importante est une premire tape vers la construction dun cadre juridique protecteur lencontre des
activits de renseignement de pays tiers. On y d-

couvre alors notamment la notion de droit loubli.


A priori les dbats vont donc dans la bonne
direction, mais certaines zones dombre persistent. Dici fin 2014, plusieurs dclarations
sont attendues, limage du projet de loi sur la
golocalisation dans le cadre denqutes discut en Fvrier dernier.
Au niveau europen, Neelie Kroes, la vice-prsidente de la Commission europenne en charge
du numrique, sest dsormais construit une
image forte et multiplie les dclarations. Elle
porte la mouvance pro-numrique au sein des
instances europennes. Critique pour sa position juge faible face aux lobbies des oprateurs
tlcom, elle est reconnue pour ses actions en
termes de cybercriminalit. Si Angela Merkel a
fait beaucoup de bruit suite la rvlation de la
mise sur coute de son tlphone par la NSA
(National Security Agency), il semble encore
discutable de mettre en place des actions de
contrle et dhbergement strictement europen des donnes. Dun point de vue pratique,
stratgique et conomique, les avis divergent,
mme si le dbat devra statuer rapidement. La
pression exerce par les dsormais surnomms GAFA (Google, Amazon, Facebook, Apple)
joue un rle central dans cette relation de force.
Lopen data et la cration de valeur

tions globale et continue. La structure sappuie


sur lomniprsence dacteurs comme Google,
continuellement aux prises avec les lgislateurs
europens, mais devenu presque incontournable pour leurs internautes.
Cependant, quelques chiffres rassurants ont t
publis par la CNIL dans son rapport annuel de
2014 : la commission a constat une baisse des
plaintes relatives la protection des donnes
et une augmentation de 17% des demandes de
droit daccs indirect. Lutilisateur va donc peuttre apprendre lui-mme grer ses donnes,
si on lui donne les outils ncessaires.
Avec Focusmatic, nous avons observ quels
termes sont les plus prsents lorsque lon
parle de big data et de vie prive sur le web et
les rseaux sociaux (% des messages associs
, en activit. Du 27/10/2013 au 02/09/2014). On
remarque que certains acteurs ou organismes
y apparaissent, comme en premier la CNIL
mais aussi Facebook, la NSA ou encore ltat.
Vers une cohsion europenne
Ds lors quon considre que les donnes reprsentent un lment gopolitique et conomique majeur, on est en droit destimer que les
tats et plus largement lUnion Europenne est
concerne. Laffaire PRISM a bris une forme
de confiance tacite entre lEurope et les tatsUnis, et a pouss divers acteurs europens
sinterroger sur la faon de protger le patrimoine et les intrts de lUnion.
La question de lhbergement des donnes
est particulirement prgnante. Si la majorit
des donnes produites par la zone europenne
est stocke au sein dentreprises amricaines,

elles-mmes soumises au Patriot Act, il est lgitime de sinquiter de leur utilisation des
fins nfastes. Quelques changes politiques
ont bien eu lieu, visant rassurer les divers
tats de la bonne foi de chacune des parties.
En parallle, la volont de crer un cloud souverain sest renforce, avec des acteurs capables dhberger les donnes nationales et de
les protger (Numergy, Cloudwatt).
L, diverses opinions sopposent: les uns
prnent des actions rapides afin de scuriser
les donnes, les autres sont convaincus de la
ncessit de prserver le libre-change. La
surprotection na pas toujours, dans lhistoire,
port ses fruits. Et si lEurope risquait plus
tenter de senfermer dans un systme de vase
clos qu se laisser scruter?
De plus, une volont dassurer une relative harmonie sur la question de la protection des donnes personnelles en Europe se fait ressentir.
ce jour, les discussions font encore vivement
dbat. La dernire avance majeure sur ce sujet
date du 21 Octobre 2013, lorsque la commission
des Liberts publiques (LIBE), alors largement
porte par Viviane Reding, vota le compromis
sur la rforme de la protection des donnes
dans lUE. Le site de la CNIL qualifie ce vote de

signal politique puissant qui exprime une identit


politique forte de lUnion europenne sur un sujet
essentiel, tant sur le plan des valeurs que sur celui
des enjeux conomiques. Il poursuit en dclarant que concernant les suites de laffaire PRISM,
et comme la CNIL lavait expressment demand ds
dbut 2013, le texte introduit un contrle des autorits de protection sur les demandes dautorits administratives et judiciaires de pays tiers daccder
aux donnes relatives des citoyens europens.
Cette rponse, certes partielle, mais politiquement
11

Lopen data cest, littralement, louverture des


donnes. Donnes publiques, donnes prives,
donnes anonymises, donnes environnementales Ds lors quune donne nest pas
personnelle ou stratgique pour son dtenteur,
elle peut tre partage. Lide derrire cette approche, cest que louverture des donnes permet la cration de valeur. Une information dtenue par un acteur dun certain secteur, quil
nutilise pas particulirement, peut, si elle est
partage, permettre un autre acteur de dvelopper une innovation, un service, une analyse.
Sans pnaliser les acteurs qui ouvrent leurs
donnes, lopen data est profondment ancr
dans la vision participative de lconomie. Ouvrir
ses donnes, cest aussi contribuer un processus qui permettra de gnrer de la valeur dans
un cosystme, et sinscrire dans une dmarche
dmulation qui sert les intrts de tous.
Selon un rapport du cabinet McKinsey, lopen
data pourrait contribuer gnrer chaque anne une valeur ajoute de plus de 3 000 milliards de dollars. Cette tude a mis en alerte
les plus sceptiques, et dsormais lensemble
de la communaut Big Data voue une importance indniable lopen data, observant les
divers projets qui naissent travers le monde.

LOPEN DATA EN INFOGRAPHIE

13 259 jeux de donnes


sont disponibles ce
jour sur la plate-forme
gouvernementale
ddie lOpen data.

En juillet2014, la ville de Chicago a initi un


projet de collecte de donnes sur 8 lampadaires installs travers la ville. Le Centre urbain de calcul et de donnes (UCCD) aura ainsi
sa disposition des donnes mtorologiques,
de trafic urbain, de pollution, denvironnement
sonore et olfactif, et de frquentation grce aux
signaux mis par les smartphones. Les donnes seront ensuite ouvertes.
La question de la protection des donnes est
videmment engage, mais la ville assure que
lusage ne sera qu des fins de recherche, dveloppement de services, et restera anonyme.
Lobjectif de ce projet sinscrit parfaitement
dans la dynamique dOpen Data des fins de
cration de valeur et de gnration de start-ups
et de projets innovants. Les premiers rsultats
permettront de dcider si lexprience doit
tre tendue ds fin 2014, et si dautres villes
peuvent sen inspirer.
Linvestissement est ici limit puisquil reprsente moins de 300 euros par botier install,
et sappuie sur les connaissances et ressources
de lUCCD.
La France est loin dtre en retard sur le sujet de lopen Data. Laction dEtalab, lengagement de ltat et la collaboration de nombreux
grands groupes ont permis douvrir un grand
nombre de donnes et de crer diverses startups et services innovants. 13 259 jeux de donnes sont disponibles ce jour sur la plateforme gouvernementale ddie lOpen data
(data.gouv.fr). Cela reprsente plus de 350 000
fichiers contenant des donnes publiques. Et
les actions sont voues se multiplier. Port
par Henri Verdier, dont vous pourrez retrouver
une interview dans la partie portraits, Etalab se
positionne comme une communaut favorisant
le partage dinformation, lmulation et la cration de valeur.

Source: U.S. General Services Administration

LA VILLE

SERVICES

INTELLIGENTE

Transports
Energie
Ecologie
Dveloppement

SOCIETE

Interactions
Rseaux
Recommandations

TEMPS REEL

Interconnectivit
M to M

FOCUS
BIG DATA & FORMATION:
LES PROGRAMMES, LES
PROFILS, LA CRATION
DEMPLOIS

retours des projets les plus mdiatiss.


Au-del des considrations conomiques et de
lintrt que prsente le Big Data, le facteur humain
est souvent voqu. Qui mnera le projet? Quelles
sont les qualifications ncessaires? Comment
impliquer les diverses quipes concernes?
Comment coordonner les projets?

MISE EN PLACE DU BIG DATA: LE RLE


DES MTIERS, LA PLACE DE LA DSI

Ces dernires annes, le terme de datascientist est apparu. Un mouton cinq pattes pour
certains, capable de comprendre les problmatiques mtier tout en tant force de proposition
sur les outils et infrastructures. Ce datascientist est-il issu de la DSI? Peut-tre, mais il doit
davantage se positionner comme un lectron
libre au sein de lentreprise, naviguant entre les
divers services et fdrant les quipes autour
du mme objectif. Un manager en somme? Pas
tout fait. Un leader plutt. Un homme ou une
femme, qui saura apprhender les besoins de
ses collaborateurs, connatre les solutions Big
Data qui y rpondront et les mettre en place
rapidement. Un datascientist doit galement
faire preuve de qualits relationnelles: en tant
qulectron libre, il doit pouvoir impliquer ses
collaborateurs, rendre intelligibles les rsultats
et leur communiquer lavancement. Cest celui
qui vulgarisera le Big Data dans lentreprise, pour
le rendre plus accessible aux divers mtiers.
Une tude mene par IT Research ralise
en partenariat avec le Club Dcision DSI et le
JDN rvle que 35% des DSI sorientent vers
le Big Data en France. Ils rflchissent aux infrastructures et aux finalits des projets, mais
aussi au nouveau rle quils incarneront dans
leur entreprise avec le Big Data. Limage des
DSI en France nest cependant pas toujours

Comme le montrent les chiffres, ladoption


du Big Data reste relativement modre dans
les entreprises franaises. Plusieurs points
de vue peuvent expliquer ce relatif retard.
Daprs Philippe Nieuwbourg, les Franais rflchissent trop larchitecture de leurs projets
Big Data, fixent trop dobjectifs et ne laissent
pas la place lexprimentation. limage des
POC (Proof Of Concept), des projets pilotes, largement adopts en Amrique du Nord, lanalyste estime que la France devrait insuffler
plus de souplesse dans son approche. La philosophie Big Data nest-elle pas justement
fonde sur lexprimentation?
linverse, Fabrice Benaut, ancien DSI du
groupe GFK, pense que la prudence et la rigueur applique aux projets franais constitueront notre force dans les annes venir.
Quoi quil en soit, ce jour, les projets Big Data
semblent effrayer un grand nombre dentreprises. Trop risqu, trop cher, trop compliqu
mettre en place, trop loin de la culture de lentrepriseLes arguments sont nombreux pour
repousser lchance en scrutant les premiers
12

35

Soraya, Mehdi et Denis,


diplms du Mastre

Spcialis
Big Data Tlcom ParisTech la

DES DSI SORIENTENT VERS


LE BIG DATA EN FRANCE
trs positive. Souvent considrs comme des
dpartements renferms sur eux-mmes, les
DSI qui souhaiteront prendre en main le Big
Data devront adopter le profil du datascientist.
Les formations
Cest donc bien dun nouveau profil dont on
parle. Un profil qui requiert une formation
mathmatique, statistique, informatique mais
aussi managriale.
Cest la raison pour laquelle de nombreuses
formations ont ouvert leurs portes rcemment. Telecom Paristech a ouvert la voie en
diplmant la premire promotion Big Data de
France en Mai dernier. Une promotion dont la
majeure partie des tudiants avait dj sign
son futur contrat dembauche avant de recevoir
son diplme. Grenoble EM et lEMSI ont ouvert en septembre leur propre formation, sappuyant sur leur complmentarit. Les grandes
coles parisiennes dingnieur ou de commerce
suivent elles aussi la tendance. O recruter son
futur datascientist? Y a-t-il des spcialisations
plus cibles? Difficile de sy retrouver dsormais dans la multiplicit de loffre. Certaines
coles sont identifiables rapidement de par
leur rputation, mais nous avons tent dobserver les principales formations et de voir quels
domaines de spcialisation elles sont le plus
souvent associes.
Avec notre partenaire Focusmatic, nous avons
slectionn quelques coles qui ont initi des
formations lies au Big Data et tent didentifier les secteurs qui sont attachs ces formations (nombre de messages associs , en
activit. Du 27/10/2013 au 02/09/2014). On remarque ainsi que la formation grenobloise est
associe aux sujets RH et Telecom, tout comme
celles dHEC ou de lENSAI. La thmatique RH
est souvent mentionne de par la pnurie de
datascientist ce jour en France. Ce quon remarque surtout, cest que certaines coles ont
un cho dans une varit leve de secteurs
alors que dautres sont voques pour des
enjeux bien prcis. LESSEC par exemple, est
principalement associe au secteur de la publicit. HEC est lcole la plus associe au secteur
de la finance, tandis que Telecom Paristech et
les Mines le sont la sant.

premire promotion BigData en France

Retrouvez
linterview de
Soraya

Retrouvez
linterview de
Mehdi

Retrouvez
linterview de
Denis

De faon globale, HEC, lESSEC, la formation grenobloise (Grenoble EM & Ensimag) et


Telecom Paristech sont les coles qui font le
plus parler delles et du Big Data (nombre de
messages voquant le Big Data et lcole- priode du 27/10/2013 au 04/09/2014).
13

Secteurs associs, par Ecole


lAfdel estime que
1 000 emplois directs
seront crs en France
dici 2018.

LA CRATION DEMPLOI
La croissance annonce et amorce du march
du Big Data a une consquence sur le march
de lemploi. Comme nous lavons vu, les projets
Big Data ncessitent une relle nouvelle fonction, celle de datascientist. Elle stimule galement toute la sphre conomique des SSII,
cabinets de conseils, intgrateurs, fournisseurs hardware Dans lensemble, lAfdel estime que 1 000 emplois directs seront crs en
France dici 2018. Au niveau mondial, le cabinet
Gartner a suscit leffervescence en annonant en 2013 quil valuait la cration demploi
4.4 millions dici 2015. Prs de la moiti le
serait sur le territoire amricain. On comprend
donc le besoin de formation et la prolifration
des programmes acadmiques. Certains vont
mme jusqu penser que lducation nationale
devrait intgrer des modules de familiarisation
avec le codage et le traitement de la donne,
afin de susciter des vocations et dveiller la
curiosit ds le plus jeune ge. Les gnrations
venir seront certainement plus familiarises
avec les nouvelles technologies, mais les datascientist demanderont quoi quil arrive une
formation spcifique.

Donnes issues dune tude mene avec Focusmatic du 27/10/2013 au 02/09/2014. Nombre de messages associs , en activit

le Big Data et les Ecoles

ESSCA : 09

ENSAI : 96

IDRAC : 18

Mines : 140

ECE : 20

Grenoble ENSIMAG : 150

ESSCA : 09

ENSAI : 96

IDRAC : 18

Mines : 140

ECE : 20

Grenoble ENSIMAG : 150

Telecom Ecole de Management : 25

Grenoble EM : 240

Toulouse Business School : 28

Telecom Paristech : 370

Audencia : 30

ESSEC : 480

Supelec : 46

HEC : 490

Donnes issues dune tude mene avec Focusmatic du 27/10/2013 au 04/09/2014. Nombre de messages voquant le Big Data et lcole

14

Dans le contexte dun march de lemploi plutt


morose en Europe, la perspective dune nouvelle fonction fortement demande dans les
plus grandes entreprises attire de nombreux
tudiants, qui remplissent dj les bancs des
meilleures coles. Argument non ngligeable:
le salaire moyen dun datascientist aux tatsUnis serait de 89 000$ annuels. En France, on
parle de 40 000 80 000 par an pour les plus
expriments.

4.4

MILLIONS DEMPLOIS BIG DATA SERONT


CRS DANS LE MONDE DICI 2015

Portraits

Portraits
15

Axelle Lemaire : photo officielle - portail du gouvernement

AXELLE
LEMAIRE
SECRTAIRE DTAT
CHARGE DU NUMRIQUE
(Portrait)

lEurope nest pas les


Plus vraiment besoin de prsenter la Secrtaire
dtat charge du Numrique. Sa prise de poste
le 9 Avril 2014 a fait beaucoup de bruit dans la
communaut numrique franaise.
Non pas que les comptences de la jeune
femme aient t mises en doute, cest surtout
la forte popularit de celle qui fut son prdcesseur, Fleur Pellerin, qui anima les dbats.
En effet, lex ministre dlgue lconomie
numrique avait mis quelque temps faire ses
preuves, mais elle avait su gagner le respect
et la confiance de la majorit de la sphre IT
franaise. Imprgne du sujet et rellement
concerne par les enjeux du secteur, elle stait
positionne en tant que moteur politique et
conomique du rayonnement numrique franais linternational. lapoge de son succs,
le hashtag #keepfleur a traduit le soutien des
acteurs du numrique lors du changement de
fonction de Fleur Pellerin.
Une prise de poste complique pour Axelle
Lemaire donc. Prendre ses marques et semparer du sujet tout en vitant la comparaison
et les rancurs des supporters de Fleur se
prsentait comme un quilibre difficile trouver. Elle-mme admettra quelques mois plus
tard, lors dune interview accorde au journal
Le Monde, avoir eu un peu peur en voyant le
hashtag #keepfleur sur Twitter. Cependant, il
ne faut pas oublier que la jeune femme a dj
une carrire politique toffe et ne dcouvre
pas tout fait la question du numrique. Au
cours de ces dernires annes, elle a dvelopp
un intrt pour le sujet. Dans un premier temps
attire par le numrique dans le cadre de sa
vie prive, elle a rapidement compris les intrts conomiques et les enjeux qui se cachent
derrire ce march en pleine expansion. Alors
membre de la commission des Affaires europennes, elle rdige en 2013 un rapport sur la
stratgie numrique de lUnion Europenne.
De profil international elle est ne Ottawa
et a t dpute des Franais tablis hors de
France Axelle Lemaire prsente lavantage
de pouvoir naviguer facilement dans lunivers
anglo-saxon, prdominant dans le numrique.
Si la suite de Fleur Pellerin a certes t difficile, on ne peut sempcher de noter une petite
nuance qui renferme tout de mme quelques
ralits. Le 8 Avril, le poste occup par Fleur
Pellerin tait celui de ministre dlgu, le 9

tats-Unis, nous ne voulons


pas dun internet fractionn.
[] Si on parvient saccorder
au niveau europen, ce sera
un grand pas en avant

Avril, celui endoss par Axelle Lemaire porte


le titre de secrtaire dtat. On a beaucoup vu
Fleur Pellerin en premire ligne sur la thmatique du Big Data notamment. Pour Axelle
Lemaire, la fonction se prsente diffremment.
Officiellement, le poste concerne les droits et
liberts fondamentaux dans le monde numrique et la scurit des changes, des rseaux
et des systmes dinformation. En dautres
termes, elle est principalement en charge de la
gouvernance Internet, la scurisation des donLA TOP ACTU DAXELLE LEMAIRE

(Donnes Focusmatic - messages associant Big Data et Axelle Lemaire - messages issus du web et des rseaux sociaux)

Afin de mesurer la prsence numrique de la secrtaire dtat et ses interventions les plus remarques
lors de sa prise de poste, nous avons observ ses quelques actus Big Data qui ont fait le buzz entre le
09/04/2014 et le 24/05/2014

SES 2 PICS DACTUALITS SE TROUVENT


TOP #1: LE 18/04/2014 GRCE CET ARTICLE:

EXCLUSIF. Axelle Lemaire veut rtablir un Internet qui garantit les liberts
fondamentales - Le Point.fr
TOP #2: LE 19/05/2014 GRCE CETTE INTERVIEW:

Axelle Lemaire: LEurope nest pas les tats-Unis, nous ne voulons pas dun
Internet fractionn. - 20 Minutes

16

nes et la question de lopen data, le tout sous


lgide du ministre de lconomie, de lindustrie
et du numrique. Sous lgide ou dans lombre?
Cest la principale critique quelle a reue lors
de sa prise de poste, lorsquelle travaillait avec
Arnaud Montebourg. Trop en retrait sur les
dossiers clefs, elle aurait pu perdre en crdibilit et ne pas profiter de son capital sympathie,
pourtant largement reconnu. A priori, cette priode dobservation lui a au contraire permis de
dmontrer sa temprance et son esprit danalyse, qualits qui ont justement parfois fait dfaut son suprieur. Dsormais dans lquipe
dEmmanuel Macron, qui remplace Arnaud
Montebourg depuis le 26 Aot dernier, Axelle
Lemaire poursuit sa mission.
Des prises de positions fortes, des actions
concrtes et beaucoup de terrain, cest ce que
la sphre numrique attend delle.
A ce jour, ce qui ressort, et cest certainement
d son parcours, est sa vision europenne.
Comme elle le dclarait dans une interview
dans 20Minutes, lEurope nest pas les tatsUnis, nous ne voulons pas dun internet fractionn. [] Si on parvient saccorder au niveau
europen, ce sera un grand pas en avant.
Un axe pour son mandat? Lchance se profile-t-elle pour fin 2014 ou la tache demandera-t-elle encore de nombreux allers-retours?
La protection des donnes personnelles est
une priorit qui elle le sait se jouera aussi au
niveau europen. Fin Juin 2014, les rvlations
sur les exprimentations de Facebook menes
en 2012, ont piqu au vif la communaut et fortement interpell la secrtaire dtat. Que sur
le plan lgal, aucune disposition ne permette
de contrler et empcher ce type de manipulations reprsente une faille majeure dans le rle
dun Etat qui affiche sa volont de protger la
vie numrique de ses citoyens.
Lopen data pourrait tre son autre champ de
bataille. Passionne par le sujet, convaincue
que toute donne publique doit tre ouverte
par dfaut. Et sil y a fermeture, il faut quelle
soit explique, justifie et rversible - Axelle
Lemaire affiche lopen data comme une des
priorits du numrique en France. Crateur de
valeur, il devrait permettre lmulation ncessaire une effervescence de lconomie numrique nationale. Le Big Data ne serait pas en
reste, puisquil bnficierait largement de cette
ouverture des donnes.

HENRI VERDIER
DIRECTEUR DETALAB
(Interview)
Normalien de formation, Henri Verdier est
un entrepreneur dans lme. En 1996, il cre
sa premire entreprise, une web agency, qui
marque le dbut de 20 ans de cration dentreprises dans le secteur du numrique.
En parallle de ses expriences entrepreneuriales, Henri Verdier a men des missions de
conseil et a fait partager son expertise professionnelle. Il a galement occup le poste
de directeur en charge de linnovation chez
Lagardre Active.
Engag dans lcosystme numrique franais, Henri Verdier prend la prsidence de Cap
Digital en 2007. Au sein de cette association de
plus de 800 start-ups, 25 grands groupes tels
Thales, Alcatel ou Dassault systme, et 250 laboratoires de recherches publique, dont lINRIA
par exemple, il se familiarise avec les problmatiques de la donne. Au sein de Cap Digital,
les projets naissent toute vitesse. Le rseau
soutient plus de 300 projets de recherche par
an, les dotant de plus de 70 millions deuros daides. Cest l quHenri Verdier ralise
quune rvolution de la donne est en marche.
Leffervescence qui a alors lieu dans la Silicon
Valley semble confirmer cette tendance. Avec
la dmocratisation du cot de traitement de la
donne, il estime alors que la bataille commence tout juste!
En 2010, il cre, avec Pierre-Louis Lions et
Jean-Michel Lasry, MFG Labs, engage dans
le domaine du Big Data. Le projet rencontre
le succs et est acquis par le groupe Havas
quelques annes aprs sa cration. Cette exprience conforte Henri Verdier dans sa conviction de limportance laquelle est vou le Big
Data.
En 2012, il cocrit Lge de la multitude, qui
traite de la transformation numrique lheure
o la valeur conomique se dplace de plus en
plus vers les particuliers, et leurs crations
conscientes (contribution) ou inconscientes
(traces et donnes). On y dcouvre alors sa
conviction que la puissance publique peut
sinspirer des stratgies des grandes plateformes Internet.
Rien de plus naturel quen 2013 il accepte le
poste de directeur dEtalab. la croise entre
entreprenariat, action publique et univers de
la donne, Etalab sert des objectifs clairs.
Henri Verdier voit laction dEtalab comme la
rencontre de la Dclaration des droits de
lHomme et du web 2.0. Le raccourci peut
paratre tonnant, mais on comprend mieux
lorsquil lexplique: depuis 200 ans, ltat
construit patiemment une certaine transparence. Ctait le sens des rapports publics de la
Cour des comptes, ou de la cration de lINSEE.
Aujourdhui, lopen data, cest la mise disposition des informations dtenues par ltat, mais
dans les formats les plus bruts possibles pour
favoriser le maximum de rutilisations et la coproduction avec les citoyens.
Car cest bien le collaboratif qui prime. Les
donnes seules, sans ide, sans travail, sans
mulation, ne sont pas cratrices de valeur.
Le web 2.0 permet justement de mobiliser une
communaut de plus en plus tendue. Cest
ainsi quEtalab a choisi de soutenir les 15.000
17

la puissance publique
peut sinspirer des
stratgies des grandes
plateformes Internet
contributeurs bnvoles dOpenStreetMap
pour recenser la golocalisation de lintgralit
des adresses en France.
La plateforme www.data.gouv.fr mise en place
par Etalab connat dj un grand succs, ayant
mme reu les honneurs de TechCrunch. Les
donnes qui y sont partages sont extrmement
varies, nombreuses et proviennent de diffrentes sources, comme les administrations et
les tablissements publics, mais aussi lUFC Que

Exemples de quelques jeux de donnes: Registre Parcellaire

Choisir, la Croix Rouge ou bien OpenStreeMap.


Mais pour quun portail vive, il faut lui donner
du sens, alimenter les interactions et animer
la communaut. La construction de la plateforme a donc demand une longue rflexion,
une concertation avec divers acteurs, laide de
spcialistes et la prsence dans de nombreux
vnements participatifs tels les hackatons,
pour en comprendre le fonctionnement et les
enjeux. Loutil fonctionne dsormais comme
un rseau social.
Cette plateforme est un bon exemple de lagilit dont peuvent faire preuve les instances
publiques. Pour Henri Verdier, on a tort dopposer les secteurs priv et public: la vritable
diffrence se situe entre les innovateurs et les
conservateurs, qui se situent galement dans
les deux univers. Ltat peut tout fait intgrer
les mthodologies agiles de la culture startup,
ou les rgles de lopen source, avec les avantages de lefficacit, des budgets rduits et du
dveloppement rapide des projets.
Pour Henri Verdier, Etalab a, au moins, 3 raisons dtre. La premire, la plus vidente, et
dj voques ci-dessus, rpond lobjectif de
transparence, de concertation et de coproduction. Un outil comme OpenFisca en est un bon
exemple. Son modle dynamique permet de
manipuler plus de 400 rgles fiscales afin de
mesurer et anticiper le montant de ses impts
mais aussi de modliser des rformes fiscales.
La deuxime raison dtre dEtalab est linnovation. Indniablement, la donne est une ressource essentielle de lconomie moderne. Elle
permet de crer des applications, des services,
damliorer des process ou de mieux connatre
notre entourage. Aux tats-Unis, lopen data
des donnes GPS a fait natre un secteur industriel entier. Lide est de diffuser cette russite
tous les secteurs: nergie, transports, mdecine personnalise Les axes sont vastes.
Les questions qui restent alors en suspens
sont lanonymisation des donnes et le risque
de captation de cette valeur. Mais pour Henri
Verdier, il ne faut pas sarrter par peur
des GAFA (*Goggle, Apple, Facebook, AmazonN.D.L.R.). Sils trouvent des modles de valeur,
ils creront eux-mmes les donnes dont ils
ont besoin. Il vaut mieux dpenser notre nergie faire natre un tissu industriel fort en
France, et nous positionner au centre des innovations.
Le troisime et dernier objectif dEtalab
concerne ltat lui-mme. Si se moderniser
et donner accs davantage de donnes est
important pour lensemble des citoyens et de

lcosystme numrique, a lest galement


pour les administrations elles-mmes. Peu familires encore de lutilisation du Big Data, les
institutions publiques ont pourtant un grand intrt se positionner rapidement sur le sujet.
Cest l quHenri Verdier agira, non plus au titre
de directeur dEtalab, mais dans le cadre de sa
nouvelle fonction dadministrateur gnral des
donnes. Il a en effet t nomm CDO de
ltat en Aot dernier et se trouve ds prsent
face un vaste mais passionnant chantier: faire
circuler linformation entre administrations,
utiliser la donne mme quand elle est considre comme sensible et chasse garde
dun ministre, jouer le rle de datascientist de
ltat en somme. Par exemple, communiquer
les prix des logements en temps rel au minisExemples de quelques jeux de donnes:
tre du logement permettrait de prendre des
transparence de la vie publique
dcisions appuyes par la ralit immdiate du
march. limage de quelques administrations
amricaines, ltat franais se met donc au Big tionnelles. La recherche est entre guillemets
libre. Ce nest mme plus une question de
Data. On y croit, on y va.
volume de donnes, despace de stockage ou
Car pour Henri Verdier, le Big Data est une de capacits de traitement. Cest la mentalit
relle rvolution. Les cabinets tels McKinsey qua apport le Big Data qui dcuple les capaou Gartner nous lavait annonce, on le vrifie cits, quon parle de small data, smart data ou
aujourdhui en assistant la fulgurante ascen- autre.
sion de startups qui nauraient jamais eu les En tant que CDO de ltat, Henri Verdier satmoyens de leurs ambitions si le Big Data et tachera donc exploiter cette approche. Peutle cloud ne leur avaient pas permis de rivali- tre quil sagira essentiellement dune quesser avec les ultra-financs dpartements R & tion dadoption de la culture Big Data avant
D des gants amricains. Cest une dmocra- mme ses outils. Limportant sera dintgrer
tisation, louverture du jeu de nombreux nou- lensemble des acteurs, privs galement, qui
pourront participer cette modernisation.
veaux acteurs.
Comme le dit Lev Manovich dans son ouvrage
Le langage des nouveaux mdias, une socit de donnes nest pas statistique, elle ne suit
pas la discipline mathmatique des moyennes,
mais met en place de nouvelles rgles, sans
hirarchie. Le Big Data change la donne, il implique prcision et personnalisation. Il entrane
de nouvelles reprsentations de la socit.
Etalab veut sinscrire dans cette dmarche de
dmocratie plus mature, qui vit avec son temps.
Le Big Data est galement une rvolution philosophique. Il permet dadresser les problmes
diffremment. En biologie par exemple, le domaine dexpertise initial dHenri Verdier, la
mthode exigeait quon mette des hypothses
pour ensuite les vrifier. Chaque exprimentation tait coteuse, lhypothse devait donc
tre prometteuse. Aujourdhui, les donnes
sont nombreuses et gratuites grce des acteurs comme Etalab. Les temps de traitement
nont plus rien voir avec les mthodes tradi-

18

EXEMPLES DE QUELQUES JEUX DE


DONNES DISPONIBLES SUR LA
PLATEFORME DATA.GOUV.FR
REGISTRE PARCELLAIRE
GRAPHIQUE 2012: CONTOURS
DES LOTS CULTURAUX ET LEUR
GROUPE DE CULTURES
MAJORITAIRE DES EXPLOITATIONS

TRANSPARENCE DE LA VIE
PUBLIQUE

ANNE LAUVERGEON
EX-PRSIDENTE DAREVA, RESPONSABLE DE LA COMMISSION INNOVATION 2030
ET PRSIDENTE DU CONSEIL DE SIGFOX (Portrait)
Photo : Bruno Levy pour Challenges

Arrtons lauto
french bashing!
[]
Tnacit, vision
stratgique long terme
et cohsion europenne
doivent primer.

Anne Lauvergeon est principalement connue


pour sa carrire de femme daffaires la forte
personnalit. Ses annes chez Areva ont forg
son personnage. Surnomme Atomic Anne,
lancienne sherpa du prsident Mitterrand a
parfois divis mais ses comptences ont souvent t salues.

mrique de suivre le rythme effrn de leur


secteur, sans tre frein par des instances et
contraintes rglementaires. La commission
prcise videmment quil faudra trouver un
quilibre entre libre innovation et protection
des donnes personnelles. Cest un idal.
voir quelles ides pour latteindre mergeront.

Elle a fait son entre dans la sphre numrique


en avril2013, lorsque Jean-Marc Ayrault, alors
premier ministre, la dsigne la tte de la commission innovation 2030. Sa mission? Dfinir,
avec une quipe ddie, les sept ambitions
stratgiques pour la France lhorizon
2030. Dans son rapport rendu en octobre2013,
le Big Data figure part entire comme secteur clef pour lavenir conomique de la France.
Elle devient alors porte-drapeau dune sphre
qui milite pour un dveloppement dun cosystme puissant du Big Data en France. Elle
cre mme la surprise en acceptant le poste de
prsidente du conseil de la startup SIGFOX en
avril2014. Le numrique, elle y croit, et elle y
jouera dsormais un rle actif.

Avec Anne Lauvergeon sa tte, on se doit au


moins de prter attention aux recommandations livres par la commission. La langue de
bois ne fait pas particulirement partie des habitudes de la femme daffaires, et le pragmatisme est souvent matre mot. Lors dune confrence en petit comit organise par lESCP,
Anne Lauvergeon expliquait justement certains
points sur sa vision de lentreprise, de ltat,
sur le travail de la commission et le rle du numrique dans lconomie nationale.

Concernant le Big Data, la commission 2030


prconise 5 leviers dactions: lopen data
comme acclrateur dinnovation, la valorisation des donnes publiques (au sein des administrations), la mise disposition de ressources
technologiques au sein dun centre destination de startups, laide lexport et le droit
lexprimentation.
Ce dernier axe peut paratre surprenant quand
on connat les discussions au sein de la CNIL
ou mme de lEurope. Le droit lexprimentation viserait permettre aux acteurs du nu-

Dans un premier temps, et cest intressant


au regard de la mission de la commission, elle
dfinit le rle des tats. Un tat, selon elle,
doit avoir une vision stratgique. Areva par
exemple, est le fruit de 50 annes de politique
continue, mene au niveau europen, avec un
objectif clair. Cependant elle le reconnat facilement, la formule ne sapplique quaux grands
secteurs stratgiques. Cest alors quintervient
le second rle de ltat: favoriser des cosystmes, crer des aquariums comme elle le
dit. Plus prcisment, cela signifie que lorsque
ltat souhaite acclrer ou accompagner un
secteur dit, il se doit de lui procurer les conditions ncessaires son panouissement. Ses
outils? La fiscalit, la rglementation, lducation. Sur ce dernier point elle insiste fortement, persuade que la France doit duquer
19

ses nouvelles gnrations linnovation, ou


du moins ne pas les inciter un raisonnement
anti prise de risque. Sans vouloir renier
notre culture et nos particularits, il nous faut
voluer avec notre entourage. Elle prend alors
lexemple des tablettes numriques, parfaitement dveloppes dans deux ples dattraction
qui sont pourtant deux pays trs diffrents: les
tats-Unis et la Core du Sud. Il nexiste donc
pas de recette universelle, mais une capacit
ladaptation. Chaque pays conserve ses particularits tout en favorisant les conditions
dpanouissement de linnovation.
Enfin, cela peut sembler paradoxal, elle prne
ltat zro. Ltat en retrait, qui laisse son
conomie se dvelopper et les innovations
merger. Ltat qui ne cherche pas lutter
contre la modernit mais plutt laccompagner. En dfinitive, le rle de ltat pour favoriser linnovation consiste reconnatre les
secteurs clefs o il mnera quelques grands
projets et crera un environnement favorable
pour les entreprises, leur laissant la charge
den faire bon usage.
Un point qui ne manque pas dchapper Anne
Lauvergeon est le manque de confiance dont
nous souffrons en France. Arrtons lauto-french bashing clame-t-elle! Nous devons
avoir confiance en nos capacits.
Identifier les capacits de la France, ctait
justement lobjet de la commission 2030. Trois
questions se sont poses ses membres:
o sommes-nous bons en France, que pouvons-nous dcliner en Europe et o y a-t-il une
forte demande mondiale?

donn naissance sept concours mondiaux


de linnovation. Mondiaux? Ctait important
pour la commission de laisser les candidatures
ouvertes tous, travers le monde, avec pour
seule contrepartie de sengager investir en
France. Les premiers laurats ont dj t dsigns.
Dans lensemble, la commission a reu plus de
1200 dossiers de candidature depuis son lancement en dcembre2013 jusqu dbut juillet2014. Lexercice est mme vou tre rpt tous les deux ans, selon une dclaration de
Franois Hollande.

Quelques laurats: big data pour le sport professionnel

Avant tout, la commission sest projete dans


le monde tel quil pourrait tre en 2030. Plus
peupl, cest certain, avec plus de classes
moyennes, le numrique encore bien plus prsent dans nos vies, dimportants changements
climatiques mais aussi des changements de
mode de pense et de relation largent, au
partage, au collaboratif. Dans quelle mesure la
France aura-t-elle un rle jouer sur la place
conomique mondiale?
Concrtement, la commission en elle-mme
est un point de dpart, un fil conducteur. Le CGI
(Commissariat Gnral lInvestissement) a
dbloqu 300millions deuros, grs par la Bpi.
Les sept ambitions de la commission 2030 ont

pour que linnovation puisse tre exploite


ailleurs que dans un domaine unique. Dans
les faits, cela demande la cration de rseaux
sociaux dacheteurs des innovations, o les
ides se transmettent, se valorisent, sexportent et senrichissent.
Une belle vision de linnovation en somme, qui
ne serait non plus un outil pour son gnrateur,
mais bien un moteur pour lconomie tout entire.
Elle conclut sur ces quelques mots, qui traduisent bien la personnalit de cette femme
de caractre: tnacit, vision stratgique long
terme et cohsion europenne doivent primer.

Anne Lauvergeon nous rappelle alors une particularit de la France, qui influe fortement sur
ses dmarches dinnovation et par consquent
sur des initiatives telles le concours mondial
de linnovation. Au monde, cest le seul pays
appliquer le principe de prcaution, aprs
lavoir inscrit dans sa constitution (voir la loi
Barnier). Dautres pays lont reconnu, comme
le Brsil ou lAllemagne, mais la France sattache fortement son respect. Souvent dsign comme frein linnovation, le principe de
prcaution requiert dans son application la
recherche dun quilibre avec le principe dinnovation. Les deux ne doivent pas sopposer
mais se temprer. On rejoint alors le concept
du droit lexprimentation stipul dans le
rapport de la commission, qui doit squilibrer
avec la protection de la vie prive. Comme le
dit Anne Lauvergeon, il faut faire le ying et le
yang entre les deux notions. Tout serait donc
une question dquilibre.
Selon la femme daffaires, linnovation ne doit
pas se voir comme une finalit ni se limiter un
seul usage. Il faut la partager, la faire vivre,

QUELQUES LAURATS
DE LA CATGORIE BIG DATA
DU PREMIER CONCOURS
MONDIAL DE LINNOVATION
LANC PAR LA COMMISSION.
PROJET: BIG DATA POUR LE
SPORT PROFESSIONNEL

Mac-Lloyd propose des technologies de rupture dans le domaine du sport de haut de niveau: capteurs de mouvements, mesure par
analyse vido, et traitement intelligent de donnes massives par machine learning.
PROJET: SNIPS

Snips est une startup spcialise en modlisation prdictive pour les villes. En sappuyant sur
des donnes de golocalisation ainsi que des
donnes de contexte, nous pouvons mesurer,
comprendre et anticiper les comportements
dans les villes, contribuant ainsi personnaliser et amliorer le quotidien des citadins.

Quelques laurats: modlisation prdictive pour les villes

20

GILLES
BABINET
FONDATEUR DE CAPTAINDASH
ET DIGITAL CHAMPION
AUPRS DE LA COMMISSION
EUROPENNE
(Interview)

Votre parcours:
Au-del de la fiche Wikipedia qui parle dun passage difficile au collge et au lyce Quel parcours
avez-vous suivi? Comment avez-vous commenc
fonder vos premires entreprises et pourquoi vous
tes-vous lanc dans cette aventure?

Tout cela est un peu singulier mais en deux


mots ce quil faut en retenir cest que jtais
effectivement un cancre lcole et je ne my
adaptais pas. Javais une certaine habilet
manuelle et jai commenc travailler dans
le btiment. Cest l que jai eu lide de ma
premire entreprise, que jai donc dveloppe
dans le monde de lalpinisme et du btiment.
Puis les choses se sont enchanes et jen suis
venu travailler dans lunivers numrique, qui
ma toujours passionn. Ce que jen retiens
cest que notre systme ducatif nest pas
adapt pour certaines personnes comme moi.
Je ne cesse de penser que nombreux sont les
enfants qui voient leurs vies gches ou en tout
cas srieusement perturbes parce quils narrivent pas se familiariser avec la rigidit de
notre systme franais.
Vous et le numrique:
Do vient votre intrt pour le secteur du numrique? quel moment vous tes-vous dit que le Big
Data reprsentait un secteur davenir, de nouvelles
opportunits, une rvolution? Et comment est n
CaptainDash?

Je ne suis pas proprement parler un programmeur mme si je me suis beaucoup intress llectronique lorsque jtais jeune.
Jai toujours voulu introduire linformatique, les
rseaux dans mes entreprises. Je pense avoir
fait partie de la premire vague des fondateurs dagence web, ds 1994 et donc tout ceci
reprsente finalement un certain continuum.
Il y a sept ou huit ans, jai rencontr Bruno
Walther, qui tait alors CEO de lagence internet Ogilvy et nous avons eu des discussions
passionnantes sur le constat que nous faisions
que le monde de la donne allait reprsenter
la prochaine rvolution; de fil en aiguille nous
avons cr une socit.
Ltat et le numrique:
Prsident du CNN, Digital Champion auprs de la
Commission Europenne... Que pensez-vous du
rle de ltat dans la construction dun cosystme
du numrique? Open data, financement, ducation,
avantages fiscaux, incubateurs, projets publics
:
dans quelle mesure doit sengager ltat?

Le rle de ltat est assez particulier, car il


doit avoir une pratique la fois trs librale,
pro-entrepreneur en favorisant la prise de

risque, pro-business en luttant contre les professions rglementes et tout la fois sassurer que la qualit du systme ducatif est la
hauteur dune socit de la connaissance, que
les infrastructures numriques sont finances
et disponibles, que les liberts ne sont pas altres, etc. mon avis, rares sont les tats qui
parviennent mettre en uvre cette nouvelle
alchimie. La France progresse mais elle a un
long chemin faire.

dtre en permanence dans le principe de prcaution, avoir peur du futur et de notre ombre.
Les attitudes ractionnaires ne russissent jamais aux nations. Idalement, il conviendrait
de favoriser lclosion dune nouvelle forme
de Droit, ce qui ne manquera pas darriver.
chaque rvolution industrielle son droit. La premire a vu lapparition du Code Civil, la seconde
les droits sociaux (code du Travail), nous assisterons un jour lmergence du code de lindividu et de la Donne.

Focus rglementation:
On vous connat pour vos propos assez virulents envers la CNIL. Quel est selon vous lattitude adopter
sur la protection des donnes personnelles, la question du cloud souverain, lharmonisation europenne?
Comment contrer les drives, rassurer les utilisateurs, et dfendre la place de la France et de lEurope sur le plan international?

Je ne peux ici que

Tout cela est si rupturiste quil me faudrait un


livre que je suis en train dcrire pour
dcrire convenablement ce quil faut faire. Je
ne peux ici que recommander que lon cesse
21

recommander que
lon cesse dtre en
permanence dans le
principe de prcaution.

PASHU DEWAILLY
CHRISTENSEN

ment mis disposition, partageant la connaissance dorganismes tels Google, LinkedIn, EMC
ou luniversit de Stanford.
En 2 annes, on peut dj mesurer les retours
et voir quelques beaux projets merger. Pashu
insiste sur le fait que The Hive est l pour permettre aux startups de se concentrer sur lessentiel: des bureaux sont mis disposition, des
quipes sont prsentes en continu, linfrastructure est fournie et les financements permettent
davancer rapidement. Une startup ne demeure
gnralement pas plus dun an dans le studio. Rien dtonnant alors ce que de petites
ppites en soient dj sorties, limage de
DeepForestMedia ou E8 Security.

MARKETING AND
PARTNERSHIP MANAGER
CHEZ THE HIVE, PALO ALTO
(Interview)
Pashu a un parcours atypique. Aprs un master en conomie du dveloppement suivi
Dauphine, elle part en stage lambassade de
France en quateur. Elle revient en France pour
effectuer quelques missions en conseil, avant
de prendre en charge la communication dAide
Mdicale en Indonsie. Elle intgre Orange
San Francisco alors que le sujet du Big Data
commence merger. Pashu construit alors
son intrt pour la thmatique et dcouvre
ltendue des domaines dapplication du Big
Data, allant de la finance la mdecine, servant le commerce et lindustrie, sans mme oublier le dveloppement durable. Comme elle le
dit, cest l quelle a pris conscience que dans
lconomie, dans nos vies quotidiennes, grce
aux objets connects: le Big Data va tout
chambouler!
Cest donc tout naturellement quelle accepte
de rejoindre, en Octobre 2012, alors quil vient
dtre fond, lincubateur The Hive. Travailler
dans une structure qui se focalise sur la cration de startups dans le domaine du Big Data a
tout de suite attir Pashu. Autre avantage notable, elle prcise quelle a la chance de travailler avec des gens brillants, qui ont aid
construire linfrastructure chez Yahoo notamment et qui reconnaissent les tendances
de demain.
En effet, The Hive, bas Palo Alto, le cur
nvralgique de lcosystme numrique, a t
fond par T.M Ravi et Sumant Mandal, deux
icnes de la Silicon Valley.
Avec une quipe denviron 10 personnes, The
Hive, que Pashu dfinit comme un studio, finance, incube et lance des data-driven startups
qui proposent des applications B to B. Les secteurs concerns sont principalement le marketing, la scurit et la sant. La philosophie de
The Hive: le low volume, high touch. Cest-dire que lincubateur investit dans 5 10 startups par an, tries sur le volet, et slectionnes
au seed-stage de leur dveloppement, la
naissance de lide. la diffrence des investisseurs (capital risqueurs) ou des incubateurs
traditionnels, The Hive est un studio qui inves-

The Hive est l pour


permettre aux startups
de se concentrer
sur lessentiel.

tit entre $1,5 million $3 millions dans chacune des startups, avec une quipe (CTO, Data
scientist, Architect, Marketer) qui travaille quotidiennement avec les startups. Lobjectif est
donc daccompagner de A Z des projets auxquels lincubateur croit, du concept au produit
final. Au-del de linvestissement financier,
lappui humain est au cur du fonctionnement
de The Hive. voir lorganigramme de The Hive,
on comprend que le studio doit souvent tre en
effervescence, avec cette quipe de rockstars! comme le dit Pashu.
En quelques annes, lincubateur connat dj
un succs certain, qui la pouss se dvelopper au-del de ses frontires, en Inde dans un
premiers temps le bureau de Bangalore a
t inaugur il y a quelques mois.
Comment fonctionne la structure? Les investisseurs sont varis: entreprises prives, individuels ou institutionnels ont apport 8 millions
de dollars la cration. Aujourdhui, The Hive
bnficie dune enveloppe de plus de 30 millions. Des conseillers extrieurs sont gale22

Deep Forest Media fournit un systme intgr


pour les annonceurs mobiles pour optimiser la
valeur de leurs dpenses de publicit sur mobile. E8 Security dtecte les attaques avances
et les activits dinitis malveillants qui ont
contourn les mesures prventives de scurit
dentreprise. Sa mission est daider les entreprises se dfendre contre la croissance continue et la sophistication des cybercriminels. La
technologie de pointe de E8 Security analyse
automatiquement les comportements des diffrents acteurs de lentreprise et peut identifier
les activits suspectes sans ncessit de rgles
ou de signatures.
Si The Hive a pour mission premire de lancer
des startups innovantes, ce nest pas sa seule
activit. Lappui et le rseau ncessaire son
activit exigent du studio un tissu relationnel
tendu. Pashu est donc responsable depuis dcembre 2012 de The Hive Think-Tank. Cest
un peu mon bb explique-t-elle affectueusement. On comprend vite pourquoi: le thinktank vise runir raison dune fois par semaine la sphre data de la rgion, autour de
thmatiques pointues et avec des speakers de
haute renomme. Avec plus de 5 000 membres
aujourdhui, 200 participants chaque dition et des financements des plus grandes
entreprises telles IBM ou Microsoft, The Hive
Think-Tank est une structure part entire.
Privacy, environnement, volutions technologiques: Pashu sattache assurer une varit
des thmatiques abordes. Les confrences
et networking du think-tank sont devenus des
rendez-vous incontournables dans la rgion.
Cest aussi l que le studio puise ses axes de
dveloppement, affine son apprhension des
opportunits et besoins du march et tend son
rseau. Connatre les attentes du secteur pour
mieux savoir quels projets soutenir est essentiel pour The Hive. Cest dans cette expertise
que le studio puise sa valeur.
Pour Pashu, The Hive est comme une petite famille, accueillante, pleine de vie et bien
ancre dans la ville de Palo Alto. Installe
Oakland, quelle dcrit comme le nouveau San
Francisco, plus accessible et offrant davantage
dopportunits, Pashu a la tte pleine de projets et denvies.

lavenir, de stocker des volumes de donnes


encore plus importants quaujourdhui et ce
nest pas anodin car ces donnes sont prcieuses. Les secteurs qui russissent sont ceux
qui utilisent les donnes de la manire la plus
intelligente et ce principe semble aujourdhui
sappliquer tous les secteurs dactivit.
Au cours de la dernire dcennie a merg un
nouveau type de logiciels, en Open Source, ce
qui a fait de Linux le systme dexploitation le
plus rpandu dans le monde. Il ne fait pas de
doute que lOpen Source devient la norme et
que les dveloppements majeurs sont appels
utiliser ce type de plate-forme.

DOUG CUTTING
CO-FONDATEUR DHADOOP
(Portrait)

Doug Cutting. Un grand nom dans la sphre


Big Data. Incontournable mme. Un homme
qui inspire respect et admiration pour avoir t
lun des fondateurs de la fabuleuse pope du
Big Data.
Un homme simple pourtant. Incroyablement accessible, Doug aime se fondre dans leffervescence de la communaut Big Data. Passionn
toujours, il sintresse, observe et coute. Sans
aucune prtention, il explique volontiers comment il sest retrouv lorigine dHadoop.
Diplm de luniversit de Stanford, Doug dbute sa carrire dans quelques prestigieuses
entreprises, telles Excite, Apple ou Xerox. Il
travaille ensuite sur les projets Lucene, Avro ou
Nutch, en open source. Cest aussi cette priode que Google gagne sa place de leader dans
les moteurs de recherche. Il est beaucoup plus
pertinent et rapide que tous ses concurrents. Il
utilise une technologie que personne dautre ne
connat. La communaut scientifique et toute
la Silicon Valley sont intrigues par la recette
du succs du gant internet. En 2003, Google
publie un premier papier o est expliqu le
fonctionnement du Google File System. Doug
et ses collgues, dont Michael Cafarella, dcouvrent les premires bribes de la recette de
Google et prennent la mesure de la rvolution
qui sannonce. Un an plus tard, MapReduce, qui
se cache derrire le fonctionnement du moteur
de recherche, est enfin rvl au grand public.
Doug comprend alors quil se trouve face la
technologie qui lui permettra dlever Lucene
au stade suprieur. Le puissant algorithme dvelopp pour MapReduce permet de traiter des
volumes consquemment plus importants de
donnes, les analysant en parallle de faon
simple et rapide. Lucene peut passer lchelle

du web, alors en pleine expansion et faire face


limmensit des informations disponibles sur la
toile. Doug Cutting prend alors la tte du projet
qui se nommera par la suite Hadoop. Toujours
dans la dynamique open-source et open-innovation qui est depuis perptue dans la Silicon
Valley, Yahoo lgue Hadoop la fondation
Apache en 2006. Les meilleurs ingnieurs de
Google, Yahoo et des autres gants du centre
nvralgique de linnovation numrique mondiale se retrouvent rgulirement pour faire
avancer ces projets colossaux, conscients de
la porte de leurs travaux de recherche. Cest
peut-tre aussi de l que vient cette certaine
humilit de Doug. Il semble convaincu quun
projet dune telle ampleur, porteur de tant dinnovation, est le fruit dheureuses collaborations, et rarement dun seul homme. En 2009,
Doug rejoint la socit Cloudera, o il travaille toujours actuellement en tant que Chief
Software Architect. Lanne suivante, Doug est
nomm la tte de la fondation Apache.
Emblmatique du Big Data aujourdhui, llphant dHadoop est lui aussi issu de limagination de Doug, qui adapta le jouet prfr de son
fils pour en faire le logo de la technologie qui
rvolutionnera la donne.
Lors du dernier congrs Big Data Paris, Doug
nous fit lhonneur de venir exposer ses dernires rflexions sur lavenir de la donne. Sil
admet que nul ne peut prdire le futur, Doug
Cutting constate nanmoins que le rapprochement de faits conduit souvent dassez bonnes
anticipations. Un premier fait indiscutable rside dans laugmentation constante des performances de la technologie, dont le cot dcrot
de faon tout aussi rgulire, conformment
la loi de Moore. Nous serons en mesure,
23

On remarque dailleurs que sur les trois principales socits qui distribuent Hadoop aujourdhui, que sont Cloudera, Hortonworks
et MapR, deux sont 100% open source
[N.D.L.R.].
Doug explique comment il sest modestement
lanc, il y a quelques annes, dans le projet
Hadoop, en utilisant cinq machines simultanment, puis des mthodes de rpartition. Les
promoteurs du projet ne savaient pas comment
changer dchelle pour faire fonctionner des
milliers dordinateurs en mme temps. Yahoo,
intress par le projet, y a investi de faon importante. La jeune entreprise a alors pu continuer damliorer loutil en changeant dchelle.
Hadoop permet ainsi de stocker et traiter des
volumes considrables de donnes rservs
jusqualors aux traitements en batch. Le
module PIG, qui est un langage de flux de donnes, a aussi t ajout la plateforme afin de
faciliter lutilisation du programme et la dfinition de spcifications pour des sries de donnes.
Hadoop a finalement t adopt par un grand
nombre doprateurs qui en ont fait la plateforme de rfrence en matire de Big Data.
Cette volution ne parat pas devoir connatre
de limite et rien ne semble sopposer la
poursuite de cette logique de partage. Mme
les transactions sont dsormais possibles sur
Hadoop. Ce conglomrat de projets quest devenu Hadoop a fait de celui-ci un hub de donnes dentreprise (Enterprise Data Hub) permettant toutes ces donnes dtre traites en
un seul lieu, avec lensemble des applications
souhaites. Nous ne sommes encore quaux
prmices de ladoption du Big Data par lindustrie et il ne fait pas de doute que chacun voudra
copier les gagnants.

Les secteurs qui


russissent sont ceux qui
utilisent les donnes de la
manire la plus intelligente.

Techno

24

Techno

HADOOP
ENFIN UNE SOLUTION
DENTREPRISE?

blient larticle MapReduce: Simplified Data


Processing on Large Clusters.

PAR JOS DIZ

Par Big Data en entend


lapplication de traitements
analytiques de grands volumes de donnes,
structures ou non. Depuis
longtemps, des technologies
de streaming analysent en
temps rel des informations
sur des bus de donnes.
Ces solutions souvent
onreuses (reposant sur des
environnements critiques)
analysent par exemple en
continu des flux financiers
pour dtecter des fraudes
comme du blanchiment
dargent.
Les systmes de gestion de
donnes traditionnels peinent
ou se montrent inefficaces
pour traiter les normes
volumes dinformation
provenant du web (plus de 2
milliards dinternautes), des
smartphones (7,3 milliards
en 2014), des tiquettes RFID,
tweets (7 To par jour), de
Facebook (500 To par jour),
des camras, des capteurs et
autres senseurs. Et plus de
75% de ces informations ne
sont pas structures ou
seulement semi-structures.

Doug Cutting, pre dHadoop (Source_Cloudera)

HADOOP 1
LA NOUVELLE STAR
DE LANALYTIQUE EST NE
Depuis quatre cinq ans, le framework open
source Hadoop est devenu synonyme de Big
Data. Mme si au dpart, il neffectuait que des
traitements par lots (en batch) et donc en diffr.
Les raisons de ce succs? Premire raison: la
possibilit dutiliser moindre cot des algorithmes open source conus pour fonctionner
sur des serveurs x86 standard, et capables de
rpondre trs rapidement des questions en
analysant jusqu plusieurs ptaoctets dinformations. Et surtout une simplicit (relative)
dutilisation et de dploiement indite.
Enfin, Hadoop combine lutilisation de technologies de pointe trs apprcies ou trs innovantes: paralllisation des traitements, clustering, traitement et donnes sur un mme nud
dans une infrastructure distribue, fiabilit par
rplication des informations, etc. Et avec la version 2: In-Memory, temps rel, haute disponibilit amliore Des technologies enfin porte budgtaire des PME.
Enfin, outre les problmes de volumes difficiles
analyser avec les technologies classiques,
Hadoop permet denvisager la collecte et le
traitement de donnes en volume comme lInternet des objets et les multiples capteurs et
senseurs, le RFID, les tweets, etc.
10 ans: des origines de MapReduce Hadoop 2.x
Pour apprhender ces technologies, un petit
historique simpose. Fin 2004, Jeffrey Dean et
Sanjay Ghemawat employs chez Google pu-

En bref, ils expliquent concrtement comment


cet algorithme distribu utilise des serveurs
x86 standard en cluster pour parallliser des
traitements dans le but danalyser en un temps
record un trs grand volume de donnes de tout
type. luvre chez un moteur de recherche
dj plus que prometteur lpoque. Bien entendu, MapReduce repose sur le systme de
gestion de fichiers en clusters GFS (Google File
System).
cette poque, Doug Cutting (ex-employ
du moteur de recherche Excite, dApple et de
Xerox Park) mne le projet dindexation Apache
Lucene (bibliothque open source Java pour indexer et rechercher du texte), et son utilisation
dans son moteur de recherche Nutch. Il voit
dans cet article la possibilit de rsoudre les
problmes de masses de donnes de Nutch.
Jusquen 2006, il intgre MapReduce et un systme de fichier distribu DFS son moteur. Il
entre alors chez Yahoo et cre un framework
regroupant MapReduce et DFS quil baptise
du nom que son fils donne son lphant en
peluche jaune: Hadoop. Le logo sera cr par
un ami graphiste. En juin 2009, Yahoo rend le
code source dHadoop public via un projet de la
fondation Apache.
Au-del de MapReduce et HDFS (Hadoop distributed file system), de nombreux modules
viendront complter Hadoop, dont les principaux sont devenus des projets Apache part
entire (top-level), parmi lesquels: HBase (mai
2010), Hive et Pig (septembre 2010), ou encore
Zookeeper.
La version 1.0.0 du framework est disponible
fin dcembre 2011.
En octobre 2013, Hadoop connat une volution
majeure de son infrastructure avec la version
2.2.0 qui ouvre ce framework les portes du
temps rel, de lextensibilit fonctionnelle, du
In-Memory, de lenvironnement Windows, etc.
Le centre nvralgique HDFS et MapReduce
Le cur dHadoop 1 est compos de deux modules majeurs.
Inspir de Google File System et dvelopp en
Java, HDFS (Hadoop Distributed File System)
sexcute au-dessus du systme de gestion de fichiers de chaque nud dun cluster. Un nud o
sont stockes les donnes (et excuts les traitements qui les concernent) sappelle un datanode.
HDFS stocke linformation sous forme de blocs

Le Namenode: mmoire et cerveau ordonnateur dHDFS

25

Hadoop (64 Mo par dfaut, 128 recommands).


En tant que fichier du serveur, un bloc Hadoop
occupe physiquement plusieurs blocs. Si un
fichier ou une partie de fichier est plus petit
quun bloc Hadoop, sa taille sajuste.
Chaque fichier est dcoup en blocs Hadoop
rpartis sur des datanodes diffrents, et une ou
plusieurs copies de chaque bloc sont enregistres sur des Datanodes diffrents. Une capacit qui assure une tolrance aux pannes apprciable. Un serveur appel Namenode gre
toutes les mtadonnes des blocs Hadoop et
sait donc les retrouver.
Certains diteurs traditionnels ou pionniers Big
Data remplacent HDFS par leur propre systme
de gestion de fichiers distribu.

rduit en effectuant une opration sur les


valeurs associes chaque cl (montant total,
nombre doccurrences, etc.).

le tout dans Hadoop la manire dune base


de donnes classique, permettant slections,
jointures, agrgats Hive compile les requtes
en jobs MapReduce qui les excute sur Hadoop.

Quelques briques de ldifice Hadoop

Zookeeper a t conu sur la base du logiciel


Chubby de Google. Il propose une gestion centralise de configurations pour grands systmes distribus aussi bien des machines physiques que des services applicatifs Hadoop. Il
permet de suivre et de maintenir ltat des services distribus (comme MapReduce ou Hbase)
pour les rendre consistants.

MapReduce 1 assume plusieurs rles. Il gre et


alloue aux applications les ressources du cluster, et excute les traitements appliqus aux
donnes.
Lorsquune requte est adresse Hadoop,
elle est prise en main par un JobTracker qui
coordonne les traitements entre Map et Reduce
et assure le suivi des tches. Il distribue les
processus parallliss aux Task Trackers sur
les nuds du cluster Hadoop en optimisant les
changes.
La fonction Map divise la demande initiale en
squences (cl, valeur) auxquelles vont tre
appliqus le ou les traitements en parallle
(vitesse optimale). Chaque tche Map renvoie
un rsultat (cl-valeur). Puis un traitement
(Shuffle & sort) remanie les rsultats pour regrouper ceux qui ont la mme cl.
La fonction Reduce prend ces rsultats et les

Pig a t conu pour simplifier lutilisation des


API MapReduce exigeant de bonnes connaissances Java. Yahoo a cr la plateforme de traitement de donnes Pig et son langage Pig Latin
(projet Apache). Efficace et simple, le langage
Pg Latin (proche du scripting) permet dcrire
des applications excutes sur Hadoop (runtime Pig) sans passer par MapReduce. Le dveloppeur charge les donnes, y compris dune
source externe vers le cluster Hadoop, et les
manipule.

MapReduce, JobTracker et HDFS dans le bateau Haddop

HBase est un systme distribu de gestion


de bases de donnes NoSQL en colonnes.
Projet Apache, il est n suite aux publications
de Google sur Big Table en 2006. Install sur
HDFS. Il fonctionne en mode cluster, est horizontalement volutif et tolrant aux pannes. Le
mode colonne rduit les accs des index et le
nombre daccs disque. Donc performant pour
lanalytique.

Hive - Conu chez Facebook, ce projet Apache


ouvre Hadoop au SQL afin de simplifier la manipulation des donnes avec une syntaxe trs
proche du SQL (HiveQL). Hive offre des outils
dentrept de donnes (datwarehouse): extraction, transformation et chargement dinformations provenant de diverses sources. Il stocke

26

Des manques importants fragilisant Hadoop 1


Malgr lemballement gnral, Hadoop 1 souffrait de multiples carences, qui ont fait hsiter
grand nombre dentreprises. Parmi lesquelles:
le serveur Namenode ntait pas prvu pour
tre rpliqu, le transformant en talon
dAchille de la plateforme;
pas de partage entre les jobs (MapReduce
et autres);
volutivit limite: un seul JobTracker par
nud et un maximum de 4000 nuds par cluster;
en cas de panne, toutes les tches taient
supprimes (en cours ou en attente);
le temps rel et le streaming ntaient pas
possibles;
les mises jour dinformations savraient
complexes, risques, voire impossibles;
la supervision tait encore primaire, et la
gouvernance quasi inexistante.
Toutefois, les diverses communauts mobilises sur et autour dHadoop se montrent trs
actives et linnovation sacclre. Comme le
prouve la version de rfrence Hadoop 2.2.0 publie en octobre 2013 par la fondation Apache.

Comment Map et Reduce collaborent

LA REVOLUTION HADOOP 2
Plus quune autre version corrigeant des
manques, Hadoop 2 modifie son architecture
pour plus de scurit et douverture: haute disponibilit, temps rel, streaming ou encore au
In-Memory.
Naissance de Yarn et rduction de MapReduce
volution majeure: les deux fonctions de
MapReduce sont dcouples. Dsormais, la
gestion des ressources du cluster est assure par la nouvelle couche Yarn ((Yet Another
Resource Negotiator). MapReduce se contente
de grer les travaux de types batch. Une
amlioration qui noblige plus passer par
MapReduce pour accs aux donnes en mode
parallle.
Yarn propose une nouvelle architecture. Depuis
un nud matre, le Resource Manager (RM) orchestre lensemble des ressources du cluster
et arbitre entre les applications ncessitant des
ressources. Sur chaque nud esclave, un Node
Manager communique avec le RM.
chaque demande, Yarn gnre un container
(mmoire+CPU) sur un nud esclave, gr
par un Application Master. En cas de besoin,
dautres containers peuvent tre crs pour
cette application, mais lApplication Master
gre seul tous les containers de lapplication.
Et le Resource Manager supporte Kerberos.
Avec Yarn, il devient possible dajouter des modules applicatifs autres que MapReduce pour
accder aux donnes. La plateforme devient
donc extensible.
Et surtout, plusieurs moteurs applicatifs de
diffrente nature (batch, interactif, temps rel,
streaming) peuvent sexcuter simultanment sur un mme jeu de donnes.

Hadoop 2 modifie
son architecture pour
plus de scurit et
douverture: haute
disponibilit, temps rel,
streaming ou encore
au In-Memory.

Configuration rpandue dHadoop 1

Une gestion des fichiers amplement amliore


HDFS 2 bnficie aussi damliorations,
mme si certaines existaient dj dans des
distributions Hadoop:
- possibilit de plusieurs Namenodes (donc
namespaces) non lis sur le stockage, avec
journalisation globale partage pour de la
haute disponibilit,
- cration de snapshots en lecture seule ou
en lecture/criture,
- HDFS peut devenir un disque partag banalis sur le rseau via NFS v4,
- compatibilit HDFS 1,
- fichiers de steaming gr par HDFS,
etc. Enfin, Hadoop2 supporte dsormais
Windows Server et Windows Azure, donc
ouverture plus de comptences.
Petit panorama de quelques modules Hadoop 2
Le projet Apache Tez offre un framework
pour concevoir sous Yarn des applications
batch ou interactives.
Pig conserve sa fonction de scripting de
flux de donnes, mais na plus besoin de
MapReduce (en passant par Tez). De mme
Hive -via Tez- reste la rfrence pour le SQL
sous Hadoop. Tez apporte ventuellement

27

une dimension interactive.


Storm est un systme informatique temps
rel distribu, rsolvant en grande partie les
problmes de latence sur Hadoop. Avec tout
langage, le dveloppeur utilise ce framework
rapide, volutif, tolrant aux pannes (Storm relance les tches arrtes), simple utiliser et
dployable en moins dun jour. Il sinstalle sur
Yarn, temps rel oblige!
Avec Apache Spark, Hadoop peut bnficier
du In-Memory. Directement pos sur Yarn, ce
service de type MapReduce acclrerait jusqu
100 fois les traitements. Ses fonctions permettent de charger de jeux de donnes en mmoire dans le cluster et dy effectuer des traitements rptitifs, par exemple. Il est galement
compatible avec lAPI de stockage dHadoop.
Solr amne la fonction de recherche plain-text
et plus volue aux donnes Hadoop. Cette
plateforme repose sur le moteur Lucene (avec
lequel elle a fusionn en 2011). CNet Networks
la offerte la fondation Apache.
Fiable, tolrante aux pannes et volutive, Solr
propose de nombreuses innovations: indexation quasi-temps rel, API ouvertes XML, JSon
et HTTP, statistiques serveur (avec exposition
JMX), index autorpliqu, reprise sur incident
Directement interfac avec Yarn.

Une architecture plus flexible et optimise

Sans oublier: scurit, administration et


gouvernance
Slection de quelques modules apportant ces
indispensables dimensions pour une solution
dentreprise.
La passerelle de scurit Apache Knox (API
Rest) fournit un point daccs unique pour
toutes interactions Rest/Hadoop. Il propose
la gestion sur toute la plateforme Hadoop de
lauthentification (LDAP et AD), de la fdration
SSO, des autorisations aux services, de laudit, etc. Il gre les autorisations en workflow
et vrifie les jetons dauthentification (rgles).
Complte les mesures de scurit existantes
dans Hive, HDFS, etc.
Ambari joue un rle majeur dans lexploitation
et la supervision Hadoop. Une palette dj impressionnante: gestion de la configuration fine
des services (et dploiement en cluster), supervision des machines du cluster (possibilit
de dcommissionnement, etc.), tableau de bord
global (tat de services et excutions), gestion des habilitations (compatible LDAP), gestions des jobs avec vues agrges et timelines
(+tracking utilisateur), audit, etc.
Apache Oozie est un outil de workflow pour
planifier et coordonner les jobs sous Hadoop.
Cette application Web Java peut combiner squentiellement plusieurs jobs sur une seule
unit logique. Intgr la stack Hadoop, il sup-

Hadoop 2 souvre tous azimuts

porte entre autres MapReduce, Pig ou encore


Sqoop, mais aussi des applications Java ou des
scripts shell.
Falcon (incubation Apache) vise simplifier la
gestion des donnes et de leur cycle de vie,
dcouvrir les schmas de donnes et les traitements associs, offrir la rutilisation de ces
rgles ralises sans codage Bref, une gouvernance des donnes sur cluster Hadoop.
Projet Apache initi par Cloudera, Flume collecte, agrge et transfre sr Hadoop de gros
volumes de donnes (logs, vnements, etc.).
Lcriture de ces informations sur HDFS est ralise au fil de leau.
Apache Sqoop permet de rcuprer des donnes structures dans des bases de donnes
ou des datawarehouses pour les dplacer sur
un cluster Hadoop. Ensuite, il peut effectuer
des oprations en les corrlant avec des informations semi ou non structures sur Hadoop.
Enfin, il renvoie un rsultat structur au format
des SGBD source.
Ce panorama de quelques outils illustre les
grands progrs raliss par Hadoop en trois
ou quatre ans pour transformer cette plateforme en relle solution dentreprise: robustesse, volutivit, administration, scurit, gouvernance, disponibilit, stockage De plus en
plus dexperts parlent (plus ou moins ouvertement) dHadoop comme stockage de rfrence
des donnes, y compris pour les traitements
transactionnels. Et la notion de Data Lake reprise par nombre de spcialistes semble bien
aller dans ce sens.
Dailleurs, le ralliement de nombreux projets
Hadoop de tous les gants de linformatique
(voire leur financement des pionniers Hadoop
en dizaines de millions de dollars) nest-il pas
rvlateur ?

28

Projets

Apache Giraph est un projet pour raliser des


oprations sur les graphes (sommets et liens),
comme sur les rseaux sociaux (contacts, niveaux de proximit, etc.) de type Facebook,
Twitter, LinkedIn ou Viadeo. Giraph est parti
dun article publi par Google sur son systme
de Graphes appel Pregel.

29

Projets

UN PROJET HUMANITAIRE: LE DVELOPPEMENT


CONOMIQUE ET LE BIG DATA
UNITED NATIONS Global Pulse

Nous parlions au dbut de ce guide des nombreux projets mens par


le gouvernement amricain et de leur ampleur.
On voquait aussi les ambitions de ladministration franaise.
Voici ici la preuve quune instance, quelles que soit sa taille et sa
complexit, peut initier des projets Big Data puissants et efficaces.
Au sein des Nations Unies est n il y a quelques annes un beau
projet qui sappuie entirement sur des technologies Big Data.
Global Pulse, initi en 2009, vise promouvoir
ladoption du Big Data des fins daide au dveloppement et de projets humanitaires. Le projet
permet notamment de fournir une analyse en
temps rel de lavancement des programmes
daide au dveloppement dans le monde, de leur
efficacit et de leurs retombes. Il est n de la volont du secrtariat gnral des nations unies de
faire connatre lanalyse des donnes massives
comme un outil puissant pour le dveloppement
conomique. Cest aussi une nouvelle approche
pour le secteur humanitaire, peu habitu des
moyens supposs onreux et rarement associ
aux nouvelles technologies. Sengager dans des
programmes humanitaires, viser amliorer le
niveau de vie de populations en situation de crise
ou appuyer le dveloppement dun pays en retard
est une lourde tche qui gagnerait normment
connatre ses points dchec et de russite. Si on
peut mesurer, monitorer en temps rel et mme
prdire le chiffre daffaires dune socit, on doit
tout aussi bien pouvoir valuer le degr de russite dune action humanitaire. Non pas des fins
conomiques. Cest lefficacit qui est vise. Un
mme budget idalement rparti apportera un
meilleur appui au projet men. Les Nations Unies
se positionnent l en plateforme dinnovation
en quelque sorte. Lobjectif est de permettre le
partage dinformation et dacclrer lutilisation
du Big Data dans les programmes quils soutiennent.
Concrtement, Global Pulse fonctionne comme
un rseau, o est conue et coordonne linnovation. Diverses entits des Nations Unies
sont sollicites pour y participer, ainsi que les
gouvernements, universits et les entreprises
prives souhaitant apporter leur expertise en
recherche et dveloppement. Le concept sappelle BD4D, Big Data for Development.

Le projet est n de la
volont du secrtariat

Lide part dun constat assez simple: lvolution du niveau de pauvret, les conditions de
vie et les crises conomiques sont analyses
gnralement a posteriori. Avec un certain
nombre dindicateurs, on dclare par exemple
que le niveau de pauvret sest aggrav dans
une rgion donne. Or de nos jours, et ce mme
dans les zones les moins dveloppes, les nouvelles technologies ont envahi le quotidien,
lconomie et les administrations. Chaque jour,
en continu, les individus et institutions produisent des signaux digitaux sur les modes de vie. Les rseaux sociaux par exemple,
peuvent reflter les tats desprits dun pays ou
dune communaut. Le niveau dpargne et son
volution traduisent la sant conomique des
mnages mais aussi leur confiance en lavenir. Les mots-clefs entrs sur les moteurs de
recherche peuvent rvler des tendances, des
mouvements sociaux voire mme des pidmies. On se rappelle de lexemple en France de
lpidmie de grippe dbut 2014, prdite par le
gouvernement mais contredite par la socit
Celtipharm.
Grce au Big Data, Global Pulse encourage
lanalyse de ces signaux, qui, observs en
temps rel, fournissent un rel baromtre du
dveloppement au niveau mondial. Chaque action humanitaire ou daide au dveloppement
peut bnficier dun feedback immdiat. Les
projets peuvent alors tre adapts, amliors,
recadrs.
Robert Kirkpatrick, le directeur de Global
Pulse, explique que linitiative est ne suite
aux dbuts de la crise financire mondiale. La
propagation grande vitesse des effets de la
crise a alors prouv au monde entier limportante interconnexion de nos conomies et de

Onion

gnral des nations


unies de faire connatre
lanalyse des donnes
massives comme un
outil puissant pour le
dveloppement .
30

nos systmes dinformation. Paradoxalement,


la majorit des tudes statistiques de lpoque
utilisaient des chiffres datant de deux ou trois
annes. Mme le secteur priv, alors quil est
le principal gestionnaire de ces donnes, est
encore difficilement capable de les traiter en
temps rel. Global Pulse a donc voulu rpondre
cette ralit du Big Data et encourager le secteur humanitaire semparer de cet outil extrmement puissant.
De nombreux projets, partenariats et analyses
diverses sont alors ns de Global Pulse. Par
exemple, les quipes se sont rcemment demand si Twitter pouvait tre un bon indicateur
de lvolution du prix de biens de consommation. Ayant choisi de se concentrer sur lIndonsie, un pays qui se classe parmi les cinq premiers foyers dutilisateurs Twitter au monde,
Global Pulse a test cette thorie.
Avec laide du World Food Program et de
Bappenas (Ministry of National Development
Planning, Republic of Indonesia), Global Pulse a
ainsi initi le projet Pulse Lab Jakarta. Trois produits de consommation parmi les plus populaires
ont t slectionns: loignon, le buf et le poulet. Les quipes ont alors recherch sur Twitter
les allusions au prix de ces trois aliments, observant leur volution et vrifiant lhypothse dune
influence et corrlation entre le prix de ces produits dans le temps. Le prix du poulet au jour J
influerait donc son prix au jour J+1.
Pour chacun de ces produits, Pulse Lab Jakarta
construit un modle et fournit un graphique superposant: le prix tel que le modle le dtermine
(avec laide du prix relat sur Twitter), le prix tel
que ltat dclare quil est, et le nombre de Tweets.
La conclusion? On peut, priori, prvoir le prix
dun bien de consommation grce Twitter.
Les exemples du buf et du poulet ont surtout
prouv quun pic dactivit sur Twitter correspondait une hausse de prix.

UN PROJET CULTUREL: LE DATA JOURNALISME POUR LES


FLUX MIGRATOIRES EN EUROPE
THE MIGRANT FILES - Entretien avec Nicolas KAYSER-BRIL, CEO and Founder, Journalism++

Aprs avoir dirig le data journalisme chez OWNI, Nicolas


KAYSER-BRIL a cofond Journalism++, avec comme optique de faire
parler les donnes des fins journalistiques.
Le projet The Migrant Files, publi le 31 Mars dernier, montre la
ralit des accidents, dcs et disparitions survenues loccasion
de migrations aux frontires de lEurope.

Retrouvez la
vido anime de
Global Pulse

Voir lintgralit
de linterview de
Robert Kirkpatrick

Dcouvrez en
visualisation
interactive les
rsultats du projet
Pulse Lab Jakarta

Les donnes utilises proviennent de sources


diverses, issues pour les deux tiers dONG,
darticles de presse rcuprs via United ou
Fortress et de plus de 15 journalistes relais.
Le tiers manquant provient de sources ajoutes par les quipes de Journalism++. Ces donnes, non structures pour la grande majorit,
sont agrges, classes puis traites par un
programme dextraction spcifique. Alors que
jusqu prsent de nombreuses donnes restaient inutilises de par leur diversit, complexit et multiplicit, The Migrant Files permet
de les runir et den tirer des conclusions les
plus exhaustives possibles.
Frontex, lorganisme europen issu du trait
dAmsterdam de 1997, est charg de mutualiser les informations et damliorer les procdures de gestion des frontires, flux de biens,
personnes, services et capitaux. Il agrge entre
autres la dtection des tentatives dimmigration, les dcs, checs, reconduites la frontire, demandes de droits dasile Le Frontex
a ainsi dfini 8 zones gographiques autour
de lEurope, aux caractristiques semblables.
The Migrant Files sest appuy sur ces donnes
et a observ en dtail lactivit de ces 8 zones
frontalires. La qualit des donnes subit une
marge derreur de 10% environ. The Migrant

Carte ralise par Sydsvenskan, un quotidien de Malm, traduite par El Confidencial

31

Files considre les vnements survenus


aux frontires, chaque vnement reprsentant
une disparition ou un mort. Un unique vnement est caractris par plus de 20 points de
donnes, toutes issues des sources prcdemment numres.
Daprs les premires conclusions de ltude,
on peut estimer le nombre de migrants dcds aux frontires europennes entre 30 000
et 50 000 depuis lan 2 000.
Le chiffre est impressionnant et rvlateur de
nombreux dysfonctionnements et contradictions
des Etats-Membres de lUnion Europenne. Si
The Migrant Files a t relay dans la plupart
des pays de lUE, via des mdias tels Le Monde
Diplomatique, LEspresso, El Confidencial, et
plus de 50 articles, les conclusions en sont
ce jour relativement peu utilises dans le cadre
gopolitique ou juridique.
Certains politiciens sy sont intress, autant
au niveau national qu lchelle de lUnion,
mais aucun na lobligation de mesurer ou
prendre en compte ces chiffres.
Ce que rvle galement The Migrant Files,
cest la dangerosit de certaines zones par
rapport dautres. La zone de Lampedusa par
exemple, est tristement clbre pour la mortalit des migrants qui tentent dy passer. Le

programme Mare Nostrum initi la suite de


plusieurs naufrages meurtriers survenus en
Octobre 2013 est lune des plus grandes actions humanitaire et militaire sur le sujet et
est mise en place par lItalie. Les donnes
analyses par The Migrant Files confirment la
dangerosit de cette zone, mais ce qui donne
un nouveau visage limmigration en Europe,
cest la possibilit de pouvoir comparer tous
les points dentre, sur la base de donnes similaires. La carte montre ainsi que Gibraltar et
les les Canaries par exemple sont elles aussi
des zones fort risque.

politiques migratoires au cours des annes.


Lexemple de la frontire turco-grecque est significatif: alors que les politiques nationales
avaient, il y a quelques annes, eu pour objectif
de rduire les flux par le Bosphore, The Migrant
Files rvle que les migrants ont ouvert une
nouvelle route dans les annes qui ont suivi,
privilgiant les les de la mer ge. Ce trajet
de substitution est en ralit plus meurtrier
que le prcdent. Les dcisions de politiques
de gestion des frontires pourraient donc tre
analyses par le biais de la donne, ouverte,
disponible pour tous et entrant en compte dans
lquilibre recherch par lUnion Europenne.

Lautre force de The Migrant Files, qui est


mettre en relief avec une vision journalistique,
est la possibilit deffectuer une analyse temporelle. Car si analyser les flux au temps-T a
du sens, observer les volutions dans le temps
apporte un regard plus fin sur limpact des

CLANDESTINS, LES MIGRANTS?


Remarquons qu aucun moment
The Migrant Files ne parle dimmigration clandestine.
Nicolas Kayser-Bril nous explique
pourquoi : les migrations ne sont
pas clandestines. On devient migrant
en situation irrgulire uniquement
lorsque la demande dasile a t
rejete. Aucun migrant qui traverse
par voie de terre ou voie de mer
nest clandestin, ils sont tous dans
le cadre du droit international fix
par la convention de Genve de
1951, ratifie par tous les tats
membres de lUnion.
Visitez la
plateforme
The Migrant Files

UN PROJET DE LUTTE CONTRE LA FRAUDE: LA DTECTION DE


LA CONTREFAON EN LIGNE
BRAND WATCHDOG - Entretien avec Zouheir GUEDRI, CEO, Data & Data

Anciennement directeur du conseil chez PWC, Zouheir Guedri est


un passionn de la data. Cest donc avec entrain quil a conu et
particip la mise en fonctionnement, depuis avril2014, dun outil
de dtection de la contrefaon.

Selon lOCDE,
le march de la
contrefaon en ligne
connat plus de 25%
de croissance annuelle
depuis 2010.

Dans un premier temps destine aux plus


grands acteurs du secteur du luxe, la solution
est voue ds septembre 2014 servir le secteur pharmaceutique, et se dvelopper dans
dautres sphres par la suite. Le principe?
Screener internet et les rseaux sociaux, la
recherche darticles contrefaits. Cest comme
un Google invers explique Zouheir Guedri.
Loutil ncessite la construction dalgorithmes
spcifiques, adapts chaque secteur et typologie de produits. Pour le luxe, le premier
constat tait que les techniques traditionnelles
qui consistent comparer un certain nombre
de points ne suffisaient pas identifier efficacement les sources frauduleuses. La photo nest
pas un indicateur fiable, puisque de nombreux
sites de contrefaon affichent la photo issue du
site de la vraie marque, le prix de vente peut
tre un indice, mais ce nest pas systmatique,
alors que lanalyse de la source du site web,
son service client, sa licence, etc, est souvent
rvlateur. En moyenne et pour chaque source
identifie, plus de 300 points de mesures sont
32

marchands plutt que sur les rseaux sociaux.


Pour le secteur du luxe, les quipes ont pu
constater quun seul et mme rseau de sites
frauduleux pouvait effectuer jusqu 10 Millions
de dollars de chiffre daffaires sur un mois.
Dans certains cas, il se rvle plus intressant
de laisser libre court aux activits illicites dun
site afin de pouvoir observer, mesurer et ensuite justifier auprs des autorits le montant
du prjudice. En peine un mois, la plateforme
a ainsi pu valuer plus de 140 Millions deuros
de prjudices. La suite est donc prometteuse
Cependant, certaines marques ne souhaitent
pas mener daction juridique, et ont comme
unique objectif de stopper toutes les sources
identifies. L encore, tout est une question de
stratgie.
En dfinitive, les 2 lments clefs de ce projet
sont la possibilit de mener une surveillance
et denclencher une riposte systmatique, et la
prise en compte des mdias sociaux.

analyss, partir dune douzaine de mdias


sociaux les plus frquents et de lensemble
du web. Le rsultat est donc relativement exhaustif, en plus de bnficier de traitements en
temps rel.
Avant le Big Data et les possibilits offertes par
le cloud, seules des structures telles Google ou
Yahoo pouvaient faire ce type de traitements.
Lachat despace de stockage adapt aux besoins, en toute flexibilit, permet des startups dimplmenter des outils de type Big Data
sans se heurter la barrire financire.
Lide ici est didentifier les rseaux, de tracer la
cartographie et de voir les nuds avec les sites
cachs derrire une filire de distribution darticles contrefaits. Laction suivre est dfinie au
cas par cas, selon la stratgie de la marque, qui
peut soit souhaiter dnoncer lhbergeur, avertir les autorits, ou simplement notifier le pro-

pritaire du site. Cette stratgie est modlise


sous forme de rgles, revues en moyenne une
fois par mois au dbut, puis systmatise par la
suite. Lobjectif tant de se laisser le temps de
connatre les retombes, analyser les sources,
la faon dont est utilis le rseau, pour pouvoir
dfinir une stratgie adapte.
La question qui vient alors est celle de la rentabilit et de lintrt rel de cette pratique: la
contrefaon en ligne reprsente-t-elle rellement une part importante du parasitage du
chiffre daffaires? Selon lOCDE, le march de
la contrefaon en ligne connat plus de 25% de
croissance annuelle depuis 2010. Les mdias
sociaux reprsenteraient eux seuls jusqu
90% de ce trafic. Mais l encore tout dpend
de la marque et de larticle concern, qui peut
parfois tre davantage reprsent sur des sites

Si ce jour lutilisation vise les secteurs du


luxe, des cosmtiques et de la pharmacie, il
parait assez vidant que de nombreux acteurs
pourraient vouloir dupliquer lide. Et le secteur priv nest pas le seul concern: les services des douanes envisagent lutilisation de ce
type doutil hyperpuissant pour loptimisation
de leur fonctionnement, qui doit dsormais
prendre en compte limportance de la contrefaon virtuelle et construire les passerelles
entre la dtection des sources frauduleuses
et la confiscation des marchandises aux frontires, aujourdhui de plus en plus virtuelles
elles aussi.
Dans le domaine industriel, lexemple, devenu
quasi historique aujourdhui, de la pice contrefaite lorigine de laccident du Concorde, ouvre
de nombreux champs pour la qualit et la scurit dans des secteurs forts enjeux.
une chelle beaucoup plus large et sinscrivant dans la dynamique open data, on peut
galement simaginer rver une plateforme
en accs libre, gratuite, fonctionnant tel un
moteur de recherche, qui permettrait linternaute de vrifier lindice de fiabilit dun site
marchand quil visite.

UN PROJET DANS LE SECTEUR AUTOMOBILE:


LASSURANCE VOLUTIVE
PROGRESSIVE

Lassurance est un secteur hautement comptitif et crucial pour


ses consommateurs. Choisir, contracter, adapter ou rsilier son
assurance peut parfois relever du parcours du combattant. Encore plus critique, lassurance automobile est souvent considre
comme chre voire inaccessible. Le systme des malus et la prise
en compte des antcdents du conducteur ajoutent une barrire
lentre, au-del de tarifs parfois prohibitifs. Le mtro Parisien
est dailleurs depuis plusieurs annes frquemment orn de publicits attirant lil dautomobilistes a priori dlaisss par le systme classique des assurances. Un crneau existe, une nouvelle
approche est attendue.

33

Quel rle joue ici le Big Data? Alors que les


capteurs, systmes de golocalisation et autres
technologies mobiles se multiplient, lassurance automobile voit son nouveau modle conomique se profiler. Jusqu prsent, le montant dune prime tait dtermin par quelques
facteurs basiques, facilement identifiables et
prdtermins. Puissance du moteur, nombre
de kilomtres de la voiture, modle, ge du
conducteur, nombre dannes de permis

Grce au Big Data,


les compagnies
dassurance peuvent
dsormais obtenir,
en temps rel, des
informations relles
sur le type de conduite
de leurs assurs.
Grce au Big Data, les compagnies dassurances
peuvent dsormais obtenir, en temps rel, des
informations relles sur le type de conduite
de leurs assurs. Cette personne roule-t-elle
souvent au-dessus de la limitation de vitesse?
Celle-ci grille-t-elle souvent les feux? Combien
de temps conduit-elle en moyenne par jour? Y
a-t-il eu une volution dans son type de conduite
rcemment? Vient-elle de se localiser sur
Facebook dans un bar et donc a-t-elle des
risques de conduire alcoolise?
Tant dlments qui fournissent une analyse
beaucoup plus fine du profil auquel la compagnie est confronte.
En 2011, la socit Progressive a cr la surprise en lanant son service dassurance auto
Pay As You Drive. Littralement, cela signifie que lautomobiliste voit le tarif de son

assurance sadapter son type de conduite.


Le prrequis? Accepter linstallation de capteurs et systmes de tracking sur sa voiture
Snapshot en loccurrence. videmment, on
peut trouver le principe extrmement intrusif.
Comment garantir que la compagnie dassurances nalertera pas la police si lautomobiliste dpasse la vitesse limite? Ce ne sont pas
ses prrogatives.
Du ct de lassur, on peut voir les choses avec
enthousiasme. Un jeune conducteur, selon les
critres classiques relativement mal accueilli
par les compagnies dassurances, peut se rvler tre un conducteur beaucoup plus prudent
quun automobiliste expriment nayant apparemment jamais eu daccident majeur. Chez
Progressive, ce jeune conducteur prsentant
une attitude dite idale, verra la compagnie
lui offrir des rductions sur le tarif quil paye.
linverse, lautomobiliste risque devra sacquitter de sanctions tarifaires. Lintrt pour
Progressive? Le jeune conducteur est, statistiquement, un automobiliste qui ne lui cotera
pas cher en remboursements et couvertures.
Lautre est plus enclin engendrer des frais
importants pour la socit. Et si lautomobiliste
tax se trouve tre mcontent du traitement qui
lui est rserv, il peut toujours changer dassurance. Pas de perte majeure pour Progressive,
qui conserve son assur rentable et clt le
compte dun client risque.
Au-del de laspect montaire, le monitoring
de la conduite permet aussi la socit de
mettre disposition de ses assurs un outil de
suivi. Chacun peut, presque en temps rel et
avec une traabilit, observer lvolution de son
type de conduite. Un automobiliste bien intentionn disposera alors dun moyen efficace de
mesurer si ses efforts sont efficaces, o il doit
samliorer et comment.

UN PROJET DANS LE SECTEUR DES LOISIRS:


LES COMMUNAUTS VIRTUELLES
X-FIELD PAINTBALL - Entretien avec Sbastien MUNIER, Directeur Gnral, PCB TEAM

Sbastien Munier nest pas un expert du Big Data. Lide de sa


socit est venue avec son associ, Fabrice Tron, il y a environ 2
ans. Fabrice et Sbastien sont des entrepreneurs du numrique,
tous deux ayant eu de prcdentes expriences en agences web.
Ils ont donc pendant longtemps rpondu aux problmatiques
numriques de leurs clients.

Finale du championnat Europen (Millennium Series) Chantilly, monde rel.

Action identique dans le jeu.

34

Progressive nest pas la seule compagnie


proposer ce type dassurance, qui se dveloppe dsormais largement en Amrique
du nord. Certaines critiques et tmoignages
danciens assurs dnonant les pratiques de
Progressive ont quelque peu entach limage
du pionnier de lassurance Pay As You Drive.
Cette approche traduit cependant lavenir de
lassurance automobile, en fortes probabilits.

LE MODLE DE PROGRESSIVE,
EXPLIQU EN 3 TAPES
SES CLIENTS:
PLUG - DAY 1

The Snapshot device fits


right into a little port in your
car, generally located
below the steering wheel.

DRIVE - DAYS 1-30

We look at your driving habits


to see if you could be saving
more. You can track your
projected savings online.

SAVE - DAY 31
Now your rate is fully
personalized; any
discount you earned is
in full effect. Simple!

En 2007, Fabrice travaille sur Second Life, un


univers entirement virtuel, recrant une socit entire, avec ses individus, associations,
hommes politiquesle tout en 3D. Cest le premier tre lablis en Europe par Linden Lab,
lditeur Californien de Second Life pour linsertion de marques au sein de la plateforme.
Ils travaillent alors avec de nombreuses entreprises du CAC40, qui peroivent rapidement
leur intrt tre prsent sur ce type de support virtuel. Les marques profitent de ce nouveau lieu de rencontre pour faire connaissance
avec leurs clients, de faon virtuelle mais cible, par affinits communautaires. La puissance du modle est dautant plus forte que de
nombreux utilisateurs se sont rellement pris

volume dinformations rcoltes 3 millions


dutilisateurs ultra-qualifis en un temps record, incluant la golocalisation et permettant
la dtection de lead, requiert lutilisation de solutions Big Data.
Un exploitant de terrain par exemple, pourra
bientt via une plateforme de golocalisation
reprer les pratiquants rpondant un certain
profil dans son entourage au temps-T, les cibler, les adresser via un systme de RTB et les
attirer vers son terrain. Le business est alors
classique: la marque ou le terrain transmet un
push proposant une offre promotionnelle ses
leads.
Daprs Sbastien, deux types de pratiquants
sont cibler: les fans du jeu dans le rel et
les fans de jeux vido au sens large, qui pourront prendre got X-Field et finalement aux
terrains de paintball rels. Lobjectif est l
dlargir la communaut autant que possible,
moindre cot et le plus rapidement possible.

Un des terrains les plus rputs au monde: SC Village, Los Angeles, Californie.

Le deuxime projet le plus abouti de PCB Team


est celui concernant la communaut du camping. En France, lhtellerie en plein air reprsente 38 millions de rservations par an. La
promesse de la socit est de permettre la
communaut des campeurs de personnaliser
et vivre ses vacances plus intensment.
Et sa reprsentation dans le jeu (positionnement exact des obstacles via Google Earth)

au jeu, recrant leur univers rel jusqu rpliquer leur mobilier lidentique. Les marques
prsentes sur la plateforme avaient donc des
informations prcieuses sur les gots de leurs
potentiels clients.
Suite cette exprience, Fabrice et Sbastien
ont eu lide dexploiter cet univers des communauts. Savoir reconnatre des groupes de
personnes avec une affinit commune, les capter, dvelopper la communaut et la montiser
auprs de marques lies deviendrait leur nouveau business model.
Concrtement, PCB Team a actuellement trois
projets en cours, chacun centr sur un centre
dintrt prcis: le paintball, la musique lectronique et le camping.
X-Field Paintball est le premier projet quils
ont dvelopp, et le plus abouti. Si le secteur
peut paratre surprenant, il faut tout dabord
noter que la communaut des passionns de
paintball reprsente plus de 20 millions de
pratiquants travers le monde. Cest la troisime communaut de sport extrme, derrire
le BMX et le snowboard aux USA. Ce qui est
dautant plus intressant, cest que la pratique
du paintball reprsente des coups similaires
la pratique du golf. Un passionn est donc
susceptible de ddier des budgets importants
pour son activit, et les marques de paintball
ont un fort intrt le capter (march mondial de 200millions deuros dquipements
et 1,3 milliard deuros de consommables les
billes).
Fabrice et Sbastien ont donc dvelopp une
application mobile, teste sur le march au
pralable, qui atteint rapidement des centaines
de milliers de tlchargements.
Leur communaut au sens large comprend les
pratiquants du paintball, mais aussi les industriels (marques dquipements), les exploitants
de terrains de jeu, les ligues (des championnats sont rgulirement organiss) et la presse
spcialise. En un peu plus de 6 mois, PCB
a amorc ce nouveau mdia, lobjectif tant

dagrger le maximum dinformation qualifie


au niveau mondial, le tout depuis leurs petits
bureaux toulousains.
Une leve de fond et 3 millions de tlchargements plus tard, les plus grandes marques du
secteur sassocient toutes X-Field Paintball.
Cest eux qui sont alors prescripteurs auprs
des pratiquants tout en participant au financement de la plateforme. Leur intrt? Bnficier
de laccs leur communaut, fdre de faon
unique au monde. Cest en dautres termes une
immense base de donnes, la plus grande, hyperqualifie, sur la communaut du paintball.
Comment les joueurs sont-ils attirs sur la
plateforme? Grce une prcision sans gal.
Chaque terrain est reproduit, les actions relles
rendues virtuelles, les marqueurs (nom des
lanceurs de billes), les dcors, les mouvements
sont transcrits la lettre. Le joueur peut donc
retrouver le plaisir du jeu rel dans un univers
virtuel, avec des interactions au niveau mondial. X-Field est mme all jusqu reproduire
les terrains des championnats, en les mettant
disposition quelques jours lavance afin que
les participants puissent sy entraner. Les plus
gros sponsors, comme lors des championnats
rels, diffusent leurs bannires de publicit
pour figurer en meilleure position sur le terrain. Cest un march de niche, avec huit dix
acteurs majeurs dans le monde, mais qui reprsente des enjeux forts pour ces quelques
marques. La valeur ajoute de X-Field est de
dtenir une information exclusive.
En quoi ce projet est-il rellement Big Data? Le

March mondial de
200millions deuros
dquipements.
35

Le dernier projet en cours chez PCB est celui


des communauts de musique lectronique
(Pink City Beats). Il est encore un stade embryonnaire, ltape de captation de sa communaut (600 artistes DJ internationaux dj),
mais prsente comme objectif sous-jacent la
volont pour les quipes de PCB de dmontrer
le caractre duplicable de leur approche.
ce jour, X-Field en est sa seconde leve de
fonds. Lobjectif immdiat est de passer de 3 6
millions de tlchargements de la plateforme.
Le projet autour du camping vient deffectuer
sa premire leve de fonds et dentrer en commercialisation.
long terme, la socit PCB et ses deux fondateurs souhaitent rpliquer leur fonctionnement dans dautres secteurs de niche, essentiellement dans des domaines sportifs. Les
trois premiers projets seront l pour montrer
la puissance de ces bases de donnes hautement qualifies exploites avec des outils Big
Data. Lide, dans les rves les plus fous de
Sbastien, sera ensuite de croiser les diffrentes communauts. Un scnario type: cet individu, en vacances dans ce camping, joue souvent aux jeux vido, dont parfois au paintball,
et comme il naime pas les muses, quil a une
voiture et quil est venu sans enfants, je peux lui
envoyer une offre promotionnelle pour ce terrain de paintball moins de 30 minutes de son
lieu de vacances.
La seule question: la protection des donnes
personnelles. L, la rponse de Sbastien sappuie sur un principe dopt-in et une anonymisation maximale des informations. Lidentit nominative importe peu en fin de compte. Cest le
profil qui prime. Si la socit est capable de reconnatre un profil et de lui communiquer une
offre, elle na pas besoin de connatre le nom
de la personne concerne. Quoi quil en soit, les
quipes garderont un il averti sur les recommandations de la CNIL et veilleront constamment protger les donnes.

UN PROJET DANS LNERGIE: COFELY SERVICES


DEEPKI - Entretien avec Vincent BRYANT, Direction dactivits Efficacit nergtique,

Cofely Services, Groupe GDF SUEZ

Cofely Services, Groupe GDF SUEZ, est principalement connue


pour ses services en efficacit nergtique. Rattach au DG
de la socit, Vincent Bryant est en charge de dvelopper les
nouvelles activits ayant pour vocation damliorer lefficacit
nergtique.
Il nest pas DSI, il ne fait pas partie du dpartement R & D, mais
il est linterface de ces mtiers. Son rle est dutiliser les
algorithmes de data analytics pour crer de nouveaux business.
Cofely Services a dvelopp il y a 2 ans loffre
VERTUOZ, qui permet ses clients (plus de 41
000 sites renseigns ce jour) de monitorer
leurs consommations en temps rel et damener la Business Intelligence jusque chez
ses clients.
Mais la data pour lefficacit nergtique, ce
nest pas que de la mesure.
Comme lexplique Vincent Bryant, il existe 3
niveaux dutilisation de la donne. Le premier correspond la mise en place dun systme denergy monitoring pur: connatre ses
consommations relles au temps-T, en garder
une trace. Le second niveau consiste intgrer
des fonctionnalits BI (Business Intelligence)
pour mieux comprendre et exploiter ces donnes. Le troisime niveau, qui nous intresse
ici, sattaque au Big Data en intgrant des donnes externes, des volumes de donnes importants et un traitement en quasi-temps rel.
Dans ce contexte, le Big Data peut servir au
Benchmark: connatre combien je consomme
est intressant, mais cette donne prend tout
son sens lorsque je peux la comparer de ma-

nire fine avec les consommations de structures similaires la mienne.


Pour Cofely Services, le Big Data est galement un moyen de mieux connatre ses clients,
et donc de mieux les conseiller. Loptimisation
de la vente croise permet Cofely Services de
fournir ses clients des services parfaitement
adapts leurs besoins. En complment des
donnes CRM dj prsentes, les algorithmes
de data-analytics viennent tirer plus de valeur des donnes volumineuses et complexes
existantes utilises par les quipes marketing.
titre dexemple, un seul client peut reprsenter plus de 1 000 sites, chaque site ayant
ses propres caractristiques de consommation, denvironnement, dactivitLe Big Data
chez Cofely Services est donc pass par la
construction dun outil de Data Discovery
puissant mis disposition des quipes. Je
connais mon client pour mieux lui vendre mes
services, et mon client bnficie ainsi dune
rponse adapte au plus proche de ses besoins. Loutil a galement engendr lidentifi-

36

cation de patterns et typologies de clients, pour


que Cofely Services comprenne de manire
beaucoup plus fine les consommations de ses
clients.
Mais l o lentreprise va plus loin encore, cest
en lanant une spin-off, DEEPKI. Comme lexplique Vincent Bryant, au 19e sicle, le monde
a cd la rue vers le ptrole aux tatsUnis. De nombreux acteurs se sont prcipits
au Texas, ont achet une parcelle de terrain
et quelques pelles et pioches pour creuser.
Certains ont trouv du ptrole, dautres non et
beaucoup de pioches ont t vendues. Puis des
entreprises dingnieurs ont propos danalyser les sols pour identifier les gisements et les
meilleurs outils pour les exploiter, en orientant
ainsi les efforts l o il tait probable quil y ait
du ptrole. Cette cartographie des gisements
de ptrole a apport une grande valeur aux
chercheurs de ptrole, aux vendeurs doutils et
aux propritaires fonciers. Aujourdhui chez
Cofely Services, nous voulons faire pareil
souligne alors Vincent Bryant. La cartographie dveloppe par DEEPKI vise dtecter
les gisements dconomies dnergie grce
aux donnes existantes du secteur priv, des
ministres, collectivits, mais aussi laide
de donnes ouvertes. Ces informations sont
structures, segmentes en classes de btiments laide dalgorithmes, puis traites avec
un moteur dinfrence.
Les quipes obtiennent des cartographies de
gisements dconomies dnergie compltes par des diagnostics ou des systmes de
mesures. La dmarche permet donc dexclure les cas particuliers, et daffiner autant
que possible les tudes. Dans lnergie, cest
une petite rvolution: il ne sagit plus uniquement de mener des tudes physiques, mais
bien de crer une cartographie pralablement.
Ces puissants algorithmes utilisent des outils
statistiques bien connus des socits de promotion publicitaire sur le web. Le principe est
relativement simple: alors quon aurait ten-

UN PROJET DE RECHERCHE: LA GNOMIQUE


France GENOMIQUE - ENTRETIEN AVEC PIERRE LE BER ET PIERRE LECA

dance vouloir comprendre les mcaniques


dachat dun consommateur (par exemple, si
jachte une table, jachterai vraisemblablement les siges qui vont avec), mieux vaut en
observer statistiquement les comportements
rels. Si lanalyse nous dit que la majorit des
clients similaires ont achet une lampe aprs
avoir ajout cette table, mieux vaut mettre en
avant des lampes pour susciter lachat. Le raisonnement est le mme pour DEEPKI: si au
sein dun parc de boutiques, on constate que
les sites qui consomment le plus sont ceux qui
ont la frquentation la plus leve, alors pourquoi continuer benchmarker les consommations dnergie des sites en fonction de leur
date de construction? La recommandation
la plus adapte sera de sintresser aux boutiques ayant une frquentation importante.
Dterminer ces facteurs dinfluence est
un enjeu crucial pour dynamiser lefficacit nergtique. Reste alors savoir quelles
donnes traiter. Car si lon considre que des
donnes a priori sans aucun lien de causalit
avec lvnement peuvent tre considrables, il
faut alors largir autant que possible le spectre
des donnes prises en compte dans ltude.
Elles peuvent prendre la forme toujours dans
notre exemple des boutiques, du trafic pitonnier alentour, des horaires douverture, du type
douverture, de la frquentation, du chiffre daffaires... La question vise ensuite dterminer
quelle part prend chacun de ces facteurs dans
la consommation de la structure.
Afin de slectionner les jeux de donnes intgrer chaque tude, les quipes de DEEPKI
sappuient sur deux lments: la disponibilit
de la donne (puis-je avoir accs cette information?) et la connaissance mtier (quels sont
les facteurs dinfluence selon les exploitants du
site?).
La premire tape est donc un diagnostic technique, qui amne la constitution dune Data
Room regroupant toutes les donnes disponibles et utilisables.
Cest ainsi que des constats contre-intuitifs peuvent merger: grce lanalyse ralise sur des donnes rcupres sur plus
de 400 boutiques en France, des segments
de boutiques homognes dun point de vue
des consommations dnergie ont t identifis: le constat qui en a rsult a amen la
conclusion que les boutiques les plus consommatrices ntaient ni les plus anciennes, ni les
plus grandes.
Voil de quoi donner des ides de nombreux
gestionnaires dactifs sur lanalyse des donnes quils possdent dj.

plus de 41 000 sites


renseigns ce jour.

Pierre Le Ber est polytechnicien de formation. Il a complt


son cursus par un doctorat en pharmacologie molculaire, et
sest rapidement orient vers les sciences du vivant, les biotechnologies et lindustrie pharmaceutique. Pierre intgre, en
1995, la socit Genset, un des pionniers de la gnomique. Puis,
aprs avoir travaill Singapour, en Chine, en Suisse, il occupe
depuis 4 ans le poste dadjoint au directeur de lInstitut Gnomique (IG) du CEA, ainsi que de Responsable Scientifique et
Technique de linfrastructure France Gnomique.
Pierre Leca pour sa part a davantage un profil de mathmaticien et dinformaticien. Docteur en mathmatiques appliques,
il se plat rsoudre des problmes complexes laide dordinateurs. Il a dbut sa carrire dans le secteur aronautique et
a rejoint le CEA en 2001 pour prendre la direction du Dpartement des sciences de la simulation et de linformation.
Ce Dpartement est en particulier responsable du complexe de
calcul du CEA et mne des projets de R & D avec de nombreux
industriels.

Crdits photos: P. Stroppa/CEA

Les deux hommes sont donc rsolument complmentaires, lInstitut de Gnomique du CEA
auquel Pierre Le Ber appartient travaillant sur
la partie R & D en gnomique, Pierre Leca sur
la R & D en calcul et traitement de donnes.

LE SQUENAGE DE LADN
Le projet quils nous prsentent, dans le
cadre de linfrastructure nationale France
Gnomique, traite du squenage de lADN, et
vise fournir des capacits de stockage et de
traitement de donnes qui permettent de nombreuses tudes et analyses. Quelques notions
simposent: le squenage consiste dchiffrer le code gntique. Pour le gnome humain,
cela reprsente 3milliards de bases rparties
sur 23 chromosomes. Le gnome du bl, par
exemple, renferme 17 milliards de bases, alors
quune bactrie nen contient que quelques
millions. On prend alors vite la mesure des volumes et traitements ncessaires. Depuis plus
37

de 30 ans, les scientifiques ont dvelopp diverses mthodes de squenage de lADN, dont
la plus connue est la mthode de Sanger. Dans
les annes 90, un programme international a
t lanc dans le but de squencer lintgralit du gnome humain. La tche a t acheve
en 2003 seulement, mais ctait une premire
mondiale. Plusieurs annes de travail donc,
mais aussi plus de 3milliards de dollars investis pour raliser cet exploit. Aujourdhui, un gnome humain se lit en quelques heures pour
quelques milliers de dollars! Cette rupture
technologique, scientifique et financire ouvre
la voie des applications de squenage massif, dont les besoins en moyens de stockage et
de calcul sont un challenge relever.
Le Genoscope, qui fait maintenant partie de
lIG, avait largement particip au vaste projet
du premier squenage, tant en charge de
lintgralit du chromosome 14. Le travail, soulignent les deux collgues, tait fastidieux et

coteux. Depuis, le cot et la vitesse du squenage ont volu de faon spectaculaire.


la fin des annes 90, on pouvait lire quelques
millions de bases par jour. Aujourdhui, dans un
centre comme lIG, on peut lire plusieurs centaines de milliards de bases (Gbases ) par jour.

TRAITER LES VOLUMES DE DONNES


ISSUES DES SQUENCEURS
En termes de volumes de donnes, lquivalence est simple: une base, cest un octet.
Linfrastructure France Gnomique (dont linstitut de gnomique du CEA, deuxime centre de
squenage europen, est le principal partenaire), peut produire de 50 75 traoctets de
donnes par mois, soit plusieurs centaines de
traoctets par an.
Pour Pierre Le Ber et Pierre Leca, si les donnes traiter sont structures par les appareils qui les produisent, la bio-informatique
rejoint le Big Data par la volumtrie et la
vitesse de production et de traitement des donnes. En outre, les donnes sont caractrises
par un modle derreur propre la technologie, et un taux derreur variable d aux biais de
la biologie molculaire. Cest l que se situe le
point critique de leurs travaux. Afin de traiter
cette quantit colossale de donnes issues des
nouvelles gnrations de squenceurs dADN,
une infrastructure centralise, capable de
mettre en uvre des moyens de stockage multi-traoctets accessibles avec un haut niveau
de performance (dbit, latence) par plusieurs
milliers de curs de calcul, simposait. Cette
e-infrastructure de France Gnomique a donc
t mise en place au CCRT (Centre de Calcul
Recherche et Technologie) au sein du Trs
Grand centre de Calcul du CEA (TGCC). Elle a
t finance dans le cadre du programme national dinvestissements davenir, mis en
uvre par le Commissariat Gnral lInvestissement.
Il y a 10 ans, pour un projet de gnomique, on
dpensait 10% de la somme totale dans linformatique. Dans le cas de France Gnomique,
pour 1 euro dpens dans le laboratoire, 1 euro
est investi en informatique et bio-informatique.
Le besoin de stockage est expliqu par les volumes de donnes gnrs mais aussi par la
ncessit, pour certains projets de grande ampleur, de les conserver accessibles en ligne
sur de longues dures, afin de pouvoir comparer les nouvelles donnes aux plus anciennes.
De plus, la communaut est trs active, et les
techniques de squenage et danalyse voluent trs rapidement. Les donnes sont rcupres par le CCRT et les traitements primaires sont raliss au travers de pipelines
danalyse pratiquement automatiss. Les analyses secondaires sont ensuite effectues sur
le-infrastructure par les quipes projet.

DES APPLICATIONS TRS VARIES


Dans le cas du gnome humain, en comparant
deux gnomes de deux personnes diffrentes,
on observe quelques millions de diffrences,
dont une minorit a des consquences biologiques. Lanalyse primaire consiste dtecter
ces diffrences, lanalyse secondaire vise les
interprter, laide dtudes statistiques, fonctionnelles, mdicales Prenons lexemple du
cancer: squencer le gnome de cellules tumorales par comparaison au gnome normal du patient permet den dterminer le
profil gntique, et dans certains cas de prdire quel traitement a le plus de chances dtre
efficace pour un patient donn. Cest de la m38

decine personnalise, une grande avance apporte par la gnomique et qui sappuie sur le
Big Data.
Un autre exemple est celui du projet TARA
Ocans, un vaste projet dtude de la biodiversit planctonique marine qui a amen ds 2009
les quipes sillonner les ocans pendant plus
de 3 ans afin de rcolter des chantillons de
tous les coins du globe. La finalit: squencer
et analyser les gnes des organismes prsents
divers endroits, en parallle avec dautres
approches telles limagerie trs haut dbit.
Il sagit le plus souvent dorganismes que lon
nest pas capable disoler mais quil est possible de squencer en tant qucosystmes
planctoniques complets (approche dite metagnomique). date, environ le quart des
prlvements effectus ont t squencs. La
dcouverte impressionnante rside dans le fait
que la trs grande majorit des organismes squencs nous taient jusqualors inconnus. Ce
projet rvle limmensit de la biodiversit des
ocans. Cest un inventaire, en quelque sorte,
une photo prise au temps-T, qui nous permet
de mieux connatre les tendues aquatiques.
Au-del de lintrt purement informatif,
TARA Ocans permettra par exemple dtudier les effets du rchauffement climatique
sur les cosystmes marins: renouvel dans
quelques annes, le prlvement de nouveaux
chantillons permettra de comparer les organismes prsents. date, on ralise un ca-

le gnome humain
reprsente 3milliards
de bases rparties
sur 23 chromosomes.

talogue de rfrence qui servira observer


lvolution de la biodiversit. Ce projet, unique
par son ampleur, est un des plus vastes dans
lesquels sinvestit aujourdhui le Genoscope
au sein de lIG. Financ par les grands organismes de recherche publique, mais aussi
par les Investissements dAvenir (dont France
Gnomique) ou des mcnes privs tels Agns
B., Tara Ocan prvoit douvrir ses donnes.
Cest aussi ce type de projets qui a rendu inluctable le changement dchelle pour les capacits de stockage et de traitement des donnes.
France Gnomique continue investir dans ses
infrastructures. Ne serait-ce que pour mettre
jour la partie hardware, la structure doit investir 2 3 millions deuros tous les 3 ou 4 ans.
Le besoin se fait grandissant dautant plus que
de nouvelles applications se font jour: la mdecine personnalise notamment est un domaine
dans lequel lexpertise que France Gnomique
aura accumule dans le domaine des Big Data
sera prcieuse, avec nanmoins de nouvelles
problmatiques comme la question de la protection et la scurit des donnes. Recherche
et diagnostic seront concerns, la volont tant
de valider les protocoles de squenage trs
haut dbit, et plus encore de gestion des donnes pour la mdecine personnalise.

UN PROJET DANS LES TRANSPORTS: LA SCURIT ARIENNE


SAFETYLINE - Entretien avec Pierre JOUNIAUX, co-fondateur, SAFETYLINE

Laronautique est un secteur reconnu pour ses capacits


innover et son exigence scuritaire. Pour Pierre Jouniaux, ingnieur
aronautique de formation, le Big Data reprsente une relle
opportunit.
Au dbut de sa carrire, Pierre Jouniaux a intgr le Ministre
des Transports. Il a alors pass 12 ans au bureau des enqutes
accidents, traiter les donnes des botes noires pour comprendre
les causes des accidents survenus. Il devient ensuite pilote de
ligne au Vietnam, et en parallle il participe la mise en place
dun systme de traitement des donnes.
Cest l quil constate que les donnes enregistres en vol sont sous-exploites. En effet, les
compagnies sont tenues de rcuprer et lire les
donnes issues des botes noires et les copies
dupliques, mais elles ne mnent les analyses
que vol par vol. En 2008, bien avant quon commence parler de Big Data, Pierre Jouniaux
fonde donc SafetyLine. Lide lorigine du
projet est que cette masse de donnes rcupres par les compagnies ariennes reprsente
de nouveaux champs danalyse si les donnes
sont confrontes, sur tous les vols, en temps
rel. Dveloppe avec laide dun laboratoire
de recherche le laboratoire de statistiques
thoriques et appliques de Paris la solution a donc t construite sur un socle Big Data.
Comme lexplique Pierre Jouniaux, un vol,

cest dynamique. Pour expliquer un accident, il ne suffit pas dobserver que quelques
paramtres. Cest la combinaison de multiples
facteurs complexes qui peut engendrer une
anomalie. Prenons lexemple concret des sorties de pistes, qui ne sont pas les accidents les
plus dangereux mais sont les plus frquents.
Lorsquil travaillait en tant quenquteur,
Pierre Jouniaux a tudi le cas de la sortie de
piste de Toronto et confirm quun tel vnement est d une multitude de donnes.
Le projet de Pierre Jouniaux consiste dterminer le principe des marges et observer
comment elles sont absorbes. Pour ce faire,
il est donc ncessaire de faire un apprentissage
sur ces marges, ces limites. Lide est alors de
connatre les valeurs des donnes pour une si39

tuation dite normale, la marge dcart accepte, et la faon dont la compagnie utilise ces
marges. Sans a priori, on regarde toutes les
donnes, essentiellement rcupres par les
capteurs disposs sur les avions, mais aussi
les donnes mtorologiques par exemple. Un
avion enregistre environ 1 000 paramtres par
seconde, donc sur un vol entier les volumes
atteignent des niveaux ncessitant une analyse experte. Pour Pierre Jouniaux, lavantage
davoir t pilote, tout en ayant les connaissances en traitement de la donne, lui permet
de savoir quelles informations sont pertinentes
et dans quel cas de figure.
Empiriquement, on peut considrer que 60%
de marge sont gnralement pris en compte
pour englober tous les paramtres. Dans la
grande majorit des cas, cest largement suffisant, mais sur des vols atypiques ou pour certains aroports par exemple, la marge de scurit restante est faible.
Revenons lexemple de latterrissage long.
Lalgorithme de SafetyLine met en vidence ce
qui diffrencie les vols normaux des vols atypiques. Profil du vol, configurations diverses,
type de pilotageLoutil prend toutes les donnes de tous les vols disponibles et en fait un
apprentissage, afin de construire un modle. On
peut alors faire une prdiction, en pourcentage,
des risques sur un modle donn. Safetyline

Un avion enregistre
environ 1 000 paramtres
par seconde.

observe les signaux faibles et les paramtres


inattendus. Par exemple, pour tel type davion,
sur tel type de trajet, dans telle compagnie,
la marge est davantage utilise, et le vol est
donc plus risqu. On donne ces indicateurs aux
compagnies ariennes qui ont choisi le service
de SafetyLine. Chaque modle est individuel.
Chaque compagnie est propritaire de ses donnes de vol, qui sont confidentielles. SafetyLine
sengage les protger, ne pas les hberger
sur le cloud, conserver les donnes isoles et
assurer un maximum de scurit. Lenjeu est
crucial tellement les donnes sont sensibles.
Les donnes sont donc stockes, et les calculs
effectus en in-memory. Les temps de calcul
sont relativement importants plusieurs
heures mais pour Pierre Jouniaux, ce nest
pas un problme du fait quil fonctionne en
asynchrone. Pour des analyses prdictives,
cest largement suffisant.
Pierre Jouniaux travaille par exemple avec Air
France, compagnie avec laquelle il a mis en
place une dmonstration grandeur nature de la
scurit des vols. Chaque modle construit est
unique, avec son propre risque, ses marges et
ses mthodes danalyse propre.
Air France, cest 75 000 vols moyens courriers
en quelques mois uniquement. Cest le spectre
de la collaboration entre SafetyLine et la compagnie, et cest dj largement suffisant pour
en tirer des conclusions pertinentes. Loutil
dtecte les signaux faibles, avant mme les
accidents ou drives qui pourraient survenir.
Lide est de savoir comment la compagnie utilise ses marges. Lorsquon constate quelles
sont fortement rognes, on peut estimer laugmentation du risque engendr. Identifier la
source dun problme de faon individuelle est
relativement ais, la question des marges est
plus complexe. Safetyline observe donc la corrlation des paramtres qui peut augmenter le
risque, sans que lil humain puisse le percevoir ni quaucun problme ne survienne. Cest
aussi en construisant ces modles que lon
peut faire du prdictif et du prventif. Et chaque
vol, chaque aroport, chaque avion a ses par-

ticularits. Par exemple, un A318 est un petit


modle davion, moins sensible au problme
de distance datterrissage quun autre type
davion, mais qui ncessite un pilotage adapt
lapproche.
Lavantage des donnes de vol est quelles
sont trs formates. Airbus, Boeingtous les
constructeurs ont standardis au niveau international les capteurs et les units mesures.
Au-del de la notion de risque, Safetyline rflchit dautres applications du traitement de
la donne de vol. Loptimisation de la consommation de carburant par exemple est une
piste particulirement prometteuse. En modlisant les caractristiques du vol, les quipes
SafetyLine peuvent optimiser son profil, particulirement au moment de la monte, le point
critique de la consommation. Concrtement,
le principe consiste communiquer des
consignes de vol qui permettront damliorer cette consommation. Les principaux paramtres influant sur la consommation sont la
temprature, la masse de lavion et son profil
arodynamique. Chaque profil entrane des
consignes de vol diffrentes.
Pour linstant, cela na t tudi que pour un
seul type davion, mais ce projet est vou
se dupliquer. Dans le jargon, on parle de niveau de consommation 3R: cest l que lavion
consomme le moins, et cest ce que veulent atteindre les compagnies ariennes autant que
possible. Lenjeu financier est considrable, la
solution attire donc dj car elle permet des
gains substantiels. Sur un vol unique, lconomie nest pas notable. Elle est de quelques
dizaines de kg par vol. Mais lorsquon considre quun avion peut effectuer jusqu 5 vols
par jour, et en mettant cette donne en relief
avec la taille de la flotte de compagnies telles
Air France, on peroit vite lintrt.
Dautres projets sont en dveloppement,
comme un travail avec les Aroports de Paris
qui vise dtecter les problmes de glissance
de la piste, ou encore des solutions de maintenance prdictive pour anticiper les pannes.

40

Air France, cest 75 000


vols moyens courriers
en quelques mois.

UN PROJET EN CLIMATOLOGIE: LVOLUTION CLIMATIQUE AU


NIVEAU MONDIAL
Projet DADA - Entretien avec Alexis Hannart, Climate Scientist au CNRS

Le projet DADA est une collaboration scientifique internationale


en climatologie, structure autour de lIPSL (Institut Pierre
Simon Laplace, le-de-France) et finance par lANR (Agence
Nationale de la Recherche), impliquant des chercheurs franais,
europens et amricains. Alexis Hannart, climatologue au
CNRS, en est le responsable. Scientifique de formation
(Polytechnique, ENSAE), Alexis a rejoint la recherche acadmique
dans les annes 2000 aprs une exprience de plusieurs annes
en R & D dans le secteur priv, sur des sujets constituant alors
les prmices du Big Data.
DADA propose une application environnementale du Big Data. Son ambition est dexploiter
les flux dobservations climatiques, de plus en
plus nombreuses et diverses, dans le but in fine
de pouvoir statuer en temps rel sur lexistence
dun lien de causalit ventuel entre les phnomnes climatiques survenus, de quelque
nature et chelle de temps quils soient, et les
missions de gaz effets de serre ou autres
missions dorigine humaine (ozone, arosols).
Pour cela, on confronte lobservation aussi
complte et exhaustive que possible dun vnement ou dune srie dvnements, des simulations numriques: dune part du monde
factuel cest--dire du systme climatique tel quon le connat et dautre part du
monde contrefactuel cest--dire du
mme systme mais tel quil serait si les gaz
effets de serre navaient jamais t mis. Selon
que lvnement apparatra ou non comme
plus vraisemblable dans lavatar numrique du
monde factuel que dans son pendant contrefactuel, on pourra invoquer un lien de causalit
ou son absence.
Si le principe gnral est simple, la mise en
uvre est dlicate: elle exige en effet de manipuler des flux de donnes en trs grand
nombre et dorigines diverses (stations mto,
satellites, rseaux de capteurs divers), des
modles numriques de trs grande dimension, un interfaage complexe entre modles
et observations, enfin des algorithmes ad hoc
permettant de convertir la vole partir de cet interfaage un trs grand volume de
donnes brutes en une srie de scores synthtiques de vraisemblance et, in fine, de causalit.
Cette chane de calcul dune haute technicit
est fortement innovante. Mme si les tudes
de causalit sont dj nombreuses en science
du climat, la nouveaut propose par DADA est
dabord de se placer dans la perspective qui
caractrise le Big Data: celle des grands volumes de donnes, de la rapidit du traitement
temps rel et des problmes spcifiques
quils engendrent. Cette approche est originale
en dtection et attribution climatique par comparaison aux travaux antrieurs, qui se placent
plus volontiers dans un temps diffr avec
des dlais danalyse de lordre de quelques annes et en suivant une approche plus artisanale quindustrielle qui ne rpond pas entirement aux besoins futurs.

Mais surtout, la principale nouveaut est lide,


pour mettre en uvre cette approche Big Data,
de capitaliser au maximum sur les procdures
et les infrastructures de calcul dinterfaage
modle-observations dj existants et entirement oprationnels dans les services mtorologiques. En effet, la prvision du temps
repose sur de gros modles numriques de
latmosphre qui sont rinitialiss toutes les
6h sur la base dun flux de nouvelles observations entrantes. On appelle cela lassimilation de donne et cest de ce terme que provient lacronyme DADA (Data Assimilation for
Detection and Attribution). Lquipe DADA
sinspire de ce cadre tout en lenrichissant et en
ladaptant.
In fine, ce dispositif technologique innovant vise
rpondre des besoins concrets dattribution
causale en particulier lis lindemnisation
des dommages futurs attendus dans le changement climatique en cours. Il comporte de
multiples dfis thoriques comme pratiques;
la preuve de sa pertinence reste donc largement tablir avant de passer une mise en
uvre oprationnelle. Cest justement cette
exploration prliminaire qui est le but de DADA.
Comme le souligne dailleurs pour conclure
Alexis, nous nen sommes encore quau stade
de lide gnrale, lavenir dira si cen est une
bonne ou pas, cest de la recherche Mais dici
l, on va essayer de suivre au plus prs les prceptes du Dadasme, ce mouvement artistique
41

n il y a un sicle et auquel notre acronyme


est bien sr un clin dil: innover sans aucune censure, en provoquant des hybridations
et des rapprochements inattendus, et surtout,
en samusant! Maintenir cet esprit ludique sera
facile, car le Big Data est un terrain de jeu fantastique et inpuisable.
Alexis estime que dans le cadre du Big Data,
les travaux dun climatologue peuvent intresser dautres profils, comme un responsable
marketing par exemple. bon entendeur

Dans le cadre du Big


Data, les travaux dun
climatologue peuvent
intresser dautres
profils, comme un
responsable marketing
par exemple .

Fournisseurs
Le Guide Big Data rpertorie pour vous les acteurs rfrents
et symboliques du march afin de vous permettre de faire
votre propre slection.
Dans cette partie, retrouvez les acteurs de lcosystme Big Data qui font lactualit
en France et ltranger. Ils ont souhait vous faire part de leur vision, de leurs
principales volutions technologiques ou de leurs plus belles ralisations.
Au cours de ces quelques pages, apprenez les connatre ou les redcouvrir,
car ce sont eux qui participent la croissante maturit du Big Data en France.
Que vous soyez la recherche de partenaires et fournisseurs, ou tout simplement
passionn du sujet et attentif aux volutions de ses protagonistes, cette partie
vous intressera.
Dans un souci dorganisation et de clart, nous vous proposons diverses catgories,
reprsentes par des labels, qui vous permettront didentifier immdiatement
les domaines de comptences clefs de chaque entreprise et pouvant donc
rpondre vos besoins. Ces labels sont rpartis en 6 catgories

42

Equipementiers Hardware Editeurs Software Editeurs BI


Editeurs Dataviz Consultants SSII Intgrateurs Institutionnels

Labels
Annonceurs

Equipementier
Hardware

ACTUATE

Editeur
Software

Editeur
BI

Editeur
Dataviz

A.I.D

AMAZON WEB SERVICES

BIME ANALYTICS

Conseil / SSII
Intgrateur

BITTLE
BLUESTONE

CAPGEMINI

CENTRALE FORMATION

CLOUDERA

CLUB DECISION DSI

CSC

DATASTAX

EDIS CONSULTING

EKIMETRICS

EXALEAD DASSAULT
SYSTEMES

HP

IBM

KEYRUS

MICROPOLE

NEO TECHNOLOGY

PENTAHO

PIVOTAL

QLIK

SAP

SAS

SCINETIK

SEMDEE

SENTELIS

SINEQUA

SPLUNK

SYNCSORT

TABLEAU SOFTWARE

TALEND

TIBCO JASPERSOFT

VISEO

Pages

44
46
48
50
52
54
56
58
60
62
64
66
68
70
72

GFI INFORMATIQUE

TERADATA

Institutionnel

74
76
78
80
82
84
86
88
90
92
94
96
98
100
102
104
106
108
110
112
114
116

Fournisseurs
43

ACTUATE
Hard

Soft

B.I.

Dataviz

Conseil

COORDONNES
ACTUATE FRANCE

Instit.

Actuate aide les entreprises exploiter les sources de donnes htrognes dont le Big Data

pour la prise de dcision et la diffusion dinformations personnalises en proposant des


rapports, des analyses et des tableaux de bord interactifs, accessibles un grand nombre
dutilisateurs depuis une interface Web ou mobile.

57, rue de Chteaudun


75009 Paris
Tl +33 (0)1 76 21 56 50
Mail fr_contact@actuate.com
BIRT iHub, la plateforme modulaire innovante dActuate, permet de dvelopper et dployer

CONTACT
Sarah
LALLAM
Responsable marketing

rapidement des applications de Business Intelligence sur mesure. Elle exploite la technologie

Open Source BIRT, cre par Actuate au sein de la Fondation Eclipse et adopte par plus

trois millions de dveloppeurs dans le monde.

Les applications construites avec BIRT iHub sont idales pour la diffusion de masse
dinformations personnalises.

Plateformes dcisionnelle BIRT IHUB

La plateforme dcisionnelle BIRT IHUB dActuate offre des visualisations de donnes interactives,
intuitives et personnalises travers des outils analytiques et des tableaux de bord pouvant tre
facilement dploys auprs de millions dutilisateurs travers le web et le mobile.
Les applications construites avec BIRT IHUB sont idales pour la diffusion de masse
dinformations personnalises. Actuate aide ainsi les entreprises tirer pleinement parti
du Big Data et de lessor des appareils tactiles.

Dveloppement

BIRT Designer Pro cr des contenus bass sur la technologie BIRT Open Source

Dploiement

BIRT IHUB gre jusqu des millions dutilisateurs via des clusters de servers haute disponibilit
BIRT Mobile visualise des contenus BIRT sur des supports mobiles tels que smartphones et tablettes

Visualisations

BIRT Viewer permet la visualisation de rapports BIRT statiques


BIRT Interactive Viewer permet aux utilisateurs de visualiser et de personnaliser leurs
rapports en toute libert
BIRT Studio donne aux utilisateurs la possibilit de dvelopper leurs propres rapports web
Ad Hoc, les donnes restant sous le contrle de la DSI.

BIRT Analytics

BIRT Analytics est la solution danalyse exploratoire et prdictive des donnes qui permet
de raliser des tudes partir de nimporte quelles sources de donnes dont le Big Data
sans besoin de connaissance techniques et statistiques spcifiques.
A la main des utilisateurs mtier, BIRT Analytics offre galement la possibilit de concevoir
des campagnes et den prdire les retombes.

Les composants de la plateforme


BIRT HUB

www.actuate.fr

45

A.I.D.
Hard

Soft

B.I.

Dataviz

Conseil

COORDONNES
A.I.D.
4 rue Henri Le Sidaner
78000 Versailles
Tl 01 39 23 93 00
Mail info@aid.fr

CONTACT
Arnaud
CONTIVAL
Prsident Directeur Gnral

Instit.

Lacclration du digital modifie profondment la faon de communiquer des entreprises


avec leurs consommateurs, devenus multi-canaux, interactifs, informs et partageurs.
Les entreprises qui relvent ces dfis et accompagnent les consommateurs dans ces
volutions structurelles sont celles qui exploitent et valorisent leur capital data pour
parler leurs clients au bon moment, avec un message pertinent sur le bon canal.
Face au phnomne de volumtrie croissante des donnes, le leitmotiv dA.I.D. est
daccrotre en permanence lexpertise data avec des mthodes innovantes danalyse, de
traitement et dexploitation de la donne afin de vous permettre datteindre vos objectifs.
A.I.D. propose une chane de valeur complte autour de lanalyse, du traitement, de lexploitation
et de la transformation des donnes avec notamment :
- La cration, lhbergement et lexploitation de systmes dinformation marketing, au
service dune communication la fois plus personnalise et industrialise.
- La mesure et loptimisation des actions marketing, pour maximiser limpact de vos
oprations marketing, dtecter les clients en partance ou grer la pression commerciale
par la pertinence.
- La data visualisation pour vous aidez lire, comprendre, et analyser vos donnes.
- La qualit des donnes pour garantir une qualit optimale des donnes multi-source et
une bonne gouvernance des donnes.
- Lanalyse des parcours clients cross-canal afin de prdire et dinfluencer la prochaine
interaction client.

Nos clients tels que AUCHAN, BOUYGUES TELECOM, CRDIT MUTUEL ARKEA, DARTY,
EDF, MOBIVIA GROUPE (NORAUTO, MIDAS...), PMU, PUY DU FOU, RENAULT, SEPHORA,
SFR, SIMPLY MARKET, SYSTEME U, TRUFFAUT, nous recommandent avec une note moyenne

suprieure 8/10

(Enqute ralise 2 fois par an sur la base du Net Promoter Score).


Depuis plus de 40 ans, A.I.D. innove continuellement dans le traitement et lanalyse des
donnes. Notre R&D est la garantie que nous apportons nos clients les solutions les plus
performantes leurs problmatiques BtoB et BtoC autour du Datamining, de la Dataquality,
du CRM, du CIM et de lHbergement.

Customer Interaction Management


Visualisation des parcours clients cross-canal
(achats magasins, site e-commerce, call center, rseaux sociaux)

Porteurs du projet

Au sein dun distributeur et e-commerant franais, le projet a t port par la Direction


Marketing en la personne du responsable e-CRM . Ce projet transversal a eu le soutien de
lquipe informatique et relation client (Call center).

Objectifs

Collecter toutes les interactions clients sur tous les canaux et donner une information actionnable
aux collaborateurs de lentreprise pour les aider dans la prise de dcision.
- Fournir au call center lors dun appel entrant lensemble des interactions du client et leur
motif avec la marque (call center, navigation web, rseau sociaux).

- Analyser les comportements clients (via les interactions) afin de dterminer les situations
risques et prendre les mesures adquates.

Prsentation

Le projet sappuie sur la solution C.I.M. (Customer Interaction Management) conue par A.I.D.
et utilisable en mode SaaS.
Les donnes traites sont de sources multiples :
- E-CRM (signaltique client, activits achats, retours darticles, retours de campagnes
marketing - ouvertures, clics, )
- Call-center (interactions, appels entrants, appels sortants, suivi des tickets )
- Site e-commerce (taggage du site avec la technologie A.I.D.)
- Rseaux sociaux (veille et capture sur le-rputation de la marque)
Les intervenants sur le projet sont pluridisciplinaires : un data scientist, un architecte
Big Data (Hadoop, Hbase), des dveloppeurs (java), un ergonome et un business analyste.
Le projet a t ralis en mode agile (scrum master, product owner).
Les processus mis en place suivent la logique : collecte, stockage, traitement (constitution
des rfrentiels), analyse, modlisation prdictive et restitution.

Valorisation observe de la donne

La donne collecte est stocke, transforme,


rfrence, analyse et modlise afin de
permettre la prise de dcision en temps
utile selon le canal : soit en contact direct avec
le client, soit en prventif pour une interaction
venir.

Etapes venir et dmarche Big Data


dans lentreprise
Le projet a dmontr lintrt de la dmarche de
collecte et de valorisation des interactions entre
magasin, site e-commerce, call-center et rseaux
sociaux. Les enjeux commerciaux et le ROI ont
t clairement valids et le dploiement de la
solution est en cours.

Aspect novateur

La solution C.I.M. amne lensemble des innovations :


- collecte de donnes htrognes, en quelques clics
- stockage et analyse en temps rel dans un environnement Big Data et cration la vole
de rfrentiels,
- interface de visualisation unique et novatrice conue et utilisable directement par le mtier,
- constitution dun modle statistique permettant de prdire les futures interactions clients
(attrition, insatisfaction, abandon de panier).

Customer Interaction Management


Comprendre, anticiper et actionner en temps rel les parcours cross canal de vos clients

Achat

MAgAsin

E-mail
nEWsLETTER

infos produit

infos produit

WEB

WEB

Achat

WEB

Achat

Offre promo

MAgAsin

E-MAiL

Rception

E-MAiL

Achat

MAgAsin

infos

CALL CEnTER

Visite

Publication

MAgAsin

Publication

TWiTTER

57 456 CLiEnTs

FACEBOOK

sMs

Rception
sMs

Retour Produit

Like
FACEBOOK

MAgAsin

Add intelligence to Data

www.aid.fr

Copyright, tous droits rservs, A.I.D. 2014

47

AMAZON WEB SERVICES


Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES
AMAZON WEB SERVICES INC

Amazon Web Services (AWS) est une compagnie dAmazon.com, cre en 2006, qui offre
ses clients un accs des services dinfrastructure dans le cloud afin de leur permettre de
crer des applications sophistiques et extensibles.

410 Terry Avenue North, Seattle, WA


98109

Aujourdhui, AWS offre plus de quarante services ses centaines de milliers de clients,
grandes et petites entreprises, dans 190 pays, tout en tant un rel moteur pour linnovation
dans de nombreux domaines comme les mdias, la finance, le e-commerce,

Tl +33 (0)1 46 17 10 08
Mail lavocats@amazon.fr

Amazon Web Services propose notamment aux scientifiques, dveloppeurs et aux autres
professionnels ayant des problmatiques Big Data, de tirer parti du cloud pour effectuer
leurs analyses et relever les dfis lis laugmentation du volume, de la diversit et de la
vitesse des informations numriques. En effet, Amazon Web Services fournit un catalogue
complet de services cloud afin daider ses clients grer le Big Data pour obtenir un avantage concurrentiel et augmenter leur rythme dinnovations. Plus de dtails sur les services
Big Data du cloud AWS : http://aws.amazon.com/fr/big-data/

CONTACT
Stphanie
LAVOCAT
Marketing Manager, France

Cloud-based services
for Big Data
Manage, Analyze and
Increase Innovation
;sl
pa kk
ihg iuo

uihmginhu
vsgsfgc g
iiegjh kl,
saffynmffd
jgh sd
qwmjkk fd
jgl 0f
mn

g
poillfhla
gfafhlag ag
dsafhfhlag
dsa
dchfhlag g
uaf lak

af lakg
jjuakg
yy6uakg

g
dsa lk;
d fhlaghgg

AWS ecosystem of software solutions

Pensez Big Data, pensez Cloud

Lide nouvelle du Big Data est de rassembler la totalit des donnes dusages historiques
disponibles (logs, donnes patrimoniales, rseaux sociaux...) sans pr-formatage ou
pr-filtrage, puis de traiter ces donnes a posteriori sur des historiques de plusieurs mois
voire plusieurs annes.
Se lancer dans un projet de Big Data dans le cloud apporte une valeur unique par rapport
des infrastructures sur site, notamment dans les tapes de stockage et danalyse:
Stockage lastique : le principe est davoir une capacit illimite dans laquelle les clients
ne paient que pour le stockage rellement utilis, sans engagement dans le temps.
Capacit serveurs la demande : les clients ont accs la demande et en quelques
minutes des serveurs virtualiss pour effectuer des traitements sans limite de taille. La
facturation des ressources est lheure dutilisation.
Cest dans ce domaine que les technologies lastiques proposes par le cloud Amazon
Web Services prennent tout leur sens. Larchitecture informatique lastique (stockage, ser-

veurs...) propose par AWS sadapte aux projets Big Data ponctuels ou rcurrents des entreprises de toutes tailles.

Rendez-vous sur: aws.amazon.com/big-data pour dcouvrir comment les services AWS


vous aident grer vos projets Big Data en rduisant les cots, pour obtenir un avantage
concurrentiel et augmenter le rythme de vos innovations.

Cas dusage AWS : Botify


Botify est une start-up franaise qui utilise lanalyse Big Data pour faire progresser lau-

dience SEO et le chiffre daffaires de leurs clients tels que Dailymotion, Viadeo, Hotels.com,
BlaBlaCar, ELLE et Venere.com. En effet, Botify gre aujourdhui lanalyse de plus dune centaine de millions de pages ce qui impose la start-up des services afin de mieux dadapter
aux besoins de ses clients en leur permettant de rcuprer les informations indispensables
en termes doptimisation du rfrencement sur les moteurs de recherche. Lorsque Botify
crawl un site de 1 million de pages, ils accumulent plus de 100 Go de donnes. Botify uti-

lise donc la plateforme AWS pour sa capacit de calcul haute performance mais aussi pour
son faible cot, sa flexibilit et sa simplicit, qui permet lentreprise de gagner du temps

en phase de lancement de projets et pour la gestion des requtes. Plus dinformation sur
Botify : www.botify.com

49

BIME ANALYTICS
Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES
BIME ANALYTICS
1 place Francis Ponge
34000 Montpellier
Tl +33 (0)4 67 41 60 35
Mail stephan.khattir@bimeanalytics.com

CONTACT
Stephan
KHATTIR
Directeur des Ventes EMEA

BIME est un service de Business Intelligence moderne. N dans le Cloud et dimmensionn


pour vos Big Data, BIME a t pens pour les entreprises devant mixer leurs donnes pour
identifier leurs facteurs cls de russites. BIME masque la complexit pour lutilisateur
mtier : il ne ncessite aucune infrastructure complexe, ni serveurs, ni logiciel client. Un
simple navigateur, uniquement.
BIME se connecte aux nouvelles sources de donnes en ligne telles que Salesforce, Twitter, Facebook, Youtube, Google Analytics ainsi quaux donnes installes dans lentreprise base de donnes propritaires comme Oracle, Excel et plus. Ralisez vos analyses personnalises et transposez les en graphiques visuels interactifs pour crer vos propres tableaux
de bord. Partagez-les en temps rel via un simple lien URL : consultez et modifiez-les sur
tablette ou mobile pendant vos dplacements.
BIME propose une srie de connecteurs Big Data tels que Google BigQuery, Amazon
Redshift, SAP HANA, HP Vertica et propose des solutions de Stockage Cloud extensibles
pour analyser vos flux de donnes, sans limite. Depuis votre navigateur.
La nouvelle version BIME V6 marque une tape importante dans lre des applications de
Business Intelligence. Sinspirant des meilleurs applications grand public, elle prsente
une interface utilisateur de nouvelle gnration, fluide, rapide, claire et lgante. Toute
la complexit habituellement associe aux outils BI disparat au profit de lefficacit et du
plaisir de travailler sur vos jeux de donnes.
BIME V6 vous accompagne toute la journe pour rpondre vos questions mtiers au fur
et mesure quelles se posent. Vous ne serez pas uniquement dans la consommation de
tableaux de bord construits par vos analystes mais vous pourrez les interroger, posez vos
propres questions, nimporte o, depuis votre tablette aussi facilement que lorsque vous
crez une prsentation. Utilisez lintgralit du Cloud comme votre propre data warehouse,
crez et partagez vos analyses la qualit visuelle la plus moderne.

Weekendesk.com,
Business Analytics 100% en ligne
Porteur du projet

Adrien Charaix, Business Analyst / Contrleur de gestion. adrien.charaix@weekendesk.fr

Objectifs

Weekendesk est une agence de voyage 100% en ligne, leader de la vente de courts sjours
en Europe. Le site gnre plus de 46M de Volume dAffaires sur les 3 pays que sont la
France, la Belgique et lEspagne. Port par le dpartement Finance & Business Analytics,
leur projet BigData sarticulait dabord sur une logique de sortie du Reporting en silo, d
lhtrognit de leurs sources de donnes. Il sagissait en priorit dagrger des donnes
financires et de les mixer avec celles du trafic de leurs sites web et du comportement de
leurs consommateurs.

Prsentation

a. Nature des donnes traites : Weekendesk est un site web marchand dont les 25000
commandes par mois gnrent un important volume de donnes transactionnelles entre
les clients et les htels. Weekendesk analyse aussi constamment lvolution de son trafic et
son taux de conversion clients en rapport avec son offre produit et/ou service de son catalogue. Avec plus de 2 millions de visites par mois en moyenne, Weekendesk utilise Google
Analytics. Les donnes transactionnelles de rservation sont stockes dans des bases de
donnes SQL et un ERP propritaire en ligne. Dautres donnes sont disponibles dans le
Google Drive de lentreprise.
b. Ressources et mthodologie (comptences humaines, outils techniques, fonctionnement
du traitement de la donne) : Le Reporting tait prcdemment produit via Excel avec une
multitude de tableaux croiss dynamiques associs et donglets, pour couvrir tous les indicateurs cls des diffrents dpartements mtiers. Ce Reporting a rapidement atteint les
limites techniques dExcel (volumtrie croissante et problme de disparit des donnes),
devenant difficilement exploitable. En slectionnant BIME, Weekendesk peut dsormais reproduire son schma de Reporting initial avec comme amlioration majeure la fluidit de
se connecter nativement toutes les sources de donnes (SQL, Google Analytics et Drive)
depuis un seul et mme endroit, puis dagrger les informations en quelques clics, pour enfin construire et partager des tableaux de bord de pilotage en ligne avec le top management
et les diffrents dpartements.
c. Calendrier de dploiement : Le projet a dmarr en avril 2014. La Direction analyse les
tableaux de bord depuis aot 2014. Weekendesk a fait appel un intgrateur pour travailler
en amont les connexions on premise aux bases de donnes SQL.

Aspect Novateur

Weekendesk est une socit 100% web, oriente cloud et mobilit. Chaque employ doit imprativement accder ses donnes mtiers depuis nimporte o. La solution de Business
Intelligence de BIME, 100% web correspond parfaitement cet ADN. Grce la gestion des
profils et droits utilisateurs, chaque Business Analyst rentabilise son temps de production
des analyses. Un mme tableau de bord, agrgeant plusieurs sources de donnes, peut
en effet tre partag avec le Comit de Direction et les dpartements mtiers. Le Comit
accde aux informations globales de lentreprise tandis que les mtiers (vente, marketing)
ne voient quun primtre autoris.

Valorisation observe de la donne

Exploitation de la richesse du croisement des informations multi sources dans les tableaux
de bord, la vole, au mme endroit et en ligne. Production simplifie de graphiques visuels permettant une comprhension rapide des performances des canaux dacquisition.
Visibilit accrue des rsultats des ventes web par rgion, par canal de vente (force de vente
interne, service client, pur web), par source (ordinateur, tablette, smartphone), dans un
contexte croissant de volume de donnes. Actualisation real time des indices de comptitivit des offres, disponibles en ligne pour les mtiers, chacun tant capable dexcuter des
requtes adhoc pour rpondre leur question.

Etapes venir et dmarche Big Data dans lentreprise

Optimisation, augmentation et mix des collectes de donnes de ventes et de rservations


pour renforcer la granularit de lanalyse au client prs. Objectif : migrer les donnes CRM
(dont Salesforce) & Marketing (dont les donnes dAttribution comme C3 Metrics) dans
Google BigQuery pour produire des tableaux de bord des profils clients et de leurs comportements dachats, le plus rapidement possible. Bnficier des technologies Cloud pour
rester fidle lADN Web de Weekendesk et disposer dune plateforme danalyse puissante
connecte en direct toutes les sources de lentreprise, pouvant grandir linfini.

www.bimeanalytics.com

51

BITTLE
Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES
BITTLE
235 Rue Denis Papin
Domaine du Tourillon Bt C
13 857 AIX EN PROVENCE Cedex 3
Tl +33 (0)4 42 12 54 57
Mail contact@bittle-solutions.com

CONTACT
Christophe
SUFFYS
Prsident

BITTLE est le premier moteur dcisionnel conu et imagin pour fonctionner en mode
Cloud Computing. Loffre est propose en mode web selon le principe du Software as a Service (SaaS), et dispose de capacits de traitement et de stockage quasi illimites.
Fonctionnellement, BITTLE permet de suivre et piloter les indicateurs cls de lensemble
des activits de la socit, en analysant les donnes sources de manire simple, efficace et
ludique. BITTLE sadresse tous types de structures qui recherchent une solution dcisionnelle complte, package et prte lemploi permettant de crer et de partager facilement
des tableaux de bord dans un environnement entirement scuris.
Notre vision est dapporter aux marchs viss une plateforme de Business Intelligence
communautaire, comprhensible par tous (aucune comptence technique en informatique
requise). Marketing, Ventes, RH, Finance, Achats, Informatique quel que soit votre mtier,
Bittle vous permettra de suivre vos indicateurs et analyser vos donnes.
Toutes les organisations, quelque soit leur taille, prives ou publiques, sont de plus en plus
demandeuses de solutions de Business Intelligence pour grer lensemble de leurs activits. Les solutions prsentes sur le march ne rpondent cependant pas leurs besoins,
pour diffrentes raisons, que ce soit la complexit de ces solutions, leur cot, ou encore les
dlais de mise en uvre.
En proposant une solution BI MultiCloud, simple mettre en place, simple utiliser et un
prix attractif sous forme dabonnement mensuel, BITTLE saffranchit de lensemble de ces
freins et simpose comme La solution dcisionnelle pour tous.

MY BIGDATA MY DECISION
Depuis sa cration, Bittle a pour ligne de conduite de vouloir rvolutionner la
faon dapprhender la Business Intelligence. Bittle dcide maintenant daller
encore plus loin en rvolutionnant le march du Big Data avec le mme souci de
dmocratisation.
La plateforme BittleGoBig permet ainsi de travailler sur les donnes de masse qui
peuvent tre gnres au travers de diffrents types dvnements.

La seule solution
intgre de Big Data la

porte de tous!

BittleGoBig
My BigData, My Decision
Depuis sa cration, Bittle a pour ligne de conduite de vouloir rvolutionner la faon dapprhender la Business Intelligence. Bittle dcide maintenant daller encore plus loin en
rvolutionnant le march du Big Data avec le mme souci de dmocratisation.

Prsentation

La plateforme BittleGoBig permet de travailler sur les donnes de masse qui peuvent tre
cres au travers de diffrents types dvnements. Elle permet, entre autres, des utilisateurs de gnrer des donnes qui ne sont actuellement pas traites informatiquement,
comme par exemple des indicateurs dutilisation, de satisfaction, de ressenti, ou encore des
comportements dutilisateurs sur des sites internet, ou sur une application mobile.
Loffre BittleGoBig se dcoupe en deux grandes parties. La premire partie sarticule autour de la cration dun moteur OLAP bas sur des technologies Big Data, appele Bittle
Foundation. La seconde partie est la mise en place de connecteurs permettant la rcupration de donnes simplement au travers dune multitude de sources, appele Data
Mixture.
Socle technologique de BittleGoBig, Bittle Foundation permet Bittle de supporter les
Big Data, sur deux aspects:
- Le stockage et linterrogation des donnes permettant davoir des tableaux de bord toujours aussi ractifs quel que soit le volume trait.
- Lalimentation en masse, permettant le temps rel, lors de limport de donnes.
Data Mixture est une vritable bote outils, permettant aux utilisateurs de collecter et
mixer des donnes la vole provenant de sources multiples, imagine pour les utilisateurs
ne possdant quun lger vernis technique.
Ce module est aussi un puissant middleware destination du dpartement informatique
dsireux de rcuprer facilement les donnes produites par les applications existantes au
sein du SI de lentreprise via des APIs intgres.

Aspect Novateur

Laurat du Concours Mondial de lInnovation 2030, Bittle innove dans sa proposition en intgrant diffrentes composantes permettant de couvrir tous les aspects du Big Data tout en
le rendant plus accessible et plus simple.
Comment ? Les outils ddis au Big Data ncessitent aujourdhui des connaissances techniques, afin de comprendre les concepts utiliss et pouvoir mettre en place de tels systmes.
Bittle ayant dj russi simplifier le dcisionnel standard, pour que des utilisateurs sans
connaissance technique puissent facilement donner du sens leurs donnes, veut mettre
tout son savoir-faire et son exprience pour reproduire ce succs en dmocratisant la mise
en place de systme Big Data.
De plus Bittle, ayant dj dvelopp un ETL accessible
des utilisateurs sans connaissance technique, va rvolutionner la rcupration et la gnration de donnes de
masse au travers de la mise en place de son module Data
Mixture tout en gardant cette phase simple dutilisation
et extrmement graphique.
Bittle deviendra donc par consquent le rceptacle central
des donnes de chaque entreprise, et le meilleur moyen
de communiquer tant en interne quen externe ... le tout
sans tre informaticien.

Valorisation observe de la donne

Les cas dutilisation de BittleGoBig sont multiples. Ils


vont du secteur des Facilities, pour une optimisation de la
consommation nergtique des btiments en traitant une
trs forte volumtrie de donnes issues des compteurs
mais aussi de sondes ou de capteurs, au secteur des tlcommunications, pour analyser les vnements sur les
rseaux mobiles, en passant par le marketing et lanalyse
comportementale, la golocalisation, ou encore le web,
pour suivre et analyser les actions effectues par les internautes sur un site ou une application web.

www.bittle-solutions.com

53

BLUESTONE
Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES
BLUESTONE
55, rue du Faubourg Montmartre
75009 Paris
Tl +33 1 53 25 02 10
Fax +33 1 53 25 02 11
Mail franck.bellenger@bluestone.fr

CONTACT
Franck
BELLENGER
Directeur Commercial

La Data Science au service de la performance

Cre en 1998 pour rpondre des enjeux dexploitation avance de la donne, Bluestone a
toujours considr quune utilisation raisonne des donnes permettait aux entreprises de :
Crer la connaissance en analysant de faon approprie les donnes et informations disponibles
Mobiliser la connaissance dans laction, grce la mise en place dapplications Data Driven .
La rvolution industrielle que constitue le Big Data valide totalement ce point de vue.
Lexploitation avance de la donne est, en effet, dsormais perue par la plupart des entreprises
comme un levier dinnovation extrmement fort tous les niveaux.
Dans ce contexte, et avec une quipe de 130 Data Scientists, nous sommes aujourdhui lun
des acteurs leaders dans ce domaine :
Conseil : Accompagnement des stratgies de Data Innovation et de Management de
lInformation au service des mtiers
Science : Expertise dans les domaines de la statistique, du datamining, du machine-learning,
et de la recherche oprationnelle
Technologie : Conception darchitectures Big Data industrielles, et dveloppement dapplications
Data Driven oprationnelles.
Notre offre de services est organise autour de 3 practices mtier :
Sales & Marketing : Connaissance & exprience clients, tarification & yield management,
marketing produit & mix modelling, pilotage & prvision des ventes
Risque & Finance : Modlisation & gestion du risque, dtection & gestion de la fraude,
planification & consolidation, pilotage de la performance globale
Oprations & Production : Ressource planning & supply chain, maintenance prdictive &
smart alarming, pilotage & exploitation de rseaux complexes.
Dans chacun de ces domaines, nous disposons dune quipe de consultants ayant dvelopp
une comptence et une exprience spcifique en la matire, qui nous permet dassurer un
relais efficace entre les besoins mtier de nos clients et les rponses scientifiques et techniques
que nous leur apportons.

Dveloppement dune plate-forme


de scoring de brevets
Porteur du projet

Caisse des Dpts Proprit Intellectuelle

Objectifs

Le march des brevets est ce jour un march encore peu transparent, sur lequel il est
difficile -et coteux- de disposer dune valorisation objective des biens changs.
Le projet sinscrit dans ce contexte, et a pour objectif de dvelopper une plate-forme permettant -sur la base des nombreuses informations publiques disponibles- de noter lensemble des brevets europens, et de mettre cette information disposition du public
concern (industriels, fonds dinvestissement).
Le principe de la notation repose sur une hypothse simple : les dcisions administratives prises par le dposant dun brevet diffrentes tapes de son cycle de vie rvlent
la qualit de linvention que le brevet protge. Ds lors, la modlisation de ces dcisions
administratives , mises en relation avec des caractristiques observables du brevet (le
texte mme du brevet, le schma de citations inter-brevets), permettent dlaborer des
modles prdictifs de la dure de vie des brevets, et ainsi dapprocher leur valeur.

Prsentation

Nature des donnes traites : Les donnes traites portent sur lensemble des brevets
europens. Il sagit pour certaines de donnes structures (classification internationale
pour les domaines technologiques, citations de brevet brevet, cycle de vie administratif
du brevet), et pour lessentiel de donnes non structures (texte des revendications et des
descriptions, en franais, anglais ou allemand). Ces donnes sont collectes partir du
rfrentiel de brevets de Questel (fournisseur de donnes spcialis), et du site de lOffice
Europen des Brevets.
Ressources et mthodologie : Lensemble des donnes collectes est transform puis stock et historis sur une plateforme Hadoop.
Les processus algorithmiques de calcul des notes qui impliquent des traitements statistiques complexes, ainsi que des traitements de type textmining sur de gros volumes- sont
excuts automatiquement sous forme de batch, ou la demande selon le paramtrage
choisi par lutilisateur (slection dun rfrentiel de calibration des modles, modification
des caractristiques des brevets valus).
Calendrier de dploiement : Aprs plusieurs exprimentations et tests en grandeur nature
auprs dutilisateurs pilotes, une premire version accessible au public sera lance au printemps 2015.

Aspect novateur

Le scoring labor dans le cadre de ce projet est le seul qui permette une combinaison algorithmique de nombreuses caractristiques des brevets, dont certaines issues dune approche
textmining peu ou pas utilise jusquici. Laccent est galement mis sur la possibilit de dcomposer le score selon les caractristiques les plus influentes du brevet, ce qui garantit
la transparence des algorithmes de calcul utiliss. Enfin, les utilisateurs les plus avancs
peuvent choisir un univers de rfrence pour la calibration des modles, et obtenir des notes
pour leur portefeuille et ceux de leurs concurrents aussi pertinentes que possible.

Valorisation observe de la donne

La notation des brevets propose permet de nombreux usages pour diffrents types dacteurs de la proprit intellectuelle. Dans le cadre dune revue de portefeuille acqurir, elle
peut par exemple aider des experts valuateurs de brevets identifier plus rapidement les
meilleurs brevets. Elle permet de prendre en compte le portefeuille de brevets dune socit pour aider aux dcisions dacquisition ou de financement. Au sein dun dpartement de
proprit intellectuelle, elle offre aussi un moyen de valoriser son portefeuille par rapport
celui de ses concurrents

Etapes venir et dmarche Big Data dans lentreprise

Les mois qui viennent vont permettre de porter lensemble des traitements en environnement de production.
En outre, les algorithmes de notation seront probablement encore affins pour tenir compte
des retours des premiers utilisateurs. Pour cela, il est notamment envisag dorienter le
projet vers une logique dopen innovation grce la plate-forme datascience.net.

www.bluestone.fr

55

CAPGEMINI
Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES

Dans un monde constamment connect , les sources de donnes se sont multiplies,


des puces RFID aux transactions en ligne en passant par les analyses des codes QR et les
messageries instantanes des rseaux sociaux. Non seulement le volume de donnes gr
par les entreprises a explos, mais analyser le pass ne suffit pas : pour pouvoir bnficier
dun vritable avantage concurrentiel, vous devez anticiper lavenir.

CAPGEMINI
7, rue Frdric Clavel
92287 Suresnes Cedex
Tl 01 49 00 40 00
Mail valerie.perhirin@capgemini.com

Cest l que lexpertise Big Data de Capgemini entre en jeu. Car si le march volue et les
solutions Big Data se dmocratisent rapidement, les entreprises peuvent encore avoir des
interrogations sur les choix technologiques, dinfrastructure ou dorganisation. Capgemini
dispose dun solide savoir-faire avec notamment un centre dexcellence, un lab et des
quipes exprimentes.

A propos de Capgemini

Fort de plus de 130 000 collaborateurs et prsent dans plus de 40 pays, Capgemini est lun
des leaders mondiaux du conseil, des services informatiques et de linfogrance. Le Groupe
a ralis en 2013 un chiffre daffaires de 10,1 milliards deuros.

CONTACT
Valrie
PERHIRIN
Responsable France de loffre Big Data

Avec ses clients, Capgemini conoit et met en uvre les solutions business et technologiques qui correspondent leurs besoins et leur apporte les rsultats auxquels ils aspirent.
Profondment multiculturel, Capgemini revendique un style de travail qui lui est propre, la
Collaborative Business ExperienceTM , et sappuie sur un mode de production mondialis,
le Rightshore .
Plus dinformations sur : www.fr.capgemini.com

Nous sommes ceux qui transformons


les innovations
en rsultats

technologiques

business.

Capgemini 2014. * Lhomme est vital, le rsultat capital

Rightshore est une marque du groupe Capgemini

Business Analytics et Big Data : les nouveaux enjeux de lefficacit business


www.fr.capgemini.com/business-analytics-et-big-data

Tlcom : optimiser lutilisation


rseau grce au Big Data
Porteurs du Projet

La division Global Solution dun acteur international dans le secteur des Tlcoms, trs
prsent en Europe et en Amrique du Nord

Objectifs

Notre client a missionn Capgemini pour dvelopper une solution sappuyant sur des outils Big Data afin de : Prdire les futures hausses du trafic sur des marchs et des rgions
spcifiques Identifier les zones o le rseau tait surdimensionn ou sous-dimensionn
Identifier les zones o la croissance du trafic pourrait amener des opportunits de ventes
supplmentaires.

Prsentation

Notre client cherchait optimiser son rseau, amliorer sa qualit de service et identifier des modles de comportements sociaux permettant dinitier de nouvelles activits
gnratrices de revenus. Pour y parvenir, la socit a d convertir ses donnes relatives
lutilisation de son rseau en informations effectivement exploitables. La socit craignait
notamment que le trafic rseau, pour ses offres de gros destines aux entreprises, ne soit
en baisse en raison dune concurrence agressive obligeant les socits offrir des prix plus
bas aux clients.
a. Nature des donnes traites :
Capgemini a fourni au client une solution lui permettant danalyser ses donnes via de
nombreuses sources dont :
le trafic rseau les informations sur les lignes rseau la qualit de service les informations sur les systmes autonomes les donnes dmographiques
b. Ressources et mthodologie (comptences humaines, outils techniques, fonctionnement
du traitement de la donne)
Capgemini a tir parti des modles de thermodynamique sociale qui permettent deffectuer
des analyses et des prdictions sur lutilisation du rseau.
Les rapports ont t produits via la solution SAP Business Objects BI 4.1. Cloudera
Enterprise 4.5 a t utilis comme plate-forme Big Data, tandis que les requtes ont t
traites directement avec Cloudera Impala.
La solution incluait galement :
Lutilisation des mthodes agiles Lintroduction dun outil ESB/ELT pour lintgration des
donnes Lutilisation dun processeur graphique (GPU) pour parallliser grande chelle
les calculs thermodynamiques Lutilisation dun modle thermodynamique pour lanalyse
de donnes
c. Calendrier de dploiement : Confidentiel

Aspect Novateur

Utilisation dalgorithmes scientifiques permettant de mieux modliser le trafic internet


et le comportement des routeurs rseau.
Utilisation de technologies Hadoop Cloudera dans le cloud AWS, pour une plus grande
flexibilit de calcul.

Valorisation observe de la donne

Durant la premire phase du projet, les donnes ont t transfres et centralises dans
un Enterprise Data Hub. La solution Enterprise Data Hub de Cloudera offre une plus grande
souplesse et ractivit dans le stockage et lanalyse des donnes, tout en permettant au
client de rduire considrablement ses cots.
Le projet a galement permis au client de dtecter lavance les zones gographiques de
son rseau o il pourrait cibler ses investissements.
Autres bnfices notables pour le client :
Amliorations oprationnelles Identification de nouvelles opportunits commerciales
Amlioration de lappui stratgique aux activits commerciales Rapports dentreprise
plus flexibles, toutes les informations tant disposition dans un rfrentiel unique Prdictions de rsultats plus prcises grce lutilisation des modles thermodynamiques

Etapes venir et dmarche : Confidentiel

www.fr.capgemini.com

57

CENTRALESUPLEC
EXECUTIVE EDUCATION
Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES

Le monde change, nous vous aidons changer

Par la complmentarit de leur offre de formation et de leurs activits de recherche, Centrale


Paris et Suplec proposent une offre de formation continue trs complte qui couvre le champ
des Sciences de lIngnieur. Nos approches pdagogiques sattachent faire de la formation
continue un outil de valorisation et de reconnaissance pour les collaborateurs et les managers
des entreprises, sans perdre de vue lamlioration de la performance de la structure.

CENTRALESUPLEC
EXECUTIVE EDUCATION

Grande voie des Vignes


92 295 CHATENAY MALABRY

Conjuguez management et technologies

Parce que le monde change, parce quil change grande vitesse, les formations de
CentraleSuplec Executive Education sont non seulement axes sur les comptences, mais
aussi sur le dveloppement des capacits des individus et des entreprises changer de
faon continue. Cest un enjeu majeur qui ncessite autant dagilit que de talent.
CentraleSuplec Executive Education hrite de deux cultures frues dexcellence et rputes
pour leurs approches avant-gardistes de la pdagogie. Car Centrale Paris comme Suplec,
les formations dpassent largement la seule acquisition de connaissances : lobjectif est de
former des personnalits conscientes des grands enjeux conomiques, environnementaux et
sociaux de notre poque pour transformer le quotidien.

Tl +33(0) 1 41 13 16 14
Mail info@cf.ecp.fr

CONTACT
Rania
OUARET

La formation Big Data enjeux et opportunits

Charge daffaires SI

A lre du numrique, le dluge de donnes cre de nouvelles opportunits conomiques


pour les entreprises. Toute la chane du dcisionnel est impacte par ces Big Data , de la
collecte des donnes htrognes leur analyse et leur visualisation, en temps contraint.
Diffrents mtiers de lentreprise sont galement impacts par ce phnomne comme le
marketing ou la stratgie dentreprise.

Objectifs de la formation

COMPRENDRE les enjeux des Big Data IDENTIFIER les opportunits travers lopen
data et les cas dusage mtiers ACQURIR le vocabulaire li cet cosystme complexe
ADAPTER la stratgie dentreprise MATRISER les enjeux juridiques et lis la protection
des donnes ACQURIR les technologies des Big Data (acquisition et stockage des
donnes, traitement distribu, analyse de donnes large chelle) MATRISER les
technologies par des tudes de cas concrtes CONCEVOIR un projet Big Data.

Les formations continues BIG DATA


de CentraleSuplec Executive Education

Parce que
votre
comptence
est linstrument
privilgi
de votre
croissance.

Documentation et catalogue
www.cf.ecp.fr
Conseil et accompagnement
01 41 13 16 14 / info@cf.ecp.fr

EXECUTIVE CERTIFICATE BIG DATA POUR LENTREPRISE NUMRIQUE_


ENJEUX, PERSPECTIVES ET PANORAMA DES BIG DATA_
ASPECTS JURIDIQUES ET PROTECTION DES DONNES_
ACQUISITION ET STOCKAGE DES DONNES_
TRAITEMENT DISTRIBUE_
ANALYSE DE DONNES & BIG DATA, CONFESS YOUR DATA_
CADRAGE ET MANAGEMENT DE PROJETS BIG DATA_
+ DES FORMATIONS SUR MESURE, PERSONNALISES, ADAPTES VOS BESOINS_

EXECUTIVE
EDUCATION
Le monde change. Nous vous aidons changer.

EXP&RIENCE

Stratgiques pour vous. Essentielles pour votre entreprise.

Interview de Marie Aude Aufaure

4 questions Marie Aude AUFAURE


Responsable pdagogique des formations Big Data CentraleSuplec
Expert auprs de la commission europenne sur les appels projets Big Data
Pourquoi se former sur les Big Data ?

Les Big Data constituent un enjeu la fois en termes dopportunits business et de dfis
scientifiques et techniques. Cest un vecteur dinnovation et limpact socio-conomique est
fort. La bonne utilisation des donnes massives peut accroitre la productivit, linnovation
et la comptitivit dans des secteurs conomiques entiers. Dans de nombreux domaines,
tels que lnergie, le commerce lectronique, le secteur public, les mdias, lenvironnement
pour nen citer que quelques-uns, les donnes massives saccumulent. Ces donnes se
caractrisent par une volumtrie importante, une forte htrognit et une provenance
en temps rel. Leur gestion et leur exploitation deviennent des enjeux stratgiques, en
mettant en uvre des mthodes danalyse capable de passer lchelle Big Data. Le
mtier de Data Scientist merge, ncessitant une solide connaissance en statistiques et
mthodes avances danalyse de donnes combine une comprhension de la gestion
de donnes passant lchelle, sur les aspects techniques et implmentation. Un autre
spcialiste des Big Data, le Data Engineer, doit tre capable de dvelopper des techniques,
processus et mthodes pour transformer les donnes en business et gnrer de la valeur.

Quelle est la valeur ajoute de CentraleSuplec Executive Education sur ce sujet ?

Cette formation intgre la fois les aspects techniques et managriaux des fonctions lies
aux Big Data. En effet, il est important de comprendre leurs enjeux, les aspects lgaux lis
la scurit et la protection des donnes personnelles mais
aussi dtre en mesure de mettre en uvre un projet Big Data sur
le plan technique. La formation dlivre par CentraleSuplec
Executive Education aborde lensemble des diffrentes
facettes de la gestion et de lexploitation des donnes massives,
des cas dutilisation et de la stratgie dentreprise.
Cette formation est galement modulaire, conduisant des certifications intermdiaires (globale, management ou technique).

Vers qui est oriente cette formation ?

LExecutive Certificate Big Data pour lentreprise numrique est


destin un public de Directeurs/chefs de projet, managers des
systmes dinformation, experts en business intelligence,
ingnieurs de recherche et dveloppement, consultants
techniques, data miners.

Quelles en sont les modalits (dure, implication ncessaire,


pr-requis, etc)

La formation dure 20 jours (140 heures) et donne lieu une


certification base sur un test de connaissances pour chaque
module et un mmoire avec soutenance en fin de cursus. La
formation inclut une journe daccompagnement la prparation du mmoire et la soutenance. Les mthodes pdagogiques sont bases sur un expos de ltat de lart, des mises
en pratique via des logiciels spcifiques et des tudes de cas.
A ceci sajoutent des retours dexprience dindustriels du
domaine sous forme de webinars qui pourront tre suivis en
ligne avec une sance de questions/ rponses, ou de manire
diffre.
Deux certifications intermdiaires sont galement prvues,
lune dune dure de 6,5 jours abordant les aspects enjeux, juridiques et gestion de projet et la seconde dune dure de 16
jours abordant les aspects techniques : stockage, traitement
distribu, analyse, gestion de projet ainsi que les enjeux.

www.cf.ecp.fr

59

CLOUDERA
Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES
CLOUDERA FRANCE SRL
Mail emea-enquiries@cloudera.com

CONTACT
Romain
PICARD
EMEA Regional Director

Cloudera rvolutionne la gestion des donnes dentreprise avec la premire plateforme


unifie pour le Big Data base sur le framework Apache Hadoop. Cloudera fournit aux entreprises un lieu unique pour stocker, traiter et analyser leurs informations, tout en crant
de nouveaux moyens de maximiser la valeur des investissements existants et de gnrer
davantage de valeur partir de leurs donnes. Pionnier de Hadoop ds 2008, Cloudera
demeure le principal fournisseur et dfenseur du framework Apache dans les entreprises.
Cloudera propose galement des logiciels de gestion dapplications critiques stockage,
accs, gestion, analyse, scurit et recherche de donnes. Cloudera collabore avec plus de
1 000 fournisseurs de matriels, logiciels et services pour rpondre aux objectifs ambitieux
de ses clients.

Interview de Romain Picard


Romain est entr chez Cloudera en Juillet 2014, dans le cadre de la stratgie dimplantation
de la socit en Europe. Constatant une forte demande de solution Hadoop, Cloudera a mis
en place un plan de dploiement ambitieux, incluant dimportants recrutements.
Romain en est persuad : les donnes sont le nouvel or noir , mais cest aussi une matire contrler.
Dans un premier temps, Hadoop permet la dmocratisation du Big Data. Laugmentation
des volumes de donnes nest pas rserve quaux grands acteurs, toute entreprise travers le monde est concerne, PME y compris. Toute entreprise peut dsormais mettre en
place une infrastructure Hadoop, centralise et accessible aux mtiers en permanence.
Chez Cloudera, on lappelle lEnterprise Data Hub. Lintrt tant davoir accs toutes les
donnes quand on le souhaite sans limite de temps.
Toute la problmatique rside alors dans leur exploitation. Comme le dit Romain, comment
passe-t-on des donnes linformation ? Cest l quintervient le datascientist, lment incontournable qui dtermine quelles donnes seront utiles pour gnrer quelle information.
Reste convaincre les mtiers de leur intrt et les pousser se poser des questions quils
nauraient pas imagines auparavant.
Lintrt valid, demeure la question de la scurit. Si de nombreuses problmatiques mtiers sont adresses au sein de lentreprise grce Hadoop, il est indispensable de dfinir
qui a accs quelles donnes. Avec lacquisition de Gazzang, Cloudera se dote dun outil
capable de grer cette question et devient le premier fournisseur capable doffrir une solution Hadoop entirement scurise. Les donnes sont encodes, anonymises, leur accs
au sein de lentreprise est limit et monitor en temps rel, ceci pour rpondre des problmatiques de compliances, audits, etc.
Dernier point important daprs Romain : la simplification IT. Plus de silot avec des systmes transactionnels de partout mais un seul Enterprise data Hub. Un seul et mme rceptacle accueille toutes les donnes, qui sont ensuite analyses par des outils simples
et intuitifs selon les besoins de chaque mtier. Cloudera apporte pour sa part lexpertise
fonctionnelle et des supports tels Cloudera Manager.
Chaque secteur et chaque mtier adresse ses propres problmatiques. Dans le retail, la
capacit de positionner le bon produit au bon moment un client donn amliorera la comptitivit. Que ce soit augmenter le CA, limiter les cots, amliorer la qualit de vie, garantir
la scurit, offrir des services innovants Le Big Data rpond prsent.
Romain nous relate alors une anecdote de son dirigeant, Tom Reilly, qui alors quil se trouvait au volant de sa voiture en Californie, entendit la radio un alerte tremblement de terre,
dcomptant 8 secondes avant quelles surviennent les secousses. 8 secondes avant ? En
quoi cela est-il utile ? Si un humain a en effet peu de capacits de raction en un temps aussi court, les machines, elles, trouvent dans ces quelques secondes un intrt primordial.
Fermer un pont, bloquer des ascenseurs les alertes et raction automatises peuvent
viter de nombreux accidents.

De belles opportunits la cl

Le Big Data offre aux entreprises de diffrents secteurs une formidable opportunit. En
exploitant de nouveaux gisements de donnes de toutes sortes, elles peuvent poser des
questions nouvelles et originales concernant leurs clients et leur activit. Par exemple, les
entreprises utilisent ces donnes pour amliorer lexprience vcue par leurs clients en vue
de les fidliser tout en gnrant une valeur ajoute accrue. Dans le mme temps, en disposant dune vision pertinente et approfondie des activits commerciales, ces entreprises
peuvent identifier les zones dinefficacit qui, une fois traites, participeront potentiellement la rduction des cots dexploitation.

La plateforme Enterprise Data Hub : la cl du succs pour le Big Data

Lobjectif est simple : acqurir et combiner tous volumes ou types de donnes en conservant fidlement leurs caractristiques initiales en un seul endroit et aussi longtemps que
ncessaire, et offrir des informations pertinentes tous les types dutilisateurs, aussi vite
que possible, en utilisant les investissements et les ressources avec une efficacit maximale. Place la plateforme Cloudera Enterprise Data Hub Edition !

Par rapport aux systmes existants, la plateforme Enterprise Data Hub Edition (EDH) de Cloudera prsente des avantages suivants :
> Des archives actives : Un endroit unique pour stocker toutes vos donnes, tous formats

confondus, sans limite de volume, aussi longtemps que vous le souhaitez. Vous pouvez ainsi
rpondre aux exigences de conformit et fournir des donnes sur demande pour satisfaire
aux exigences rglementaires, internes ou externes. Parce que ce lieu est scuris, vous
savez qui voit quoi, et grce aux services de gouvernance et de lignage, vous pouvez suivre
laccs vos donnes, ainsi que leur volution au fil du temps.
> Transformation et traitement : Les charges de travail ETL qui devaient auparavant tre
excutes sur des systmes coteux peuvent migrer vers la plateforme Enterprise Data
Hub o elles pourront tourner trs faible cot, en parallle et beaucoup plus rapidement.
Loptimisation de lemplacement de ces charges de travail et des donnes associes libre
de la capacit sur les systmes analytiques et les entrepts de donnes haut de gamme.
Ce sont par consquent de solides atouts capables de se concentrer sur les applications
critiques prises en charge, telles que les applications OLAP.
> Informatique dcisionnelle exploratoire (Self-service BI): Les utilisateurs veulent souvent
accder des donnes aux fins de reporting, dexploration et danalyse. Dans de nombreux
cas, les systmes dentrepts de donnes de production doivent tre protgs contre un
usage informel afin dtre en mesure dexcuter les traitements analytiques et oprationnelles quils prennent en charge. Une plateforme EDH permet aux utilisateurs dexplorer
les donnes en toute scurit, en utilisant des outils dinformatique dcisionnelle (BI) interactifs traditionnels au moyen du langage SQL et de recherches par mot-cl.
> Fonctions analytiques avances : Plusieurs environnements informatiques (computing
frameworks) ddis aux fonctions analytiques, la recherche ou au machine learning, apportent une nouvelle valeur aux sources de donnes, nouvelles et anciennes. Au lieu dexaminer des chantillons de donnes ou des instantans correspondant de courtes priodes
de temps, toutes les donnes historiques peuvent tre combines dans des analyses compltes avec une parfaite fidlit. Des donnes tabulaires simples peuvent tre panaches
avec des donnes plus complexes et multi-structures, ce qui tait jusqualors impossible.

PLATEFORME ENTERPRISE DATA HUB DE CLOUDERA


ANALYTIC
SQL

SEARCH
ENGINE

MACHINE
LEARNING

STREAM
PROCESSING

3RD PARTY
APPS

GESTION DE LA CHARGE DE TR
AVAIL

UNIFIES, LASTIQUES, RSILIENTES, SCURISE


S

Systme de fichier
s

www.cloudera.com

NoSQL en ligne

Administration
du systme

STOCKAGE DE TOUT TYPE DE DONNE


S

Gestion
des donnes

BATCH
PROCESSING

61

CLUB DECISION DSI


Hard

Soft

B.I.

Dataviz

Conseil

COORDONNES
CLUB DCISION DSI
16 Place Vendme
75001 Paris
Tl +33 (0) 1 53 45 28 65
Mail club@decisiondsi.com

Instit.

Le Club Dcision DSI, premier club franais ddi aux directeurs informatiques

Aujourdhui le Club Dcision DSI runit 1 100 membres directeurs Informatique & Tlcoms de socits du secteur priv et du secteur public dont le parc informatique est suprieur 200 pc. Il rassemble des hommes et des femmes dexprience, anims par la volont
de mener des actions qui soutiennent dautres directeurs des systmes dinformation (DSI)
dans la ralisation de leurs projets professionnels.
Le club est administr par Vronique Daval, la prsidente, le vice-prsident, ainsi que par
un conseil central compos de neuf directeurs informatiques.

CONTACT
Vronique
DAVAL
Prsidente du Club

Chaque anne le club organise :

20 manifestations thmatiques par an.


7 vnements accessibles aux partenaires (diteurs de logiciels, constructeurs,
oprateurs tlcoms, SSII)
Les Rencontres de linnovation technologique
Le consortium du DSI
Les DSI Meeting (table rondes, dbats)
Le diner de Gala avec son village solutions (rserv aux membres et aux partenaires du
club)
Le dner de gala annuel

HELP DSI , le 1er Rseau francophone de 1100 DSI connects

HELP DSI ce sont des DSI, des groupes de DSI et des communauts de DSI qui changent en
associant leurs ides, leur exprience et leurs connaissances Afin doptimiser leurs choix
technologiques.
Le club dispose de son propre rseau social (RSE) sur lequel de nombreuses thmatiques
sont abordes qui permettent aux membres de capitaliser sur lexprience des uns et des
autres. Les ambassadeurs de Club Dcision DSI ont adopt cette solution afin damliorer
la communication entre les membres, de crer des groupes de rflexion sur des thmatiques varies, et de diffuser les comptences travers le rseau des membres au niveau
national et europen.
Ce moteur dexprience permet aux socits adhrentes de se servir des retours dexprience des projets IT mis en place par les membres.
Chaque anne les ambassadeurs identifient des thmatiques auprs des membres et dfinissent un programme annuel consultable sur le site internet du Club :

www.club-decisiondsi.com

CSC
Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES
CSC
Immeuble Balzac : 10 Place des Vosges
92072 Paris La Defense Cedex
Tl +33 (0)1 55 70 70 70
Mail lguiraud@csc.com

CONTACT
Laurent
GUIRAUD
Responsable Offre Big Data
& Analytics France

Si vous aviez la possibilit de lobtenir, quelle information transformerait


radicalement le mode de fonctionnement de votre entreprise ?
CSC fournit ses clients les fondations pour la gestion de linformation et les capacits analytiques leur permettant dobtenir un aperu sur le pass, le prsent et le futur.
Et nous pouvons les aider obtenir des rsultats en moins de 30 jours, ainsi CSC aide les
organisations tirer parti de la puissance des Big Data pour orienter leur activit et faire face
la concurrence.
CSC offre des services de Consulting couvrant les aspects Mtier, Data Science et Plateforme partir doffres packages, des meilleures technologies, et dune plateforme combinant des solutions
traditionnelles et open source pour rsoudre les cas dusage les plus complexes de nos clients.
A propos de CSC

CSC est un des leaders mondiaux des solutions et des services informatiques de nouvelle
gnration. Lentreprise se donne pour mission de faire fructifier les investissements technologiques de ses clients, en associant son expertise mtier et sa dimension mondiale aux
meilleures solutions du march
Grce sa large gamme de comptences, CSC fournit ses clients des solutions sur mesure pour grer la complexit de leurs projets afin de leur permettre de se concentrer sur
leur cur de mtier, collaborer avec leurs partenaires et clients, et amliorer leurs performances oprationnelles.
79 000 professionnels dans le monde travaillent chez CSC, au service de clients rpartis
dans plus de 70 pays. CSC a ralis un chiffre daffaires de 13 milliards de dollars au cours
de lanne fiscale clture le 30 mars 2014

STORM
R
HADOOP
D3
NOSQL

ERP
EDW
CRM
HCM
PLM

AUDIO/VIDEO
LOGS WEB
FLUX DE CLICS
DONNES DE CAPTEURS
MDIAS SOCIAUX

Big Data PaaS

La solution Big Data Platform-as-a-Service de CSC


est une plateforme Big Data entirement intgre
et opre, permettant nos clients de dvelopper et
tirer parti dun environnement Big Data en moins de
30 jours :
livre en mode as a Service
utilisant des technologies web scale avances
sappuyant sur des solutions open source et des
modles oprationnels utilises par Google, Yahoo!,
Facebook, Twitter & Linkedin.
supportant toute combinaison danalytique ad-hoc,
batch et temps rel
Avec Big Data PaaS il est beaucoup plus facile et
moins coteux de dvelopper, mettre en uvre et
oprer des applications Big Data.

DES RSULTATS
TANGIBLES
AVEC LE

BIG DATA

IONS
ICAT
L
P
AP
ILIT
MOB

CLOU
D
CY
BER
SCU
RIT

www.csc.com

CONNAISSANCE
CLIENT

GESTION
DES RISQUES

OPRATIONS
INTELLIGENTES

INNOVATION
PRODUIT

65

DATASTAX
Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES
DATASTAX FRANCE
121 avenue des Champs Elysees,
Paris, France 75008

DataStax paule les applications en ligne qui transforment lactivit de plus de 300 clients,
parmi lesquels de nombreuses start-ups et 20 des Fortune 100. DataStax offre une technologie de base de donnes massivement extensible, flexible et constamment disponible,
intgrant une version dApache Cassandra certifie pour la production avec analyses, recherches et scurit pour les donnes en temps rel, dans des centres de donnes multiples et dans le cloud. De grandes socits font confiance DataStax pour transformer leur
activit : Adobe, HealthCare Anytime, eBay, ou encore Netflix.

Tl +33 (0)1 72 71 85 85
Fax +33 (0)1 72 71 85 99
Mail svandenberg@datastax.com

CONTACT
Steve
VAN DEN BERG
DataStax Regional Director
Western Europe

Base de donnes distribue


pour les entreprises du Web
Commencez nimporte
quel niveau, expansif
souhait
Architecture toujours en
activit
Cassandra certifi pour les
dploiements en production
Dploiement sur site ou
dans le Cloud
Architecture dynamique et
flexible
www.datastax.com

Choisir une stratgie NoSQL

Les analystes sattendent ce que le march du NoSQL progresse trois fois plus vite que celui du SQL dans les prochaines annes. Les nouveaux venus dans le Big Data auront donc
coeur de comprendre pourquoi et comment ce type de technologie peut sadapter leur organisation. Les motivations pour passer au NoSQL sont lies aux besoins de performances,
de monte en charge, de trs haute disponibilit, de distribution gographique, de gestion
de tout type de donnes et de rduction des cots. Il existe cependant des obstacles indniables son adoption, aussi bien techniques que non techniques. Il est important dtudier
ceux-ci en mme temps que les amliorations apportes par lcosystme NoSQL. Par ailleurs, il est important de connaitre les cas dutilisation afin de correctement introduire cette
technologie NoSQL dans lentreprise.

Choisir une base de donnes NoSQL

Le site Web nosql-database.org liste actuellement plus de 150 bases de donnes NoSQL
diffrentes. Avec une telle liste, comment trouver les candidats qui pourront convenir
votre scnario dutilisation ?

Principaux critres de choix : De nombreuses caractristiques et fonctions distinguent les


diffrentes bases de donnes NoSQL. On peut cependant saider de critres pour mieux
cerner celles qui conviendront une utilisation dfinie. Pour commencer, il faut savoir quel
type de donnes vous avez besoin de grer. En effet, les bases de donnes NoSQL utilisent
des modles de donnes trs divers (colonnes, documents, graphes) et linadquation
entre le modle de donnes et lapplication peut tre fatale au projet.
La monte en charge attendue : la question suivante concerne le potentiel de croissance
de lapplication et laugmentation du volume des donnes. Certaines bases de donnes
NoSQL se rsument principalement au stockage en mmoire. Elles sont donc difficiles et
coteuses faire monter en charge, la diffrence de Apache Cassandra, capable dune
extension linaire sur de trs nombreuses machines.
Le modle de distribution des donnes : il est important de dfinir le besoin de rpartition
des donnes, la prise en compte de plusieurs rgions gographiques et la ncessit de
rcupration aprs sinistre. Il faut aussi se demander si les lectures et les critures devront
toutes tre prises en charge sur les sites distribus. Certaines bases de donnes NoSQL
utilisent des architectures matre-esclave (bien que leur appellation soit parfois primaire/
secondaire ), qui permettent une monte en charge des oprations de lecture seulement.
Dautres architectures Peer-to-Peer (sans relation matre-esclave ) comme Apache
Cassandra, permettent de supporter laugmentation massive des besoins la fois en lecture et en criture.
Le dploiement dune stratgie NoSQL dans votre entreprise impose donc de bien
comprendre pourquoi et comment les socits utilisant cette technologie ont russi. Il faut
galement dterminer comment votre activit va pouvoir bnficier des spcificits du
NoSQL. Une fois que vous aurez dcid quelle technologie NoSQL est faite pour vous, il vous
faudra encore comprendre les piges viter, les critres de choix selon vos applications et
la bonne stratgie de dploiement.
DataStax propose des logiciels, des services et des stratgies adapts lentreprise pour
vous aider russir votre conversion au NoSQL. Avec sa solution DataStax Enterprise
utilisant Apache Cassandra, scurise et prouve, son assistance 24 heures sur 24, ses
conseils et ses formations dispenss par des experts, DataStax peut vous aider tirer tout
le bnfice du NoSQL tout en facilitant le changement.
Pour en savoir plus sur Apache Cassandra et DataStax et tlcharger les logiciels Cassandra et DataStax Enterprise, consultez le site www.datastax.com ou envoyez un message
info@datastax.com.

www.datastax.com

67

EDIS CONSULTING
Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES
EDIS CONSULTING - JEMS GROUP
6 bis rue des Graviers
92 200 Neuillly-sur-Seine
Tl 01 47 89 63 10
Mail mbrancher@edis-consulting.com

CONTACT
Matthieu
BRANCHER
Directeur Commercial

EDIS est une structure spcialise dans les systmes daide la dcision et lun des plus
importants acteurs indpendants du march franais de la Business Intelligence.
EDIS accompagne ses clients dans la dfinition et le choix des technologies, linstallation de
larchitecture BIG DATA ainsi que son intgration au sein de leur systme dinformation (SI).
Associ JEMS Group, entreprise ddie aux systmes dinformation, EDIS dveloppe depuis
10 ans des offres de conseil et dintgration de solutions dcisionnelles couvrant toute la
chane de valeur jusquau pilotage de la performance des processus et des activits mtier.
Avec une politique de partenariat active aux cts des principaux diteurs de Business Intelligence historiques (SAP-BO, IBM, Oracle, MS), et des challengers aux solutions innovantes
et complmentaires (Talend, MAP-R, Tableau...), toutes les quipes EDIS rassembles en
ples dexpertise, maitrisent leurs outils, et sont formes aux meilleures mthodes et pratiques de conception, ralisation et de management de projets.
LE ple BIG DATA, conoit et met disposition des clients, de tous secteurs dactivits, des
solutions innovantes permettant la collecte, le stockage, lanalyse en temps rel, la diffusion et la visualisation de donnes structures ou non structures.
EDIS propose une mthodologie de metadata enhancement permettant dextraire de la
pertinence et dexplorer de nouveaux axes danalyses dintrts pour les mtiers.
Cr galement en 2002, JEMS Group est LE cabinet en systmes dinformation, fond sur
des valeurs humaines solides pour ses clients et ses consultants.
Renforc en 2012 grce au rapprochement avec EDIS, JEMS possde un savoir-faire et un
savoir-tre qui assurent la russite de chaque projet. JEMS Group compte 260 collaborateurs et ralise 24,5 M de chiffre daffaires

BIG DATA
Datawarehouse

DATAvIsuAlIsATIon
DashboarDing

DATAvAlorIsATIon
haDoop
Datalake

Vous avez les donnes,


nous avons le savoir-faire !
RETROUVEZ NOTRE EXPERTISE
ET NOS RALISATIONS SUR
www.EdIS-cONSULTINg.cOm

Constitution dun Data Lake en


milieu bancaire
Porteurs du Projet

Lun de nos clients, grand acteur du secteur bancaire, souhaite sappuyer sur une innovation
technologique majeure de gestion et de management de donnes (Hadoop) pour centraliser
et partager les donnes internes et externes de ses diffrents mtiers.

Objectifs

Lobjectif du projet est de dvelopper les synergies par un accs et une exploitation plus
transversale du capital dinformations conomiques. En favorisant laccs, lenrichissement, le partage et le traitement de linformation, le projet doit lui permettre de promouvoir
lchange dinformation entre les diffrents acteurs.

Prsentation

Ce projet majeur vise regrouper dans un espace unifi et mutualis (DATA LAKE reposant
sur le framework Hadoop) des donnes conomiques en provenance de plusieurs sources.
EDIS, spcialiste du traitement de linformation et des infrastructures Big Data, accompagne cette transition technologique et organisationnelle. Nos quipes mnent de front les
chantiers organisationnels, fonctionnels et technologiques.
a. Nature des donnes traites : La plateforme BigData accueille un grand nombre de donnes htrognes provenant de diffrents producteurs internes/externes, avec des structures et formats diffrents et des systmes de codification htrognes.
b. Ressources et mthodologie (comptences humaines, outils techniques, fonctionnement
du traitement de la donne) : EDIS, apporte son avoir faire la mthodologie, ralise le
cadrage et la dfinition des besoins, assure la bonne mise en uvre du projet et participe
la dfinition et la mise en uvre de linfrastructure.
EDIS apporte galement son expertise sur larchitecture Big Data :
- Collecte et stockage de gros volume de donnes dans Hadoop sur des bases de donnes
NoSQL (HBase, MongoDB, Casandra)
- Mise disposition rapide (HDFS, NFS, YARN, MapReduce)
- Analyse, Valorisation & Visualisation (Hive, Pig, Impala, Mahout, Logstash, ElasticSearch,
Shark, Spark, R, Tableau, Kibana etc).
Notre mthodologie pour la constitution de DATALAKE, repose sur un processus dintgration de donnes qui sont ensuite enrichies en mtadonnes afin de disposer dinformations
contextuelles insres dans un rfrentiel. Cet enrichissement sappuie sur un dictionnaire
de mtadonnes et contribue matrialiser les adhrences entre les catgories de donnes issues de sources diffrentes.
Une fois intgres, ces donnes enrichies peuvent tre consultes et exploites par les
utilisateurs :
- Interrogation / recherche du contenu partir dun langage naturel
- Utilisation du moteur de recherche et dindexation ElasticSearch.

Aspect Novateur

Ce projet, par sa taille et ses ambitions est trs certainement lun des plus grands chantiers
BIG DATA men par un acteur Franais de porte internationale. Il doit permettre notre
client sur plusieurs annes de collecter, stocker, intgrer des donnes volumineuses, htrognes et varies dans le but de les analyser et les visualiser en temps rel.

Valorisation observe de la donne

Au-del de rassembler des donnes aussi varies, le projet permet de les enrichir avec
des mtadonnes ad-hoc (tag spcifiques, rfrentiels, synonymes, traductions, mthodologies..) qui facilitent laccs et lanalyse de linformation contenue dans les donnes produites par les mtiers depuis lIHM pose sur le socle commun.

Etapes venir et dmarche Big Data dans lentreprise

Le projet doit dmontrer la possibilit de rassembler toutes les donnes de lentreprise


dans une bote commune afin de faciliter leur stockage, leur accs, leur partage, leur
analyse et leur visualisation conviviale adapte toutes les familles de mtiers. Elle doit
prouver la mallabilit, et la scalabilit dun tel systme dans le temps. Il ne sagit
pas dune initiative locale mais bien dune mutation complte du systme dinformation du
client.

Autres informations

Nos clients ont les donnes, nous avons la mthodologie et le savoir-faire.

www.edis-consulting.com

69

EKIMETRICS
Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES
EKIMETRICS

Best in Class statistics au service de la stratgie marketing

Ekimetrics a t fond en 2006 Paris et compte 70 consultants, bass Paris, Londres


et New York. Notre approche novatrice et rigoureuse dans le traitement de la data nous a
permis de devenir leader europen du ROI et du pilotage par la performance :

136, avenue des champs Elyses


Paris 75008
Tl +33 (0) 1 71 19 49 84
Mail fp@ekimetrics.com

CONTACT
Franois
POITRINE
Directeur Gnral. Responsable
de la practice BigData

Ekimetrics est un des rares cabinets de conseil en stratgie spcialis dans lutilisation
doutils statistiques de pointe permettant loptimisation de la stratgie Marketing et Data de
grandes entreprises franaises et internationales (CAC 40 / Fortune 500)
Grce notre triple expertise : stratgique,
statistique et technologique ; nous sommes
mme de livrer des recommandations actionnables par les CMOs et les CIOs.
Nos 70 consultants ont tous un double
profil consultant / statisticienData Scientist ( X, Mines, HEC, ENSAE).
Nous sommes indpendants de tout organisme de mdias et dditeurs de logiciels,
ce qui nous permet une grande agilit dans
le choix des outils et des mthodes, ainsi
quune relle impartialit dans nos recommandations .

Nous partons de lusage et des besoins


business de nos clients pour construire la
mthodologie et larchitecture adapte.
Nous avons un partenariat avec la chaire
dconomie des mdias MINES ParisTech.
Nous dlivrons des plans dactions au
bout de 4 mois. Nos recommandations ont
un impact mesurable sur la productivit
de votre marketing ds la livraison de nos
modles.

Eki SocialWeb Lab est un laboratoire de R&D au sein dEkimetrics. Le laboratoire a pour
vocation de comprendre et danalyser les grandes tendances du SocialWeb, en sappuyant
sur lexpertise en Datascience et la comprhension mtier de ses consultants. Grce notamment des algorithmes de classement smantique propritaires, les analystes du SocialWeb Lab sont mme de dcrypter le bruit autour de grands vnements culturels et
politiques pour le compte de marques et de grands mdias (Libration, LeLab Europe1,
TheMediaShaker ). Ainsi, durant lanne coule, notre Lab a notamment analys la
Fashion Week, les lections municipales Paris, le festival de Cannes et la Coupe du Monde
de football.

Nous mettons le Big Data au


service de votre stratgie
Notre expertise en Data Science pour vous accompagner dans vos projets Big Data

Durant les deux dernires annes, Ekimetrics a accompagn des leaders de lindustrie des
tlcommunications, de lautomobile et de lnergie dans lexcution de projets BigData.
Nous nous diffrencions par la maitrise de lensemble de la chane de valeur de la data: en
phase de conseil, en phase de data discovery, en phase de data factory et surtout en
phase de valorisation.

Mapping du champ dintervention dEkimetrics dans le Big Data

Notre philosophie sur les projets Big Data : lapproche PoC Proof of Concept

Dans le Big Data, nous observons un biais consistant construire des systmes pour ensuite chercher les valoriser (DMP, clusters..), nous faisons le contraire :
Nous avons une approche agile de test et dapprentissage pour mettre jour des
initiatives rellement industrialisables.
Nous partons de lusage mtier pour ensuite construire une architecture sur mesure.
Nous navons pas de contraintes sur la technologie ni sur la mthodologie : nous choisissons la solution la plus adapte en fonction des besoins exprims par nos clients.

Ekimetrics : Les partners vous racontent leurs projets Big Data


Jean Baptiste Bouzige. PDG Ekimetrics

Les APIs sont une source de donnes de plus en plus stratgiques et servent de socle
lInternet des objets. Chez Ekimetrics nous suivons avec intrt lvolution des APIs et de
lOpen Source depuis 2006. Nous avons t parmi les premiers utiliser les outils Big Data,
pour tirer profit de ces nouvelles sources denrichissement de donnes, notamment dans le
cadre danalyses du SocialWeb.

Franois Poitrine. Directeur Gnral, Responsable de la practice Big Data

Nous accompagnons, depuis plusieurs annes dj, un leader de lindustrie automobile


dans loptimisation de sa stratgie Marketing et Data. Avec lmergence des vhicules
connects et dautres opportunits business lies au digital, les outils Big Data sont devenus centraux dans la valorisation des nouvelles sources de donnes disposition. Nous
avons pu dployer plusieurs projets de valorisation de ces donnes avec une approche
pragmatique et cost effective de Test, Learn & Industrialize.

Quentin Michard. CEO Ekimetrics Londres

Aujourdhui, lenjeu ne consiste dj plus valoriser sa propre donne, mais trouver des
logiques de partenariat et de complmentarit pour avoir une offre complte.
Au sein dEkimetrics, nous matrisons les mthodologies statistiques et algorithmiques
pour mener bien de tels projets, la couche technologique apporte par le Big Data nous
permet de passer de la thorie la production.

www.ekimetrics.com

71

EXALEAD DASSAULT SYSTMES


Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES
EXALEAD DASSAULT SYSTMES
10 place de la Madeleine 75008 PARIS

Tl +33 (0) 1 55 35 26 26
Fax +33 (0) 1 55 35 26 27
Mail www.3ds.com/fr/contact

CONTACT
Axel
BRANGER
Sales Director EXALEAD
South Europe, Russia & Middle East

EXALEAD Dassault Systmes rompt avec 25 ans de tradition dans le dveloppement dapplications,
jusquici centr sur des bases de donnes : sa technologie de recherche et dindexation, couple
des technologies Web, offre un accs unifi et un traitement haute-performance de linformation.
Les organisations ont dsormais besoin de 3 niveaux dexprience de linformation :
Accder agilement et rapidement un grand volume de donnes disperses et htrognes
Croiser, rconcilier, contextualiser les donnes pour crer de nouvelles solutions mtier
et offrir de nouveaux services leurs clients
Aller plus loin dans lanalyse pour en extraire encore plus de valeur et transformer leur
entreprise
EXALEAD Dassault Systmes rpond ces dfis et offre des applications personnalises ou
packages, volutives, parfaitement adaptes aux environnements actuels de Big Data et
qui permettent de le transformer en vrais bnfices pour lentreprise.
Les solutions EXALEAD valorisent simplement et agilement vos donnes mtiers pour dcider
mieux et agir vite. Elles adressent trois grandes problmatiques :
Interaction client : EXALEAD OneCall
Digital assets : EXALEAD CloudView / EXALEAD OnePart
Machine Data : EXALEAD CloudView
EXALEAD propose galement la Web Mining Exprience qui sappuie sur le moteur exalead.com
et offre la puissance de la recherche Web et de lanalyse smantique pour le dveloppement
dapplications partir de donnes pur Web.

www.3ds.com/products/exalead/
@3dsEXALEAD

ANALYTICS pour PARKEON

Porteur du projet

Yves-Marie Pondaven - Chief Technology Officer, Parkeon

Objectifs

Offrir aux villes et oprateurs de parkings un outil de pilotage (ventes, dures) et faciliter
la maintenance des horodateurs Parkeon.
Les dfis taient de rester performant malgr les volumes importants, dtre trs simple
dutilisation et de permettre aux villes ou oprateurs de mieux comprendre les usages
grces de nouveaux tableaux de bords intgrant de la cartographie.

Prsentation

Analytics est un service dvelopp par Parkeon grce la technologie EXALEAD CloudView.
En indexant et analysant plus dun milliard de tickets de stationnement mis par les horodateurs mis en place par une ville ou une communaut urbaine, Parkeon offre un outil de
suivi la fois global et dtaill du parc install des machines pour permettre aux diffrents
services dagir, interagir et ragir pour amliorer le fonctionnement du stationnement dans
une ville.

Les principales fonctionnalits dAnalytics

Horodateurs : Listes - Revenus des terminaux - Vue dtaille par terminal agrgeant de
nombreuses informations (ventes, alarmes, tats de la batterie)
Parking : Evolution des revenus dans le temps, par zone - Evolution en fonction des jours ou des heures
Maintenance : Terminaux avec des problmes de fonctionnements identifis - Terminaux o
des actions prventives sont ncessaires (changement de rouleau de papier)
Transactions : Accs aux transactions par pices ou cartes - Vues plus dtailles possibles
sur les cartes pour filtrer par type de carte (Mastercard)
Malgr les volumes de donnes importants (en centaines de millions pour certaines villes), loutil devait rester aussi simple utiliser que les sites grands publics, cest dire sans formation.
EXALEAD apporte son savoir-faire et ses outils correspondants aux meilleures pratiques ergonomiques telles quun set de facettes pour filtrer les donnes, un champ de recherche unique
sur toutes les pages configur pour lutilisation des requtes en langage naturel et trusted
queries ce qui permet aux utilisateurs de prendre en main trs facilement loutil.
La visualisation et lanalyse sont facilites grce des cartes manipulables par zones, des filtres
par priode et date, une cration flexible de rapports, des exports Excel sous format standard
Les temps de rponse, les rsultats clairs et en contexte augmentent lefficacit des diffrents utilisateurs de lapplication.

Aspect novateur (mtier/usage)

Lapplication peut tre utilise par nimporte quel utilisateur de lentreprise, quasiment
sans formation. Chaque fonction peut accder facilement aux donnes dont elle a besoin
dans son activit quotidienne.
Analytics offre de grandes performances : une grande scalabilit, une indexation et un traitement puissant des donnes, un temps de rponse adapt aux challenges de la comptition
Les gestionnaires de parcs peuvent ainsi accder et traiter des milliards denregistrements
partir de tout type de sources En quasi temps rel.

Valorisation observe de la donne

Lexigence EXALEAD cest de dlivrer la bonne information, au bon moment, de la faon la


plus intuitive possible. Nimporte quelle fonction de lentreprise, nimporte quel utilisateur
peut naviguer, trouver, analyser et transmettre linformation utile. A linstar de Parkeon, les
organisations amliorent la capitalisation du savoir, lefficacit de leurs quipes, le partage
des connaissances. Parkeon la compris et, grce la technologie CloudView, a transform
des donnes machines basiques en application haute valeur ajoute offrant ainsi ses
clients un service performant pour grer et anticiper son activit de gestion de parcs de
parcmtres. Cest un vrai facteur diffrentiant pour loffre Parkeon.

Etapes venir et dmarche Big Data dans lentreprise

Parkeon va continuer de faire voluer loutil en intgrant toujours plus dinformations et


profiter des nouvelles fonctionnalits autour de la cartographie afin damliorer encore la
solution.

www.3ds.com

73

GFI INFORMATIQUE
Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES
GFI INFORMATIQUE
La Porte du Parc - 145 boulevard
Victor Hugo, 93400 Saint-Ouen
Tl +33 (0)1 44 04 50 08
Mail alvin.ramgobeen@gfi.fr

CONTACT
Alvin
RAMGOBEEN

Le Big Data pour sadapter et/ou se rinventer


Lavnement de lre numrique nous porte considrer autrement le capital informationnel de tout un chacun. Notre monde volue en permanence sur un rythme de plus en plus
soutenu et porte des exigences de rentabilit exacerbes par une pression de comptition
lchelle mondiale.
Dans tous secteurs dactivits, il nous faut nous radapter en permanence. Laccs la
lecture de ce que nos donnes expriment nous donne les moyens de se redcouvrir et dagir
de faon nouvelle : prvisions de production de pices dtaches en fonction des comportements de conduite et des conditions climatiques pour un mme modle de voiture,
mais aussi assurances diffrencies en fonction de son attitude de conduite sont autant
dexemples parlant qui simmiscent dans notre quotidien.
Le Big Data sert avant tout des enjeux business qui doivent tre clarifis en amont lorsque
lon traite un point dur identifi persistant malgr les investigations traditionnelles (ex. anticiper la fraude lexport) ou en aval lorsquil sagit de dcouvrir des potentiels leviers
dactions dans le cadre dune activit naissante (ex. des compteurs intelligents)

Gfi Informatique,
architecte ensemblier
de vos projets Big Data

Parce quil nest pas de Mega Structure qui se ressemble, parce que chaque projet
Big Data est lexpression de votre essence et de votre culture, nous sommes vos
cts pour relever ces dfis avec une passion claire et pragmatique.
Gfi Informatique, acteur innovant en systme dinformation, propose une approche autour des thmatiques Big Data contre sens des
normes du secteur. Aprs des travaux conjointement mens auprs dAirbus depuis 2010 portant sur des exprimentations NoSQL dans des
contextes analytiques et prdictifs, Gfi base sa stratgie Big Data en oprant un couplage fort entre le monde des startups et ses comptences
propres. Seul acteur proposer une offre de service la pointe du savoir-faire franais alli lapproche industrielle dun groupe polyvalent en
intgration de systme et en diteur de logiciel, Gfi opre la ralisation de vos programmes Big Data en tant quarchitecte ensemblier.

www.gfi.fr

fotolia.com

Group Practice Manager BI & Big Data

La posture de larchitecte
ensemblier
Les demandes en Big Data sont extrmement varies : chargement et stockage de donnes
massives, traitement de donnes en temps rel, analyse de donnes textes ou son, laboration de moteurs de recommandation, de corrlation, de prdiction analyses rcursives ou de
rseaux (base graph), Data Visualisation spcifique, algorithmie avance, etc. De plus, les demandes de ralisations Big Data sont souvent couples un existant IT et doivent galement
irriguer les systmes oprationnels et les terminaux de travail quils soient fixes ou mobiles.
Cette diversit en besoins pointus amne Gfi, avec lappui de son cosystme de startups,
se positionner en tant que garant de lassemblage des comptences spcifiques pour
chaque nature de besoin en Big Data.

Loffre
Big Data de Gfi
Conseil outill
en Data Exploration

Loffre Big Data de Gfi est multi entre et permet de couvrir une grande majorit des attentes du march sur les volets :
Conseil outill en exploration de la donne qui permet en quelques semaines de faire
merger et de quantifier un use case afin de valider sa pertinence face vos enjeux business
Conseil en aide au choix de solutions et en architecture full & hybride Big Data
Centre de service expriment pour la ralisation de prototypage Big Data
Mise disposition de Framework acclrant le dploiement en environnement de production de plateformes Hadoop scurises
Ralisation de projet sur mesure Big Data, en mode agile/Dev Ops, intgrant lexposition
de services sur les terminaux digitaux

Aide au choix de
solutions et Architecture
Big Data
Centre de service de
prototypage Big Data

Fort du constat march que derrire les termes de Datascientist ou dExpert Hadoop, il est
plus que difficile de trouver le profil comptent chez une seule et mme personne, nous
avons dvelopp une approche en quipe pluridisciplinaire.
Cette quipe regroupe lensemble des profils spcialiss en Consultants Mtier, Dveloppeurs Big Data et Data Analysts, Experts BI & CRM analytique et Consultants Digital et
Mobilit.
Afin de sassurer de gagner en scurit et performance, nous allions les comptences de
nos quipes avec lexpertise pointue de startups en Datascience, Data Visualisation, Clustering Hadoop, Text mining, etc.

Framework de dploiement
de production de plateformes
Hadoop scurises
Ralisation de projet sur
mesure Big Data avec
exposition de services digitaux

Illustration dindustrialisation dun savoir-faire la pointe

Nous co-dployons, avec notre partenaire ADALTAS, un outil simplifiant et acclrant la


mise de place de clusters Hadoop multitenants scuriss. Issu de prs de 2 ans de travaux
sur les plateformes dun acteur majeur de lnergie en Europe.
Les apports sont multiples et permettent notamment de :
grer plusieurs clusters et mettre disposition des environnements de dveloppement
identiques ceux de production
permettre lajout de nouveaux composants en sinscrivant dans un outil robuste orient DevOps
sintgrer et/ou enrichir lenvironnement scuris de lentreprise de type Kerberos /
OpenLDAP / Active Directory
scuriser tous les composants du cluster (Hive, HBase)
rsumer les tapes de dploiement en une seule commande applicable lchelle du cluster
assurer la haute disponibilit des composants & dautomatiser les sauvegardes
A ce jour, la distribution Hadoop supporte est lHDP 2.1 dHortonworks
Les composants couverts sont HDFS et YARN, Hive, WebHCat, Oozie, Flume, Mahout, Pig,
HBase, Hue, HASecure, Sqoop et Zookeeper. Dautres composants tels que Storm, Spark et
SolR mais aussi MongoDB seront prochainement intgrs.

www.gfi.fr

75

HEWLETT-PACKARD
Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES
HEWLETT-PACKARD FRANCE
20, Quai du Point du Jour
92100 Boulogne-Billancourt
Tl 0820 211 211
Mail bigdata.france@hp.com

Collecter, agrger et comprendre les informations issues des machines et des humains
requiert une approche et des technologies nouvelles, pour connecter intelligemment des
donnes de nature disparate, dune manire comparable au fonctionnement du cerveau
humain faire travailler la technologie et non linverse.
HP dcline sa stratgie Big Data au travers de HAVEn, plateforme ouverte, intgre mais
modulaire, qui permet nos clients de traiter 100% des informations leur disposition.
Hadoop est le support idal pour stocker de trs grands volumes de donnes faible cot.
Autonomy IDOL est un moteur extrmement puissant dindexation et danalyse des informations humaines : texte, mails, social media, vido, audio, etc.

CONTACT
Florence
LAGET

Vertica est une plateforme analytique temps rel (architecture en colonnes) capable dingrer les donnes et de traiter des requtes complexes 50 1000 fois plus rapidement
quune base de donnes traditionnelle

Directrice Big Data, HP France

Enterprise Security (Arcsight Logger) collecte et analyse en temps rel (1.000.000 dvnements par seconde) les logs des applications et des quipements (Badgeuse, Login.).
Le n de HAVEn reprsente les applications dveloppes par HP et son cosystme
partenaires diteurs et intgrateurs.
Lensemble de cette plateforme est supporte par des infrastructures innovantes et spcifiquement adaptes au Big Data. Nous sommes en mesure daccompagner nos clients dans
la conception de leurs cas dusage, la mise en uvre, lexploitation ou lexternalisation de
ces solutions.

Scurit, fraude et conformit

Cette banque europenne de12 millions de clients, dispose de prs dun millier dagences
et gre plus de 100 milliards de capitaux en 2013. Elle dtient une distinction pour la qualit
de son centre dappels et de ses plateformes internet, mobiles et rseaux sociaux.
La banque avait comme objectif dacclrer lanalyse des risques de scurit, la rponse
aux requtes et audits du rgulateur, tout en se donnant les moyens damliorer lefficacit
de ses campagnes marketing.
Tous les types de donnes sont capts: applications mtiers, DAB, agences, rseaux sociaux,
logs qualit de service.
Le projet est implment sur la plateforme HAVEn telle que dcrite dans larchitecture
ci-dessous :

Le projet se droule en 3 phases qui rpondent aux 3 enjeux auxquels doit faire face la socit :
Conformit - identifier les accs frauduleux aux comptes clients et rduire drastiquement
le temps de rponse aux requtes de conformit
Scurit - corrler les donnes entre les diffrents systmes pour dcouvrir et mieux
comprendre les potentielles failles de scurit
Gnration de revenus - amliorer la connaissance clients pour optimiser lefficacit des
campagnes marketing et lacquisition de nouveaux clients
Ce projet est innovant dans la diversit des sources et des formats de donnes utiliss.

Premiers rsultats obtenus


2500x plus rapide pour rpondre aux requtes complexes daudit, de fraude et de scurit
97% de cot dexploitation en moins pour oprer ces requtes
28% de TCO en moins par rapport aux solutions alternatives tudies

www8.hp.com

77

IBM FRANCE
Hard

Soft

B.I.

Dataviz

Conseil

COORDONNES

Instit.

IBM FRANCE

IBM est un acteur technologique au service de linnovation et de la transformation des PME,


des groupes internationaux et des administrations. IBM participe crer une plante plus
intelligente pour permettre aux organisations quelle sert doptimiser leur positionnement
dans un monde en perptuelle volution.

17 avenue de lEurope
92275 Bois Colombes

OFFRE IBM BIG DATA

Tl +33 (0)1 58 75 00 00
Mail lucile.hyon@fr.ibm.com

Big Data permet de comprendre, avec plus de prcision que jamais, comment fonctionne
notre monde afin de produire une plus grande croissance conomique et du progrs social.
Il constitue une opportunit dobtenir des connaissances sur des types de donnes et de
contenus nouveaux, afin de rendre les entits plus agiles. Plateforme Big Data IBM IBM
seul propose une plateforme complte qui permet de rsoudre les dfis Big Data qui se
posent aux organisations. Le principal bnfice dune telle plateforme est de tirer parti de
composants pr-intgrs afin de rduire le cot et le temps dimplmentation.

CONTACT
Lucile
HYON-LE GOURRIEREC
Senior Marketing Manager

www.ibm.com

KEYRUS
Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES
KEYRUS
155 rue Anatole France
92300 Levallois- Perret - France
Tl +33 (0)1 41 34 10 00
Mail bigdata-keyrus@keyrus.com

CONTACT
Xavier
DEHAN
Sales Director - Data Intelligence
Big Data Analytics

Fort de prs de vingt ans dexprience au service de la Matrise et de la Valorisation de la


Donne, Keyrus aide les entreprises, en France et linternational, fournir chacun de
leurs collaborateurs les informations et la motivation ncessaires au dveloppement de leurs
activits et de leurs quipes.
Sinscrivant dans la continuit de cette mission claire et partage, Keyrus propose une capacit
unique de ralisation de solutions analytiques essentielles aux enjeux de performance des
entreprises. Pour ce faire, Keyrus a runi des comptences mtier fonctionnelles et
sectorielles , et des expertises analytiques et technologiques travaillant de faon
totalement intgre.
Notre approche unique de proof-of-value vous permet ainsi de comprendre en quelques semaines
le plein potentiel des nouveaux modes de valorisation de la donne et dentreprendre le chemin
permettant de les intgrer au sein dun portefeuille analytique au service de la dcouverte des
leviers de la performance conomique.
Dans un monde de plus en plus dmatrialis o les cls de la comptitivit et de la croissance
font appel une connaissance de plus en plus fine des marchs, des clients et de leurs
dynamiques, Keyrus se positionne comme le partenaire naturel de ses clients dans la transformation de leur actif informationnel en valeur conomique durable.
Sil est en effet prsent largement admis que les donnes, sous ses formes et ses origines
les plus diverses, constituent un actif majeur des organisations dans toutes les industries
et que leur rle de catalyseur de la capacit danticipation et de lagilit oprationnelle ne
fait plus aucun doute, les enjeux dessins par leur exploitation nen restent pas moins la
hauteur des opportunits quelle augure.
Conscient de limportance du changement que les nouveaux paradigmes sous-tendent au
sein dun cosystme conomique en pleine mutation et des questions bien concrtes que
lexploitation de la richesse et de laccessibilit toujours croissante des donnes soulvent,
Keyrus vous accompagne dans la mise en uvre des organisations et des solutions
permettant de rpondre aux enjeux conomiques modernes dun monde devenu numrique.
Afin datteindre ses objectifs dexcellence dans le domaine de la Data Science et en vue
dassurer lefficience maximale de ses quipes qui seront les garants de la bonne ralisation
des projets quil conduira dans le domaine du Big Data, Keyrus a cr le 15 octobre 2014,
avec lcole polytechnique, Orange et Thales, une Chaire pour former la prochaine gnration
de Data Scientists.

Fort dune capacit unique mobiliser conjointement lexpertise mtier, analytique et technologique indispensable au succs des ambitions analytiques et Big Data de ses clients, Keyrus rpond

aux dfis daujourdhui par des modalits bien tangibles et pragmatiques, ancres dans la
ralit de lentreprise et cibles sur des projets concrets et accessibles, construisant ainsi
les fondations dun avantage concurrentiel dans la dure.

www.keyrus.fr

<<www>>

81

MICROPOLE
Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES

Micropole lance la 1re offre Big Data as a Service destination des entreprises.*

MICROPOLE

Loffre Data Science Platform est le rsultat dune troite collaboration entre de grands acteurs du march : Micropole, entreprise internationale de conseil en technologies innovantes,
spcialise dans les domaines de la Transformation Digitale et du Pilotage de la Performance
et les entreprises de Cloud Souverain, producteurs de puissance numrique pour les entreprises, au travers de leurs solutions dinfrastructure performantes et innovantes.
Indite, loffre de services Data Science Platform est destine dmocratiser le Big Data en
France en mettant disposition de chaque entreprise sa plateforme Big Data sur-mesure.
Data Science Platform intgre un studio de Data Science (qui combine des outils de gestion
de donnes, de statistique, de visualisation et danalyse prdictive), permettant dintgrer, de
manipuler, danalyser et de prsenter rapidement linformation issue de larges quantits de
donnes.
Spcialistes mtiers, les quipes Micropole accompagnent les quipes clientes tout au long
du projet. Leur valeur ajoute et leur vision fonctionnelle adapte au Big Data, leur permettent
de produire des cas dusages mtiers, gages de ROI et gnrateur davantages conomiques
ou concurrentiels pour lentreprise.
Innovante et comptitive, loffre Data Science Platform rvolutionne les offres traditionnelles
existantes sur le march. Une rponse totalement nouvelle qui va permettre toutes les entreprises de tirer parti de la puissance du Big Data.
Loffre Data Science Platform se dploie en 24h au sein de nos infrastructures. Nos quipes
vous accompagnent sur la dfinition de votre application Big Data, et tout au long du projet
dans la prise en main des outils.
Pour des questions de scurit et de transparence, notre offre est propose sur les plateformes dployes au sein de Cloud Publics Souverains. Cela signifie que vos donnes sont
protges par la lgislation franaise, et localises sur le territoire national.

91-95 rue Carnot


92300 Levallois-Perret, France
Tl +33 (01) 74 18 74 18
Fax +33 (01) 74 18 74 00
Mail info@micropole.com

CONTACT
Charles
PARAT
Directeur recherche & Inovation

*Pour des questions de rversibilit, loffre Data Science Platform est base sur des briques
standards du march et peut donc tre installe sur le site de votre choix (on premise).

Big Data et connaissance client :


projet dans le Retail
Historiquement les donnes prsentes au sein des entreprises sont organises dans des
silos dinformation, le Big Data permet de dcloisonner cette information et de lexposer
diffremment.
Il est alors possible, sur un sujet mtier tel que la connaissance client, de crer une vision
360des donnes, en mettant en corrlation les donnes issues de diffrents canaux (point
de vente, sites internet, centre dappels, etc.), de se construire une vision indite du client
et darriver ainsi visualiser le parcours client omnicanal complet, plus rapidement.
Pour notre client, un acteur reconnu de la distribution spcialise, les objectifs fixs dans
le cadre du projet taient les suivants :
Acclrer lomnicanalit pour accroitre le chiffre daffaires de lenseigne ;
Mieux analyser les comportements web-to-store, dans les deux sens ;
Prendre des dcisions stratgiques, de manire instantane, qui correspondront mieux
aux attentes de leurs clients ;
Dcouvrir des types de comportements pour anticiper leffet churn ;
Proposer de nouveaux services ou produits avant mme que le client
ait conscience de son besoin, gnrer de la valeur pour le client ;
Etre plus ractif dans le traitement de linformation, quelle que soit sa forme ;
Industrialiser la dmarche de rconciliation des donnes.
La dmarche de mise en uvre de Micropole autour du sujet de lomnicanalit, consiste dans un premier temps intgrer au sein dun rfrentiel de donnes unique Big Data, lensemble des informations issues
de tous les canaux de notre client, afin de crer une vision dcloisonne.
Dans un second temps, les donnes sont mises en cohrence en vue
de leur traitement dans des solutions dites de DataScience, dans le
cadre dune approche de type Datalab.
La construction du Datalab sappuie sur une mthode Agile. Les tapes
menant la validation du primtre Datalab sont :
Le cadrage des besoins ;
Le cadrage des donnes ;
La prsentation des rsultats.

Comment une approche agile a aid notre client exploiter


rapidement la valeur de ses donnes.

Le cycle de cadrage du besoin permet davancer rapidement sur les besoins remplir et
le travail des sources associes. Lavantage est que les dcouvertes faites pendant ltude
dtaille des donnes sont rpercutes sur les besoins initiaux. Ce processus est rpt
autant de fois que ncessaire.
A lissue de cette phase, les cycles de cadrage des donnes dbutent. Une phase de ralisation technique a lieu entre chaque point de cadrage et chaque prsentation.
Pendant la prsentation des rsultats, les quipes fonctionnelles peuvent suivre et prvalider les ralisations. Les quipes techniques peuvent remonter des problmes rencontrs
pendant les dveloppements. Dans les 2 cas, les points discuts sont inclus dans le cadrage
des donnes. Il est possible de remonter au cycle prcdent si la situation lexige.
La phase de validation du primtre clture le processus. Elle prend un temps minime,
compte tenu du travail effectu en amont.

Les rsultats

Sur une phase dexprimentation de 3 mois, il ne nous a fallu que 3 semaines sur un gisement de donnes de plusieurs centaines de gigaoctets, pour mettre en vidence les premiers comportements clients et dfinir les parcours clients associes.
Lusage dun logiciel de Data Science (solution combinant des outils de gestion de donnes,
de statistique, de visualisation et danalyse prdictive), a permis de modliser facilement
les parcours clients, dindustrialiser le processus et de prsenter les rsultats en utilisant
une solution de Data Visualisation (lutilisation de techniques visuelles et interactives pour
valoriser ses donnes).
A lissue de la phase dexprimentation, la solution a t dploye en production. Les outils
de Data Science utiliss dans le cadre du Datalab ont quant eux naturellement intgr le
panorama des outils standard du service Marketing pour la production des analyses bases
sur la plateforme Big Data.

www.micropole.com

83

NEO TECHNOLOGY
Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES
NEO TECHNOLOGY

Tl +33 (0)8 05 08 03 44
Mail Cedric.Fauvet@neotechnology.com

CONTACT
Cedric
FAUVET
Business Development France

La base de donnes de graphes Neo4j

Neo4j vous permet de reprsenter les donnes connectes naturellement, en tant quobjets
relis par un ensemble de relations, chacun possdant ses propres proprits. La base de
donnes de graphes, permet au dveloppeur de commencer immdiatement coder, car
les donnes stockes dans la base font le parallle direct avec les donnes elles mmes.
Compar aux bases relationnelles, la base de donnes de graphe Neo4j peut tre jusqu
plusieurs milliers de fois plus rapide pour traiter les donnes associatives, tout en simplifiant considrablement les requtes qui peuvent stendrent plus facilement de larges
ensembles de donnes, car elles ne ncessitent pas de recourir aux coteuses jointures
du monde SQL. Les traverses utilisent un langage spcialement adapt pour parcourir
les connections trs simplement, et trs rapidement. Vu quelles ne dpendent pas dune
modlisation rigide, Neo4j est plus propice pour la gestion de donnes changeantes et de
schmas voluant frquemment.
Les bases de donnes de graphes sont un outil puissant pour excuter des requtes de type
parcours de graphe. La recherche du plus court chemin entre deux points du graphe permettant, par exemple, de rsoudre facilement les requtes sociales ainsi que de gographie
et danalyse dimpact.
Si vous vous arrachez les cheveux avec de nombreuses jointures et les procdures stockes
complexes, il est fort possible que vous soyez en train de construire un graphe sans le savoir :
car les graphes sont partout. Depuis les applications sociale web jusqu lanalyse dimpact
sur un rseau Telecom en passant par la recherche en biologie, les recommandations, la
scurit, et la dtection de fraude, de nombreuses organisations ont adopt la bases de
donnes de graphes Neo4j pour augmenter leurs capacits et leurs performances. Cest un
systme conu pour grer les donnes connectes que vous rencontrez de plus en plus au
quotidien, qui est nanmoins fortement matur avec plus de 10 ans en production.

(graphes) [:SONT] > (partout)

Dcouvrez avec nous ce quapporte la puissance de Neo4j une large varit de clients tels
que Walmart, SFR, Cisco, eBay et Glowbl.

venements: neo4j.com/events
Training: neo4j.com/graphacademy
Neo4j dans votre socit: neo4j.com/brownbag
Tlcharger Livre: neo4j.com/books

Venez rencontrer
Paris lquipe
franaise de Neo4j
loccasion du salon
Big Data 2015,
stand 404!

Nos clients: neo4j.com/customers


Tlcharger le produit: neo4j.com/tryneo4j
Suivez-nous sur Twitter: @Neo4jFR
Rencontrer la communaut: meetup.com/nd/?keywords=Neo4j

Neo4j

Le leader mondial
des bases de donnes de graphes

LA SOCIETE

Spcialise depuis 2009 dans la livraison rapide dachats raliss sur internet, cest tout
naturellement que la socit londonienne Shutl a t rachete par eBay, qui en a fait sa
plateforme nouvelle gnration pour redfinir le e-commerce en acclrant et en simplifiant la livraison des commandes passes sur Internet ou appareil mobile. eBay limine
ainsi le plus gros obstacle entre vendeurs et acheteurs en ligne en proposant une livraison
le jour mme.

LE DFI

Le service de livraison le jour mme de Shutl sest dvelopp de manire exponentielle


et couvre aujourdhui jusqu 85 % du Royaume-Uni. Sa plateforme de services a d tre
entirement repense afin de prendre en charge lexplosion du volume de donnes et les
nouvelles fonctionnalits. Le problme tait que les jointures MySQL utilises auparavant
ont cr une base de codes trop lente et complexe, proposant des temps de rponses
requtes de 15 minutes pour certaines.
Dveloppeur senior pour eBay, Volker Pacher et son quipe pensaient quen ajoutant une
base de donnes de graphe lAOS et la structure de services, il serait possible de rsoudre les problmes de performances et dvolutivit.

POURQUOI NEO4j?

Le choix sest port sur Neo4j, considre comme la meilleure solution pour sa flexibilit,
sa vitesse et sa simplicit dutilisation. Fort de son modle de graphe proprits parfaitement compatible avec le domaine modlis, et avec sa base de donnes ne ncessitant
pas de schma, Neo4j a simplifi son extensibilit et a permis dacclrer la phase de dveloppement.
Cypher a de son ct permis dexprimer les requtes sous une forme trs compacte et
intuitive, ce qui a encore acclr le dveloppement. Lquipe a ainsi pu exploiter le code
existant laide dune bibliothque Ruby pour Neo4j prenant galement en charge Cypher.
Comme aime le dire Volker Pacher : Notre systme fonctionne sur 7 lignes de Cypher .

LES AVANTAGES

Base sur jRuby, Sinatra, MongoDB et Neo4j, la nouvelle plateforme garantit des transactions rapides avec des performances relativement constantes. Par ailleurs, son modle de
donnes permet aux requtes de rester localises lintrieur de leurs portions respectives
du graphe.
Notre solution Neo4j est littralement des milliers de fois plus rapide que la solution
MySQL prcdente, avec des requtes qui ncessitent de 10 100 fois moins de code. Dans
le mme temps, le ct flexible de Neo4j nous a permis dimplmenter lenemble en peine
une anne et il nous permet encore dajouter des fonctionnalits jusquici impossibles, ce
qui permettra laccompagnement du service eBay Now dans ses futurs dveloppements.
Volker Pacher, eBay

Aujourdhui et grce Neo4j, la plateforme Shutl orchestre les livraisons entre les boutiques,
les coursiers et les acheteurs 24 h/24 et 7 j/7. Les envois seffectuent directement depuis les

points de vente. Le service organise la collecte et la livraison des articles selon les prfrences des clients, gnralement dans un dlai de 2 heures, ou dans une fentre de livraison dune heure choisie par les clients. Le rsultat : une prestation innovante qui amliore
la qualit de service pour les clients ainsi que la productivit des partenaires revendeurs et
transporteurs. Tous les acteurs sont gagnants : les clients disposent de plus de choix pour
la livraison, les coursiers ne perdent plus de temps attendre et les boutiques peuvent
proposer des services supplmentaires leurs clients sur Internet.

www.neo4j.com

85

PENTAHO
Hard

Soft

B.I.

Dataviz

Conseil

COORDONNES

Instit.

PENTAHO

Pentaho construit le futur de lanalytique. Sa plate-forme analytique intgre, moderne et


complte est conue pour les diverses exigences de lanalyse dentreprise, et notamment
celles du Big Data.

Paris France

Pentaho Business Analytics pour exploiter plus rapidement et moindre cot les Big Data grce :

Tl +33(0)6 38 38 06 33
Fax 1 407 517-4575
Mail ebrochard@pentaho.com

CONTACT
Emmanuel
BROCHARD
Responsable France

Pentaho Big Data Analytics Center


Une continuit totale depuis laccs aux donnes jusqu la prise de dcision
Un dveloppement visuel et une excution distribue
Une analyse interactive et instantane : aucun codage ni comptences ETL requis

Instaview : Cette premire application interactive et instantane convertit les donnes en


analyses en trois tapes simples visant rduire considrablement le temps de recherche,
de visualisation et dexploration de larges volumes de donnes complexes et diverses.
Pentaho facilite lanalyse des donnes Hadoop

Lutilisation de Pentaho Business Analytics avec Hadoop offre une conception graphique hautement productive associe une analyse et une visualisation des donnes instantanes:
Une plate-forme danalyse Hadoop complte
Une meilleure productivit de lquipe informatique grce la rutilisation des comptences existantes ; sans formation particulire pour les informaticiens, analystes dentreprise et scientifiques spcialistes des donnes
Une protection contre les risques : fonctionne avec toutes les principales distributions
Hadoop, les bases de donnes NoSQL et les entrepts de donnes traditionnels
Productivit et performance : gain en productivit de dveloppement et en performance
dexcution multipli par 10 ou par 15 par rapport au codage manuel MapReduce

Analyse et visualisation NoSQL : Pentaho supporte nativement les bases de donnes NoSQL

les plus utilises, notamment Apache Cassandra/DataStax, HBase, MongoDB/10gen et


HPCC Systems, et offre une productivit de dveloppement et une performance dexcution
multiplies par 10 ou par 15 par rapport au codage manuel.

Big Data Analytics Center : www.pentahobigdata.com pour en savoir plus sur Pentaho et Big

Data. Pour valuer gratuitement Pentaho Business Analytics: www.pentaho.fr/download.

Bring Your Big


Data to Life
Big Data Integration and Analytics
Optimisation dHadoop et plus encore.
Dcouvrir comment sur pentaho.fr

Montiser les Big Data des


banques de dtail commence par
une meilleure exprience client
Par Emmanuel Brochard, responsable de Pentaho en France
Les banques de dtail commencent considrer les Big Data comme des actifs prometteurs mme de gnrer de nouveaux flux de revenus. Elles ont besoin de se projeter
au-del de la vente de produits complmentaires et dexaminer comment lanalyse des Big
Data peut rtablir la confiance et amliorer lensemble de lexprience client.
Plus que jamais, les banques de dtail ont besoin dutiliser la valeur de leurs donnes pour
crer des offres plus concurrentielles. Simultanment, le pouvoir dachat des mnages
franais la baisse ou au mieux stable depuis 2007 conduit les consommateurs utiliser
des ressources telles que des sites comparatifs de services bancaires ou des logiciels de
gestion pour tre plus actifs dans le suivi de leurs finances. A divers degrs, les banques
commencent intgrer dans une vue unique les dtails de leurs produits phares, tels que
les comptes dpargne et de crdits immobiliers. Certaines dj inquites pour leur rputation, ont eu peur de pousser plus loin leur intgration par crainte que leurs donnes ne
schappent des traditionnels silos informatiques et menacent la confidentialit et scurit
des donnes. Dautres banques craignent quune plus grande transparence et un apport de
plus dinformations aux clients les incitent aller voir ailleurs.

Lintgration et lanalyse des Big Data pour concevoir une proposition de valeur commerciale

Soyons clairs, montiser les Big Data ne se limite pas vendre plus facilement des assurances additionnelles sur des crdits immobiliers. Il sagit doffrir des services et expriences
personnaliss exceptionnels qui conduisent terme une proposition de valeur commerciale, ou de maximiser la valeur totale dun client au travers de toutes ses interactions et transactions. En dterminant les diffrents besoins des clients et en intgrant cette connaissance
dans toutes ses transactions, une banque devrait tre capable damliorer le service client et
la fidlisation ainsi que daugmenter sa propre profitabilit en optimisant ses prix en fonction
de la valeur client. Aussi simple que cela puisse paratre, ceci a chapp aux banques de dtail
pendant des annes parce quelles ont tabli leurs prix sur des suppositions trop gnriques
et se sont davantage concentr sur la croissance des revenus plutt que sur lenrichissement
de la valeur client. Contrairement dautres marchs tels que les fournisseurs daccs internet qui offrent des services leurs clients, les banques de dtail sont les seules dtenir
des donnes concrtes sur ce que leurs clients ont exactement dpens, quand et quelle
frquence. Elles disposent donc des meilleures donnes pour tablir des profils de clients
dtaills et concevoir en consquence des produits et services sur mesure.

Fournir une vue des clients 360 double usage

Le service fondamental qui profite la banque de dtail et ses clients est la capacit
fournir cette vue intgre 360 degrs du portefeuille complet de chaque client dcrit
prcdemment. Cette vue ncessite de fonctionner de deux faons ! En effet, les banques
devraient avoir cette vue holistique de leurs clients, mais simultanment les clients demandent la mme visibilit de leurs produits et services. Cela implique de pouvoir utiliser
un seul mot de passe pour se connecter et de tout visualiser au travers dun tableau de bord
clair et simple. Les clients prfrant traiter en face face ou par tlphone devraient obtenir une exprience intgre similaire sans tre transfrs vers dautres services utilisant
des systmes informatiques non intgrs. Cette vue 360 est le prrequis qui permettra
de montiser les donnes avec plus de profit. Comme voqu plus haut, de nombreuses
banques craignent que leurs donnes schappent de leurs silos scuriss si elles tentent
de les intgrer de nouvelles applications qui amliorent lexprience des clients ou des
responsables de la banque. Cependant, de nouveaux outils dintgration de donnes sophistiqus permettent aux banques de mlanger les donnes la source sans devoir les
transfrer au pralable dans une zone de transit . Ces mmes outils permettent galement dtablir des rgles simples qui garantissent que les donnes soient traites selon les
rgles de gouvernance des donnes locales ou europennes, ce qui liminent virtuellement
les risques de failles de conformit et de scurit.

www.pentaho.fr

Mesurer la perception des clients

La plupart des banques mesurent la satisfaction


des clients un peu au hasard, dune faon dpasse. Elles raffolent denqutes o leurs clients
sont invits complter un formulaire aprs
chaque transaction. Une faon plus rvlatrice
et moins intrusive de connatre la perception des
clients est dassocier moins frquemment des
enqutes plus dtailles avec des contenus des
rseaux sociaux et internet que les clients publient de leur plein gr. Des outils analytiques
pour les Big Data permettent de mixer ces diffrentes sources de donnes pour aider les
banques concevoir en permanence de meilleurs
services.
Les banques de dtail ont certes un travail considrable accomplir pour btir les infrastructures
et transformer leurs cultures de sorte quelles
puissent fournir des vues intgres des clients
360 qui serviront de fondation leur proposition de valeur commerciale. Nanmoins, elles
disposent aussi datouts considrables. Par
exemple, lorsque des clients ont suffisamment
confiance en leur banque pour leur permettre de
partager des donnes avec leurs commerants
prfrs, les donnes pourraient avoir une valeur
montaire trs leve. Ou encore, la tendance
omni-canal des services bancaires qui se dveloppent via les DAB intelligents, murs dcran
tactiles, applications et kiosques mobiles, sont
autant dopportunits de crer des expriences
de services sophistiqus pilots par des donnes
intgres de haute qualit sont pratiquement
sans limite. Cependant, les banques doivent dterminer tout dabord comment montiser leurs
propres donnes avant mme de penser les
commercialiser lextrieur !

87

PIVOTAL
Hard

Soft

B.I.

Dataviz

Conseil

COORDONNES
PIVOTAL / EMC
80 Quai Voltaire - CS 21002
95870 Bezons - France
Tl +33 (0) 1 39 96 96 37
Mail info@pivotal.io

Instit.

Pivotal : Extraire la vraie Valeur Business de toutes vos Donnes !

La prise de dcision en temps rel est essentielle au succs de lentreprise. Pourtant, les
donnes de votre entreprise continue de crotre de faon exponentielle danne en anne,
ce qui rend lanalyse plus difficile. Pour transformer les donnes structures et non structures en intelligence dcisionnelle, votre entreprise a besoin dune intelligence efficace
pour exploiter le Big Data. Pivotal propose, au travers de Pivotal Big Data Suite, une solution
logicielle de Business Data Lake permettant le stockage et le polymorphisme de traitement
de tout type de donnes. General Electric, American Express, Axel Springer, NTT, Monsanto
et SouthWest Airlines comptent parmi nos rfrences.
Pour plus dinformation sur Pivotal Big Data Suite :
http://www.pivotal.io/big-data/pivotal-big-data-suite

Farid
AADIM
EMEA Inside Sales Manager

Pivotal : Acclrateur dinnovation

Pivotal se positionne comme moteur de votre innovation. En complment de cette solution


Data, la stratgie est complt par 2 composants majeurs : lAgilit et la Rapidit.
Avec Pivotallabs, venez dvelopper avec nous, votre application mobile dans notre Lab Agile
comme Twitter, Facebook, LinkedIn ou Groupon lon fait avant vous.
Le PaaS est llment essentiel de votre chaine DevOps qui vous permet de rduire la fois
le temps de dveloppement de votre application (de 6 mois 6 semaines daprs Warner
Music) et le temps de vos Oprations (plus de 90% de gain daprs Rakuten). Pivotal Cloud
Foundry est la solution PaaS adapte au monde de lEntreprise grce son cosystme unique
(Fondation Open Source).
Pour plus dinformation sur le PaaS :
http://www.pivotal.io/platform-as-a-service/pivotal-cf
Pour plus dinformation sur lAgilit offerte :
http://www.pivotal.io/agile

A propos de Pivotal :

N dune spin-off de EMC et de Vmware, Pivotal est un diteur de logiciel offrant une approche technologique moderne afin de permettre aux Entreprises dinnover dans de nouveaux business. A lintersection du Cloud, Big Data et du dveloppement Agile, Pivotal permet de mieux utiliser ses donnes, dacclrer la cration dapplication et de rduire les
couts, tout en proposant ces Entreprises, la vitesse et la dmultiplication dexcution dont
elles ont besoin pour tre plus comptitifs.

Un oprateur telecom fdre qualit


rseau et qualit client avec Pivotal Big
Data Suite
La solution Pivotal comprend : Pivotal RTI Spring RabbitMQ
et Pivotal Big Data Suite - GemFireXD, Pivotal HD (Hadoop)
et Pivotal HAWQ
Notre client est lun des 10 plus grands oprateurs tlcoms mondiaux. Daprs les tudes
indpendantes sur la qualit des rseaux et lexprience client, loptimisation rseau et les
amliorations sur les processus mtiers sont structurants et sont devenus ralit grce
notre solution Pivotal Big Data Suite.

Dans ce contexte, nous avions 2 challenges :

Rduire les temps de latence, qui impactent la qualit de service :


- qualit des appels (interruption dappel, grsillements sur la ligne),
- qualit du rseau (impossibilit de se connecter au rseau),
- lexprience client.
Amliorer les actions/campagnes marketing par le biais danalyse de donnes en temps-rel,
sur les statistiques du trafic rseau.

Notre Solution a permis :

Daugmenter lARPU (revenue moyen par utilisateur) grce la golocalisation des


clients finaux en temps-rel.
Comment crer de nouveaux services innovants et produits qui tirent parti de donnes essentielles venant du rseau ? Le premier projet en production de notre client, au RoyaumeUni est un projet de Go-Marketing. A laide du temps rel, ds quun client rentre dans une
zone prdfinie GeoFencing , un message marketing est automatiquement envoy au
client, ce qui permet dviter le spam.
Lamlioration de la qualit de service du rseau : Procder des ajustements bass sur
des vnements en fonction de la puissance. Augmenter le dbit en quelques minutes au
lieu dattendre le lendemain. Etre mme de grer en temps-rel le rseau en fonction de
la frquentation de celui-ci, afin damliorer lexprience client.
Notre client souhaitait connatre en temps-rel, les appels interrompus, les temps de latences pour tlcharger des pages webs afin dtre capable daugmenter rapidement la
bande passante si ncessaire dun endroit lautre en fonction des flux de personnes sur
les zones gographiques.
De mieux comprendre o les investissements doivent tre fait en fonction de la base de
donnes du rseau.
Dans cette industrie, le plus gros investissement (Capex) reste linfrastructure rseau. Il
est donc important de bien comprendre son rseau en fonction de ses utilisateurs. Notre
solution leur permet de mieux cibler leur investissement 4G pour quil soit le plus efficace
possible avec le meilleur retour sur investissement possible.
Composants

Description

Spring

Spring helps development teams build simple, portable, fast, and flexible JVM-based systems and applications. Spring is
the most popular application development framework for enterprise Java.

RabbitMQ

Increase application speed, scalability and reliability by delivering asynchronous messaging to applications. A message
broker for applications.

GemFire

Pivotal GemFire is a distributed data management platform designed for many diverse data management situations, but is
especially useful for high-volume, latency-sensitive, mission-critical, transactional systems.
Scale-Out Performance Consistent database operations across globally distributed applications High
availability, resilience, and global scale Powerful developer features Easy administration of distributed nodes

GemFireXD

Data Consistency with Cloud Scalability Extreme Performance and Continuous Uptime with Predictable Performance
Data Aware Parallel Function Execution Data Stream with Enterprise Data Store Correlation Relational Technology
Based on Apache Derby Referential Integrity Standards-Compliant Powerful Querying Engine - ANSI Data-Dependent
and Data-Aware Java Stored Procedures

Pivotal HD

Simple and Complete Cluster Management: Command Center Big Data + Big Computing: GraphLab on OpenMPI
Hadoop In the Cloud: Pivotal HD Virtualized by VMware Spring Data: Build Distributed Processing Solutions with Apache
Hadoop

HAWQ

A Fast, Proven SQL Database Engine for Hadoop Big Data Analytics Capability and Productivity Parallel Data Flow
Framework Dynamic Pipelining Extension Frameworks with Hbase, Hive, etc PXF Big Data Analytics Capability
and Productivity - MADlib

(Hadoop)

www.pivotal.io/contact

89

QLIK
Hard

Soft

B.I.

Dataviz

Conseil

COORDONNES
QLIK
93, avenue Charles de Gaulle
92200 Neuilly-Sur-Seine
Tl +33 (0) 1 55 62 06 90
Mail infoFR@qlik.com

CONTACT
Stphane
BRIFFOD

Instit.

Qlik (NASDAQ : QLIK), leader en matire de Data Discovery, propose des solutions intuitives
de visualisation en libre-service et danalyse guide. Environ 33 000 socits sappuient
sur les solutions de Qlik pour extraire des informations essentielles de sources diverses et
explorer des relations invisibles qui donnent naissance des ides novatrices. Le groupe,
dont le sige se trouve aux Etats-Unis, possde des bureaux dans le monde entier et compte
plus de 1 700 partenaires dans plus de 100 pays. En France, la filiale a t cre en 2007 et
compte parmi ses clients des socits telles que 3M, la Socit Gnrale, le CNRS, Bayer
Healthcare, Meetic, Essilor, RueDuCommerce, le Groupe SEB, etc.
Le dploiement de lenvironnement danalyse en libre-service des solutions Qlik ne ncessite que quelques jours ou quelques semaines et rpond aux besoins des PME comme des
plus grandes entreprises internationales.
Le modle orient applications des solutions Qlik est compatible avec les solutions de BI
existantes et offre une exprience base sur limmersion et la collaboration et intgrant une
dimension collaborative et mobile.

Director Presales

Qlik rend le Big Data accessible aux


utilisateurs mtiers.
Librez votre intuition.

www.qlik.com/fr

UNE NOUVELLE APPROCHE


DU DECISIONNEL
A linverse des solutions de BI traditionnelles, bases sur une approche descendante et des
chemins danalyses prdfinis, les solutions Qlik de Data Discovery donnent toute libert
danalyse lutilisateur mtier, dans le respect dune gouvernance tablie par lIT. La puissance et la richesse de la technologie associative de Qlik apportent :
Des perspectives la porte de tous : Avec les solutions Qlik, tout le monde peut crer
des perspectives partir de ses donnes mtier.
Mobilit : Retrouvez vos applications sur un appareil mobile. Vos donnes mtiers sont
disponibles partout et tout le temps.
Des analyses instantanes : Les solutions Qlik rduisent considrablement les dlais
ncessaires pour gnrer des perspectives et obtenir des rsultats instantans.
Modle inspir des applications grand public : Les solutions Qlik permettent de dvelopper et de dployer rapidement des applications simples, ddies un sujet ou gnralistes,
et intuitives qui sont faciles rutiliser.
Remixage et rassemblage : Les utilisateurs mtier peuvent facilement rassembler des
donnes dans de nouvelles vues et crer de nouvelles visualisations pour une meilleure
comprhension.
Rseaux sociaux et collaboration : A tout moment, les utilisateurs peuvent partager des
perspectives et rsultats au sein de lapplication ou par lintermdiaire de plateformes de
collaboration permettant de crer une communaut dutilisateurs.
Les solutions Qlik peuvent tre dployes sur site, en mode cloud, sur un ordinateur portable ou un priphrique mobile, pour un seul utilisateur ou bien lchelle de grandes
multinationales.

www.qlik.com

91

SAP FRANCE
Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES

Leader des applications dentreprise, SAP (NYSE : SAP) fournit aux entreprises de toutes
tailles et de tous secteurs les moyens logiciels dune meilleure gestion. Du back office la
direction, de lentrept la vente, quel que soit le terminal dutilisation (ordinateur, terminal mobile), les applications SAP permettent aux collaborateurs et aux organisations de
travailler plus efficacement ensemble et de sappuyer sur des tableaux de bord personnaliss afin de conserver leur avance dans un contexte concurrentiel. Les applications et
services SAP offrent plus de 281 000 clients la possibilit dtre rentable, de sadapter
continuellement et de crotre durablement

SAP FRANCE
Tour SAP - 35 rue dAlsace
92300 Levallois-Perret
Tl 0805 800 023
Mail jean-michel.jurbert@sap.com

Didier Mamma
Nouvelle approche et vision stratgique : comment le Big Data bouleverse notre conomie

CONTACT
Jean-Michel
JURBERT
Directeur de March Solutions SAP
HANA, BI - Big Data

Didier Mamma

Didier Mamma est Vice-President of Big Data Sales Emea chez SAP. Fascin par le pouvoir
des donnes, il tient en tudier la porte stratgique et les grands blocs fonctionnels.
Le Big Data nest certainement pas une nouvelle technologie mais bien un moyen de repenser son avantage concurrentiel. Comme la remarquablement dcrit Jeremy Rifkin nous
sommes entrs de plain-pied dans la 3e rvolution industrielle, digitale et hyperconnecte.
On ne peut plus apprhender le prsent avec les paradigmes du pass.
La digitalisation remet galement en cause tous les modles conomiques. Amazon, Netflix, Nest, eBay, Apple, Crito, Houzz, Google sont quelques exemples dentreprises qui
sont en train dtablir un nouvel ordre conomique trans-industries.
La question demeure dans la capacit des entreprises capter et traiter cette multitude
dinformations dsormais leur disposition. Comment imaginent-elles lavenir de leur business ? Dans ce contexte, la rpartition des dpenses des principaux groupes du CAC40
semble alors dsquilibre. En moyenne, ils ddient 72% de leurs investissements la
maintenance de leur systme dinformation. Dramatiquement, une faible partie des dpenses est alloue linnovation.
Pour librer une part de cet important budget, lide de SAP est de simplifier lexistant.
Cest lobjectif de SAP HANA. La Plateforme HANA est capable daccueillir et de traiter la
varit des donnes de lentreprise, analytiques ou transactionnelles, structures ou non.
Finie la frntique duplication des donnes et laccroissement du plat de spaghettis
informatique. Parmi les 3V qui dfinissent le Big Data, on se focalise souvent sur le V de
volume, or cest la notion la plus simple grer. La complexit des traitements ou calculs,
la vlocit des oprations suffisent justifier une approche Big Data. Comme le dit Didier,
on peut faire du Big Data avec des gigabites ! . En dfinitive, le Big Data en mouvement
ncessite quatre dimensions. La premire est lie la puissance de calcul pur et rapide. La
seconde, la capacit dextraire linformation cache des donnes. La troisime rendre
intuitive le rsultat des analyses grce la visualisation. Et la dernire dimension est lexpert qui connat la nature de la donne et sa valeur potentielle.

Interviews

Frderic PUCHE

rel de laffluence dans son supermarch, lui permettre de relier


cette information aux donnes externes comme la mto et prvoir
les ractions adaptes. Un modle mathmatique lui dira alors si rLe big data, richesse dapplications et efficacite dutilisation
Frederic Puche est en charge des innovations chez SAP France. Il a organiser ses rayons dune certaine faon lorsque survient la pluie en
organis et anim les prsentations dans le cadre du SAP Big Data priode de forte affluence pourra amliorer son chiffre daffaire.
Tour en Juin dernier. Rendre concret le Big Data et en dmontrer la
richesse des domaines dapplications, cest son objectif. Il nous pr- Il sagit l presque de considrations organisationnelles. Le Port de
sente ici quelques beaux projets mens chez SAP.On associe souvent Hambourg, mondialement connu comme lun des principaux Hub
Big Data volume de donnes et stockage adquat. Mais le Big Data mondiaux, est actuellement confront une problmatique lie sa
cest aussi et surtout la capacit de capter les donnes pertinentes taille. Loptimisation du trafic y est donc primordiale. Il faut anticiper
larrive des bateaux, les golocaliser en temps-rel et intgrer les
issues des divers canaux, des mdia sociaux aux objets connects.
HANA, la solution Big Data de SAP, comporte trois volets qui rpondent facteurs externes pour prvoir larrive des camions pour le dchar cet objectif. Le premier est une base de donnes en mmoire. Le gement du fret au moment idal.
second, un moteur danalyse smantique et de sentiment puissant,
capable deffectuer des prdictions dynamiques. Le troisime et dernier, un moteur de rgles systmatisant des alertes et apportant agilit lentreprise.Lavantage ? Centraliser lintgralit des donnes sur
une mme plateforme, de-dupliquer les intermdiaires et faciliter les
process. Avant, on faisait du temps rel, mais chaque Business Unit
disposait de ses propres donnes et outils. Avec Hana, on fait du Big
Data, et les projets innovants naissent.LExecutive Briefing Center de
SAP en France est justement l pour rendre compte concrtement de
ces projets.Dans le sport, un domaine qui a rcemment anim lactualit du Big Data, lintroduction dobjets connects et lanalyse des flux
vido apportent une nouvelle approche. La Mannschaft par exemple,
stocke, dcortique, analyse et construit ses statistiques grce SAP
HANA. Semelles intelligentes, capteurs dacclration, mesure des
pulsations Grce au Wifi, les objets connects apportent au sport
finesse danalyse et ractivit.Le sport, cest aussi un public, dont on
peut observer le comportement via des puces, applications mobiles ou
tickets intelligents, et qui on peut recommader le service ou produit
adquat.

Dernier exemple, la scurit. Le Big Data peut par exemple permettre


de dtecter un mouvement suspect. Dans un aroport, lieu hautement
frquent et stratgique, on peut alors reprer un individu au comportement que le modle considrera comme anormal. Seul, sans tlphone et immobile pendant plus de 40 minutes, il pourra entrainer
une alerte au sein du service de scurit. Lintrt est l encore de
pouvoir stocker les informations et faire appel lhistorique des donnes ou au replay.

Lautomobile est un autre secteur fortement impact par le Big Data.


Lintroduction de capteurs et des objets connects dans les voitures
se dmocratise et engendre une nouvelle approche de cette industrie.
Pour les assureurs plus particulirement, connatre le kilomtrage
effectu et obtenir des informations sur le comportement de lautomobiliste rvolutionne le modle conomique, en instaurant le Pay As
You Drive. Le machine to machine permet galement de faire communiquer entre eux deux vhicules. BMW sintresse actuellement
aux analyses prdictives pour la maintenance mais aussi lanticipation
des bouchons, avec une possibilit dinteraction avec laffichage public
pour faire remonter linformation et alerter les automobilistes.
Dans laronautique, la maintenance est un point sensible. Lutilisation de capteurs, coupls une analyse algorithmique, offre la capacit dtablir la probabilit de pannes en amont. Avec Hadoop et un
historique de 3 6 mois voire davantage, on peut alors affiner les
modles mathmatiques.On connait davantage le Big Data dans le
secteur BtoC. Rcemment apparues, les Smart Vending Machine sont
la version upgrade du distributeur automatique, et disposent dun
cran digital intelligent. La machine, grce lutilisation de cartes de
fidlit, apprend connatre chaque consommateur, et lui pousse le
bon produit ou service au bon moment. Historique dachat, horaire,
mto ou donnes externes non-structures permettent de disposer
dune information prcise et in fine apportent un chiffre daffaire incrmental.Revenons aux capteurs et leur utilisation. Pour la grande
consommation par exemple, la remonte dinformations issue de chariots de supermarch peut apporter un grant une vision en temps-

www.sap.com

Frderic PUCHE

93

SAS
Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES
SAS INSTITUTE
Domaine de Grgy
Grgy-sur-Yerres
77257 BRIE-COMTE ROBERT CEDEX
Tl 01 60 62 11 11
Fax 01 60 62 11 20
Mail comsas@fra.sas.com

CONTACT
Serge
BOULET
Directeur Marketing

SAS, votre atout performance

SAS, leader mondial des solutions de business analytics, propose des outils analytiques
puissants, des solutions de pilotage de linformation et de business intelligence, pour vous
aider faire face aux challenges daujourdhui et anticiper les opportunits de demain.
Vous avez besoin dune solution spcifique adapte votre secteur ? Dune solution fonctionnelle transverse pour rpondre vos challenges ? Quelle que soit votre problmatique,
SAS a une rponse.
Nous vous aidons valoriser votre relation client, piloter vos risques, combattre la
fraude et optimiser vos rseaux informatiques. Nos solutions sappuient sur un socle
technologique avec trois composantes cl : la gestion des donnes, les outils danalyse et
la restitution de linformation.
Avec SAS, la business analytics est accessible et simple : SAS Visual Analytics vous permet dexplorer visuellement et rapidement vos donnes, de crer vos rapports et partager
les rsultats sur le web ou sur tablette.

Big Data, Hadoop et analytique

Les enjeux analytiques des projets Big Data sont la fois dordre technologique et mtier
avec des problmatiques lies la nature, au volume et la localisation des donnes, des
architectures extensibles, des comptences varies, une agilit et une prcision danalyse,
et de nouveaux besoins relatifs ces donnes.
La nouvelle plateforme analytique de SAS permet danalyser interactivement toutes les
nouvelles sources de donnes pour crer des modles prdictifs intgrs un cycle analytique complet. Elle permet aux analystes de travailler en faisant appel une riche bibliothque dalgorithmes et de mthodes analytiques pour crer et modifier dynamiquement
les modles prdictifs.
Cette plateforme obtient des performances remarquables car les traitements sexcutent
en-mmoire, au plus prs des donnes et en mode distribu lorsque possible.
Hadoop reprsente la plateforme majoritairement utilise pour les projets Big Data, par le
faible cot de stockage, larchitecture volutive, lagilit de laboratoire qui la caractrise.
Votre succs est notre succs.

SAS et Hadoop relvent


le dfi des Big data.
Et ils le remportent.

Big Data Analytics


Que faire avec des volumes massifs de donnes si vous ne
pouvez pas vous en servir ? Ou si leur analyse doit prendre
des jours ou des semaines ?
Combiner le pouvoir analytique de SAS aux capacits
dHadoop, dans un environnement unique et interactif,
vous livre les dcisions cl en main pour des rsultats
rapides et une valeur maximale.
Lire le rapport TDWI

sas.com/tdwi

SAS and all other SAS Institute Inc. product or service names are registered trademarks or trademarks of SAS Institute Inc. in the USA and other countries. indicates USA registration. Other brand and product names are trademarks of their respective companies. 2014 SAS Institute Inc. All rights reserved. S117789US.0114

Macys.com sublime lexprience


client avec les solutions SAS sur
Hadoop
Macys sappuie sur une plateforme Hadoop Cloudera et les solutions danalyse SAS pour
amliorer la performance de ses ventes en ligne.
Les acteurs traditionnels de la grande distribution doivent dsormais tre mme de proposer des services concurrentiels ceux offerts par les purs acteurs du commerce lectronique. Cest ainsi que Macys.com, filiale e-commerce de Macys Inc., icne de la grande
distribution aux tats-Unis, avec plus de 80 ans dexistence et un chiffres daffaires de 20
milliards de dollars, a men un projet destin amliorer lexprience des clients internautes et accrotre sa profitabilit.

Porteurs du Projet

Ce projet a t dirig par Kerem Tomak, Vice-Prsident Analytics de Macys.com, avec son
quipe danalystes.

Objectifs du projet

Lobjectif tait de mesurer lefficacit des campagnes marketing et les paramtres de navigation sur le site, connatre la Valeur Client, identifier les clients les plus fidles, et adresser
des promotions cibles aux meilleurs dentre eux.

Prsentation du projet
a. Nature des donnes traites

Macys.com exploite des donnes varies : donnes clients, suivi de campagnes de-mailings
de promotion, suivi de navigation, prfrences clients (ce quils aiment et naiment pas).

b. Ressources et mthodologie

Toutes les donnes analyser sont stockes sur une plateforme de donnes Hadoop Cloudera.
Elles sont analyses avec les solutions analytiques de SAS pour segmenter finement les
clients et calculer les scores propres chaque segment.
Lquipe analytique est aussi responsable du reporting destination des quipes marketing
et finance. Lautomatisation du cycle analytique a permis de rduire le temps de production
de ces rapports et dgager du temps pour gnrer plus danalyses et en accrotre la finesse
et la pertinence.

c. Calendrier de dploiement

Ce projet qui a dmarr en 2012 est en production depuis plusieurs mois et en perptuelle amlioration : ainsi, Macys.com a pu rduire le taux de dsabonnement ses campagnes marketing
de 20% et accrotre la productivit des analystes. Le gain est estim 500 000 USD par an.

Aspect Novateur

La meilleure segmentation des clients a permis Macys.com doptimiser les campagnes


marketing (en rduire la frquence et le nombre des clients cibls) et accrotre leur efficacit (taux de souscription et taux de rponse).

Valorisation observe de la donne

La capacit de comprendre le comportement multicanal des clients est critique pour amliorer
lexprience client et SAS est utilis pour analyser les donnes et crer les modles analytiques
qui valident et adaptent les algorithmes de up et cross sell .
Cette capacit analyser en profondeur et tirer parti des donnes est importante pour supporter la stratgie et le pilotage des volutions du sites Macys.com, commente Kerem Tomak.

Etapes venir et dmarche Big Data dans lentreprise

Lquipe analytique de Macys.com tudie ladoption de solutions doptimisation des processus mtier pour maximiser lefficacit des campagnes promotionnelles en amliorant
encore le ciblage et en accroissant la ractivit.
La volont de Macys.com est de gnrer des informations plus prcises et en temps rel sur
les prfrences des clients afin de personnaliser dynamiquement les promotions.
Plusieurs clients SAS utilisent SAS et Hadoop conjointement pour valoriser leurs sources
de donnes (web, log machines, rseaux sociaux, verbatim Service Clients etc.), par
exemple dans des projets damlioration dutilisation de machines industrielles (Predictive
Asset Maintenance), pour fournir des recommandations cibles (produits, contenu) ou pour
accrotre lefficacit des messages publicitaires et des campagnes promotionnelles par un
ciblage prcis.
SAS Institute, socit prive cre en 1976. 70 000 sites clients, dont 2600 en France, plus
de 3 milliards de dollars de CA et 14 000 employs.

www.sas.com/france

95

SCINETIK

SCINETIK
+

IN T ELLIGENCE
Hard

Soft

B.I.

Dataviz

Conseil

COORDONNES
SCINETIK
78 rue Taitbout
75009 Paris
Tl +33 673 804 708
Mail lively@scinetik.com

CONTACT
Xavire
TALLENT
CEO

E-BUSINESS

Instit.

Scinetik est un cabinet de conseil dont la mission est dassurer pour ses clients, le dveloppement prenne et rentable de leur activit de commerce connect.
Notre mission est daccompagner nos clients dans la dfinition et la mise en uvre de
stratgies de dveloppement sur lensemble des drivers de business de la conqute la
fidlisation en passant par la conversion. Pour y parvenir et afin de sassurer de lefficacit
des actions, Scinetik fonde lensemble de ses recommandations sur lanalyse de la donne.
Cette donne vient de multiples sources : le webanalytic, les comportements dachat, les
donnes CRM, des donnes externes...
Scinetik a t cr en raction au manque de pilotage des activits de commerce connect
au sein des retailers. Beaucoup dambitions, peu dexpertise data ou un manque de perception de lenjeu vital de lexploitation de la donne avant mme tout enjeu de branding et
dimage de marque.

Redonner du sens au business, telle est notre mission.


Naturellement cet engagement dans la donne nous a amen dvelopper une expertise
forte en matire de Big Data . Mais pour nous le concept big data nest pas utilis
comme un effet de mode mais comme la conviction profonde que nous sommes arrivs un
nouvel ge du marketing et du business o nous devons rinventer la faon mme dexploiter la donne. Nous nous devons galement daccepter avec enthousiasme le dfi que nous
oppose les varits des sources et types de donnes, lopportunit des open data et tout ceci
en temps rel pour un business toujours plus rapide, une obsolescence des produits et des
promesses relationnelles toujours plus grande
Scinetik travaille pour de grands groupes internationaux dans le domaine du retail, de la
grande consommation, de la mode, du sport.

Le Big Data au service de la


transformation de lentreprise
Le contexte du Client

Aprs plusieurs annes de veille sur la monte du Big data, beaucoup de lecture, la participation des confrences, la rencontre avec des entreprises ayant dmarr leur rflexion
big data en France mais surtout ltranger, notre client a dcid de mettre son entreprise
sur le chemin du big data.

La question pose Scinetik

En quoi le big data peut-il impacter vritablement lentreprise dans ses diffrentes dimensions ? Comment ne pas limiter le Big Data un super CRM comme cest le cas dans un grand
nombre dentreprises, notamment en France ?

Le dfi

Concilier ambition stratgique majeure, pragmatisme conomique et oprationnel. Le Big


Data nest pas prioritairement un sujet technologique mais un sujet stratgique et organisationnel.
Un dfi Stratgique car il va modifier potentiellement le business model de lentreprise, son
offre, son merchandising, son marketing et bien entendu son CRM.
Un dfi organisationnel car beaucoup dentreprises se rfugient derrire le data scientist
, sorte de profil hybride entre data/metier/technique. Or si lensemble des quipes de lentreprise nest pas partie prenante dans le projet alors les outputs du big data, aussi brillants
soient-ils ne se diffuseront pas dans les diffrentes strates de lentreprise, namneront
pas les hommes et les femmes travailler diffremment en faisant de la donne un atout
majeur au quotidien et dans la dure.

La dmarche

Cration dun groupe de rflexion highlevel, ayant la fois la vision de lentreprise dans
son ensemble et ses particularits et galement le pouvoir de faire bouger les lignes.
Dfinition dune vision stratgique centrale
Dclinaison de cette vision sur les diffrents mtiers de lentreprise
Lide force : Cration de prototypes. Chaque prototype adresse une dimension de la big
data dans une dynamique vertueuse et apprenante
Dfinition de la mthodologie de rcupration et danalyse des donnes internes et externes
Dfinition de diffrents scnarios pour la mise en place de linfra, lenjeu ntant pas de
lancer de lourds investissements ds le dmarrage mais de tester plusieurs options pour
permettre les meilleurs choix terme
Lancement des prototypes

Les rsultats date

Dmarrage oprationnel des prototypes :


- cadrage des prototypes et mise en place des quipes multicomptences internes-externes
- identification des sources de donnes notamment externes, et pour chaque source la
donne utile
- identification des outils/solutions adaptes et potentiels partenaires techniques (IT).
- /
Lenjeu de ces prototypes est galement de faire monter en comptence les quipes internes et de dessiner la future architecture SI de metadonnees.
En fonction des rsultats attendus nous serons mme dutiliser diffrentes techniques
danalyse et de modlisation des donnes en sappuyant sur une quipe de statisticiens
spcialiss Big data.
Le dfi que nous voulons relever est de rpondre de rels besoins mtier en utilisant les
mines dinformations existantes mais peu ou pas exploites et en sappuyant sur de nouvelles techniques et mthodes danalyse.
Nous sommes convaincus que nos clients peuvent tirer de la valeur des metadonnees. Cest
un vaste domaine dexploration et dexprimentation qui soffre nous.

www.scinetik.com

97

SEMDEE
Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES

Quelles proviennent directement de lentreprise (CRM, ECM, CMS, RSE, back office,
E-mails, dossiers textes, voir mme des DATA WAREHOUSE) ou de lextrieur (Sites Internet, Blogs, Forums, Rseaux Sociaux) les donnes non structures sont partout.
Confront ce dluge les Entreprises entendent parler de formidable opportunit , de
gisement de valeur ou de cration de valeur.

SEMDEE
15, Rue Jean Baptiste BERLIER
75013 PARIS

Comment passer de cette situation davalanche de donnes une cration de valeur ?


Cest cette question que rpond SEMDEE diteur de technologies smantiques au travers
de son offre SEMDEE SMART DATA FATORY.
La technologie SEMDEE est issue des Sciences Cognitives et de travaux sur la mmoire
pisodique. Utilisant les rcents dveloppements en Intelligence Artificielle, SEMDEE met
disposition de ses utilisateurs les ultimes avances dans le domaine de la smantique.
Base sur une approche statistique lutilisation du Machine Learning permet une amlioration constante de la prcision et de la pertinence.

Tl +33 (0)1 55 43 79 60
Mail contact@semdee.com

CONTACT
Brice
HOARAU

Inspir du fonctionnement du cerveau humain lEspace Smantique, au cur de la gamme,


indexe les donnes qui vont tre utilises. Les principales tapes cognitives modlises,
chacune sous forme de module fonctionnel, constituent lensemble de la gamme.

CEO

Ces modules sont utilisables de manire autonome pour rpondre un simple besoin technique (recherche, classification etc) ou dune manire plus complte dans le cadre de la
solution SEMDEE SMART DATA FACTORY .
Dune manire gnrale, SEMDEE SMART DATA FACTORY se propose dindustrialiser lacquisition et lutilisation de la connaissance. SMART DATA FACTORY sadresse directement aux clients et aux intgrateurs qui souhaitent constituer leur propre plate-forme
danalyse de donnes.

Solution SEMDEE
SMART DATA FACTORY
SEMDEE SEO

PERSOnALiZED
COnTEnT

Web ferm

SEARCh
Blogs / Forums

Urls

RELATED COnTEnT

Flux Rss

Web ouvert
MOniTORing
ECM

Data marehouse

CMS

Composants du SI

Copyright - Semdee 2014

RSE

E-mails

TAggER

SEnTiMEnT
AnALYSiS

CRM

Txt

Espace
Smantique
SEMDEE

PREDiCTiVE
AnALYSER

PROFiLER

CATEgORiZER

Comment dtecter et anticiper


le churn avec SEMDEE
Porteur du projet : Murat AHAT
Objectifs

Aider un grand groupe anticiper le dpart de ses clients.


Mettre en place un systme dalerte au churn dans le cadre dun plan de rtention des clients.

Prsentation

Voici les principales tapes qui seront menes dans le cadre de ce projet :
A) Rcupration des historiques des donnes des clients qui ont quitt le service.
Ces donnes peuvent provenir :
a. Du web
b. Des rseaux sociaux
c. Des plates-formes de service
d. Des emails
e. Des posts dans les forums
B) Agrgation des donnes par client
C) Indexation smantique de ce contenu
D) Pondration des contenus en fonction des connaissances mtiers
E) Gnration de lensemble des profils des clients
F) Dtermination dun seuil d alerte (proximit par rapport ces profils)
G) Rcupration de contenus mis par les clients actuels du service dans
a. Les formulaires
b. Les emails
c. Les rseaux sociaux
d. Les forums
e. Les plates-formes de services

Aspect Novateur

Fonctionnement instantan
(pas de besoin de dictionnaire, de lexique etc)
Fonctionne sur lensemble du contenu (pas limit
un groupe de mots ou de phrases mais sur des
textes entiers) - Fonctionne dans toutes les langues.
Machine learning : plus le systme va fonctionner
plus il va devenir prcis.
Toutes les tapes cognitives sont intgres en une
seule solution = Cohrence cognitive accrue.

Valorisation observe de la donne

ROI directement calculable.


Combien vaut un client ? Combien coute la perte
dun client ?
Combien de clients en moyenne perdent les entreprises sur le mme secteur dactivit ?
Combien lentreprise avait elle perdue de clients
lanne prcdente ?

Etapes venir et dmarche Big Data


dans lentreprise

Fonctionne sur toutes les autres problmatiques


de la mme manire :
Dtection dopportunits de ventes - Amlioration
de la connaissance des usages client, du client,
des tarifs et des concurrents
Dtection de nouveaux besoins

H) Agrgation des donnes par client


I) Indexation smantique des contenus
J) Lorsquun client actuel du service se rapproche du seuil dalerte
a. dclenchement dune alerte auprs du service client
b. Le service client peut alors traiter en direct
K) Outils supplmentaires mis disposition du service client
a. Lorsquun oprateur consulte un profil susceptible de quitter le service, le systme
propose automatiquement la liste des profils qui lui sont le plus proche
b. Loprateur peut effectuer des recherches en mode smantique pour approfondir
sa connaissance

Comptences humaines :

Dans le cadre de ce projet, il sera ncessaire de disposer des ressources suivantes :


Une comptence mtier
Un consultant SEMDEE pour installation et paramtrage
Une comptence dintgration pour personnaliser la restitution auprs des utilisateurs

Calendrier de dploiement :

Les dures sont donnes titre indicatif car elles dpendent videmment du volume de donnes, de la diversit des supports et de la qualit de la connaissance mtier mis disposition.
A partir du moment o les sources de donnes sont prcisment identifies :
Extraction des donnes (1 2 semaines selon complexit et le nombre de support)
Indexation smantique et paramtrage (1 semaines).
Paramtrages des profils et alertes (1 semaine)
Mise en place des modules connexes permettant un meilleur confort (recherche,
enrichissement de linformation, suggestion de profils etc (1 semaine/module)
Intgration, personnalisation dans lenvironnement utilisateur (intgrateur)

www.semdee.com

99

SENTELIS
Hard

Soft

B.I.

Dataviz

Conseil

COORDONNES
SENTELIS
31 Rue du pont
92 200 Neuilly-sur-Seine
Tl +33 (0)6 76 09 82 46
Mail i.regnier@sentelis.com

CONTACT
Isabelle
REGNIER
Associ Fondateur

Instit.

SENTELIS, smart solutions for smarter enterprises

Sentelis est un cabinet de conseil en stratgie, gouvernance et architecture de systmes dinformation.


Nous accompagnons les dcideurs SI dans leur transition numrique vers lentreprise 3.0
(CIO, CDO, CTO, CMO), de la dfinition de leur stratgie la concrtisation oprationnelle.
Nous les aidons identifier, optimiser et dployer les capacits stratgiques du systme dinformation 3.0 en rponse lquation digitale quils doivent rsoudre pour conjuguer innovation et industrialisation, pour intgrer et tirer bnfices des nouvelles ralits numriques comme le Cloud Computing , le Mobile Computing , les Social Medias , l
Internet-of-Things , le Digital Working , le Crowd-Sourcing et bien sr le Big Data .
Nos solutions concrtes, pragmatiques et diffrencies rpondent aux besoins defficience
(Time-to-market) et defficacit (Cost-to-income) du SI. Elles sont imagines et dployes
au travers dun cadre mthodologique, architectural et de gouvernance innovant et unique
sur le march, dont Sentelis est lditeur : smartfoundations.
Sentelis smartfoundations couvre lensemble du cycle de vie des fondations du SI Digital,
quils sagissent de composants SI ou de pratiques SI transverses. Il garantit des fondations
industrielles, prennes et fort retour sur investissement.
Nous avons un savoir-faire reconnu et prouv sur la plupart des fondations de lentreprise
digitale, aussi bien des composants du SI 3.0 (Big Data & Business Analytics, SOA/API
Management & Cloud Integration, MDM, BPM/ACM, eCRM, Enterprise App Stores & Social
Networks), que des pratiques de la DSI 3.0 (Fast IT/DevOps, IT Factory, SSC) et des dispositifs transverses mtiers-DSI de lentreprise 3.0 (Data Labs, Data Governance,
Social Enterprise Architecture).
Nous intervenons en tout indpendance vis--vis des diteurs sur ces fondations de lentreprise 3.0 (tude opportunit, preuve-de-concept mtier & technologique, industrialisation)
y compris sur les aspects gouvernance et conduite du changement.

Vos donnes en savent plus que vous.


Faites-les parler.
Entreprise 3.0 (n.m) :
Entreprise qui conjugue au prsent innovation et
industrialisation
Big Data (n.m) :
Fondation stratgique de lentreprise 3.0
Smartfoundations (n.f) :
Cadre de reference Sentelis pour rsoudre
lquation digitale du SI de lentreprise 3.0
Sentelis (n.f) :
Crateur et intgrateur de fondations
stratgiques SI et DSI de lentreprise 3.0

www.sentelis.com

smart solutions for smarter enterprises

Architecture 3.0 : FONDATION


BIG DATA pour une Mutuelle
dAssurance
Porteur du Projet : Sbastien LAYER
Objectifs

Mettre en place un socle Big Data cross-mtiers pour servir les nouveaux usages 3.0 :
Analyse ractive (contextualisation temps rel de la relation client sur tous les canaux)
Analyse historique du portefeuille client sur lensemble des donnes disposition
(micro-segmentation, qualit et volution de la relation, segmentation comportementale)
Analyse prdictive du portefeuille client (dtection dopportunits, prvention des risques)

Prsentation

Intgration dans un lac de donnes dune trs grande varit de donnes reprsentatives du
systme dinformation (donnes transactionnelles, vnementielles, conversationnelles,
sociales rfrentielles, dcisionnelles) pour un volume avoisinant plusieurs milliards de
donnes.
Ralisation en 2 tapes majeures pour scuriser la mise en uvre de la fondation Big Data :
Identification de cas dusage candidats.
Conduite dune preuve-de-concept valeur mtier et architecturale sur une infrastructure Commodity Hardware et des composants Open Source de lcosystme Hadoop
Ralisation dune preuve de concept sur un usage emblmatique (Vision 360 Client) au
sein dune quipe mixte mtier-SI en mode agile (Utilisateur mtier, Ergonome, Analyste
Donne, Statisticien, Architecte Big Data, Dveloppeur Big Data) incluant :
Lingestion en masse des donnes dans une logique Schema-less/Store-first-Ask-Later
Lingestion de donne unitaire haute vlocit et sans latence
Le traitement en masse des donnes pour corrler lensemble des donnes clients
Lindexation en masse des donnes pour permettre leur exploration
Lexposition de services pour banaliser laccs aux donnes et aux traitements

Calendrier de dploiement

3 mois pour raliser la preuve-de-concept


2 mois pour choisir les composants de la stack Big Data
6 mois pour industrialiser et dployer les premiers usages en production

Aspect Novateur

Modle darchitecture digitale 3.0


Dsilottage des donnes entre les mtiers et des mondes oprationnel et analytique
Amlioration dusages existants (ex : vision 360 Client, Contrat) - Perspective de nouveaux
usages (ex : analyse de la couleur et la teneur de la conversation client, corrlation des flux
comptables) - Capacit dinnovation renforce (Test & Learn, Data Lab)

Valorisation observe de la donne

Le projet permet denvisager une exploitation de toutes les donnes disponibles structures et
non-structures comme jamais auparavant, sans frontire de temps ni despace (ex : analyse
des commentaires clients dans les questionnaires de satisfaction et corrlation avec la notation
; dtection de nouvelle segmentation via des algorithmes danalyses non propritaires).

Etapes venir et dmarche Big Data dans lentreprise

Les tapes venir sont : Industrialisation du socle Big Data (pratiques et solutions) - Mise
en production des premiers usages.
Ces tapes saccompagnent en parallle de la dfinition de loffre de service associe la
fondation Big Data et de lorganisation pour en assurer la prennit et le dploiement dans
lentreprise.
Autres informations : La mise en place du lac de donnes a t un rvlateur et un catalyseur
de nouveaux usages pour lensemble des mtiers, encourags par des cots et une performance de traitement sans commune mesure avec lexistant. Elle ouvre la place, au-del de
lamlioration de la Business Intelligence et du dveloppement de la Business Analytics, au
dveloppement de la Data Science pour tirer le maximum de valeur du capital informationnel
de lentreprise. Elle a mis en vidence la ncessit dune gouvernance de la donne resserre pour matriser lexplosion des donnes et des usages. Le lac de donnes est la premire
tape vers la construction dune infrastructure fdre des donnes entre monde oprationnel et monde analytique (Shared Data Backbone), dont la frontire disparait.

www.sentelis.com

101

SINEQUA
Hard

Soft

B.I.

Dataviz

Conseil

COORDONNES

Instit.

Sinequa : Dcouvrez la valeur cache de vos donnes

SINEQUA

Le Search et lAnalyse de contenus structurs et textuels en temps-rel, au service de vos


processus mtiers stratgiques

12 rue dAthnes, 75009, Paris

Le dfi du Big Data : Plus de 80% de ces donnes sont non structures - des textes en

Tl +33 (0)1 70 08 71 71
Fax +33 (0)1 45 26 38 92
Mail pornain@sinequa.com

CONTACT
Xavier
PORNAIN
VP Sales & Alliances

beaucoup de langues diffrentes. Les professionnels de linformation perdent un temps


considrable regrouper linformation dont ils ont besoin pour accomplir leur travail. La
qualit du service client faiblit, la R&D est freine et les entreprises laissent chapper des
opportunits lorsque leur personnel est submerg dinformations et incapable de trouver la
bonne information au bon moment.

Notre mission :

Offrir un accs en temps rel, personnalisable et scuris aux informations pertinentes


chaque utilisateur dans son contexte mtier.
Simplifier la cration dInfoApps (Search-Based Applications) par secteur et par mtier

Notre solution :

Une analyse de contenu unique, base sur une analyse smantique brevete (traitement
du langage naturel) et sur une exprience en traitement de donnes structures provenant
dapplications mtier
Une architecture informatique trs performante et scalable, permettant de grer des
dizaines de milliers dutilisateurs et des milliards de documents en temps-rel
Une intgration scurise et homogne avec plus de 140 sources de donnes

Notre exprience :

Deux dcennies de recherche en matire de traitement du langage naturel

Search et Analyse du Big Data


au service de la Relation Client

AMLIORATION DU SERVICE CLIENT ET RDUCTION DES COTS

Lun des principaux oprateurs de tlcommunication en Europe utilise Sinequa pour dlivrer instantanment aux employs de ses centres dappels une vue 360 des clients. Il
rduit ainsi de manire significative la dure moyenne des appels, diminue le cot daccs
linformation et rend possible le dveloppement dInfo Apps en mode agile pour rpondre
lvolution du business.

Porteurs du projet

Cot client, le projet a t port par la DSI de la Relation Client, avec une implication forte
du Mtier de la Relation Client notamment pour son impact sur lergonomie des Chargs
de Clientle (CC).

Objectifs

Ct business, il sagit avant tout damliorer la satisfaction client; ct informatique, de


diminuer les cots lis au fonctionnement du centre de contacts et de ses quelques 250
applications; enfin, laccs unifi linformation depuis une seule application permet de
rduire drastiquement la dure de formation et de monte en comptence, et damliorer
lergonomie des CC.

a. Amliorer la satisfaction client

La nouvelle interface de travail des CC leur permet de rpondre directement 80% des requtes client. Libr dune navigation chronophage entre plusieurs applications (plus de 30
dans certains cas), le CC peut traiter la demande du client plus efficacement.

b. Rduire le cot de fonctionnement et gagner en performance

Le dcouplage entre la lecture des donnes et laccs aux applications back-office amliore
les performances et rduit les temps de rponse, mme durant les piques dactivit.
Le systme dinformation gagne en agilit puisque des applications (Info Apps) peuvent tre
dveloppes rapidement afin de sadapter aux volutions du business.

c. Diminuer le besoin en formation et amliorer lergonomie du CC

La complexit du Back-Office existant (ERP, CRM, etc.) sefface devant la nouvelle interface
du CC rduisant le besoin de connaissance des outils Back Office.

Prsentation

a. Nature des donnes traites

Il sagit de donnes structures venant dERP, du CRM, dapplications mtiers spcifiques


mais aussi de contenus non-structurs comme des contrats, des factures ou des emails.

b. Ressources et Mthodologie

Le projet a t conu en mthode agile avec les utilisateurs finaux.

c. Calendrier de dploiement

Le pilote a t ralis en 2 mois et la mise en production en 9 mois.

Aspect Novateur

Fdrer de la donne structure et non-structure afin de crer une vue 360 client en
temps-rel pour des milliers de CC est lun des cas dusage du Search et de lAnalyse de
donne Big Data les plus innovants raliss aujourdhui. Le Search joue dsormais un
rle dterminant au cur de processus mtiers stratgiques. Offrant un vritable levier de
comptitivit, il ouvre la voie des innovations qui nauraient pu voir le jour dans des architectures informatiques classiques .
En peine neuf mois, le projet a t dploy auprs de 10 000 CC. Le ROI en satisfaction
client et en temps gagn par appel sest fait sentir trs rapidement aprs le dploiement.

Valorisation Observe de la donne

La mise en place du nouvel accueil client permet de rduire de prs de 20% la dure
moyenne des appels donnant ainsi aux 10 000 CC la capacit de traiter environ 40.0 000 appels supplmentaires par jour, et daugmenter lARPU (Average Revenue Per User) grce
une meilleure connaissance du Client (permettant de proposer les offres les plus adaptes).

Etapes venir et dmarche Big Data dans lentreprise

A lavenir, encore plus de sources de donnes pourront tre indexes, y compris des donnes
non structures provenant par exemple des rseaux sociaux (Data-profiling, Data-scoring).

www.sinequa.com

103

SPLUNK
Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES
SPLUNK

Splunk Enterprise est la plateforme leader de lintelligence oprationnelle en temps rel.


Elle offre un moyen simple, rapide et scuris dexplorer, analyser et visualiser les flux
massifs de donnes gnrs par vos systmes informatiques et votre infrastructure technologique, quelle soit physique, virtuelle ou dans le Cloud.

Tour Ariane 5 place de la Pyramide


92088 La Dfense Cedex

Splunk Enterprise offre :

Tl 01 55 68 12 61
Mail emea_france@splunk.com

De puissantes capacits danalyse accessibles tous des vitesses extraordinaires


Une exprience utilisateur entirement repense
Un environnement de dveloppement enrichi permettant de prolonger facilement la
plateforme

CONTACT
Pierre
GOYENEIX
Directeur Commercial EMEA South

Splunk Enterprise 6.1 est notre dernire version et offre des fonctionnalits conues pour
amliorer la manire dont vous analysez vos donnes et interagissez avec elles, tout en
proposant une disponibilit continue de votre dploiement distribu de Splunk Enterprise.
Recueillez et indexez les donnes machines de toutes les sources ou presque en temps
rel. Explorez, surveillez, analysez et visualiser vos donnes pour obtenir de nouveaux renseignements. Indexez toutes vos informations pour bnficier dune meilleure visibilit et
renforcer vos capacits dinvestigation et de dpannage. Travaillez plus intelligemment en
partageant des recherches entre quipes et en accumulant des connaissances propres
votre organisation. Crez des rapports cibls pour identifier des tendances ou rpondre
des contrles de conformit. Composez des tableaux de bord interactifs pour surveiller les
incidents de scurit, les niveaux de services et autres indicateurs cls de performance.
Analysez les transactions des utilisateurs, le comportement des clients, celui des machines, les menaces de scurit et les activits frauduleuses, le tout en temps rel.Indexez
toutes les donnes
T:190 mm

Commencez avec des donnes


machine et le logiciel Splunk.
Terminez avec un avantage
considrable.

Pour en savoir plus, rendez-vous


sur fr.splunk.com

2014 Splunk Inc. Tout droits rservs.

T:124 mm

Splunk transforme les donnes


machine en renseignements prcieux
pour votre entreprise. Dcouvrez la
meilleure des plateformes dinformation
oprationnelle en temps rel.

Splunk chez Karavel

IDENTIFICATION DES ERREURS EN TEMPS REL ET DIMINUTION


DU TEMPS DE RPONSE, POUR UNE MEILLEURE EXPRIENCE
UTILISATEUR.

SECTEUR

Voyages (agence de voyages en ligne)

CAS DUTILISATION SPLUNK


Gestion des applications
Intelligence numrique
Intelligence oprationnelle

RSULTATS

Meilleure exprience utilisateur avec une rduction de 82 % des temps de rponse des pages.
Amlioration du rfrencement naturel par lidentification et la rparation ou la suppression des liens non trouvs. Identification en temps rel des divergences de configuration,
permettant dviter des pertes de recettes. Relation proactive avec les oprateurs pour
rectifier les erreurs humaines du processus.

SOURCES DE DONNES

Logs du proxy inverse Varnish Logs applicatifs Tomca

Dfis

Karavel attache une grande importance la haute qualit de service offerte ses clients,
mais souffrait dun manque de visibilit dtaille sur son architecture informatique. Des
outils de surveillance taient bien utiliss, mais ils ne fournissaient pas une vision suffisamment prcise. Karavel pouvait par exemple connatre le temps de rponse moyen des
pages principales dun site donn, mais pas la distribution dtaille des temps de rponse
; il ntait donc pas possible de savoir combien dutilisateurs recevaient un service infrieur
aux accords internes sur les niveaux de service, ni didentifier prventivement les situations
o ceux-ci taient sur le point dtre enfreints. Ce manque de visibilit avait en outre des
consquences sur le processus de rservation en ligne, car Karavel ntait pas en mesure
de dtecter certains problmes : par exemple, des divergences entre les configurations
dun produit cr par loprateur, import sur la plateforme de Karavel et offert aux clients
via le site web. Certaines erreurs rendaient impossible la finalisation de lachat par le client.

Intervention de Splunk

Karavel a choisi Splunk Enterprise pour garantir la qualit de ses services de rservation en
ligne, mieux comprendre et amliorer les temps de rponses de ses pages web, et assurer
le respect de ses accords sur les niveaux de service. Les logiciels Splunk sont maintenant
utiliss tant par lquipe technique que par lquipe commerciale de Karavel, et servent
amliorer le service offert aux clients par toutes les marques de lentreprise. Lquipe technique surveille en temps rel le processus de rservation en ligne, et utilise des alertes automatiques qui se dclenchent lorsque quun nombre anormalement lev derreurs se produit.
Elle examine dautre part chaque semaine les rapports de Splunk exposant les temps de
rponse des pages web. Lquipe commerciale observe elle aussi les rapports de Splunk, pour
identifier et rectifier prventivement tout problme. En outre, les tableaux de bord de Splunk
fournissent lquipe de direction des indices hebdomadaires de performances.
Karavel envoie Splunk Enterprise les logs de son proxy inverse Varnish et de Tomcat. Un
relayeur envoie ces donnes deux indexeurs ayant une tte de recherche unique. Karavel utilise les logiciels Splunk conjointement avec AppDynamics, effectuant les recherches
avec Splunk et utilisant ensuite AppDynamics pour des investigations en temps rel. Karavel a aussi construit des applications Splunk ddies : une pour le processus de rservation
en ligne et une pour laccord de service de chaque site web.

Progrs

Une meilleure vision relative aux accords sur les niveaux de service des sites web a diminu
les temps de rponse de 82 % Identification en temps rel des divergences de configuration
des rservations en ligne Optimisation du rfrencement naturel quipe commerciale
En rsum, lutilisation de Splunk Enterprise pour obtenir une intelligence oprationnelle
dtaille sur son architecture web a apport Karavel une nouvelle comprhension approfondie de la performance de ses sites. Les quipes de toute lentreprise, la fois techniques
et fonctionnelles, utilisent Splunk Enterprise pour amliorer la qualit de service fournie
aux clients des sites du catalogue de Karavel.
Nous proposons aujourdhui une meilleure exprience de navigation sur notre catalogue
de sites de voyages, avec des temps de rponse rduits et une identification immdiate de
divergences de configuration potentiellement coteuses.
Architecte technique

Karavel

www.splunk.com

105

SYNCSORT
Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES
SYNCSORT
Tour Ege - La Dfense
17, avenue de lArche
92671 Courbevoie Cedex - France
Tl +33 (0)1 46 67 46 10
Mail syncsortsamkt@syncsort.com

CONTACT
Florence
RABUEL
Regional Director

Fort de 40 ans dinnovation, dexpertise et de russite, Syncsort aide les entreprises travers
le monde intgrer les Big Data plus intelligemment.
Syncsort propose des solutions logicielles fiables, performantes, fonctionnant aussi bien
sur Hadoop que sur le mainframe. Nous aidons nos clients, partout dans le monde collecter, traiter et distribuer plus de donnes, en moins de temps, avec moins de ressources et
en optimisant les cots. Une majorit des entreprises du Top 100 sont clients de Syncsort
et nos solutions sont utilises dans plus de 85 pays pour off loader des applications legacy, onreuses et inefficaces, acclrer les traitements dans votre data warehouse et votre
mainframe et optimiser lintgration de vos donnes dans le cloud.
En 1968, sept ingnieurs et mathmaticiens se sont runis pour rduire les cots et la complexit lis aux donnes et leur traitement. En perfectionnant une srie dalgorithmes qui
rationalisrent le tri mainframe, utilisrent moins de ressources, sadaptrent selon des
variables denvironnement spcifiques et assurrent une scalabilit pour faire face des
volumes de donnes toujours croissants, ils changrent jamais la manire dont les entreprises pouvaient envisager lconomie des donnes et ils fondrent Syncsort.
Aujourdhui, avec des milliers de dploiements travers le monde sur toutes les platesformes majeures dont le mainframe, Syncsort fournit des solutions dintgration Big Data
aux entreprises grant dnormes quantits de donnes tout au long du Big Data Continuum, une manire plus ingnieuse de collecter, traiter une avalanche de donnes toujours
croissantes..
Le sige social de Syncsort est situ au Nord Est du New Jersey. Syncsort est prsent
linternational avec des filiales au Royaume-Uni, en France et en Allemagne, avec un centre
de support aux Pays-Bas et des distributeurs. Syncsort dispose dun rseau international
de partenaires, revendeurs et distributeurs qui incluent ses solutions comme composants
de leur offre informatique.

Syncsort est cette entreprise unique qui a brillamment fait voluer son
business model de lre du mainframe celui dHadoop. En capitalisant
sur cette exprience, Syncsort a dvelopp des solutions sur mesure
pour permettre aux entreprises doptimiser leurs charges de travail
travers lensemble de leur architecture de donnes. Elles ralisent ainsi
des conomies et allgent la charge sur le datawarehouse et le mainframe, ce qui acclre les traitements par ceux-ci.
Notre portefeuille de solutions innovantes comprend notamment :
DMX-h. Le premier moteur ETL qui fonctionne en mode natif au sein
du cluster Hadoop, ce qui permet aux entreprises de mettre en place
des flux de donnes complexes dans Hadoop et acclrer sans
heurt les processus MapReduce tels que HiveQL et Pig sans
devoir rdiger, gnrer ou optimiser du code manuellement.
SILQ. Le premier et unique outil conu pour aider les clients comprendre des tches complexes dintgration de donnes SQL et les
offloader du datawarehouse vers Hadoop.

Lonne Jaffe,
PDG

Le moteur de tri et ETL le plus rapide pour mainframe, Hadoop et


Linux/Unix/Windows.

JE VOUS INVITE EN APPRENDRE DAVANTAGE SUR NOTRE ENTREPRISE SYNCSORT.COM/FR

Hadoop chez SFR

Efficacit accrue grce au projet Hadoop

En tant quoprateur tlcom majeur comptant plus de 21 millions de clients, SFR collecte
quotidiennement une quantit norme de donnes. Lobjectif du projet Hadoop chez SFR
tait en premier lieu de rduire les cots dexploitation de ces donnes. Au fur et mesure
que le volume de donnes augmente, il est de plus en plus difficile et coteux de stocker
et traiter les donnes. En utilisant de faon optimale le cluster Hadoop et les outils puissants de tri et ETL de Syncsort, il est possible de limiter linvestissement dans du nouveau
hardware.

Un projet qui ne se termine jamais

SFR a dcid de lancer le projet Hadoop la fin de 2013. Dans une premire phase, le choix
sest port sur la distribution Hadoop Cloudera et dbut 2014, il a t dcid de travailler
avec DMX-h de Syncsort pour loader et offloader des donnes partir du cluster Hadoop.
SFR utilisait dj loutil ETL DMX de Syncsort pour quatre autres projets, pour lesquels il
avait fait ses preuves. Les trs bonnes performances de DMX-h de Syncsort ont ensuite pu
tre dmontres dans le cadre du Proof of Concept pour le projet Hadoop. Nous travaillons
encore en mode batch, explique Franois Nguyen, en charge de la division Connaissance
Client chez SFR. Cela implique que nous disposons dune fentre de traitement rduite.
Nos engagements prcdents avec Syncsort se sont rvls trs efficaces. Leurs capacits
de tri nont pas dquivalent sur le march, et nous sommes trs heureux que Syncsort soit
lun des vritables innovateurs sur le march Hadoop. Leur mcanisme de tri est incorpor
la distribution Hadoop que nous utilisons.
Au cours de lt 2014, les premires sources de donnes ont t loades dans le cluster
Hadoop, et davantage de sources seront ajoutes toutes les deux ou trois semaines. Il
ne sagit pas dun projet avec un horizon dtermin, nous allons continuer ajouter des
sources de donnes en permanence, explique Franois Nguyen.
A lheure actuelle, la division Connaissance Client gre une base de donnes trs volumineuse , qui narrte pas de crotre. Les donnes traites dans le cadre du projet Hadoop
sont principalement des donnes structures mais on y retrouve galement des donnes
semi-structures provenant de logs.

En primeur

Le projet chez SFR est lune des premires vritables expriences Big Data et Hadoop sur
le march franais. Le projet permettra SFR de raliser des conomies, grce la performance des solutions implementes.

De premiers rsultats rapides

Lune des premires russites du projet a t la capacit concrtiser les premires tapes
dans le dlai imparti et selon le budget, ce qui est une prouesse compte tenu quil sagit de
lintroduction de technologies de pointe. La mise en route aussi rapide du projet est principalement due au fait que SFR na pas eu effectuer une phase de tuning avant de commencer utiliser DMX-h pour manipuler les donnes ni raliser de codage supplmentaire.
Les rsultats seront valus en permanence au fur et mesure que de nouvelles sources
de donnes sajoutent au cluster Hadoop.
Lutilisation des puissantes capacits de tri de Syncsort DMX h nont pas rendues ncessaires lacquisition de hardware supplmentaire.

www.syncsort.com

107

TABLEAU SOFTWARE
Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES
TABLEAU SOFTWARE
Blue Fin Building
110 Southwark Street
SE1 0SU London - ROYAUME-UNI
Tl +33 9 70 44 93 95
Mail jsigonney@tableausoftware.com

CONTACT
Julien
SIGONNEY
Sales Area Manager

Connectez-vous nimporte quelle source de donnes, quelle que soit son type ou sa taille.
Analysez et crez des tableaux de bords et partagez-les en quelques clics. Tout cela en
respectant votre architecture de donnes et vos protocoles de scurit.
Rencontrez le nouveau visage des solutions dcisionnelles : Tableau Software. Tableau aide
les utilisateurs visualiser et comprendre leurs donnes. Quel que soit la source, le format
ou le sujet de vos donnes, le logiciel prim de Tableau vous permet dobtenir rapidement des
analyses pousses et visuelles. Le rsultat ? Chacun peut obtenir facilement des rponses,
sans notion de programmation. Des tableaux de bords pour excutifs aux rapports ponctuels,
Tableau vous permets de partager vos analyses interactives en quelques clics. Plus de 21
000 entreprises et organisations, incluant certaines des plus importantes au monde, font
confiance Tableau pour obtenir rapidement des rsultats, au bureau ou en dplacement.
Laissez de ct les solutions de dcision traditionnelles et optez pour la plus facile dutilisation, la plus rapide et la plus agile des solutions dcisionnelles du march. Avec tableau, les
employs obtiennent ce quils dsirent et votre service informatique conomise du temps
et de largent.
Tableau Software concentre son offre autour de trois produits principaux pour les entreprises : Tableau Desktop, Tableau Server et Tableau Online. Nos quipes ventes et marketing France sont votre disposition pour rpondre vos questions et vous aider choisir la
solution la mieux adapte vos besoins comme elles lont fait pour dautres clients prestigieux tels que : La Croix Rouge, Unilever, BNP Paribas, Nokia ou encore eBay.
Rpondez aux questions aussi vite quelles vous viennent grce Tableau Desktop
Tableau Desktop utilise une technologie innovante de luniversit de Stanford qui vous permet de glisser-dposer des donnes pour les analyser. Vous pouvez accder aux donnes,
visualiser et crer facilement des tableaux de bord interactifs que vous pouvez ensuite partager en quelques clics. Et tout cela sans rien programmer !
Tableau se connecte en direct la majorit des bases de donnes et feuilles de calculs
et offre galement une architecture en mmoire rvolutionnaire qui augmente la rapidit
des analyses. Quiconque sachant se servir dExcel peut apprendre rapidement utiliser
Tableau.

Faciliter lanalyse de vos donnes.


Pour les analystes, les cadres, les informaticiens...
Pour tous...
10 100 fois plus rapide que les solutions disponibles
sur le march
Crez facilement des tableaux de bord intelligents,
quel que soit le type de donnes utilises

La conception de lavenir de
lune des principales socits de
services financiers dEurope
Partner : BNP Paribas
Contact : Pierre Thebault (BNP Paribas) et Edouard Beaucourt (Tableau Software)

Principaux objectifs du projet

Innover pour dvelopper des parts de march, remporter de nouveaux clients et augmenter
la part du portefeuille de clients existants.

Prsentation du projet

Le gant bancaire franais a mis sur Tableau pour recueillir et analyser ses donnes en
seulement quelques minutes. La division BNP Paribas du Sud-Ouest de la France dispose
maintenant de la capacit de visualiser les tendances de gocodage utilises dans le cadre
des campagnes commerciales et marketing de la banque. Et laperu partag et dtaill de
la performance de 2 000 agences travers la F contribue renforcer la comptitivit.

Mise en avant des innovations incluses dans le projet

Pierre Thebault, goanalyste, est charg danalyser et didentifier les tendances de gocodage au sein dune rgion. Grce Tableau, il traque les opportunits de prospecter de nouveaux clients et de dvelopper de nouvelles campagnes marketing extrmement cibles :
Tableau est le moyen le plus rapide de passer des donnes aux dcisions . Il est mme
de localiser et de visualiser le nombre de prospects dans la rgion de Toulouse, et de les
segmenter par revenus, par risques et selon les services financiers de BNP Paribas dont
ils disposent dj. Sils ont souscrit un prt immobilier, ils constituent un candidat potentiel
pour la souscription dune assurance habitation ou dune carte de crdit. Tableau permet
de visualiser lensemble des donnes en quelques secondes, ce qui permet son quipe
de transmettre ce public cible segment aux quipes commerciales internes de la banque
pour un suivi immdiat.
BNP Paribas recherche constamment des manires de diffrencier ses services en offrant
une exprience plus localise. Tableau permet la banque dtudier la localisation des distributeurs automatiques de billets des concurrents et didentifier les sites potentiels pour
de nouveaux distributeurs : Comparer la localisation de nos clients avec la disponibilit du
rseau existant de distributeurs automatiques de billets nous permet de cibler de nouveaux
emplacements de distributeurs , dclare Pierre Thebault.
Malgr lexpansion des services bancaires en ligne, les franais restent attaches aux
agences physiques. Tableau reprsente la source primaire pour les rapports sur la performance des 2 000 agences BNP Paribas franaise. Directeurs et responsables partagent un
aperu dtaill de la performance de chacune des agences : chiffre daffaires, rentabilit,
personnel, adoption des services bancaires en ligne de la part des clients, etc. Laccs
rapide des donnes fiables, grce Tableau, se traduit par une prise de dcision vive
et fiable concernant les agences , affirme Pierre Thebault. Il poursuit, Avant Tableau,
nous utilisions des feuilles de calcul et une base de donnes Access. Cela nous prenait des
heures, des semaines, voire des mois, pour trouver les donnes correctes et les rponses
dont nous avions besoin. Dsormais, grce Tableau, lintgration homogne et la simplicit dutilisation signifient que nous obtenons les rponses en quelques minutes. Cela rend-il
la banque plus perspicace ? Oui, sans lombre dun doute.

Prochaines tapes

La majeure partie de linspiration pour ce programme couronn de succs appartient


Mydral, le partenaire dexcution de BNP Paribas. La vision, la perspicacit et lexprience
de lquipe de Mydral ont contribu au lancement de Tableau en quelques jours. Mydral a
galement fourni BNP Paribas trois jours de formation et de transfert des connaissances
afin de garantir que lquipe soit oprationnelle presque immdiatement.
Ce projet attire dsormais lattention dautres services de la banque. BNP Paribas dploie
actuellement Tableau sur les sites rgionaux de Paris et Nantes dans le cadre dun projet de
segmentation de la clientle. Ces donnes sont utilises pour comprendre les tendances,
concevoir de nouvelles campagnes, et maximiser la valeur de BNP Paribas tire des donnes marketing.

www.tableausoftware.com

109

TIBCO
Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES
TIBCO JASPERSOFT
25, rue de Balzac 75008 Paris
France
Tl + 33 (0)1 44 51 70 90
Mail gcarbonnel@jaspersoft.com

CONTACT
Lela
BOUTALEB BROUSSE

TIBCO Software Inc. (NASDAQ : TIBX) est un leader mondial dans le domaine des logiciels
dinfrastructure et dcisionnels. Quil sagisse doptimisation des stocks, de vente croise
ou de prvention des crises, TIBCO offre un concept unique nomm Two-Second Advantage, autrement dit la possibilit de capturer la bonne information au bon moment et
de ragir en fonction de cette information plus vite que la concurrence. Grce son vaste
ventail de produits et services novateurs, TIBCO est un partenaire technologique stratgique plbiscit par les entreprises dans le monde entier. Pour en savoir plus sur TIBCO,
rendez-vous sur www.tibco.com.
TIBCO, Jaspersoft, Two-Second Advantage et TIBCO Software sont des marques commerciales ou des marques dposes de TIBCO Software Inc. et/ou de ses filiales aux Etats-Unis
et/ou dans dautres pays. Amazon Web Services, AWS et Redshift sont des marques commerciales dAmazon.com, Inc. ou de ses filiales aux Etats-Unis et/ou dans dautres pays.
MongoDB est une marque commerciale de MongoDB, Inc. Tous les autres noms de produits,
dentreprises et de marques mentionns dans ce document appartiennent leur propritaire respectif et ne sont mentionns qu des fins didentification.

EMEA Marketing Manager - Analytics

YOUR ACCESS TO

FAST DATA
BEGINS NOW.

Integrate

Analyse

Act

people, processes,
and systems

for actionable
insights

on key events
in real time

Ericsson utilise Tibco Jaspersoft pour


lanalyse Big Data sur MongoDB
La socit ajoute le dcisionnel en libre-service sa solution
Ericsson Multiscreen TV.
Le dfi : les requtes Big Data dans MongoDB

Les priphriques mobiles sont devenus partie intgrante de nos habitudes de travail et de
loisirs. Pour garantir leur comptitivit, les fournisseurs de services de tlcommunications/par cble doivent assurer leurs clients un accs aux contenus vido sur tous leurs
priphriques.
Leader du secteur des tlcommunications, Ericsson a rpondu aux besoins de TV multi-cran des oprateurs grce sa solution Multiscreen TV : elle permet en effet aux fournisseurs de services tlvisuels de contrler et de grer la fourniture des contenus, de
manire centralise, vers quasiment tous les types de priphriques grand public.
Ericsson a spcifiquement conu sa solution Multiscreen TV pour aider les fournisseurs de
services tlvisuels rduire les cots et gnrer de nouvelles sources de revenus. Cette
solution inclut des rapports intgrs sur deux volets :
Oprationnel donnes sur lutilisation et lintgrit du systme pour loptimiser.
Marketing donnes sur le contenu consult et utilis par les clients afin de soutenir les
prises de dcision concernant les offres et le marketing, ainsi que pour calculer les redevances.
Ericsson a remplac sa prcdente base de donnes relationnelles par MongoDB (open
source NoSQL). Cela lui a permit de rduire les dlais de rponse, les temps de latence, la
goredondance et les indisponibilits lors des mises jour.
LorsquEricsson a dvelopp la toute dernire version de sa solution Multiscreen TV, la
socit avait besoin dun moteur dcisionnel puissant, capable dinterroger de grands volumes de donnes dans MongoDB. Auparavant, Ericsson utilisait JReport, qui ne permettait
pas lintgration avec MongoDB ni ne produisait les types de formats attendus par les fournisseurs de services tlvisuels : les fichiers CSV.
Nous recherchions un produit qui permettrait une intgration directe avec MongoDB,
explique Jon Anderson, responsable de la stratgie produits pour Ericsson Multiscreen TV.
Nous souhaitions pouvoir produire de beaux rapports tout en disposant de capacits dexportation consquentes. Nombre de nos clients exportent vers un entrept de donnes plus
vaste.

Lintgration Jaspersoft/MongoDB sans ETL

Si Ericsson a choisi Jaspersoft, cest pour pouvoir proposer des fonctionnalits de reporting
plus riches dans sa solution Multiscreen TV. Avec JasperReports Server, la socit remplit
un grand nombre de ses objectifs :
Compatibilit avec MongoDB : le connecteur Jaspersoft intgre MongoDB la suite dcisionnelle Jaspersoft, pour fournir des fonctionnalits flexibles et abordables de reporting,
danalyses ad hoc et de tableaux de bord, partir de donnes MongoDB.
Intgration sans ETL : Jaspersoft permet lintgration directe avec MongoDB, sans environnement ETL (Extract, Transform, Load), ce qui acclre et facilite lobtention des donnes depuis Jaspersoft.

www.tibco.com

FAST FACTS
CUSTOMER
Ericsson AB
SECTEUR
Technologie
REPRES TECHNOLOGIQUES
JasperReports Server et iReport Designer
Redhat Enterprise Linux sur VMware
Interface utilisateur sur Ruby on Rails
Serveur dapplications JBoss
Base de donnes MongoDB
Javascript
LE DFI
Ericsson recherchait un puissant moteur
dcisionnel de reporting pour permettre aux
utilisateurs de sa solution Multiscreen TV
dinterroger de grands volumes de donnes
dans MongoDB.
LA SOLUTION
JasperReports Server rpond aux exigences
de lenvironnement technologique de la
socit ; il offre des fonctionnalits de
reporting Big Data et dintgration avec
MongoDB, sans ETL.
RSULTATS
Economies de cots : la socit
conomise des milliers de dollars et
dheures de travail en saffranchissant de
la maintenance de deux bases de donnes
distinctes, MongoDB et une base de
donnes relationnelles.
Cration rapide de rapports : en
quelques heures seulement, les
dveloppeurs Ericsson peuvent crer un
rapport laide diReport Designer.
Vision anticipe : dans certains cas,
les clients peuvent obtenir une vision
anticipe de plusieurs semaines grce au
reporting ad hoc en libre-service.

111

TALEND
Hard

Soft

B.I.

Dataviz

Conseil

COORDONNES
TALEND
9 rue Pags 92150 Suresnes

Instit.

Les solutions dintgration de Talend aident les entreprises tirer le meilleur parti de leurs
donnes. A travers le support natif des plates-formes modernes de Big Data, Talend rduit
la complexit de lintgration, tout en permettant aux dpartements informatiques de rpondre plus rapidement aux besoins mtiers, le tout pour un cot prvisible. Reposant sur
des technologies open source, les solutions hautement volutives de Talend rpondent
tous les besoins dintgration, actuels et mergents.

Support natif de Big Data

Tl +33 1 46 25 06 00
Fax +33 1 42 04 36 67
Mail ccornavin@talend.com

A la diffrence des solutions dintgration hrites, Talend rside nativement dans un environnement Hadoop, sans empreinte de dploiement. Nativement intgr dans les distributions Hadoop majeures comme Cloudera, Hortonworks ou MapR, Talend utilise la scurit
native de Hadoop et fait de la qualit de donnes dans Hadoop.

CONTACT
Charlotte
CORNAVIN

Des solutions ouvertes

Marketing Manager

Comme Hadoop, Talend est engage sur de lOpen Source et des standards ouverts et les
avantages que ceux-ci apportent : un cosystme innovant, pas de dpendance vendeur,
dveloppement plus rapide et plus agile, ainsi que le support dune vaste communaut.
Lutilisation des standards et du large cosystme de Talend signifie que les dveloppeurs
peuvent trs facilement adopter les solutions Talend et que les ressources Talend peuvent
facilement tre trouves sur le march.

Prvisibilit

Le modle de prix des souscriptions sans conteneur dexcution permet de faire voluer
de manire prvisible les donnes et les projets, sans avoir faire voluer le cot de lintgration. La conformit aux standards Java, Eclipse et Big Data rduit le temps de dveloppement et de maintenance des projets. Ainsi, les cots oprationnels sont galement
prvisibles.

A lpreuve du futur

Comme laventure Big Data passe des tests lanalytique et au temps rel/aux cas oprationnels, Talend livre une plateforme dintgration unique, complte et unifie rpondant
tous les besoins daujourdhui et de demain.

Talend facilite
lintgration des
Big Data:

CONTACTEZ-NOUS:

info@talend.com

EN SAVOIR PLUS:

www.talend.com

Mettez-les au service de vos enjeux,


processus et prises de dcision
Simplifiez leur prise en main, leur partage
et minimisez leurs cots de gestion
Maitrisez leur qualit, leur accessibilit,
leur gouvernance

Les solutions dintgration et de qualit de Talend permettent aux entreprises de


tirer profit de toutes leurs donnes quels que soient leur source, type ou taille.

Buffalo Studios optimise la valeur


des donnes pour accrotre sa
comptitivit dans le secteur des
jeux sociaux
Porteurs du Projet

Barry Sohl, Chief Technology Officer chez Buffalo Studios et son quipe informatique

Objectifs

- Obtention dune plus grande flexibilit au niveau de lintgration des donnes


- Prise de dcision plus rapide et efficace

Prsentation

Dans le monde du jeu virtuel sur les rseaux sociaux, chaque activit effectue par un
joueur est automatiquement enregistre et transmise lditeur ce qui lui permet ensuite
de mieux orienter les offres envoyes aux joueurs (crdit supplmentaire, bonus, outils,
etc). En termes de volume, cela reprsente plus de 10 000 vnements traits toutes les
secondes et la prise en charge de plus de 100GB dinformations par jour.
Buffalo Studios utilise un Data Warehouse de haute performance pour lancer ses rapports
SQL sur les donnes de joueurs. Dans leur cas, ils utilisent Apache Flume pour ingrer le
million de lignes de donnes quils rcuprent chaque jour (environ 100GB), le charger dans
leur Data Warehouse grce Talend pour ensuite le rutiliser dans un systme de reporting
et de visualisation.

Aspect Novateur

La nouvelle implmentation de Talend dans le systme dinformation de Buffalo Studios


leur permet dsormais de connatre en quasi temps-rel le comportement dune nouvelle
fonctionnalit dans le jeu. Cela leur a aussi permis de rduire les fraudes : Nous pouvons
maintenant dtecter une activit frauduleuse en moins de 10 minutes dclare Barry Sohl.
Avant cela, si nous avions un bug et le laissions en place une journe entire, cela avait des
consquences catastrophiques pour notre activit mais cest maintenant rsolu .

Valorisation observe de la donne

Aujourdhui Buffalo Studios utilise la solution dintgration Big Data de Talend, et a obtenu
la flexibilit qui lui manquait auparavant. Quand nous avons des besoins danalyse spcifiques, nous pouvons maintenant crire nos propres composants Java et les incorporer la
solution Talend explique Sohl. Et quand il sagit dajouter de nouveaux points de mesure
des donnes, nous ne bloquons plus le processus notre niveau, car nos dveloppeurs
travaillent simplement avec les outils sans avoir effectuer manuellement de laborieuses
modifications.
Ce type de gestion allge, son tour, permet Buffalo Studios dajouter de nouveaux
points de donnes chaque semaine. Le problme des blocages au niveau des fichiers logs
bruts est dsormais totalement rsolu.
Cet avantage revt une importance capitale pour Buffalo Studios. En effet, si leur service
technique narrive pas livrer les informations cruciales la direction, les dcisionnaires
restent dans lincertitude. Nous avons besoin de mesurer la performance de nos fonctionnalits, quelle soit bonne ou mauvaise, presque en temps-rel. Plus lexploitation des
donnes sera simple pour nous, plus lquipe BI pourra en tirer parti. Talend nous aide
optimiser les processus, amliorer la rapidit et accrotre la valeur que nous pouvons
tirer de nos donnes, prcise Sohl.
De plus, les ingnieurs de lquipe technique gagnent en productivit, puisquils nont plus
de problmes dintgration rsoudre et peuvent de nouveau se concentrer sur la construction de technologie innovante. Cest ce qui assure la croissance et la fidlisation des clients.

Etapes venir et dmarche Big Data dans lentreprise

Nous portons beaucoup dintrt lexploration des nombreuses possibilits offertes par
Talend en termes de qualit des donnes. Je pense quil y aura un vrai potentiel exploiter en largissant le savoir-faire de Talend dautres applications, et que nous pourrons
alors bnficier de nombreux avantages au fur et mesure que nous progresserons,
dclare Sohl. Buffalos Studio annonce que limplmentation de Talend fonctionne si bien
que dautre socit du groupe Cesar Interactive Entertainement rflchissent le mettre
en place.

Autres informations

Plus dinformations :
http://fr.talend.com/resources/customer-reference/buffalo-studios-maximizes-data-value-to-build-competitive-edge-in

http://fr.talend.com

113

TERADATA FRANCE
Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES
TERADATA FRANCE
Antony Parc I : 2-6 place du Gnral
de Gaulle - 92160 Antony
Tl +33 (0)1 81 89 15 00
Mail severine.vigneron@teradata.com

CONTACT
Sverine
VIGNERON
Marketing Manager Teradata France

Teradata helps companies get more value from data than any other company. Our big data
analytic solutions, integrated marketing applications, and team of experts can help your
company gain a sustainable competitive advantage with data. Teradata helps organizations
leverage all of their data so they can know more about their customers and business and
do more of whats really important. With more than 10,000 professionals in 43 countries,
Teradata empowers organizations to become data-driven businesses that exploit data for
insight and value. More than 2,500 customers worldwide span industries including automotive and industrial; communications; consumer goods; e-commerce; financial services;
government; healthcare and life sciences; hospitality and gaming; insurance; manufacturing; media and entertainment; oil and gas; retail; transportation, distribution, and logistics;
travel; and utilities.
A future-focused company, Teradata has driven innovation for thirty-five years. Teradatas
workload-specific platforms integrate an organizations data into a unified view of the business. Our database software includes the unparalleled Teradata Database, and, for big
data analytics, the Teradata Aster Discovery Platform and Hadoop Portfolio. The unique
Teradata Unified Data Architecture helps customers discover and operationalize insights
by integrating multiple technologies, including Hadoop, into a robust, hybrid architecture.
Teradatas marketing and analytic applicationsavailable on premise or in the cloud leverage data to improve marketing effectiveness, determine profitability, and forecast demand.
These powerful solutions, along with years of hands-on experience working with the worlds
leading enterprises, enable customers to maximize the value of their data and serve their
customers better. Teradata is recognized for technological excellence, sustainability, corporate social responsibility, ethics, and business value.

When the world gets smaller, the data gets bigger


When youre able to collect, unify, and analyse all of the data that surrounds your
business, you can uncover the insights that matter most. It could be an insight
that changes the way one customer sees your company or how your company
sees the world. Learn how our analytic platforms, applications, and services can
help you know more so you can do more at Teradata.com/DataDriven.

What would you do if you knew?

Big Data: Practicalities, Realities


and Getting Started
Big Data is real and its growing at mind-dazzling speed How Companies are Innovating with Big Data
Big Data refers to the vast spectrum of digital information arising
from an increasing variety of data sources which come in wide ranging and ever-expanding data formats.
This includes structured data derived from common business systems, and unstructured data, or more correctly multi-structured
data, in its diverse variations from weblogs and sensor data, to data
in social networks, text documents, or all forms of digital images
and video content. And the list goes on Teradatas view on Big Data
however goes even a step further.
We believe, fundamentally, that ALL data has relevancy for companies to make better, more informed business decisions. Identifying
the valuable information amongst the irrelevant data is not always
obvious without initial analysis, and often what has no value to one
purpose is critical to another. As a result it becomes more expensive
to decide what is valuable than to retain all data and consider later
how it can be used to create value this is the data lake concept.

Cardinal Health : Cardinal Health has used data to optimize the supply chain ensuring that the complicated array of raw materials that
are essential for high quality healthcare arrive in good condition,
when the patients need them.
McCain Foods : McCain Foods is a global food giant, with great pizzas, vegetables, appetizers and desserts. And theyve transformed
their culture with data. McCain has taken more than 22,000 reports
and 3,000 personal reporting systems and put the data in one place.
We took 30,000 versions of the truth, and brought it down to one
version of the truth.
Verizon Wireless : How does the biggest wireless carrier in the
United States keep their customers happy? Provide the best
network with the best customer experience and listen. How does
Verizon Wireless listen? With an Unified Data Architecture.
Barnes and Noble : Taking data from more than 1,300 stores and one
of the largest loyalty programs in the US, Barnes and Noble combines it with data from their e-commerce site. Using data analytics,
Barnes and Noble knows exactly who their customers are, and what
they want to buy or read next.

With increasing scope for analytics, and recognition of the competitive advantage of being data-driven, it becomes ever more important
for companies to find efficient processes and supporting technolo- Discover More Insights and Outcomes through our customer data
gies to derive business value from the data lake in the timeliest driven business Success Stories:
http://blogs.teradata.com/customers/ or visit Teradata.com
possible manner. This is exactly where Teradata comes in.
Teradata combines the most advanced, highly scalable Big Data Contact us to learn more on Teradata, solutions and our unique
technologies under one umbrella in an integrated manner. We call approach to Big Data.
this the Unified Data Architecture, blending in with what leading
analyst firm Gartner refers to as the Logical Data Warehouse.
With the Teradata Database, Hadoop, and the Aster Discovery Platform the Teradata Unified Data Architecture provides organisations
with a rich set of capabilities to support them in their pursuit of deriving value from analytics based on ALL the data.

Teradata Unified Data Architecture


Data Scientists

Quants

Customers/Partners

Front-Line Workers

Engineers

Business Analysts

Executives

Operational Systems

Languages | Math/Stats | Data Mining | Business Intelligence | Applications

Teradata Applications
Integrated Marketing Management

Teradata
Integrated
Data Warehouse

Teradata Aster
Discovery
Platform

Capture | Store | Refine

Audio/Video

www.teradata.com

Images

Text

Web/Social

Machine Logs

CRM

SCM

ERP

115

VISEO
Hard

Soft

B.I.

Dataviz

Conseil

Instit.

COORDONNES
VISEO
38 rue de Ponthieu 75008 Paris

Tl 01 56 56 71 00
Mail contact@viseo.com

CONTACT
Yves
COINTRELLE
Directeur de la stratgie et
du dveloppement Business Intelligence

En sappuyant sur ses expertises dans les domaines du digital, des technologies, des process et de la data, VISEO vous accompagne dans vos chantiers de transformation et vous
aide faire merger de nouvelles ides, de nouvelles offres, de nouveaux modes de collaboration, de nouvelles manires de produire et de vendre.
Avec 1 100 collaborateurs rpartis sur quatre continents et un chiffre daffaires suprieur
110 millions deuros, VISEO vous propose une alternative aux intgrateurs, agences et
cabinets de conseil, en imposant une approche unique, souple, innovante et structurante.
VISEO vous apporte ainsi une rponse globale et vous aide mettre en uvre des projets
complexes pour faire face aux enjeux numriques qui impactent les systmes dinformation, les mtiers ou les organisations
Adresser aujourdhui les enjeux structurants de demain : VISEO mobilise lensemble de ses
expertises pour vous permettre de comprendre et anticiper les sujets cls dans lvolution
de vos activits.
VISEO et le BIG DATA : et si nous parlions conseil plutt que Technologie ?

Le Big Data offre un nouveau regard sur les donnes en ouvrant de nouveaux moyens
pour les saisir, les stocker, les grer, les traiter et les analyser.

Grce la combinaison unique de lensemble de ses comptences Big Data (Conseil,


Data Scientist, Business Intelligence), VISEO accompagne ses clients autour de 3 grands axes :

Dcouvrir le potentiel et identifier les cas dusage pertinents crateurs de valeur

Tester par la mise en place de POC

Dployer & Exploiter les donnes

Accompagner les volutions organisationnelles

Russir son projet Big Data :


la mthode
Les motivations qui amnent une entreprise initier un projet Big Data sont souvent multiples. Une direction gnrale soucieuse de sassurer que le capital informationnel de lentreprise recle de la valeur inexploite ; une dmarche exploratoire conscutive une prise
de conscience de possession dimportants gisements de donnes en sommeil et souvent
en silo ou encore des directions mtiers soucieuses damliorer leurs connaissances et
leurs capacits danalyse et de prise de dcision ; souhaitant investiguer de nouvelles pistes
doptimisations, damlioration de productivit ou de profitabilit.
Quelle quen soit lorigine, la dmarche associe la mise en uvre dun projet Big Data est
seme dembuches et dchecs. Les donnes ne sont pas toujours disponibles, exhaustives
ou nont pas toujours la qualit espre pour tayer les analyses souhaites. Les budgets
mettre en regard des objectifs atteindre ne sont pas toujours couverts par les gains
procurs par la mise en uvre des systmes.
Pour viter ces cueils, valider les modles ou les ROI, sans prir ou engloutir des budgets
pharaoniques, VISEO a dvelopp une mthodologie mlant ateliers de dtermination des
objectifs et data scientist outills, permettant de valider au plus tt (sur des chantillons
reprsentatifs) les modles.
Ds la phase amont nous privilgions une approche Testn Learn permettant de se
conforter dans la capacit des objectifs tre tenus. Rduire les risques, tenir les promesses, lancer des projets crdibles.
Conscients que les technologies sous-jacentes sont certes importantes mais restent une
consquence de lobjectif, nous proposons un panorama des technologies et des architectures.
Nous tenons compte des choix technologiques dj oprs par lentreprise, des contraintes
techniques, budgtaires mais galement humaines. Pas de choix prtabli : chaque projet est
diffrent et doit tre abord en tenant compte de ces multiples paramtres.

www.viseo.com

117

Congrs & Expo


Rendez-vous les

10 & 11 mars 2015

CNIT Paris La Defense

Retrouvez les leaders du secteur sur


lvnement majeur du Big Data en France

2 jours de confrence et dexposition


150 intervenants experts franais et internationaux
120 exposants
4000 professionnels du Big Data

www.bigdataparis.com

by

4e dition

des millions de clients


individuellement.
Imaginez un instant que vous puissiez entretenir une relation privilgie avec chacun de vos clients,
aussi nombreux soient-ils. Avec les solutions analytiques SAP, dimmenses volumes de donnes
structures ou non sont transforms en un puissant outil dintelligence prdictive qui vous permet
dtonner vos clients, daller au-devant de leurs dsirs. O quils soient, en magasin, en ligne
ou sur une application, ils ressentiront ainsi lattention particulire que vous leur portez.

RCS SAP France Paris B 342 631 207 2012 SAP AG; SAP et le logo SAP sont des marques dposes par la socit SAP AG en Allemagne et dans plusieurs pays. O&M SAP EU 41/12

Avancez plus que jamais sur saprunlikeneverbefore.com/france

PLUS DE RSULTATS.

CONSTRUISEZ VOTRE HUB DE DONNES DENTREPRISE AVEC

E
TR

VO
Z
E

R
F
IN

E
M
A

L
L
A

MA

AL

WALGEZ V
RE OTRE
HO DAT
US A
E

NOUS SOMMES
LES SPCIALISTES
DE LOFFLOAD !

RAPIDE
FIABLE
SECURISE

DCOUVREZ COMMENT LACCS TOUTES VOS


DONNES SUR HADOOP AU MOYEN DUN SEUL ET
MME OUTIL PEUT FAIRE UNE DIFFRENCE NORME !

Cinq tapes pour

TLCHARGEZ NOTRE GUIDE GRATUIT :


AVEC

syncsort.com/guide

HADOOP

UN GUIDE DE DEMARRAGE RAPIDE