Vous êtes sur la page 1sur 99

2013 / 2014

guide du big data


l annuaire de rfrence
destination des utilisateurs

Big Data at the Speed of Business


Big data n'est pas qu'une question de Volume.
Il s'agit pour les organisations de saisir les opportunits qu'offrent
l'exploitation de toutes les natures de donnes qu'elles soient internes ou externes.

IBM a dvelopp le portefeuille le plus toff pour grer la donne, la


transformer en information puis gnrer des actions :
Systme pour Hadoop : traiter et analyser tout type de donnes sur
des clusters de serveurs.
Stream Computing : analyser en temps rel (flux) des volumes
massifs de donnes.
Data Warehousing : effectuer des analyses "in-database" pousses.
Data Visualisation : chercher, dcouvrir et visualiser des donnes
quelles que soient leur source ou leur format.
Business Intelligence : accder et analyser les informations
ncessaires pour amliorer la prise de dcisions.
Analyse Prdictive : dcouvrir des tendances non visibles et
anticiper avec prcision les rsultats de l'entreprise.

Avec une croissance annuelle du volume des donnes de 56%, Passez au Big Data avec IBM :

https://ibm.biz/BdxkwP

C opyright 2013. IBM, the IBM logo , and ibm.com are tradema rks o f IBM C orp., registered in ma ny jurisdictions w orldwide. Other product a nd ser vice names might be tradema rks o f IBM or o ther
companies. A cur rent list of IBM tr adema rks is a vailable on the web a t C opyright and tradema rk information a t www.ibm.com/legal/copytrade.shtml

Apparu il y a seulement trois ans dans la sphre dcisionnelle, le Big Data sest dj impos
comme linnovation business numro 1 de ce dbut de dcennie, la frontire entre technologie

dito

et management. Dans tous les secteurs o la gestion des donnes reprsente un actif indispensable de lentreprise, lengouement a t immdiat avec la cl la formation dun vritable
cosystme du Big Data : des fournisseurs IT, qui ont dvelopp une offre varie autour des
technologies Hadoop, aux utilisateurs finaux (grandes entreprises, start-ups), qui cherchent
construire un avantage concurrentiel sur lexploitation de leurs donnes, en passant par des
entreprises spcialises data (diteurs business intelligence, consultants Big Data),
le paysage franais sest toff et structur en lespace de deux ans.
La ministre charge de lEconomie Numrique, Fleur Pellerin, a dailleurs annonc, au cours du
premier semestre 2013, un plan de soutien la filire du Big Data : 11,5 millions deuros issus
des Investissements dAvenir seront ainsi allous des projets Big Data et un programme de
formation et de financement sera mis en place.
Pourquoi un tel engouement ? Parce que les promesses de croissance autour de lexploitation
des grands volumes de donnes sont immenses : rduction des cots, augmentation des ventes,
relance de linnovation, aide la dcision
les espoirs lis la data-driven company

Le Big Data sest dj

attirent de nombreux professionnels, dans tous

impos comme linnovation

tion, industrie ).

business numro 1 de
ce dbut de dcennie, la
frontire entre technologie
et management

les secteurs (tlcom, finance, grande distribuMais ce nouveau modle impose de rflchir
aux conditions de mise en uvre : le choix de la
technologie dabord, lorganisation et les comptences ensuite.
Ce Guide a pour vocation daider les professionnels dsireux dexploiter leurs donnes
apprhender lenvironnement du Big Data et
comprendre les fondamentaux dune dmarche
Big Data en entreprise. Quelles technologies

choisir ? Qui sont les acteurs du march ? Quels mtiers mettre en avant ? Et quel est le cadre
juridique ?
Nous avons recherch pour vous les informations les plus rcentes sur le phnomne Big Data,
en faisant un tat des lieux de loffre et de la demande sur lanne 2013 et en photographiant le
panorama actuel des fournisseurs, dans la deuxime partie du Guide. De nombreux experts ont
galement accept de rpondre nos questions pour tmoigner de leurs expriences et apporter leurs conseils.
Vous trouverez donc dans ce guide les rponses aux questions les plus usuelles poses par les
curieux du Big Data. Il vous permettra de mesurer limpact et lefficacit de cette dmarche pour
votre entreprise et denvisager, peut-tre, terme, un basculement vers ces technologies et la
matrise instantane de linformation.

Blandine LAFFARGUE
Directrice de publication
+33 (0)1 45 63 43 58 / blaffargue@corpevents.fr

Le Guide du Big Data est ralis


par la socit Corp Events

sommaire

LE BIG DATA, UNE REVOLUTION DANS LE TRAITEMENT DES DONNEES ? . . . . . . . . . . . . . . . . . . . . . . . . . . 05


Comment dfinir le Big Data ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 05
Une matire premire, les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 06
Une Rvolution technologique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 07
Les usages du Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 08
Interview de Mathias Herberts, Disruptive Engineer & CTO, Cityzen Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 09
UN MARCHE MONDIAL BILAN ET PERSPECTIVES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Le march Big Data en Chiffres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Les acteurs du Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Interview de Matteo Pacca, Partner at McKinsey&Company . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
LES TECHNOLOGIES BIG DATA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Petit Lexique des Technologies Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Tour dhorizon des briques fonctionnelles en lien avec le Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Les technologies Big Data face aux besoins de la DSI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Interview Isabel Drost, membre de lApache Software Foundation, co-Fondatrice
et contributrice pour Apache Mahout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
EXEMPLES DAPPLICATIONS EN ENTREPRISES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Projet Big Data de customisation marketing: Monoprix et dunnhumby . . . . . . . . . . . . . . . . . . . . . . . . . 18
Projet Big Data doptimisation du traitement industriel : La Poste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Projet Big Data de Recherche : Projet DEUS de lObservatoire de Paris . . . . . . . . . . . . . . . . . . . . . . . . 22
Projet Big Data de Localisation : Le gomarketing de SFR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Projet Big Data dAgrgation de Donnes : Le projet Ellicible de Coface Services . . . . . . 26
LES METIERS DU BIG DATA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Quelles sont les nouvelles comptences lies au Big Data ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Les nouveaux mtiers du Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Les offres de formation en France . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Limpact du Big data sur lorganisation de lentreprise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Interview de Jacques Froissant, prsident dAltade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
LES POUVOIRS PUBLICS FACE AU BIG DATA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
LOpen Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Soutenir le dcollage du march : les investissements publics dans le domaine du Big Data . . . . . 32
La problmatique de confidentialit des donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Interview de Thierry Dor, associ au cabinet Gide Loyrette Nouel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

guide profils de socit


ACCENTURE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Actuate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Affini-Tech . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
BIME . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
CGI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Club Dcision DSI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Data & Data Consulting . . . . . . . . . . . . . . . . . . . . . . . . . 48
EXALEAD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
FASTCONNECT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Hewlett-Packard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
IBM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
InterSystems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Jaspersoft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
KEYRUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
MAPR TECHNOLOGIES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Neo Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

ParStream . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
PENTAHO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
QlikTech . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
QUARTET FS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
SAS INSTITUTE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
SEMSOFT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
SENTELIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
SINEQUA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
Sogeti High Tech . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
Splunk Inc. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
SRD CONSEIL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
SYNCSORT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
TABLEAU SOFTWARE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
Worldline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
YSANCE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

Le Big Data, une rvolution


dans le traitement des donnes ?
Comment dfinir
le Big Data ?
Si le Big Data est devenu un terme
la mode dans les milieux dcisionnels, il est parfois difficile de saccorder sur une dfinition unique :
on parle tantt de technologies de
traitement, tantt de modle conomique, voire de mode dorganisation spcifique de lentreprise.
La dfinition technologique
La dfinition initiale donne par le cabinet McKinsey and Company en 2011
sorientait dabord vers la question technologique, avec la clbre rgle des 3V :
un grand Volume de donnes, une importante Varit de ces mmes donnes et
une Vitesse de traitement sapparentant
parfois du temps rel. Ces technologies
taient censes rpondre lexplosion
des donnes dans le paysage numrique
(le data deluge ). Puis, ces qualificatifs ont volu, avec une vision davantage
conomique porte par le 4me V de la
dfinition, celui de Valeur, et une notion
qualitative vhicule par le 5e V, celui de
Vracit des donnes (disposer de donnes fiables pour le traitement).
Ces cinq lments ont servi pendant
longtemps de bote outils pour comprendre les fondements du Big Data,
savoir lapparition de technologies innovantes capables de traiter en un temps
limit de grands volumes de donnes
afin de valoriser linformation non exploite de lentreprise.

Laspect organisationnel
et stratgique
Aujourdhui, cette dfinition sest amplifie
: on parle davantage de dmarche Big
Data pour signifier limportance prise
par les donnes dans lunivers de lentreprise. Celles-ci deviennent un mode de
dcision, un actif stratgique pour se diffrencier de la concurrence : cest grce
ces donnes rapidement transformes

en informations que les managers sont


capables de prendre les bonnes dcisions
et de crer de la valeur.
Du coup, le Big Data sous-entend un renversement total de paradigme dans le
mode dorganisation de lentreprise, celleci devenant data-centric , cest--dire
guide par les donnes. Les mtiers sont
amens voluer et travailler davantage
en synergie, tandis que les temps de dcisions sont considrablement raccourcis,
en raison des actualisations permanentes
de linformation. Mettre en place le Big
Data, cest donc lancer une dmarche ,
plutt quinstaller un outil.

Une Rvolution conomique ?


En cela, certains considrent que le Big
Data sapparente une vritable Rvolution Industrielle parce quon se trouve
en prsence dun vrai bouleversement
qui se gnralise tous les secteurs
conomiques : la donne joue le rle
de matire premire, les technologies
jouent celles doutils de production, et
le rsultat est un changement de paradigme dans la manire dorganiser les
entreprises et de gnrer de la valeur
dans tous les domaines de lconomie.
Une comparaison ose et peut-tre excessive, mais qui traduit bien limpact
global du Big Data et sa nature autant
conomique que technologique.

Les 5V du
Big Data
Volume
Vitesse
Varit
Valeur
Vracit
On le voit, les dfinitions du concept sont
en pleine volution, en lien certainement avec le degr de mise en pratique
du Big Data dans les entreprises. Si les
premires exprimentations sont encore
timides en France en 2013, lintrt des
managers est bien rel et le Big Data
pourrait ds lors trs rapidement aborder son tournant conomique.

Du coup, le Big Data sous-entend un


renversement total de paradigme dans
le mode dorganisation de lentreprise,
celle-ci devenant data-centric ,
cest--dire guide par les donnes

Une matire premire,


A la base du Big Data, il y a donc
ces fameuses donnes Un data
deluge comme le dit le terme
consacr, car la production de donnes numriques aujourdhui se
mesure en exaoctets, soit 1018 octets. Ce qui interpelle, cest essentiellement la croissance exponentielle de ces donnes : on estime
que tous les deux ans, il se cre
autant de donnes que depuis le
dbut de lhumanit, ce qui amne
les prvisionnistes parler de 40
zettaoctets (1021) pour 2020 !

les donnes

Loi de Moore : Largement rpandue


dans la sphre scientifique, bien quelle
nait pas t prouve, la loi de Moore
affirme que la capacit des ordinateurs
(et notamment le volume des donnes)
double tous les 18 mois.

Le data deluge
Do proviennent ces donnes et comment
expliquer cette explosion soudaine ? Il y a
bien sr la mise disposition gnralise doutils numriques de plus en plus
performants et connects, tels que les
ordinateurs et les smartphones relis
Internet en permanence. Laccs
linformation instantane sest dmocratis par les rseaux sociaux et, dans
un nombre important de pays, les administrations publiques lvent le voile sur
leurs donnes travers le mouvement
dOpen Data.
Mais au-del, on envisage de plus en
plus la multiplication de donnes issues
dobjets interconnects, de type capteurs ou puces mobiles : ce qui avait
t approch avec le RFID (par exemple
au sein des cartes de transport ou par
code-barre dans les chanes logistiques)
pourrait tre gnralis dans les annes
venir travers lInternet des Objets.
Concrtement, il est aujourdhui technologiquement possible de connecter
entre eux les objets de son quotidien,
par exemple son rveil avec son calendrier Outlook, ou bien son vhicule avec
les applications de stationnement, ou
encore son rfrigrateur avec son panier de courses en e-commerce. Des
perspectives technologiques qui restent
encore exprimentales mais pourraient
vite exploser : Ericsson a ainsi estim
le nombre dobjets connects dans le
monde 50 milliards en 2020 (12 milliards aujourdhui).

Une varit de donnes


Les donnes multistructures

octets

1 Mgaoctet = 106 octets


1 Gigaoctet = 109 octets
1 Traoctet = 1012 octets
1 Ptaoctet = 1015 octets
1 Exaoctet = 1018 octets
1 Zettaoctet = 1021 octets

40

zettaoctets
de donnes
en 2020

50

milliards
dobjets connects
la mme date

Cette mutation dans lunivers numrique


nest pas seulement quantitative : audel de leur nombre, les donnes mises
disposition sont galement de plus
6

en plus varies et de plus en plus distribues (cest--dire issues de sources


disparates).
Les donnes textuelles, les donnes de
logs, les donnes mobiles, les vidos,
etc. sont ainsi venues perturber les technologies de traitement traditionnelles,
car ce ne sont pas des donnes structures telles quon pouvait en trouver auparavant (comme par exemple les donnes chiffres ou transactionnelles).
On parle alors de donnes non-structures ou bien multistructures.
Tout lenjeu technologique des annes
2000 a donc rsid dans la captation et
le traitement de ces nouveaux formats
de donnes.

La question de la qualit des


donnes
Mais, passe cette interrogation, une
autre problmatique sest installe :
comment savoir si ces donnes sont
intrinsquement fiables et propres
lutilisation ? Les donnes errones,
les doublons, les informations primes sont en effet lgion au cur du
data dluge ce qui signifie que, traites
de la mme faon que les autres, elles
peuvent fausser des analyses et des dcisions. Quels outils mettre en place ds
lors pour empcher ces altrations ?
Ce risque li la qualit des donnes a
fait dire de nombreux experts que nous
tions entrs dans lre de la smart
data davantage que dans celle du Big
Data : plutt que de traiter en bloc tout
lunivers des donnes disponibles, il
sagit de trouver la bonne donne, fiable
et utile, qui permettra dobtenir de linformation et crer de la valeur.

Y2K

Les annes 2000 ont permis la


captation et le traitement de nouveaux formats de donnes

Une rvolution
technologique
Lexplosion des donnes numriques, en tant que telle, naurait
eu aucune valeur sans accompagnement technique : toute linnovation lie au Big Data a dabord
t une innovation technologique,
porte par la mutation des outils
de stockage et de traitement.
Laugmentation des capacits de
stockage
Le stockage, dabord : avec la croissance
exponentielle des donnes, il est vite
devenu indispensable de faire voluer
les baies de stockage traditionnelles
pour les mettre en capacit dabsorber
au fur et mesure la multiplication de
ces donnes. Une problmatique dautant plus raliste que les cots de stockage taient en chute libre depuis le dbut des annes 2000, moins de 1 dollar
le gigaoctet
Technologiquement, ce besoin sest traduit par lapparition de la scalabilit ,
cest--dire lajustement progressif et
continu de loutil de stockage la masse
des donnes collectes. Une innovation
majeure permettant aux DSI de stocker
toutes sortes dinformations trs rapidement, sans arbitrage sur leur utilisation
future, et surtout sans la ncessit daccrotre (et donc changer) linfrastructure
existante. Aujourdhui, de nombreux
fournisseurs dveloppent ce type de
technologies au sein dappliances (cest-dire doutils combins de stockage et
de traitement).

Linfluence du Cloud
Mais cest particulirement avec lapparition du Cloud que le Big Data a connu
un dveloppement acclr : en mutualisant les donnes dans le nuage et en
dmocratisant ainsi laccs des entreprises au stockage et au traitement de
tous types de donnes, le Cloud a cr
les conditions pour une gnralisation
du Big Data. Petites et grandes entreprises ont pu souscrire des offres as
a service pour explorer leurs donnes
internes mais galement dautres donnes accessibles depuis le Cloud. Il est
dailleurs trs frquent de voir des offres
Big Data appuyes sur linformatique en
nuage.

Lapparition de technologies de
traitement adaptes
Enfin, le dernier facteur technologique
qui a permis au Big Data de dcoller,
probablement le plus clbre, concerne

la rvolution des outils de traitement.


Conjointement lexplosion des donnes numriques, les annes 2000 ont
assist lapparition de nouvelles bases
de donnes, adaptes aux donnes non
structures (Hadoop), ainsi qu la mise
au point de modes de calcul haute performance (MapReduce) : cest la rvolution Hadoop/MapReduce (cf partie IV, Les
Technologies Big Data).
Ces deux innovations, portes par Google
et Yahoo, ont pos les bases du traitement
Big Data actuel : il est devenu possible,
grce elles, de traiter dimportants
volumes de donnes en un temps limit
(rduit de prs de 50 fois par rapport aux
prcdentes technologies), pour tous
types de donnes, structures ou non.
Le fait quHadoop soit mis disposition
en Open Source a probablement contribu la gnralisation rapide de loutil et
lexplosion ultrieure du Big Data.
Les conditions dun essor du Big Data
taient donc runies ds la fin des annes 2000 : la mise disposition de technologies a accompagn lexplosion des
donnes. Plus quun effet cause-consquence, cest davantage une volution
conjointe quil faut mettre en avant, la
manire dun processus auto-entretenu.
En revanche, peut-on parler de rvolution dans les usages du Big Data ?

La mise disposition de technologies a


accompagn lexplosion des donnes.
7

Les usages
du Big Data
La question agite en effet de nombreux experts : le Big Data est-il
si rvolutionnaire que le laissent
entendre les journalistes et les acteurs du secteur ? Lutilisation de
donnes des fins de traitement
et danalyse est en effet inhrente
tout pilotage dentreprise, et des
outils anciens existent pour cela
(depuis lantique livre de comptes
jusquaux tableaux de Business
Intelligence, en passant par les
traditionnelles bases Excel et Access).
Beaucoup estiment donc que le Big Data
nest quun passage lchelle des traitements traditionnels : ce que lon traitait auparavant en petite quantit, on
le traitera en grande quantit avec une
fiabilit renforce. Les approches statistiques et la nature des rsultats trouvs
ne seraient en rien modifis
Cest ici que les dsaccords naissent car
le Big Data, en traitant une multiplicit
de donnes issues de sources varies et
selon un quasi-temps rel, a ouvert la
voie dautres utilisations de la donne
et de nouvelles mthodes danalyse :

En marketing, cest tout le secteur


qui se trouve renouvel : le Big Data permet en effet aux professionnels du secteur de connatre leur client 360 ,
cest--dire la fois par son parcours
internet mais galement par ses achats
en magasin ou ses prfrences affiches
sur les rseaux sociaux. Anticiper les
besoins de celui-ci et cibler des offres
personnalises est devenu le credo du
marketing data-driven , qui met en
avant des techniques indites : le RealTime Bidding pour lachat despaces
en temps rel, le Retargeting pour le
ciblage personnalis ou encore lanalyse de sentiment pour la dtection de
comportements sur les rseaux sociaux.
Le marketing se fait de plus en plus prdictif avec le Big Data, et lon assiste
une closion de nouveaux modles statistiques davantage inductifs.

Dans le domaine du pilotage de


lentreprise, les usages sont galement nombreux et porteurs dinnovation
: en assurant une circulation immdiate
et gnralise de linformation sur lactivit, le Big Data laisse entrevoir une optimisation complte des processus et des
ressources mtiers. Il rduit de facto le
temps de raction face des erreurs ou
des pannes et permet dajuster en permanence les quilibres offre-demande
et temps-ressource. Cest une promesse
importante dans des secteurs comme
ceux de lnergie ou des transports qui
sont constamment ports par la logique
de flux ; outre une rduction importante
des cots, le Big Data permet ici didentifier au plus prs les moteurs de lactivit, ce qui ntait pas possible avec les
indicateurs traditionnels, soumis des
dlais de latence bien plus importants.

Pour la Recherche, domaine dapplication originel du Big Data, lapport de


celui-ci est assez vident : en autorisant
le traitement de multitudes de donnes,
le Big Data permet la science de raliser des avances importantes, lorsquil
sagit dexplorer linfiniment petit (ex :
exploration gologique), de croiser des
donnes complexes (ex : imagerie) ou
deffectuer des simulations (ex : domaine spatial). Cest dailleurs en gntique que le Big Data a fait ses premires
armes car ce secteur rclamait une approche la fois quantitative et qualitative
avance.

Dans le domaine de lInformation, tout simplement, quelle soit corporate ou


grand public, le traitement des Big Data a profondment modifi la donne : pour une
requte donne, il est dsormais possible daccder un croisement dinformations
trs disparates, issues de sources jusque-l ngliges. Linstantanit des rseaux
sociaux est ce titre une innovation de taille : lanalyse des tweets est devenue une
source de renseignements courante pour comprendre les comportements ou les
gots de populations segmentes. De plus, au-del de la comprhension de phnomnes, la data savre un outil de communication efficace pour faire passer des messages factuels aux publics : cest tout le rle du data journalisme, qui vise mettre
en lumire des vnements complexes au travers de la reprsentation de donnes
multiples.
On le voit, le Big Data a donc eu un effet profondment novateur sur de nombreuses
activits : il a ouvert de nouveaux champs dexploration, avec la cl des informations et fonctions indites. Mais, au-del, le Big Data a galement permis de crer
intgralement de nouveaux services, de nouvelles filires fondes sur des donnes
inexplores jusqualors.

Les donnes mobiles, par exemple, dont le traitement


temps rel est devenu un enjeu stratgique pour de nombreux secteurs, sont un important gisement dinnovation : en
effet, la possibilit de golocaliser des utilisateurs a ouvert
de nombreuses perspectives aux annonceurs qui y voient une
opportunit unique de placer leurs publicits proximit des
lieux dachat. De la mme faon, les oprateurs telecom travaillent avec les autorits publiques pour comprendre les flux
de populations grce ces donnes et, dans le secteur du tourisme, des services indits de localisation sont mis en place.

Interview

Les usages du Big Data sont donc varis et trs innovants, ce


qui peut expliquer lengouement suscit auprs des entreprises
et administrations publiques. Le dbat sur laspect rvolutionnaire du Big Data reste cependant ouvert, car certains considrent
que, si les donnes ont chang, les algorithmes restent quant
eux assez similaires. Lvolution de ceux-ci reste
probablement lun des chantiers de ces
prochaines annes.

Mathias Herberts
( droite) reoit le prix de
linnovation Big Data

Mathias Herberts

Disruptive Engineer & CTO, Cityzen Data

Llment de nouveaut dans le Big Data,


ce nest pas tant la technologie que le pilotage
1) Vous tes un des pionniers du
Big Data en France Comment (et
pourquoi) avez-vous eu lide de
mettre en place ce type doutils ?
Tout est parti dune exprience chez
Google, o je suis all travailler quelque
temps en 2008 et o jai dcouvert une
toute autre faon de prendre des dcisions. Google avait thoris une philosophie de travail rgie par deux principes :
1) ne pas arriver en runion en disant je
pense que mais les donnes prouvent
que , 2) ce nest pas lopinion de la personne la mieux paye qui compte. Cela
faisait cho un livre que je lisais
lpoque, qui sappelait Super Crunchers et qui prnait le raisonnement
par les chiffres et les donnes.
Partant de l, je suis revenu au Crdit
Mutuel avec la certitude que les donnes taient fondamentales et quil tait
ncessaire de modifier nos processus de
dcision : pour viter davoir une vision
errone de nos clients, de nos partenaires
et de notre fonctionnement, il fallait remettre plat notre socle technologique.

2) Pour vous, le Big Data correspond-il une rupture technologique majeure ? Quels sont les
lments de nouveaut ? Sont-ils
uniquement technologiques ?
Pour moi, llment de nouveaut dans
le Big Data, ce nest pas tant la technologie que le pilotage : dsormais, on a rduit les boucles de dcision, tout est plus
court dans linformation et la raction.
Cest l quil y a un tournant.

Bien sr, cela ne se ferait pas sans la


mise disposition doutils particulirement opportuns ce moment-l. Ce
sont des outils qui ont acclr le changement de comportement vis--vis des
donnes : dsormais, il est possible de
stocker sans savoir exactement lutilisation quon fera des donnes, simplement
parce quon considre quelles ont une
valeur intrinsque.

3) Quand on parle de Big Data,


on parle dHadoop pour vous,
le lien est-il forcment vident ?
Quels sont les apports de cet outil
et, linverse, que pouvez-vous
lui reprocher ?
Mme sil existe dautres outils, Hadoop
reste la rfrence du traitement Big
Data. Certes, cest un outil qui rclame
de sinvestir dans la programmation
mais il permet vraiment de faire des
choses nouvelles des cots restreints
et sur un grand volume de donnes.
Le principal reproche quon peut lui adresser, cest davoir une courbe dapprentissage assez longue et complexe ; mais une
fois quon a compris comment fonctionnait
la communaut Hadoop, et quon a pris
le temps de rentrer dans les subtilits du
code, cest un outil trs efficace.

4) Quels sont pour vous les principaux


dfis relever au sein des organisations utilisatrices du Big Data ?
Pour moi, le principal dfi est organisationnel : la dmarche Big Data est forcment transverse donc elle implique
9

de casser les cloisons entre services, ce


qui nest pas toujours vident. En terme
SI, cela signifie quil faut aller rcuprer
les donnes dans tous les recoins, ce qui
a de grandes implications au niveau de
lurbanisation du systme dinformation.
Autre dfi : aujourdhui, on a tendance
penser quil faut passer par des offres
packages plutt que par le code open
source Hadoop. Cela peut tre un gain
de temps mais a napporte pas les
solutions en interne. Pour moi, il faut
avant tout avoir des quipes ddies qui
se plongent rsolument, de faon personnalise, dans lintgration de lopen
source au systme dinformation, et qui
soient capables de comprendre les besoins propres de lentreprise.
Enfin, dernier challenge : lutilisation de
la donne risque de remettre en cause
pas mal de convictions et de stratgies. Il y aura donc forcment des rticences face au pouvoir de la donne. Aux
quipes informatiques et business de
montrer la voie en pointant la valorisation et le potentiel des donnes !

La dmarche Big
Data est forcment
transverse donc elle
implique de casser
les cloisons entre
services

Un march mondial
Bilan et perspectives
Les

chiffres
duBig
Data
> Un march de

24 milliards de $
en 2016
> Taux de croissance

annuel : 31,7%
> Pourcentage

dentreprises lanant
des projets Big Data
ou envisageant de
le faire
France : 10%
Allemagne : 18%
UK : 33%

> Le Big Data fait

partie des 5
secteurs cl de
la croissance
amricaine

> En France, le

Big Data pourrait


gnrer 2,8 milliards
deuros et 10 000
emplois directs

(prvisions de lAFDEL)

Quelles sont les perspectives conomiques du Big Data pour les fournisseurs
et les utilisateurs ? Qui sont les acteurs qui dynamisent le march ?
Et dans quels secteurs les trouve-t-on ? Voici un petit panorama du march
du Big Data autour du monde pour lanne 2013.

Le march Big Data en Chiffres


Depuis son dcollage en 2011, le Big Data na cess dafficher des scores de croissance importants ct utilisateurs mais surtout ct fournisseurs : ses dbuts, on
avait dailleurs parfois qualifi ce march de march doffre pour souligner le fait
que la demande tait encore la trane. Quen est-il en 2013 ?

Le march des fournisseurs


Plusieurs tudes menes par des cabinets de conseil soulignent la forte croissance
du march du Big Data :
>

>




>



Selon IDC, le march du Big Data stablirait 24 milliards de dollars en 2016


(contre 3,3 milliards en 2010) avec un taux de croissance annuel de 31,7%.
Ce march est constitu des produits et services lis au Big Data, avec le dcoupage
suivant :
Serveurs : 27,3%
Logiciels : 34,2%
Stockage : 61,4%
Daprs une tude IDC pour EMC de juin/juillet 2012, les trois technologies privilgies
dans le Big Data seraient les suivantes :
Les bases de donnes objets ou graphiques : 47%
Lindexation de contenus (moteurs de recherche avancs) : 38%
Les technologies en mmoire (in-memory database) : 37%

Le march des utilisateurs


Ct utilisateurs, la situation est plus contraste en fonction des zones gographiques :
>

>


>

>

>




Dbut 2013, le cabinet Forrester tablissait sa prvision de croissance des budgets


IT 6% au cours de lanne en Europe, alors quelle est de 7,5% aux Etats-Unis
IDC estime que seulement 10% des entreprises franaises utilisent dj des solutions
Big Data, tandis que 70% dentre elles nont engag ni projets ni rflexions en ce
sens (chiffres de septembre 2012)
Ainsi 58% des entreprises franaises estiment tre en retard par rapport leurs
concurrents (et 47% estiment tre trs en retard)
En comparaison, 33% des entreprises britanniques et 18% des entreprises allemandes
ont lanc une dmarche Big Data
Parmi les freins voqus, la problmatique du cot est souvent avance, tout
comme celle du manque de ressources et dorganisation pour mettre en place le
Big Data (64% des quipes IT estiment que la collaboration entre lIT et les mtiers
devrait tre renforce). Enfin, la question de la qualit des donnes (41%) ou de
leur utilit pour les analyses prvues (37%) est un autre point soulev par The
Economist.
10

Pourtant, les promesses sont


nombreuses en matire de
cration de valeur :
> En juillet 2013, Mc Kinsey estime
ainsi que le PIB des Etats-Unis pourrait
crotre de 1,7% dici 2020 en sappuyant
sur le Big Data. Celui-ci ferait partie des 5
secteurs phare de la croissance amricaine.
> Les conomies ralises dans la sant et ladministration amricaines pourraient atteindre 300 milliards de dollars !
> Dans le domaine de la grande distribution, le chiffre daffaires pourrait
crotre de 40% en 5 ans, et de 30% sur la
mme priode pour les tlcoms !
> En France, le constat fait par lAFDEL
(association des diteurs de logiciels
franais) est que le Big Data pourrait
gnrer 2,8 milliards deuros et 10 000
emplois directs si les conditions de son
dploiement taient runies (cest--dire
avec un financement de 300 millions deuros et la mise en place dun cosystme).
Cest cette estimation qui a dailleurs
conduit la ministre mettre en place un
programme de soutien la filire.
> Les 3 principales motivations des dirigeants pour mettre en place des solutions Big Data sont voques par Mc Kinsey : en Europe, cest laspect dtection
des tendances qui occupe la premire
position, suivi par un meilleur engagement client puis une prise de dcision
plus rapide . Dans les marchs mergents en revanche, cet aspect prise de
dcision est plac en premire position.

Les acteurs
du Big Data

> Dans le secteur de lanalytique, de


nombreux acteurs sont galement
prsents :
Les diteurs BI (ex : SAS, Micro strategy, Qliktech)
Des fournisseurs spcialiss dans
lanalytique Big Data
(ex : Datameer, Zettaset)
Dautre part, de nombreuses PME spcialises dans le Big Data ont vu le jour,
sur toute la chane de valeur du secteur.
En France, les pionniers ont ainsi t :
> Pour la fourniture dquipements et
logiciels Big Data : Hurence, Dataiku
> Pour lanalyse de donnes : Criteo,
Squid, Captain Dash, Tiny Clues
> Pour le conseil : Ysance
Ces fournisseurs tablissent souvent
des partenariats entre eux afin de fournir au client des solutions packages
intgrant la fois linfrastructure et les
applications.

Les utilisateurs
La mise en place du Big Data est vcue
diffremment selon les secteurs : on a
coutume de dire que les principaux secteurs dapplication du Big Data sont les
telecoms, la grande distribution (online
et offline) et la finance. Ce sont en effet
les premires activits qui se sont penches sur la problmatique du Big Data
car la captation de grands volumes de
donnes pouvait rapidement leur donner
un avantage comparatif.
Pour les oprateurs tlcoms, ctait
mme une opportunit de cration de

Mais le secteur qui fonde les espoirs


les plus nombreux sur le Big Data est
probablement celui de la sant, o les
perspectives dans la recherche mais
aussi dans le ciblage des mdicaments
sont importantes. Cest dailleurs le terrain dexploration originel du Big Data
puisque cest dans le domaine de la gntique que les premires exprimentations avaient eu lieu.
Actuellement, cest le mouvement du
Quantified Self qui focalise les attentions : mouvement orient grand public,
il vise permettre aux individus de surveiller en permanence leurs indicateurs
de bien-tre (ex : poids, nutrition, fatigue)
laide de capteurs et de traitement de
donnes temps rel. Encore au stade de
lexprimentation, cette activit pourrait
tre amene se dvelopper rapidement
la faveur de lessor des appareils mobiles.

PRODUCTIVITY
SALES
INCREASE % INCREASE $

Les fournisseurs
De nombreux acteurs se sont positionns rapidement sur la filire du Big Data,
dans plusieurs secteurs :
> Dans le secteur IT, on trouve ainsi :
Les fournisseurs historiques de

solutions IT (ex : IBM, SAP, Oracle, HP)
Les acteurs du Web (ex : Facebook,
Google)
Les spcialistes de solutions data
et Big Data (ex : Teradata, MapR,
Hortonworks, EMC)
Les intgrateurs (ex : Atos, Sopra
Group, Accenture, Cap Gemini)

nouveaux services grce au traitement


des donnes mobiles golocalises.
Mais au-del de ces secteurs habituellement rputs pour leur propension au
Big Data, on voit germer des initiatives
Big Data dans dautres environnements
: lindustrie franaise commence en effet
sintresser au phnomne, notamment sur ses qualits doptimisation
logistique et financire.
Les mdias sont galement de plus en
plus friands de traitement de donnes,
dabord parce quils peuvent obtenir une
information temps rel et aussi parce
quils peuvent mesurer les prfrences
de leurs audiences.

RETAIL
CONSULTING
AIR TRANSPORTATION

9.68

49
5.08

39
4.38

21

CONSTRUCTION

20

FOOD PRODUCTS

20

3.48

STEEL

20

3.48

AUTOMOBILE

19

4.28

2.8

INDUSTRIAL INSTRUMENTS

18 1.28

PUBLISHING

18 0.88

TELECOMMUNICATIONS
11

17 0.48

Interview
Matteo Pacca

Partner, McKinsey&Company

Le big data est un levier de performance sur


lequel les entreprises franaises doivent acclrer
1) O en est le big data aujourdhui en France et partout ailleurs dans
le monde ? Quels sont les secteurs les plus moteurs ? Observez-vous
une volution significative ?
Il y a aujourdhui un consensus autour de limmense valeur potentielle que prsentent
les masses de donnes que nous gnrons chaque jour dans le monde. Selon les
tudes de McKinsey, lchelle mondiale, le march du Big Data devrait dpasser
les 30 milliards de dollars US en 2013. Si le big data prsente un potentiel pour tous
les secteurs dactivit, trois secteurs sont particulirement bien positionns pour en
tirer le meilleur parti : la distribution, du fait de grandes bases de clients et dhistoriques dachats, la sant (pharmacie et assurance sant), pour lanalyse de la
performance des mdicaments
(avant leur mise sur le march,
en phase de test, et aprs, pour
mesurer leur efficacit), et enfin
la banque-assurance, pour mieux
cibler les produits financiers et
surtout lanalyse du risque. Selon
nos projections, le march du big
data devrait crotre de prs de 15 %
par an, pour rpondre aux besoins
engendrs par une croissance estime des donnes pouvant aller
jusqu 40 % par an. Les dpenses
des entreprises dans ce domaine
devraient doubler dici cinq ans.

Le march du big
data devrait crotre
de prs de 15 % par an,
pour rpondre aux
besoins engendrs par
une croissance estime
des donnes pouvant
aller jusqu 40 % par an

Pour les entreprises, investir dans


le big data reprsente une opportunit majeure damliorer leur
performance ; des travaux rcents
de McKinsey montrent dailleurs
que les entreprises innovantes croissent de 10 % par an, contre 3 % pour celles qui
ninnovent pas. Pourtant, les entreprises notamment franaises sont encore trop
timides et nont pas mobilis les ressources adquates en regard de leurs ambitions,
que ce soit en termes de moyens financiers ou de talents : elles se situent aujourdhui
derrire les entreprises amricaines, britanniques, scandinaves et allemandes. Parmi
les freins au dveloppement du big data - au-del des aspects techniques, des questions de scurit et du dbat public - se pose une question organisationnelle : afin de
tirer le meilleur parti du big data, les entreprises vont devoir former et recruter les
talents qualifis, mais aussi repenser leur structure organisationnelle et leur management. En outre, pour en saisir tout le potentiel, le big data doit tre dfini comme
priorit stratgique de lentreprise et ncessite une allocation de moyens financiers
et humains adquats. Les autorits ont dailleurs pris la mesure de limportance du
sujet et la France sest engage pour dvelopper le big data avec un plan comportant
plusieurs volets, comme la formation de data scientists , la mise disposition de
certaines technologies, des financements Le dveloppement du big data en France
passera par la mise en place dun vritable cosystme.

2) Le Big Data vhicule de


nombreuses promesses de dveloppement pour les entreprises
utilisatrices Comment valuez
vous le potentiel du Big Data pour
les utilisateurs ? Pouvez-vous
chiffrer ce dveloppement ?
Le McKinsey Global Institute, linstitut
de recherche de McKinsey, a tudi le
potentiel de transformation du big data
dans cinq secteurs : la sant aux EtatsUnis, ladministration du secteur public
dans lUnion Europenne, la distribution
aux Etats-Unis, lindustrie mondiale, et
la golocalisation* . Ensemble, ces secteurs reprsentaient prs de 40 % du
PIB mondial en 2010 ; dans ces cinq domaines, nous avons identifi des leviers
qui devraient permettre aux entreprises
damliorer leur efficacit, grce une
meilleure productivit et en accroissant
la valeur ajoute des produits et services quelles proposent. Le big data
dans le domaine de la sant aux EtatsUnis prsente par exemple un potentiel
de cration de valeur supplmentaire de
prs de 230 milliards deuros par an, les
deux tiers provenant dune diminution
des dpenses de sant nationales, soit
prs de 8 % des dpenses estimes en
2010. Dans le secteur manufacturier, le
big data pourrait permettre de rduire
de moiti les cots dassemblage et de
dveloppement de produits. Le secteur
public europen pourrait voir ses cots
rduits de 15 20 %, diminuer la fraude
et amliorer la collecte des impts pour
un total de 250 milliards deuros par an.
Pour les groupes de la grande distribution, le recours au croisement des donnes pourrait se traduire par un potentiel
damlioration de 60% de leur rentabilit
oprationnelle. Plus gnralement, une
meilleure utilisation des services de
golocalisation pourrait rapporter 100
milliards deuros aux diffrents fournisseurs de services et 700 milliards
deuros aux consommateurs, qui bnficieraient par exemple de la possibilit
dacheter un produit moins cher et plus
prs de chez eux.

*McKinsey Global Institute, Big Data : The next frontier for innovation, competition, and productivity, mai 2011

12

promesses du
Big Data par secteur
Les

> Sant :

surplus de
230 milliards / an

> Industrie :

rduction de 50%
des cots

> Secteur public en

Europe : cration
de valeur de
250 milliards d

> Grande distribution :

amlioration de la
rentabilit de 60%

> Valeur de la

golocalisation : gain
de 700 milliards d
pour les consom-
mateurs

3) Quelles sont les principales


applications du Big Data dans les
entreprises ? A lheure actuelle,
quelles sont leurs proportions
respectives ? Y en a-t-il certaines
qui nont pas encore t explores ?
Nous avons identifi cinq grandes applications du big data. Le big data permet
dabord la transparence et la circulation
des donnes : dans le secteur public
par exemple, une meilleure accessibilit des donnes entre diffrentes administrations ou services peut rduire les
temps de recherche et de traitement
des dossiers. Le big data permet galement la facilitation des diagnostics :
les entreprises peuvent ainsi identifier
des variations de performance et mieux
en comprendre les causes racines afin
dy remdier. Le big data permet encore
la segmentation des clients afin de les
cibler de manire plus fine : des distributeurs et des socits de services commencent mettre en uvre des techniques sophistiques de big data telles
que la micro segmentation en temps
rel afin de mieux cibler les promotions et la publicit. Le big data permet
aussi damliorer certaines dcisions
humaines par des algorithmes qui minimisent le risque et mettent en vidence
des informations cls : les distributeurs
peuvent ainsi optimiser certains processus, comme les inventaires ou le pricing.
Enfin, le big data permet de concevoir de
nouveaux produits et services, damliorer lexistant et in fine, dinventer de nouveaux business models : par exemple, la
localisation en temps rel a fait merger
de nouveaux types de services go-localiss (navigation, assurances calcules
sur la base des dplacements effectus,
etc). Bien sr, de nombreuses applications nont pas encore t explores.

4) Que faut-il faire pour acclrer le dveloppement du big data


dans les entreprises ?
Peu dentreprises ont dvelopp ce
jour un vritable plan big data, incluant
des discussions au sein de la direction
gnrale, avec notamment une rflexion
sur les investissements prioritaires et
13

des choix effectifs. Un tel plan repose


sur trois tapes : dabord, lassemblage
et lintgration dimmenses volumes de
donnes nouvelles afin didentifier des
informations intressantes ; ensuite, la
slection de modles danalyse des donnes permettant doptimiser les oprations et de prdire les consquences
des dcisions business ; enfin, la cration doutils intuitifs qui transcrivent les
analyses des modles en actions relles,
et la formation des employs lutilisation du modle. Une fois ce plan dfini,
pour le mettre en uvre, il ne faut pas
avoir peur dexprimenter : choisir le
domaine que lon souhaite explorer, lancer un pilote et le tester, avec un esprit
entrepreneurial et le courage dune certaine prise de risque face lincertitude
des dcouvertes qui seront faites.
De fait, dvelopper le big data au sein
des entreprises implique une volution du rle des DSI : ceux-ci doivent
dsormais, tout en se construisant leur
propre rseau technologique, tre force
de proposition pour les business units
afin damliorer leur performance. Pivot
de la mise en uvre du big data dans
lentreprise, ils doivent favoriser le dialogue entre les mtiers et la technologie,
au service dune meilleure performance.

Peu dentreprises ont


dvelopp ce jour un
vritable plan big data
Enfin, pour les fournisseurs de technologie, cela implique galement une volution. Ceux-ci ont encore une approche
trop technique, pas assez tourne vers
le client. Ils parlent dacclration des
performances techniques et ont une vision
oriente vers les systmes dinformation :
lenjeu est dsormais de proposer une
approche plus mtiers , de montrer
aux entreprises comment le big data
peut vritablement avoir un impact business. Dans un contexte conomique morose, les entreprises sont dautant plus
lcoute de nouveaux relais de croissance potentielle.

Les technologies Big Data


Petit Lexique des Technologies Big Data
Lunivers technologique du Big Data sappuie sur des outils bien identifis qui
constituent la base innovante de ce mode de traitement. A eux seuls, ces
outils rsument le vocabulaire technologique du Big Data et en constituent
la rfrence. Mais de quoi parle-t-on exactement lorsque lon voque ces
innovations ? Voici un petit lexique simplifi qui permettra mme aux moins
technophiles de comprendre les fondements techniques du Big Data.
Traitement massivement parallle (MPP = massively parallel processing) : le Big Data repose sur des systmes de
traitement de donnes organiss sur plusieurs nuds ou clusters parallles. Gnralis dans les annes 2000, ce type de traitement permet de gnrer des calculs trs haute performance sur des infrastructures (processeurs, serveurs) rduites.

HADOOP : emblme par excellence du Big Data, Hadoop est une architecture spcifique de bases de donnes, permettant de
traiter en grand nombre tous types de donnes (y compris les donnes non structures). On dit quelle est organise sur un mode
non-relationnel, cest--dire que les donnes ne sont pas tries en fonction de leurs relations entre elles.
Elle constitue en quelque sorte la librairie partir de laquelle on pourra effectuer des calculs parallles (via MapReduce), sachant
que ces donnes sont distribues (cest--dire quHadoop les rcupre depuis diverses sources).
Cr par la fondation Apache (voir interview dI. Frost-Dromm), Hadoop est un framework Open Source, cest--dire que son code
et ses spcifications sont disponibles en libre accs pour ceux qui cherchent limplmenter dans leur systme.

MAPREDUCE : coupl Hadoop (qui est en fait son implmentation principale), MapReduce est le mode de calcul permettant
de traiter les big data. Il prsente une fonction Map (distribution des donnes sur plusieurs clusters parallles o les calculs
intermdiaires seront effectus) et une fonction Reduce (les rsultats des calculs intermdiaires distribus sont recentraliss en
vue du calcul final). MapReduce est issu de la recherche Google et a t dvelopp au mme moment quHadoop ce qui explique
lassociation traditionnelle que lon fait des deux outils.

NOSQL : on parle de NoSQL lorsque des requtes sont effectues dans un langage de programmation qui nest pas limit au
SQL. Ce dernier est en effet le langage le plus utilis pour des traitements de donnes mais ses normes de dfinition, parfois trop
strictes, ne sont pas adaptes aux donnes massives et non-structures. Du coup, certaines requtes sont effectues indpendamment de ces normes et donc de ce langage propre, ce qui fait dire certains que lon bascule sur du NoSQL (littralement :
au-del du SQL ). Pour autant il est quasiment impossible de dfinir le NoSQL selon un corpus de rgles puisquil reprsente
prcisment laffranchissement par rapport un ordre tabli.
IN-MEMORY : on parle de traitement in-memory pour voquer les traitements qui sont effectus dans la mmoire vive de
lquipement informatique, plutt que sur des serveurs externes. Lavantage du traitement in-memory est celui de la vitesse
puisque les donnes sont immdiatement accessibles. En revanche, ces donnes ne sont pas stockes sur le long terme, ce qui
peut poser des problmes dhistorisation.

Tour dhorizon des


briques fonctionnelles
en lien avec le Big Data
Au-del de ces outils de base, le Big Data
se doit dtre applicatif et de proposer
des services en lien avec les besoins directs de lentreprise. Il est donc possible
et recommand de rajouter des briques
fonctionnelles aux spcifications initiales dHadoop/MapReduce : cest tout
lobjet de lcosystme Hadoop qui sest
dvelopp en parallle de ces outils.
Dans cet cosystme, on retrouve ainsi
parmi les plus connues :

> PIG : galement dvelopp par


Apache, il vise augmenter les performances dHadoop/MapReduce en proposant un langage de programmation
permettant un traitement plus rapide.
> HIVE : issu de la recherche Facebook, Hive permet deffectuer des
requtes sur un cluster Hadoop directement en langage SQL.
A ct de ces briques complmentaires
qui rendent Hadoop plus facile daccs
et plus rapide, on retrouve des structures de bases de donnes corollaires
Hadoop :
> CASSANDRA : galement dvelopp par Facebook, Cassandra est une
14

base de donnes oriente colonnes de


type NoSQL. Elle supporte le traitement
MapReduce et est particulirement
reconnue pour sa capacit faciliter
laccessibilit des donnes, quel que
soit le volume gr. Des compatibilits
avec Hadoop sont aujourdhui possibles.
> HBASE : de la mme faon, HBase,
dvelopp par Apache, est un systme
de gestion de base de donnes distribu. Il est complmentaire dHadoop
et particulirement performant pour le
traitement des trs grandes tables (milliards de rangs X millions de colonnes).

Bien souvent ces diffrentes applications fonctionnent de manire package


avec Hadoop : on parle donc davantage
de plateforme Hadoop pour voquer
la structure constitue des diffrentes
briques.

STOCKAGE
Nud 1

Nud 2

Nud 3

montr que 61% des CIO prfraient


squiper de solutions extrieures plutt
que de dvelopper leur propre infrastructure, et cela en raison du trop grand
investissement en temps et en personnel reprsent.
Le problme est quil est parfois difficile
de reconnatre les atouts dune solution par rapport une autre : comment
choisir entre une offre mettant en avant
la rapidit de traitement par rapport
une autre qui se focalise sur les gros

applications ? Pour rpondre ces questions, les fournisseurs ont eu cur


de mettre en place des infrastructures
plutt lgres qui sadaptent lexistant ;
la manifestation la plus vidente de ce
phnomne tant la croissance du march des appliances, ces outils mixtes
hardware/software qui se branchent
sur le systme existant pour une utilisation immdiate.

FILE SYSTEM

HDFS

61% des CIO prfrent squiper de

TRAITEMENT

solutions extrieures plutt que de

Map 1, 2, 3

Map 4, 5, 6

Map 7, 8, 9

Reduce 1

Reduce 2

Reduce 3

Rsultat Final

REQUETAGE

Pig

Hive

Schma simplifi dune architecture


Hadoop/MapReduce

Les technologies Big


Data face aux besoins
de la DSI
Comment choisir les outils
adquats parmi les nombreuses
offres disponibles ?
On le voit, les bases du Big Data sont
assez simples du fait quelles soient
limites un nombre restreint doutils.
Pourtant les offres sur le march sont
trs nombreuses : les fournisseurs de
technologies proposent en effet des
offres varies appuyes sur Hadoop.
Lavantage de ces solutions packages
et applicatives tient souvent dans la facilit dutilisation : comme Hadoop est un
framework complexe qui rclame des
efforts de programmation pour son intgration dans larchitecture de lentreprise, les fournisseurs proposent des
solutions directement utilisables qui
pargnent ces efforts lutilisateur. Une
tude ralise pour Infochimps a ainsi

dvelopper leur propre infrastructure


volumes de donnes ? Et quelle est la
capacit dadaptation de loffre par rapport aux rels besoins de lentreprise ?
Cette problmatique, voque trs souvent par les DSI fait cho la structuration trs rapide du march de loffre par
rapport celui de la demande : tous les
fournisseurs historiques de technologies
se sont en effet lancs trs tt sur ce
march prometteur et ont ainsi propos
leur offre propre, ce qui multiplie dautant le nombre de propositions commerciales faites aux utilisateurs.

Quelle architecture mettre en place ?


Cette question renvoie aux modles dorganisation privilgis par lentreprise :
faut-il centraliser les donnes ou bien
disposer darchitectures rparties au
sein des directions mtiers ? (cf Les mtiers du Big Data). Ce qui est certain, cest
que, quel que soit le choix dorganisation
retenu par lentreprise, lintgration des
outils Hadoop/MapReduce ne relve pas
seulement dun arbitrage technologique
mais plus dune stratgie lie lutilisation des donnes. En fonction de cela,
lurbanisation des systmes dinformation peut profondment voluer : accs
aux donnes, gestion des entres et des
sorties, formats de donnes et mtadonnes, etc.
Dautre part, une des interrogations
des DSI concerne lacquisition progressive ou non des technologies Big Data :
faut-il faire un Big Bang du Big Data
par rapport larchitecture existante,
ou bien peut-on construire partir de
cette dernire ? Et faut-il ncessairement tout installer ds le premier jour
ou peut-on rajouter progressivement des
15

La question du stockage est galement


rcurrente. Que choisir parmi les serveurs traditionnels, les appliances et les
offres cloud ? Certaines entreprises privilgient le cloud pour rendre linfrastructure plus flexible et mutualiser les
donnes dans le nuage. Cependant, la
migration nest pas forcment adapte
des gros volumes de donnes et les
questions de scurit restent prgnantes.

La question de la scurit
Evoque concernant le Cloud, la question de la scurit est devenue un leitmotiv avec lexplosion du Big Data : en
effet, la multiplication des donnes disponibles et leur valeur thorique sur le
march rendent encore plus prsente la
menace de cyberattaques.

Avec le Cloud et lapparition du BYOD, les


possibilits dinfraction externes dans le
systme dinformation de lentreprise
sont de plus en plus nombreuses.
Voil pourquoi la segmentation et la
restriction des accs aux donnes deviennent des lments de rgulation
importants. Mais au-del, les fournisseurs se penchent de plus en plus sur le
perfectionnement doutils de scurit en
lien avec le Big Data : et lironie de la manuvre est que, pour cela, ils utilisent
prcisment le Big Data ! En effet, lintrt du Big Data est de pouvoir dtecter
des anomalies, mme les plus infimes,
parmi les vnements remonts. Dans
les journaux de scurit, le Big Data est
donc un atout de taille pour prvenir les
attaques et gurir les failles analyses !
Une tude ralise par Varonis a ainsi
montr que le Big Data permettait de
dtecter des donnes sensibles, didentifier des activits malignes et de dterminer les utilisateurs dots de droits
daccs excessifs mais que seulement
54% des DSI le savaient !
La scurit a t lun des thmes phare
de 2013, au mme titre que la qualit des
donnes, lobjectif tant pour les deux de
maitriser le data deluge et de garantir
lintgrit de lutilisation.
Les questions lies limplmentation
du Big Data au sein de la DSI restent
donc nombreuses car le phnomne est
encore jeune, sans retours dexprience
de long terme, et les comptences sont
encore balbutiantes en interne pour
apprivoiser rapidement le phnomne.
Pourtant, 81% des CIOs dclarent que
le Big Data fait partie de leurs cinq principales priorits en 2013, ce qui montre
la volont palpable des entreprises
squiper rapidement.
Du coup, les cabinets de conseil et dintgration se sont positionns rapidement pour apporter une expertise oprationnelle sur la mise en place de ces
infrastructures. Des tudes montrent
ainsi que les recrutements en SSII sur
la thmatique Big Data ont considrablement augment au cours de lanne
coule.

Interview

Isabel Drost-Fromm
Co-Fondatrice / Contributrice, Apache Mahout. Membre

LOpen Source implique un grand


nombre de dfis
1) La fondation Apache est lorganisation qui a vu natre Hadoop
Pouvez-vous rsumer pour nous les origines dHadoop ?
Si lon se plonge dans les origines lointaines dHadoop, tout a commenc au
dbut des annes 2000 avec un projet appel Apache Lucene : il sagissait de
mettre en place une bibliothque numrique en open source, qui serait ddie
la cration dindex pour la recherche textuelle (exactement comme lindex que
lon trouve la fin des livres et qui indique le numro de la page contenant tel ou
tel termesauf que Lucene indiquerait le document contenant ce terme).
Alors que Lucene avait simplement pour objet de rpertorier des textes afin de
faciliter les recherches, lide simposa peu peu quil fallait crer un moteur
de recherche de grande chelle, sur lensemble de la Toile. Pour cela, il fallait rcuprer deux lments : un outil dindexation pour les nouvelles pages
dcouvertes sur Internet en suivant des liens connus (web crawling), et un outil
dextraction de contenu (pour les pdf, le contenu html, les documents Microsoft
Word). La runion de tous ces lments a donn naissance au projet nutch .
Nutch sest construit progressivement entre 2002 et 2004 ; comme il visait
fournir un moteur de recherche pour lensemble dInternet, on comprit vite quil
fallait recourir au traitement distribu sur plusieurs machines et non plus une
seule. Heureusement, cest peu prs au mme moment que Google publiait
son article sur le Google File System ainsi que sur le traitement MapReduce
De tout cela: Lucene (lindex), Nutch (le collecteur de donnes) et MapReduce
(le systme de traitement), toutes les conditions pour le Big Data taient runies!
En 2005, des premires exprimentations pour un systme de fichiers distribus ( nutch distributed file system ) furent lances au sein de nutch (celles
qui mneraient ensuite au HDFS, le systme de fichiers la base dHadoop).
LorsquHadoop fut converti en un sous-projet de Lucene, indpendant de
nutch, Yahoo! dcida de ladopter pour accrotre ses capacits de cartographie
du web et de contribuer au projet. Cest finalement en 2008 que le projet acquit
un statut de priorit ( top-level ) menant la cration dune communaut
autonome pour le grer !

De tout cela: Lucene (lindex),


Nutch (le collecteur de donnes)
et MapReduce (le systme de
traitement), toutes les conditions
pour le Big Data taient runies!
Capture dcran de la page Issues dApache Hadoop
*https://issues.apache.org/jira/browse/HADOOP#selectedTab=com.
atlassian.jira.plugin.system.project%3Aissues-panel
16

de lApache Software Foundation


2) Selon vous, quels ont t les
bnfices dune approche open
source pour la gestation dHadoop
? Et ses limites ?

3) Justement, quest-ce qui


pourrait tre amlior sur Apache
Hadoop ? Quels sont les terrains
de recherche actuels ?

Le grand atout de lOpen Source a t


daider le projet atteindre sa maturit
: plus le projet attirait de contributeurs
(comme Yahoo!, Facebook, Linkedin et
autres), plus il samliorait.

L encore, la meilleure rponse concernant les dveloppements actuels et les


terrains dexploration se trouve sur cette
page Issues. Comme le dveloppement
est compltement ouvert, les forces,
les faiblesses et les bugs peuvent tre
dcouverts facilement, la fois par les
utilisateurs et les contributeurs.

Mais bien sr, il sagit dtre prudent


avec ce type dapproches car lOpen
Source implique un grand nombre de
dfis : comme chacun apporte sa pierre
ldifice, vous devez faire attention ce
que lensemble reste cohrent, ce que
le but initial soit toujours poursuivi et
ce que les contributeurs comprennent
quils travaillent sous lenseigne Apache,
et non pas pour leurs entreprises dorigine, dont les stratgies pourraient se
trouver en conflit avec les dveloppements du projet. Et galement que les
acteurs sont assez forms pour maintenir la bonne qualit de la structure. Cest
un dfi bien sr, mais les rsultats et les
amliorations durables parlent dellesmmes, je crois !
Si vous avez le temps, rendez-vous sur la
page Issues dApache Hadoop*, vous
trouverez les chantiers actuels sur lesquels travaillent les contributeurs pour
amliorer loutil ; cela vous donnera une
ide du dynamisme de la communaut
Hadoop !

Les principaux dfis relevs sur dautres


projets de lcosystme Hadoop sont
ceux qui visent rendre les requtes
plus rapides et plus faciles raliser.
Peu de personnes les formulent en pur
Java Map/Reduce ; la plupart utilisent
dautres langages de requtes plus sophistiqus comme Pig, Hive, Cascading,
Cascalog, Scalding, etc.
Concernant Hadoop en lui-mme, une
voie intressante dexploration vise
rendre les clusters Hadoop plus conomes en nergie, en orientant les donnes les moins utilises vers des disques
qui peuvent tre ralentis, permettant
ainsi la rduction des cots dnergie
mais avec le risque de rallonger le temps
danalyse.

Customisation
marketing :
Monoprix et
dunnhumby

Interview

Monoprix et leur partenaire dunnhumby


ont prsent un projet original dutilisation marketing du Big Data : il sagit
dune exprience de personnalisation
de mailings pour chaque client, avec des
offres de discount adaptes aux prfrences de consommation de ce client.
Cette opration, qui est une dclinaison
du programme de fidlit de Monoprix,
vise mettre en adquation les offres de
couponing proposes par les marques
avec les profils de consommation clients
: pour chaque client, un mailing unique
est cr grce un algorithme dallocations qui gnre des combinaisons
indites doffres promotionnelles. Les
clients qui reoivent ce courrier, mail ou
papier, ont la possibilit de se rendre en
magasin avec loffre imprime pour bnficier de ces promotions personnalises.

Il faut que les quipes data et les quipes


cratives travaillent main dans la main

Au total, ce sont 33 millions de transactions de clients Monoprix qui ont t analyses, ce qui reprsente 350 millions
darticles achets. Ces donnes sont
donc essentiellement des donnes transactionnelles mais dunnhumby intgre
galement les donnes prfrence de
mdia , savoir le taux de retour des
coupons papier pour tablir une prfrence mdia.
Lallocation coupons/clients dure moins
dune heure.

Hannah Whittall

Directrice Coms & Media, dunnhumby France

1) Pouvez-vous nous parler de la gense de ce projet?


La communication personnalise de Monoprix est fonde sur le mme modle
que les exprimentations menes, entre autres, chez Kroger (aux Etats-Unis)
et Tesco (en Angleterre), pour rcompenser les clients de faon rgulire avec
des offres personnalises calcules partir de leurs achats. Nous avons dmontr le gain gnr par cette approche et avons t capables dautomatiser
tout cela grce un outil propritaire qui permet la personnalisation des communications partir de millions de transactions traites en quelques minutes.
Monoprix est le premier distributeur franais bnficier de cet outil et de
cette approche, dj mis en place chez dautres distributeurs de par le monde,
avec un succs certain chaque fois.

2) Comment choisissez-vous les clients qui recevront ces offres


personnalises?
Nous contactons uniquement les clients qui sont opt-in (ceux qui choisissent de recevoir nos communications) puis nous effectuons une slection
partir dautres critres en lien avec les objectifs du programme. Une fois que
les clients sont choisis, ils reoivent donc leur mailing en lien avec leurs prfrences. Nous suivons et analysons alors leur rponse ce courrier, afin de
pouvoir amliorer et optimiser en permanence le ciblage (qui reoit la communication ?) et le canal (par quel canal devons-nous atteindre le client ?).

Lance en fvrier 2012 pour Monoprix,


cette initiative (dj exprimente auprs de Tesco en Grande Bretagne et
Kroger aux Etats-Unis) a fait la preuve
de son efficacit : le taux de retour des
coupons a t doubl par rapport des
coupons non personnaliss.

18

Exemples
dapplications
en entreprises

01
Monoprix

3) Quels sont les plans futurs


pour ce programme? Avez-vous
des amliorations apporter?
Il y a des amliorations apporter sur le
canal de distribution et galement sur le
processus de retrait de loffre (dmatrialisation de loffre sur mobile ou directement par mail, au lieu de limpression
papier). Nous travaillons l-dessus en
lien troit avec nos clients du retail en
fonction des technologies dont ils disposent. Nous pourrions galement
songer intgrer dans le traitement
dautres types de donnes clients : les
historiques de navigation, les donnes
sociales, la golocalisation galement
afin de fournir du contenu et des offres
plus prcises, en temps rel, lorsque le
client en manifeste le besoin ou les recherche activement.

4) Craignez-vous que ce nouveau


type dapproche transforme le
mtier du marketer?... En termes
de crativit par exemple?
Bien sr, cela a un impact sur le travail
et les comptences du marketer mais
cela nattnue en rien limportance de la
crativit. Le plus de donnes et dinformations nous runissons propos du
client, le mieux nous pouvons informer
et briefer les quipes cratives et contenu. Sur ce projet, nous traitons principalement doffres commerciales, mais
nous pouvons galement personnaliser
les contenus et les messages dlivrs
afin quils soient encore plus pertinents.
Comme nous sommes de plus en plus
capables de le faire en temps rel via les
mdias digitaux, de nombreuses opportunits soffrent nous. On saccorde
de plus en plus sur le fait quil faut que
les quipes data et les quipes cratives
travaillent main dans la main. Une exprience 100% crative, mme si elle est
trs bien ralise, sera toujours difficile
quantifier dans ses rsultats, mais
elle vise toujours comprendre qui est
le client ; cest l o un savant mlange
dart et de science peut ajouter normment de valeur !

Plus que par ses technologies


innovantes ou son march,
le Big Data suscite surtout la
curiosit pour ses nombreuses
applications en entreprise.
Celles-ci restent encore limites
des retours dexprience
ponctuels mais elles sont en
pleine phase de gnralisation.
Vous trouverez ici quelques
exemples inspirants, dans
plusieurs domaines dactivit.

19

Optimisation
du traitement
industriel : La Poste
Le projet Orest TAE, en production depuis dcembre 2011,
collecte et restitue toutes les informations disponibles sur
un pli lors de la rception, du tri et de la distribution de
celui-ci. Il sagit dune plateforme dindexation des courriers qui traite 110 millions de documents par jour, selon
un rythme pouvant aller jusqu 4000 documents par seconde en heure de pointe ! Au total, plus de 2 milliards de
documents sont indexs sur cette plateforme.
On notera que les systmes de capteurs industriels (ex :
lecture optique des plis, flasheurs manuels, machines de
tri ou encore EDI client) sont interconnects la plateforme ce qui lui permet de croiser de multiples sources de
donnes, dont des quipements industriels lourds, ce qui
constitue une exprience originale.
Lobjectif de ce projet trs ambitieux est double :
Il sagit dobtenir une vision gnrale des flux de courriers et de pouvoir remonter ainsi des indicateurs de performance utiles au pilotage de lactivit en temps rel,
mais il permet galement aux agents oprationnels
dobtenir directement linformation sur un pli. En cas de
demande lie des anomalies, la dtection est ainsi facilite et la raction beaucoup plus rapide : la plateforme
propose en effet des outils de visualisation des anomalies
au niveau le plus fin que constitue le traitement dune enveloppe.
Les travaux ont t mens conjointement avec Dassault
Systems, Exalead et Sopra Group, et la plateforme est
aujourdhui accessible 800 utilisateurs rpartis sur les
sites de production : on considre que leur nombre moyen
de requtes journalires est de 15000, avec un temps de
rponse infrieur 3 secondes !
Avec lvolution rgulire des fonctionnalits, sur la base
des demandes concrtes des utilisateurs qui se familiarisent avec les analyses permises par ce type de technologie, le nombre dutilisateurs continue augmenter rgulirement.
Suite cette implmentation, La Poste espre ainsi remplacer ses approches statistiques historiques par une vision davantage unitaire des vnements. Avec, la cl,
une amlioration de la performance des sites et du service
client

Interview
Denis Weiss

DSI Industriel, La Poste

Orest est devenu un outil clef


dans la logique de fonctionnement
du rseau industriel
1) Le projet OREST TAE permet la Poste de
visualiser au plus fin les anomalies ou des
amliorations potentielles dans le traitement
du courrier. Quels ont t les principaux dfis
relever pour que le systme montre toute sa
performance ?
Au-del de linfrastructure technique quil a fallu stabiliser, les deux principaux dfis ont t de permettre
toutes les quipes de se familiariser ces technologies.
Techniquement, il fallait dterminer comment exploiter
efficacement ce type de systme ; et, dun point de vue
fonctionnel, shabituer au fait que lanalyse ne se faisait
plus sur un tableau imprim mais plutt sur cran, par
itration. De plus, il tait ncessaire de valider le fonctionnement exhaustif car, si les mthodes de recette
classiques fonctionnent pour une, voire pour quelques
dizaines de milliers de donnes, ce nest plus forcment
le cas avec 1 milliard de donnes !

2) Votre plateforme permet de calculer des


indicateurs de pilotage sur la production de
courrier. Quels types dindicateurs avez-vous
mis en place ? Et pouvez-vous valuer lvolution
de la performance des sites et du service ?
Il est trs difficile dattribuer lamlioration des indicateurs de qualit ou une moindre exposition aux alas
un outil, en effet et cest particulirement vrai dans le
cas dOrest - la performance vient de la bonne utilisation,
de la bonne comprhension par les utilisateurs. La pertinence et donc la performance induite par ce type doutil se
mesure mon avis lusage qui en est fait et la satisfaction des utilisateurs : aujourdhui Orest nest pas un outil
de plus, cest devenu un outil clef dans la logique de fonctionnement du rseau industriel.

20

Exemples
dapplications
en entreprises

02
La Poste

3) Votre projet se poursuit et samplifie


Combien de personnes seront terme
impliques dans ce nouveau process ?
Comptez-vous apporter des volutions
qualitatives la plateforme ?
Nous pensons doubler le nombre dutilisateurs, mais en
particulier nous nous appuyons de plus en plus sur ces
donnes pour gnrer des rapports et des interactions
dans dautres outils et dautres process : travers la mise
en place de web-services directement sur la base Orest,
celui-ci devient le support de reportings et de nouveaux
services en dehors du monde industriel et aussi pour nos
clients.

21

Recherche :
Projet DEUS
Men par lObservatoire de Paris, avec laide
de GENCI (Grand Equipement National de
Calcul Intensif), le projet Deus lanc en 2011
visait modliser pour la premire fois la
formation des structures cosmiques dans
tout lUnivers observable, depuis le Big
Bang jusqu nos jours.
Pour cela, trois hypothses avaient t
retenues, correspondant trois modles
dnergie noire (composante nergtique
de lunivers qui constitue un moteur de son
expansion) : il fallait comprendre ainsi quel
tait limpact de cette nergie sur lunivers et
donc en dduire sa nature.
Pour cela, un grand nombre de donnes
reprsentant 550 milliards de particules de
lunivers (issues du tlescope spatial WMAP)
ont t injectes dans le supercalculateur
CURIE de GENCI, install au TGCC du CEA,
qui prsente une capacit de traitement de
2 ptaflops par seconde (2 millions de milliards doprations par seconde). Il sagissait
doprer les traitements pour chacune des
trois simulations en utilisant toutes les capacits de calculs de la machine (76000 curs
de calcul sur 80000, 360 To de mmoire). Au
total, ce sont 150 ptaoctets de donnes
brutes qui ont t gnres, ce qui posait
une problmatique de stockage : la solution a donc consist dvelopper un outil de
post-traitement qui, en parallle du calcul,
a permis de rduire la vole ce volume de
donnes gnres, sans pnaliser les temps
de simulation.
Au final, ces traitements ont permis de
rduire ltude 1,5 ptaoctets de donnes
raffines, grce un dbit de stockage des
donnes trs important (50 Go/s) !
Le rsultat, disponible pour la communaut
scientifique internationale, est une modlisation de la distribution de matire dans tout
lUnivers observable, semblable celle qui
pourrait tre observe par les tlescopes :
cest donc un support exceptionnel dtude
pour les agences spatiales ESA et NASA, et
ces modlisations permettront dapporter
des interprtations substantielles aux observations du satellite europen Planck.
Outre la performance en cosmologie, cette
exprience, unique lchelle mondiale,
est galement une prouesse dans lunivers
du calcul haute performance : elle ouvre
le champ dautres applications du calcul
intensif (HPC), comme par exemple pour le
projet ITER ou les simulations climatiques,
selon le mme principe doptimisation des
entres et sorties et de post-traitement la
vole des rsultats.

Interview

Stphane Requena

Responsable technique, GENCI

Big Data et HPC sont amens converger


1) Cette exprience est un modle de performance technologique
et doptimisation des machines au-del de cet aspect automatis , quels sont les travaux danalyse que vous avez raliss ?
Il reste aux chercheurs de lObservatoire de Paris un gros travail danalyse des
rsultats effectuer : en effet, mme si les donnes raffines ont un volume
rduit par rapport aux donnes de sortie brutes, elles restent volumineuses
et complexes. Aujourdhui, nous avons un film global sur lvolution de lUnivers mais si nous voulons analyser plus prcisment la formation de certaines
structures, il faut identifier les donnes pertinentes. Il y a donc un effort danalyse faire pour corrler ces donnes de sortie, corroborer les rsultats et
effectuer de nouveaux calculs. Forcment, les quipes de recherche doivent
tre dimensionnes pour absorber ce volume massif de donnes, et cest l
un nouvel enjeu : du coup, on cherche dvelopper lanalyse automatique Big
Data, cest--dire utiliser des outils automatiss qui identifieront uniquement
les donnes pertinentes pour les chercheurs.

2) Suite cette exprience, quels sont les prochains projets de ce


type que lon peut attendre ?
Il y a de nombreux domaines dans lesquels on peut envisager un couplage
du HPC avec du Big Data, par exemple pour la combustion (dans les secteurs
automobiles, aronautiques et dans lnergie) ; en effet, les calculs modlisant
la combustion peuvent reprsenter des dizaines de traoctets de donnes, quil
est intressant de traiter pour garantir une combustion homogne et stable.
En effet, sans homognit et stabilit, les anomalies de combustion peuvent
conduire un mauvais rendement des moteurs avec la cl des problmes de
surconsommation, de pollution et mme dexplosiondo la ncessit de faire
des simulations.
Autre secteur dapplication : la climatologie o lon souhaite modliser lvolution du climat avec des maillages trs fins de la Terre, ce qui implique plusieurs
modles complexes de simulation que lon lie entre eux. A terme, la communaut de la climatologie envisage de traiter des exabytes de donnes !

3) Pour vous, quel est le lien entre HPC et Big Data? Parle-t-on de
la mme chose ? En quoi diffrent-ils ?
Quand on parle de Big Data, on parle du traitement de grands volumes de donnes, cest--dire une fouille dans des donnes et une interprtation des rsultats qui peut, dans le cas de donnes complexes, recourir du calcul. Le HPC
quant lui correspond du calcul scientifique, que lon applique plusieurs

Le supercalculateur CURIE de GENCI install au TGCC du CEA - CADAM


22

Exemples
dapplications
en entreprises

03
LObservatoire

domaines scientifiques ; cest donc davantage lutilisation de modles mathmatiques sur des superordinateurs.
Forcment, ces deux domaines sont
amens converger : si lon prend
lexemple des donnes livres par les
nouveaux tlescopes, nous avons besoin
la fois de calcul haute performance
pour acclrer le traitement, et dinterprtation des donnes pour tirer de vritables informations. Le rythme de traitement est important lorsque lon gre des
gros volumes : si lon optimise un calcul
mais que le traitement des donnes est
lent, lanalyse au global ne sert rien.

de Paris

4) La France a t la manuvre
sur ce projet pouvez-vous nous
expliquer les origines ?
La France dispose du supercalculateur CURIE qui tait lpoque une des
trois machines capables dans le Monde
de raliser cette simulation DEUS (les
autres se trouvant en Chine et aux USA).
CURIE prsente de grosses capacits
la fois pour le calcul et le stockage, en
mmoire et sur les disques ; en 2012,
elle est mise disposition par GENCI
destination de la communaut scientifique europenne via linfrastructure de
recherche PRACE. Le projet DEUS manait de lObservatoire de Paris qui cherchait une machine pour pouvoir effectuer ses simulations donc nous avons pu
la leur mettre disposition.
Depuis dautres machines ont t rendues
galement accessibles dans PRACE :
en Allemagne, des chercheurs anglais
sont actuellement en train de finaliser
des simulations massives en climatologie, notamment sur la modlisation des
cyclones dans le golfe du Mexique. Si
elles aboutissent, leurs recherches auront permis grce PRACE davoir 3 ans
davance sur les travaux en cours dans
le domaine !

Exemple de
modlisation de
lunivers

Stphane Requena ( droite) et Jean-Michel Alimi de


lObservatoire de Paris, reoivent le prix spcial du
jury lors des Trophes de lInnovation Big Data
23

Localisation :
Gomarketing
selon SFR
Mens depuis deux ans par une quipe ddie au sein de lentreprise, les travaux de
gomarketing de SFR ont vis collecter
et analyser les donnes de golocalisation
des utilisateurs rseaux, afin den tirer des
informations sur la frquentation et les flux
de populations sur certaines zones gographiques. Ainsi SFR a pu tablir que le Festival de Cannes avait runi 389 500 visiteurs
dont 16 % dtrangers !
Comment fonctionne cette infrastructure ?
En ralit, SFR a mis en place un serveur de
collecte dvelopp par Intersec qui rcupre,
via les antennes relais, toutes les donnes
relatives des vnements de consommation (ex : allumer son tlphone, appeler,
etc.), ce qui correspond un total dun milliard dvnements de mobilit par jour !
Puis ces donnes anonymises sont croises avec des donnes externes (de type
Open Data) au sein dun outil logiciel dvelopp en interne sur deux bases, une NoSQL
et une autre Hadoop. Les donnes dvnements sont galement corriges statistiquement pour correspondre aux parts de march locales de SFR.
Lintrt dune telle dmarche est de fournir une information indite aux collectivits
locales et au secteur du tourisme : les analyses menes vitent en effet laspect dclaratif des questionnaires et les donnes sont
disponibles en quasi temps rel.
Pour loprateur, cest une opportunit
unique de valoriser ses donnes en vendant
des tudes aux entits intresses. Mais
au-del, ces donnes ont galement une
utilisation interne puisquelles permettent
loprateur de suivre la consommation de
ses abonns et dintervenir plus rapidement
sur la fidlisation, la gestion des fraudes et
le service client.

Interview
Mathieu Gras

Head of LBS & Big Data Business Development Manager,

Aujourdhui, on voit beaucoup doprateurs


internationaux qui se lancent dans laventure
alors que nous tions les seuls en Europe
lpoque
1) Pouvez-vous revenir sur les origines de ce projet ? Comment
sest droul le dveloppement de cette nouvelle activit ?
Cest un projet qui a connu une phase de business development assez longue.
En fait, nous avons rapidement constitu une quipe transversale et autonome,
et nous souhaitions rpondre la fois un besoin externe (connatre les flux de
population) et un besoin interne (avoir des indicateurs marketing temps rel).
Nous sommes dabord partis sur la rponse au besoin externe parce quil nous
semblait le plus valorisable mais nous nous sommes rendus compte assez vite
que nous tions trop en avance sur le march et que, mme si nos projets
taient bien reus, ils taient trop en rupture.
Du coup, nous nous sommes concentrs sur la partie interne et nous avons
constat que les quipes adhraient rapidement nos projets car la donne
tait immdiatement valorise !
Cest par la suite que les activits externes se sont vraiment dveloppes, car
le march tait prt et lengouement autour du Big Data jouait srement en
notre faveur ! Aujourdhui, on voit beaucoup doprateurs internationaux qui se
lancent leur tour dans laventure alors que nous tions les seuls en Europe
lpoque.

2) Pour vous, ya-t-il eu un basculement technologique ou cette


activit aurait-elle pu tre cre il y a cinq ans ?
Trs honntement, je pense que lon avait les ressources technologiques :
loprateur fait du temps rel depuis des annes. Mais le traitement aurait forcment ncessit plus de ressources, plus de temps et donc plus dinvestissement : le prix dun serveur tait bien suprieur il y a cinq ans !
De plus, dautres sources de donnes sont prsent disponibles, ce qui rend
les analyses plus complexes et donc plus intressantes.
Donc, oui technologiquement, nous aurions pu le faire, mais cela naurait pas
eu le mme intrt conomique et le march naurait certainement pas rpondu de la mme faon !

3) Ya-t-il certains projets rcents que vous avez raliss avec


cette plateforme de gomarketing ?
Oui, nous avons travaill en juillet dernier sur le Tour de France : lobjectif tait
dobserver laffluence des populations sur le Tour et de dterminer limpact de
celui-ci sur le tourisme local (restauration, nombre de nuits dhotels, etc.). En
effet, les municipalits investissent de fortes sommes pour obtenir le passage
du Tour sur leur territoire et le retour sur investissement en terme touristique
est forcment une information qui les intresse !

24

Exemples
dapplications
en entreprises

04
SFR

SFR

Etude de frquentation du festival de Cannes

Etude de frquentation du Mtro parisien

25

Agrgation
de Donnes :

Projet Ellicible
de Coface
Services
Coface Services (Ellisphere au 1er janvier
2014) est lentit de rfrence concernant
linformation dentreprises en France :
elle propose en effet une base de donnes unique sur les entreprises franaises, qui repose sur de nombreuses
sources publiques et prives.
Afin de dvelopper son offre de marketing direct et afin de la mettre en adquation avec les besoins de real-time
marketing , Coface Services a choisi
dvoluer vers une plateforme plus ractive qui permet au client de bnficier
dun service haut de gamme combinant
de multiples critres pour un rsultat
immdiat : ce service est adapt aux
besoins du client dans la mesure o
lorganisation de linformation (ciblage,
segmentation, surveillance de groupes
etc.) lui revient de faon autonome,
contrairement aux segmentations fonctionnelles observes dans les bases de
donnes traditionnelles. En effet, un effort important en matire de finesse, de
granularit et de rsolution a t ralis
au niveau de la segmentation.
La plateforme Ellicible a ainsi vu le jour
le 20 mars 2013 : elle est appuye sur
des technologies New SQL (et non Hadoop/NoSQL) intgrant le traitement
massivement parallle et dveloppes
par la socit Parstream. Ainsi des milliers de requtes trs fortes volumtries (plusieurs milliards de donnes)
peuvent tre excutes en mme temps,
avec un trs faible temps de traitement
(quelques millisecondes). La grande
avance de cette plateforme tient dans
le raccourcissement des temps daffichage des rsultats : ils sont cette fois-ci
disponibles en temps rel.
Enfin cette plateforme est volutive car
elle intgre de nouvelles sources partenaires de grand volume, en France et
linternational.
Pour les clients, Ellicible cre ainsi de
nouveaux usages dans leur recherche de
prospects et dinformations sur les entreprises : ciblage facilit, segmentation et
organisation de linformation personnalises, obtention immdiate des rsultats.

Interview

Jean-Daniel Ruegger

Directeur de domaine au sein de la DSI, Coface Services

Nous observons que lusage de lapplication


parcourt lensemble de ses fonctionnalits
1) Cette plateforme combine volume et performance de traitement,
mais elle agglomre surtout de multiples sources de donnes :
pouvez-vous nous parler du processus dagrgation de ces donnes
distribues ?
En effet, hormis le volume et la vitesse qui sont nos contraintes techniques,
nous avons galement la contrainte fonctionnelle de la varit des informations que nous assemblons. Aujourdhui nous collectons nos donnes dune
vingtaine de sources diffrentes et nous produisons aussi nos propres donnes
en interne. Les sources sont diffrentes mais leurs cycles de renouvellement
aussi. Nous avons donc un processus ETL relativement classique pour chaque
filire, loriginalit rsidant dans lassemblage final et sa mise disposition.

2) Vous avez opt pour une technologie SQL et non pour des plateformes de type Hadoop. Pour quelle raison ? Pensez-vous voluer
vers ce type de technologie lavenir ?

Coface Services a une longue histoire et toute une srie de premires dans
le traitement de linformation. Sans remonter jusquaux racines de lentreprise
avec la cration de Bottin en 1796, lactivit Solutions Data a innov avec la
tlmatique ds le dbut des annes 80, et les traitements massivement parallles au dbut des annes 90. Nous savions que nous voulions une technologie
non-intrusive tant matriellement que du point de vue des comptences ncessaires, donc nous cherchions une solution New SQL traitement parallle.
Par ailleurs Hadoop orient batch ntait pas envisageable.

3) Quels sont les retours que vous avez eus sur cette plateforme ?
Les clients se sont-ils appropri ces nouveaux usages ?
Les retours que nous avons eus sont nombreux, en interne aussi car nous
utilisons la technologie pour des oprations de segmentations cl-en-main,
vraiment as a service . Nous mesurons le degr dappropriation par deux
signes forts : dune part, nous observons que lusage de lapplication parcourt
lensemble de ses fonctionnalits, avec des retours trs positifs ; et dautre
part, nos clients (qui vont de la PME lenseigne nationale ou internationale)
nous demandent et suggrent des extensions trs innovantes, ce qui montre
leur intrt !

26

Exemples
dapplications
en entreprises

05
Coface

Services

27

Les mtiers
du Big Data
Que change le Big Data aux comptences en place ? Comment sy
adapter ? Et quels sont les modes
dorganisation privilgier pour capter toute la valeur des donnes ? Voici
un petit tour dhorizon de lentreprise en format Big Data.

Quelles sont les nouvelles comptences


lies au Big Data ?
En modifiant peu peu les paradigmes
de lanalyse de donnes, le Big Data a
cr de nouveaux besoins : en effet, les
comptences informatiques sont mises
lpreuve par la complexit des supports
de base que sont Hadoop, MapReduce,
NoSQL, etc. Mme en faisant appel des
fournisseurs et des socits de service,
la ncessit de disposer en interne de
comptences techniques assez pousses se fait de plus en plus prgnante :
si le Big Data doit tre dploy de faon
gnralise dans plusieurs services de
lentreprise, il est indispensable davoir
disposition des quipes pouvant connecter rapidement ces nouvelles technologies avec les besoins business.
Autre impratif rclam par le Big Data :
la possibilit danalyser les donnes
traites avec une vision mtier. En effet,
cest dans la partie analyse que le Big
Data rvle bien souvent ses qualits
stratgiques, ce qui ncessite forcment
dexploiter les donnes selon des objectifs business propres chaque dpartement. En marketing par exemple, cette
approche est de plus en plus observe : les
marketers sorientent de plus en plus vers
lintgration de comptences data dans
leurs quipes, ou bien ils se forment
eux-mmes ce nouvel impratif.
Enfin, le Big Data porte en lui de nombreuses promesses lies lvolution des
algorithmes et des statistiques : pour que
les donnes puissent tre vraiment exploites des fins prospectives, les modles statistiques sont amens voluer,
ce qui pousse ncessairement les entreprises envisager lembauche de statisticiens et diplms en mathmatiques.
Informatique, statistique, business
est donc le triptyque des comptences

Informatique
Statistique

Business
lies au Big Data. On
pourrait
galement
rajouter celles lies la
communication car la prise
de dcision appuye sur les
donnes repose bien souvent sur la capacit de reprsentation et de hirarchisation de linformation,
telle quon peut lobserver
dans la datavisualisation.
Ds lors, ces comptences
runies sont-elles disposition pour lentreprise ?

Les nouveaux mtiers


du Big Data
La question des comptences est une problmatique souvent voque lorsquon
parle de la mise en place du Big Data en
entreprise : en effet, selon Gartner, seules
31% des entreprises estiment pouvoir lancer des projets Big Data en faisant appel
leur personnel existant.
Elles recherchent en effet des profils
capables dagglomrer les trois qualits

: informatique (capacits de programmation sur les nouveaux


outils), statistiques (capacit
dinnovation et de modlisation) et business (capacit
interprter les indicateurs
et les transformer en langage oprationnel). Ces profils
polyvalents correspondent un
nouveau type de mtier appel
Data Scientist, pour lequel les
postulants sont encore rares :
McKinsey estimait ainsi que la
demande de Data Scientists pourrait
atteindre 1,5 millions de postes dans le
monde en cinq ans !
Par consquent, les offres demploi lies
ce mtier se multiplient depuis 2010
(cf interview de Jacques Froissant) et les
rmunrations se montrent attractives
mais les efforts de formation restent
encore le nerf de la guerre et les profils
expriments manquent lappel.
En attendant de trouver la perle rare, les
entreprises patientent en faisant monter
en comptences leurs propres quipes,

La ncessit de disposer en interne de


comptences techniques assez pousses se fait de plus en plus prgnante
28

dclaraient avoir augment et enrichi leur


offre de formation en business intelligence.
Au-del, ce sont les entreprises des
fournisseurs qui prennent le relais en
mettant en place des sminaires de formation et des initiatives de type universit en ligne .

Limpact du Big data


sur lorganisation de
lentreprise
Au-del de la mise disposition doutils et de
ressources humaines et financires, le Big
Data soulve logiquement une problmatique dorganisation au sein de la structure
qui choisit de limplmenter : en effet, puisque
le Big Data est cens prendre en compte des
donnes rparties dans plusieurs services de
lentreprise et mettre en place des processus
dcisionnels transverses, il implique forcment une approche globale mettant la donne au centre des attentions.
notamment sur des mtiers comme le data
mining qui prsentent dj certaines caractristiques proches de la data science.

Les offres de formation en France


Afin de pallier le dficit de profils data
scientist disponibles, les organismes de
formation et les tablissements universitaires ont lanc des programmes intgralement ddis au Big Data, ou envisagent
de le faire : cest le cas de Tlcom ParisTech ou lENSAI mais galement dorganismes privs qui font voluer leurs offres
de formation sur le segment dcisionnel.
Ces dernires sont bien souvent sectorielles ou orientes Hadoop mais elles ont
lavantage de permettre aux professionnels en poste de se mettre niveau.
Quant aux parcours universitaires, ils rpondent gnralement la dichotomie informatique vs statistique : il est trs rare en
effet de trouver des masters runissant ces
deux domaines de formation (seul le Master
spcialis Big Data de Tlcom ParisTech,
1er du genre en Europe, le propose actuellement). Du coup, ce sont plutt les coles et
DUT de statistiques qui sont la manuvre :
on recense ainsi 70 spcialits de master en
statistiques luniversit mais aucun nest
pour linstant ddi au Big Data.
Selon ltude State of Business Intelligence
Survey ralise en 2013 pour Teradata, 41%
des professeurs duniversit interrogs

Panorama des
enseignements
dispenss au sein
du Master Gestion
et Analyse des
Donnes Massives
de Telecom Paristech















Lcosystme Big Data


Bases de Donnes et Bases
de Donnes Avances
Donnes personnelles
SI Dcisionnels et Gestion
de la Relation Client
Ingnierie du web
Transport et routage dans
linternet
Machine-Learning
Visualisation
Apprentissage Statistique
en ligne et distribu
Systmes Rpartis
Scurit des systmes
dinformation
(source : site internet du Master)
29

Selon Gartner,
seules 31% des
entreprises estiment
pouvoir lancer des
projets Big Data en
faisant appel leur
personnel existant
La ncessaire communication
entre les mtiers
Plusieurs dpartements sont ainsi
concerns : les mtiers IT, les mtiers
de la statistique et de la BI, et bien sr
les mtiers oprationnels, ceux qui disposent des donnes et qui cherchent
les mettre profit.
Pour toutes ces entits, le Big Data bouleverse lordre tabli dans la mesure o il
invite davantage de synergies entre les
mtiers afin de faciliter le traitement et
la communication des donnes : les services supports doivent en effet travailler
main dans la main avec les dpartements
business pour viter un aller-retour chronophage de linformation ainsi que des
lourdeurs technologiques. Les quipes
business sont donc de plus en plus impliques dans le traitement et lanalyse de
leurs propres donnes (do limportance
de leur monte en comptences) ce qui
modifie galement le rapport la dcision : en effet, par leur rapport direct et
immdiat aux donnes, les agents oprationnels disposent dun avantage comparatif indispensable qui leur confre une
position particulire dans la data-centric organization . Contrairement une
approche top-to-bottom, lentreprise en
mode Big Data fait ainsi de la remonte des
informations une cl de sa croissance.
Quant aux dpartements IT, leur rle sera
particulirement mis en avant lors de
limplmentation des outils et lors des premires exprimentations avec les quipes
mtiers ; au fur et mesure de la courbe
dapprentissage, ils pourront peu peu se
recentrer sur une mission de support et de
dveloppement, laissant aux quipes danalystes le soin de rcuprer les donnes.
Enfin les profils BI et statistiques pourront
tre soumis plusieurs types dorganisa-

tion en fonction de leur proximit avec


les mtiers : dans le cas dune centralisation de leurs comptences, ils seront
amens rcuprer les donnes issues
des services oprationnels afin de les
traiter en lien avec ceux-ci. Mais on
peut galement imaginer une intgration de ces profils directement au sein
des quipes mtiers afin de raccourcir le
cycle de dcision.

Plusieurs types de data-driven


organization
En cho cette pluralit dorganisations pour les mtiers dcisionnels, on
remarque que les entreprises pionnires
ont adopt plusieurs schmas mettant
en avant leurs donnes.

Loption dcentralise , savoir la mise en place du Big Data mtier


par mtier ou service par service
(souvent au fur et mesure, en fonction
de limportance relative des donnes
pour les diffrents dpartements) : dans
ce schma, le dpartement mtier (ex : le
marketing) intgre les outils en son sein
avec lappui de la DSI. Les analystes mtiers sont mis profit au cur de la division pour lexploitation des donnes, ce
qui rclame une monte en comptences
(cf + haut). Dans le cas o lentreprise dispose dun dpartement BI ddi, celui-ci
est amen servir de support pour les
projets mens, ou peut tre clat dans
les diffrentes directions oprationnelles.

Loption centralise , savoir


la constitution dune direction ddie au
Big Data au cur de lentreprise, afin de
centraliser toutes les donnes et deffectuer le traitement et lexploitation pour
le compte des entits oprationnelles.
Bien sr, ce type de structure fonctionne
galement en synergie avec dautres
services (les mtiers bien sr, mais galement lIT) mais elle prsente le grand
avantage de runir en autonomie des
professionnels du Big Data qui pourront
ainsi impulser le mouvement datacentric et proposer des projets transversaux (ex : mutualiser les donnes de
plusieurs services).
Enfin, loption la plus utilise actuellement est certainement loption
de la sous-traitance : confier une
entreprise spcialise dans le Big Data
la gestion des donnes et les analyses
conjointes. Cette option qui a le mrite
de la souplesse et qui permet denrichir lexploitation des donnes par une
expertise extrieure (ainsi que par des
donnes externes) pose toutefois la

La question de lorganisation-type na
pas encore t tranche
question de la rapidit du cycle de dcision, les allers-retours avec les quipes
oprationnelles tant moins intgrs.
On le voit, la question de lorganisationtype na pas encore t tranche, essentiellement parce que les entreprises
nont pas toutes les mmes besoins et
nutilisent pas les donnes de la mme
faon Cest la raison pour laquelle une
rflexion stratgique doit prcder tout
achat doutils Big Data ou toute mise en
place htive car les entreprises doivent
avant tout faire linventaire de leurs besoins et de leurs ressources. Cest dailleurs une des principales prconisations
des cabinets de conseil qui agissent en
ce sens auprs des entreprises pour
dessiner des organisations censes ragir efficacement et de faon oprationnelle la problmatique du Big Data.

dintention en France : on ne recense


pas encore de CDO franais, et, actuellement, ce sont plutt les DSI qui assument
le relais auprs de la direction. Mais, aux
Etats-Unis, les exemples se multiplient,
essentiellement dans ladministration
(villes de Chicago, San Francisco, NYC,
US Army, Federal Reserve, etc.), ce qui
a conduit un cabinet de conseil, Russell
Reynolds Associates, prdire la cration dun tel poste pour la moiti des
firmes du classement Fortune 500 dici
2015

Le Chief Data Officer


La rorganisation de lentreprise autour
des donnes pose ncessairement la
question de la structuration de la prise
de dcision et des remontes hirarchiques auprs des instances dirigeantes
: en effet, lutilisation de la donne, pour
tre efficace, doit sinviter jusquau Comit de Direction des entreprises !
Mais pour cela, il manque encore actuellement des porte-parole identifiables
dont la fonction serait dorienter les dcisions globales de lentreprise en fonction des donnes traites. Ce dficit de
personne ou plutt de fonction a vite t
palli par la cration dun nouveau personnage au cur de lentreprise : celui
de Chief Data Officer.
Au mme titre que le CTO ou le CIO, le
CDO serait donc un responsable excutif pour les donnes de lentreprise, qui
sefforcerait dappuyer les dcisions du
CODIR sur les donnes. Il chapeauterait donc toute lorganisation ddie aux
donnes, quelle soit centralise ou non.
Pour linstant, ce rle est rest ltat

Mark Headd,
CDO de
la ville de
Philadelphie

Lutilisation de la donne, pour tre


efficace, doit sinviter jusquau Comit
de Direction des entreprises
30

Interview
Jacques Froissant
Prsident, Altade

Les offres demploi lies au Big Data ont


doubl dans les six derniers mois
1) On parle beaucoup de la
fonction de data scientist
en lien avec lmergence du Big
Data. Comment dfiniriez-vous
ce nouveau poste ?
Pour moi, il ny a pas une mais deux
fonctions autour de la data : 1) une fonction technique, scientifique, appele
data scientist qui correspond une
culture ingnieur statistique et informatique, et qui soccupe de rcuprer
les donnes, de les structurer et de les
produire, 2) puis une fonction davantage
business appele data analyst qui
exploite ces donnes afin daboutir des
prconisations business. Gnralement,
ce deuxime profil provient dcole de
management ou de formations en marketing. On le retrouve beaucoup dans le
secteur du e-commerce o les budgets et
prconisations en matire dacquisition
client ont une importance stratgique.

2) Les deux fonctions sont-elles


complmentaires ?
Faut-il embaucher les deux ?
Cela dpend beaucoup de la taille de lentreprise : souvent les petites entreprises
vont dabord se doter dun data analyst, car
la problmatique web correspond des
enjeux business immdiats. Mais ds que
lon monte en taille, on rencontre de plus
en plus de data scientist. Dans les grandes
entreprises, dans le retail ou en banque, ils
sont de plus en plus prsents. La demande
a beaucoup augment pour ces postes-l :
si vous regardez les offres demploi lies
au Big Data sur les moteurs de recherche,
vous constaterez quelles ont doubl dans
les 6 derniers mois.

rapidement. Cest srement pour le data


scientist que le dcalage est le plus fort
ils sont trs sollicits.
Cependant, en France, on recense 17 formations professionnelles et universitaires
qui proposent des programmes en lien
avec ces fonctions. Jai confiance dans le
fait que ces efforts porteront leurs fruits
rapidement : la France est plutt bien arme pour combler le foss entre offre et
demande sur ces comptences-l.

4) Autre sujet actuel : on parle


de plus en plus dapplication Big
Data dans les RH (recrutement,
gestion de la paie). En connaissez-vous quelques-unes ?
Effectivement, il y a de plus en plus
dinitiatives RH lies au Big Data. Par
exemple, sur le recrutement, lentreprise
amricaine Evolv a dcid dexploiter les
donnes dune entreprise de plus de 20
000 employs pour tenter de mettre en
avant des facteurs de performance. Ils
se sont ainsi rendus compte que : 1) il ny
avait aucune corrlation entre le CV et la
performance, 2) les personnes actives
sur les rseaux sociaux taient souvent
les plus performantes et les plus fidles
lentreprise assez surprenant non ?

Linkedin est galement assez en avance


sur ces questions-l : ils travaillent en
permanence sur les donnes de leurs
membres et permettent aux entreprises
de cibler beaucoup plus finement les
candidats et prospects qui leur semblent
correspondre leur activit.

5) Pensez-vous que les


entreprises seront effectivement
amenes gnraliser ce type
dapproche dans les annes venir ?
Oui, je pense quon y viendra, notamment
pour le management On peut trs bien
imaginer quun DRH analyse les donnes
issues des changes de ses employs (sur
les rseaux sociaux, sur internet ou en
interne) pour mesurer lambiance, comprendre les attentes, les inquitudes et
tre capable dintervenir en amont. Ce sera
beaucoup plus efficace que des enqutes
annuelles de satisfaction !
Mais les RH restent encore mfiants par
rapport ce type de technologies : cest
dailleurs souvent la dernire fonction acqurir et intgrer les outils les plus rcents.
Aprs, on peut comprendre les inquitudes si lon se rfre certaines applications : le grand risque du Big Data
appliqu la RH, cest quun profil type
de performance soit dfini partir de ces
donnes, et que lentreprise nembauche
plus quen fonction de ce modle. Ce
serait catastrophique pour la diversit et
la capacit dinnovation de lentreprise !

La France est plutt bien arme pour


combler le foss entre offre et demande
sur ces comptences-l.

3) Justement, pensez-vous quil y


ait un dcalage entre la demande
et loffre ? Ya-t-il un manque de
profils disponibles pour rpondre
aux besoins des entreprises ? Et
comment y remdier ?
Il est effectivement difficile de trouver
les deux types de profils, car la demande
pour ces deux fonctions a explos trs
Capture dcran du site dEvolv

Les pouvoirs publics


face au Big Data
Par son ampleur et par ses nombreuses promesses, le Big Data a
rapidement attir lattention des
pouvoirs publics : ils y ont vu un
potentiel de croissance important pour la filire numrique
en France mais galement des
menaces thiques fortes sur le
citoyen, concernant la confidentialit des donnes notamment.
Cependant, bien avant ces problmatiques, lunivers public tait
prsent dans lcosystme Big
Data travers un phnomne antrieur qui connat aujourdhui un
dveloppement corollaire au Big
Data : lOpen Data.

LOpen Data
LOpen Data est un mouvement amorc au
milieu des annes 2000 visant transmettre au grand public les donnes
numriques dtenues par les administrations publiques, dans un but de
transparence et defficacit de laction
publique.
En effet, de nombreuses informations
dmographiques, conomiques, sociales
pouvaient revtir un caractre stratgique pour les organisations prives et
le grand public (ex : rgularit des transports publics, temps dattente dans les
services publics, niveau de rmunration dans une zone gographique donne, affluence des zones touristiques,
etc.) et les rendre accessibles, libres
de droits, constituait donc une avance
conomique autant que citoyenne (linstitution publique se trouvant ainsi engage
vis--vis de ses administrs corriger les
imperfections souleves par ces donnes).
Dvelopp dans les administrations
europennes et nord-amricaines, ce
mouvement a dsormais gagn les organisations prives qui peuvent choisir
de mettre disposition du public et de
partenaires les donnes quelles tirent
de leur activit et qui concernent la collectivit.
A lheure du Big Data o les donnes
prennent une importance centrale dans
le dcisionnel de lentreprise, ces informations vhicules par lOpen Data
et croises avec les donnes internes,
constituent donc un nouvel outil prcieux
pour nourrir la vision stratgique de

Les

lentreprise. En 2006, un rapport financ


par la Commission Europenne tablissait ainsi que le march li lutilisation
de ces donnes Open Data reprsentait
27 milliards deuros. Allies aux technologies mobiles, ces donnes sont galement un vecteur dinnovation important,
permettant la cration de nouveaux services (ex : conseils golocaliss dans le
secteur du tourisme, renseignements
voyageurs dans le domaine des transports, etc.).
LOpen data sest donc impos en
quelques annes comme un secteur en
croissance, attirant de nombreuses startups dont la mission est de traiter, trier
et analyser ces donnes destination
des entreprises et des collectivits. En
France, cest le portail data.gouv.fr, chapeaut par Etalab, qui met disposition
du public les donnes du gouvernement
sous lautorit du Premier Ministre.

chiffres
du

financement
public pour

Big
Data

le

> USA
200 millions de $
> Union Europenne
81 millions d
> France
11,5 millions d

Soutenir le dcollage du march :


les investissements
publics dans le
domaine du Big Data
Le dynamisme port par le Big Data et
lclosion de nombreuses start ups en
lien avec ce sujet ont rapidement int-

27
milliards
d

> Cest le potentiel de

march de lOpen Data


(chiffre de 2006)
32

ress les pouvoirs publics qui ont propos des mesures de financement et
daccompagnement pour soutenir le
dcollage du march. Aux Etats-Unis,
le programme The Big Data Research
and Development initiative avait ainsi
t lanc au printemps 2012 pour soutenir les programmes de recherche sur
les technologies de traitement de grande
chelle : 200 millions de dollars ont t
mis disposition des grandes agences
fdrales dans la Sant, lEnergie ou la
Dfense pour trouver des applications
sectorielles immdiates. En Europe, la
Commission Europenne sest galement empare du sujet en lanant des
appels projets : le premier dbut 2012
concernant le Management de linformation intelligente (50millions deuros), le second en 2013 intitul Scalable
data analytics (31millions deuros).
Elle fait du Big Data un de ses principaux
sujets dtude : un programme de travail
sur le Big Data et la Smart Data est ainsi
prvu pour 2014 et 2015.
La France, quant elle, a commenc
sintresser au sujet en mars 2012 avec
le lancement dun premier appel projets et linscription du Big Data dans le
programme des Investissements dAvenir au sein de la section consacre

lconomie numrique. Cet appel projets a permis de slectionner 7 projets


pour un total de 11,5 millions deuros
attribus au Big Data en avril 2013, et
4 projets restent encore ltude. Pour
lheure, la ministre charge de lEconomie Numrique, Fleur Pellerin, a annonc en janvier 2013 la cration dune
filire Big Data, capable dattirer les investissements trangers, suivie de lannonce dun plan de soutien en juin 2013.
Ce plan visera construire un cosystme du Big Data, fournir la formation
ncessaire aux jeunes data scientists et
promouvoir les start ups prometteuses
de la filire. Ce plan, salu par lAFDEL
(lassociation franaise des diteurs de
logiciels), sinscrit dans le projet plus
global de cration dune Silicon Valley
la franaise, appel Paris Capitale Numrique.

La problmatique de confidentialit des


donnes
Lune des questions centrales souleves par le Big Data est probablement celle
de la protection des donnes personnelles : en effet, lutilisation massive de donnes des fins doptimisation ou de ciblage marketing renforce la crainte dj
prgnante dune surveillance et dune manipulation automatises du citoyen :
golocalisation, suivi des historiques sur Internet, personnalisation non consentie
des offres, etc. sont autant dincarnations du phnomne Big Data qui peuvent
tre perues comme des menaces pour la vie prive des consommateurs finaux.
Cette inquitude, dont la rcente affaire sur le programme amricain PRISM sest
fait lcho, pourrait galement savrer nfaste conomiquement puisquune rupture de confiance du consommateur vis--vis du fournisseur entranerait automatiquement un retour en arrire dans le partage des donnes et donc, terme, un
recul du Big Data et de ses promesses.
Pour toutes ces raisons, les autorits de rgulation se sont penches sur la question,
reprenant leurs lgislations en matire de protection des donnes personnelles afin de
les adapter au Big Data : en France, cest la loi Informatique et Liberts du 6 janvier 1978,
actualise plusieurs fois dans les annes 2000, qui fait office de socle lgislatif. Dans le
droit actuel franais, la protection dune donne personnelle* est garantie par 5 critres :

la finalit de lutilisation : on garde une donne pour une utilisation


dtermine lavance.
la pertinence : les donnes exploites doivent tre pertinentes au regard
de lobjectif avanc.
la conservation limite (eq Droit lOubli ) : les donnes ne
peuvent tre conserves indfiniment dans un serveur. La dure de
conservation est tablie en cohrence avec lobjectif dutilisation.
la scurit et la confidentialit : le responsable des donnes doit
assurer la scurit de celles-ci.

Fleur Pellerin
a annonc
en janvier 2013
la cration dune

le respect des droits des personnes (loyaut et transparence) :


elles doivent avoir accs aux donnes, tre informes de leur utilisation et

filire Big Data

pouvoir sopposer.

capable dattirer
les investisse-

La ministre
charge de
lconomie
numrique,
Fleur Pellerin

is

big br
e
l
ot
i
m
he
S
r

ments trangers

hing you
c
t
!
wa

*Selon la loi
constitue une donne caractre personnel
toute information relative une personne physique identifie ou qui peut tre identifie,
directement ou indirectement, par rfrence
un numro didentification ou un ou plusieurs
lments qui lui sont propres
33

Une rupture
La progression du Big Data interroge la
pertinence de ces critres car lexploitation automatique de donnes met
mal le principe de finalit, tout comme
la conservation dans le cloud conduit
des incertitudes en matire de scurit.
Lexercice du droit des personnes est,
quant lui, trs largement bafou, les
internautes ntant souvent pas informs de la rcupration de leurs donnes
de navigation.
La Commission Europenne sest donc
empare du sujet, par lentremise de la
Commissaire Viviane Reding en charge
de la Justice et des Droits Fondamentaux, qui proposait en janvier 2012 un
projet de rglement unifiant les rgimes
de protection des donnes europens
et renforant les droits des personnes
ainsi que la responsabilit des entreprises. Des outils lis au consentement
pralable des internautes (sur les cookies par exemple) ont t mis en place,
mais les discussions sur le projet de rglement restent vives, certains craignant
quun encadrement trop strict freine
linnovation et creuse un dcalage avec
les Etats-Unis, beaucoup moins contraignants sur lexploitation des donnes.
Aprs un an et demi de dbats, le projet de rglement a finalement t retoqu en juin 2013 par les ministres de la
Justice des Etats Membres, mais Viviane
Reding a dores et dj annonc quelle
comptait obtenir un accord sur le projet
en 2014. Une runion entre ministres de
la Justice sest tenue Vilnius en juillet
2013, ouvrant la porte un accord en 2014.

En France, la ministre Fleur Pellerin a


renouvel en 2013 son souhait de prsenter un projet de loi relatif la protection des donnes personnelles au premier semestre 2014 mais lampleur du
projet reste floue.
Le dbat reste donc encore largement
ouvert sur les mesures adopter pour
garantir la fois le dynamisme conomique et la protection des citoyens.
Beaucoup danalystes sinquitent du
retard que pourrait prendre lEurope
par rapport aux Etats-Unis et lAsie
craignant une fuite des donnes vers ces
zones gographiques et donc, terme,
une perte de souverainet (les donnes
constituant dsormais une matire premire stratgique).
A ce titre les rcents vnements sur le
programme PRISM ont raviv les dbats
sur ce dossier, rendant la question de la
protection des donnes encore plus stratgique dans le contexte actuel dexplosion de lunivers numrique et dindustrialisation du Big Data.

de confiance du
consommateur
vis--vis du
fournisseur
entranerait
automatiquement
un retour en
arrire

2012

Appel projets Management


de lInformation Intelligente
Proposition de rglement
europen sur les donnes
personnelles
Lancement du programme
The Big Data Research and
Development Initiative
Inscription du Big Data dans
les Investissements dAvenir

La Commissaire Viviane
Reding annonce son projet de
rglement sur la protection
des donnes en janvier 2012

2013

Lancement de lappel projets


Scalable data analytics
Annonce de la cration dune
filire Big Data par la ministre
Fleur Pellerin
Slection de 7 projets Big Data
au titre des Investissements
dAvenir
Annonce dun plan de soutien
la filire du Big Data
Le projet de rglement sur
les donnes personnelles est
retoqu
Runion de Vilnius ouvrant le
champ un accord sur le projet
de rglement en 2014

34

Interview
Thierry Dor

Associ au cabinet Gide Loyrette Nouel

La France a toujours su faire entendre sa voix sur la scne europenne


en matire de protection des donnes personnelles
1) Pour vous, en quoi le Big Data
a-t-il chang la donne dans la
protection des donnes
personnelles ? Pourquoi remet-il
en cause larsenal lgislatif actuel ?
En matire de protection des donnes
personnelles, au-del des questions
classiques qui sont exacerbes par le
volume et la varit des donnes traites
par le Big Data, ce qui change vraiment,
cest lapplication du principe de finalit.
En effet, lune des particularits du Big
Data est la remise en cause de lapproche
scientifique classique consistant devoir
poser une hypothse de travail pour ensuite collecter et traiter des donnes destines valider ou invalider cette hypothse. Avec le Big Data, il est dsormais
possible, compte tenu des capacits de
traitement, doprer sans hypothse de
travail pralable. En dautres termes, mener des recherches sans savoir lavance
ce que lon va pouvoir trouver.
Dans un tel contexte, il est difficile de
respecter le principe central pos par la
loi du 6 janvier 1978 selon lequel (les
donnes) sont collectes pour des finalits dtermines, explicites et lgitimes
et ne sont pas traites ultrieurement de
manire incompatible avec ces finalits.
De mme, il est difficile de respecter les
autres dispositions de cette loi qui font directement rfrence au principe de finalit:
- lobligation de ne collecter que des
donnes adquates, pertinentes et nonexcessives au regard des finalits,
- ou encore, en ce qui concerne la dure
de conservation des donnes, lobligation de ne pas excder la seule priode
ncessaire aux finalits pour lesquelles
elles sont collectes.

2) La France a-t-elle une position


particulire sur la question par
rapport ses collgues europens ?
Comment dfiniriez-vous cette
position ? Et, plus globalement,
quels sont les principales
diffrences lgislatives entre les
Etats-Unis et lEurope concernant
la protection des donnes ?
La France a toujours su faire entendre sa
voix sur la scne europenne en matire
de protection des donnes personnelles.
Elle est particulirement active dans le
cadre des ngociations qui devraient
mener ladoption du rglement europen en matire de donnes personnelles : la CNIL, la Ministre de la Justice, le Snat et lAssemble Nationale
contribuent au dbat public. Toutefois, la
France ne fait pas bande part parmi les
Etats Membres et elle partage lopinion
majoritaire.
Concernant les principales diffrences
entre les Etats-Unis et lEurope, il faut
tout dabord rappeler qu la diffrence
de lUnion Europenne, il nexiste pas de
loi gnrale en matire de protection des
donnes personnelles aux Etats-Unis,
mme si des rglementations sectorielles trs strictes peuvent exister dans
le domaine des informations financires
ou de la sant. Par ailleurs, laffaire
PRISM nous rappelle que des textes
amricains comme le USA Patriot Act
(2001), le Protect America Act (2007)
ou le Foreign Surveillance Intelligence
Act (2008) permettent une trs grande
intrusion dans la sphre prive par rapport ce qui est autoris en Europe. Les
autorits amricaines peuvent notamment obtenir les donnes traites par
toute entreprise prsente aux Etats Unis,
y compris les donnes qui concerneraient des ressortissants trangers, avec
une facilit qui dconcerte et effraye en
Europe. Il tait question, en 2012, dun
texte permettant dtendre laccs des
autorits amricaines aux donnes si35

tues en dehors du territoire amricain,


dans le but de lutter contre la cyber-criminalit et le terrorisme. Il sagissait du
Cyber Intelligence Sharing and Protection Act. Bien que ce texte nait finalement pas t adopt, un nouveau projet,
trs similaire serait en prparation.

3) Comment voyez-vous lvolution


des discussions sur le projet de
rglement europen relatif aux
donnes personnelles ? Quelles
sont les orientations qui se
dessinent pour ce texte ? Le rejet
de ce texte en juin dernier a-t-il
mis en pril les discussions ?
Linstruction du projet de rglement
europen, prsent par Viviane Reding
dbut 2012, est toujours en cours et peut
encore rserver des surprises, nanmoins les ngociateurs se montrent
persvrants dans la recherche dun
consensus.
La rencontre informelle de Vilnius, qui a
runi les ministres europens de la Justice le 19 juillet dernier, affiche un bilan
positif. Ladoption du rglement nest
pas envisage avant dbut 2014, mais
le dossier a bien avanc. Les ministres
franais et allemand, notamment, ont
manifest leur soutien ce projet.
Par ailleurs, il faut prendre en considration les impacts de laffaire PRISM sur
lavance des discussions. Les dbats
sont aujourdhui anims par les rvlations de M. Edward Snowden, qui avait
dvoil lexistence de ce programme
amricain collectant des donnes personnelles dindividus hors des EtatsUnis. Selon Viviane Reding PRISM a
rveill les Europens sur la ncessit
davoir des rgles fortes et strictes.
Voil de quoi motiver ceux qui prnent
ladoption du rglement dans les meilleurs dlais.

Les donnes sont des lments cls.


condition de savoir les interprter.
Nous aidons nos clients utiliser
lanalyse pour transformer les donnes
en ide, lide en action et laction en
rsultats concrets. High performance.
Delivered.*

2013 Accenture. Tous droits rservs.


* La haute performance. Ralise.
** Analyser. Ralis.

Moins de suppositions.
Plus de certitudes.
Analytics. Delivered.**

Accenture
Coordonnes
ACCENTURE
118 avenue de France
75636 Paris Cedex 13
Tl : +33 (0) 1 53 23 55 55
Fax : +33 (0) 1 53 23 53 23
Mail : xavier.cimino@accenture.com

Contact
Xavier
CIMINO
Responsable Accenture Interactive
Digital & Analytics

Les BIG DATA, une opportunit particulirement lucrative, facteur de


diffrenciation comptitive
Dans un monde en perptuelle volution et acclration, des donnes de plus en plus volumineuses, riches et varies les fameuses BIG DATA reprsentent un atout majeur pour
les entreprises, condition de savoir les capter, les raffiner, les combiner et les analyser.
Ce formidable vivier de nouvelles informations permet non seulement de mieux rpondre
aux attentes des clients mais surtout didentifier de nouveaux axes stratgiques ainsi que
de capter dautres marchs.
Grce la rduction des cots de stockage et aux dveloppements de nouvelles techniques
de gestion de la donne, ce monde de lexploration et de linterprtation, autrefois plus
rserv des spcialistes, souvre prsent toute entreprise brassant un grand volume
de donnes.
De la stratgie la mise en uvre, Accenture vous accompagne dans le dveloppement
de capacits analytiques et prdictives ncessaires la prise de dcision et au pilotage de
votre activit.
Accenture vous aide galement adresser les nouveaux dfis technologiques des BIG DATA,
notamment :
grer des plates-formes de donnes non structures de grande capacit ;
faire face aux nouvelles demandes pesant sur les infrastructures rseau ;
accueillir un grand nombre de serveurs standards au sein des centres de donnes ;
dployer des capacits de stockage de plusieurs ptaoctets ;
exploiter ces prcieuses donnes ;
dvelopper et mettre en place une gouvernance adapte la complexit et lhtrognit
des donnes ;
intgrer le traitement de donnes non structures dans les organisations et les processus existants.

Notre offre de services Accenture Analytics, vous permet de disposer :

Des meilleurs professionnels. Notre rseau mondial de professionnels offre un accs


une combinaison de comptences analytiques approfondies, de connaissances mtier et
dexprience des processus.
Dune offre prouve. Grce notre longue exprience, notre offre de services couvre
plus de 100 secteurs dactivit individuels ou croiss et de services fonctionnels, plus de
200 pratiques et normes sectorielles cls, des outils de dveloppement automatiss et
des composantes structurelles rutilisables.
Des services de recherche et dveloppement ingals. Les outils et les services analytiques
dAccenture constituent laboutissement dun long historique dinnovation dans la gestion des data.
Dalliances stratgiques. Bien que nous ne privilgions aucun prestataire spcifique,
nous avons form un rseau de partenaires stratgiques avec lesquels nous nous associons
ventuellement lors de la mise en uvre de nos projets, notamment SAS, SAP, Oracle et Microsoft.
Dune envergure mondiale. Grce notre rseau mondial de centres ddis lanalytique,
nous modlisons automatiquement nos processus analytiques dans un souci de constante
amlioration. Nous gnrons ainsi une source consquente de connaissances tires de
lanalyse des donnes.
En vous appuyant sur Accenture, vous aurez lassurance de maximiser lutilisation de vos
donnes et ainsi crer plus rapidement davantage de valeur.

A propos dAccenture

Accenture est une entreprise internationale de conseil en management, technologies et


externalisation. Combinant son exprience et ses capacits de recherche et dinnovation
dveloppes et mises en uvre auprs des plus grandes organisations du monde sur lensemble des mtiers et secteurs dactivit, Accenture aide ses clients - entreprises et administrations - renforcer leur performance. Avec plus de 266 000 employs intervenant dans
plus de 120 pays, Accenture a gnr un chiffre daffaires de 27,9 milliards de dollars au
cours de lanne fiscale clture le 31 aot 2012.

(Responsable technologique des offres Business Intelligence, Big Data & Analytics : Laurent Gaultier)

www.accenture.com

37

Dbloquez le potentiel
de vos Big Data !
Trouvez enfin un moyen efficace et facile danalyser lensemble de vos donnes
Les informations disponibles sur votre activit et votre clientle prennent des formes de plus en plus varies avec
lvolution des technologies de communication et de stockage des donnes. Elles offrent de nouvelles possibilits
et lide de les exploiter est sduisante. Mais comment faire pour que cela reste facile et accessible ?

Il existe dsormais des solutions simples et rentables


Avec son module de Data Mining intuitif, Actuate the BIRT Company donne aux experts march et mtier le
pouvoir danalyser directement leurs Big Data sans laide dun Data Scientist. Plus ractive et avec une meilleure
connaissance de son activit, votre entreprise en devient plus comptitive. Nos clients utilisent BIRT Analytics pour :

Dtecter des opportunits croises

Prdire des volutions

Dcouvrir des modles de comportement

Grouper et croiser des populations

Le Data Mining nest plus dvolu quaux Data Scientists


Analysez des donnes brutes la vole grce notre module
de Data Mining rapide et intuitif

Dcouvrez BIRT Analytics sur www.actuate.fr

Actuate
Coordonnes
Actuate International
Corporation
57 rue de Chteaudun
75009 Paris

Tl : +33 (0) 1 76 21 56 50
Fax : +33 (0) 1 76 21 56 56
Mail : fr_contact@actuate.com

Contact
Magali
CARIO
Marketing Campaigns Manager
Southern Europe

Actuate - The BIRT Company

Actuate a fond et codirige le projet Open Source BIRT, qui est utilis par plus de 2,5 millions de dveloppeurs travers le monde et sert de socle la suite commerciale propose
par Actuate. Pouvant tre facilement dployes auprs de millions dutilisateurs, les applications construites avec BIRT offrent une meilleure vision mtier ainsi quune comprhension approfondie des comportements des clients. Actuate aide ainsi les entreprises tirer
pleinement parti des Big Data et de lessor des appareils tactiles.
Les solutions BIRT dActuate facilitent le dveloppement dapplications personnalises de
business analytics et de communication client bases sur BIRT. Les applications construites
avec le format unique de design BIRT peuvent accder et intgrer tous types de donnes,
y compris les donnes non structures. Elles assurent une exprience utilisateur ergonomique et homogne, quel que soit le niveau de connaissances techniques, et sont supportes pour tous les dploiements, quils soient sur site, Cloud, hybrides, web ou mobiles.
Actuate, cote au NASDAQ sous le symbole BIRT, compte plus de 5 000 clients travers le
monde dans divers secteurs dactivit, dont les services financiers, les technologies et le
secteur public. Son sige social est bas dans la Silicon Valley.

BIRT Analytics, le Data Mining et lAnalyse prdictive intuitifs

BIRT Analytics, la solution Actuate permettant lexploration de donnes graphique et


lanalyse prdictive, permet de mettre en place une analyse rapide partir de nimporte
quelle source de donnes sans besoin de connaissances techniques et statistiques spcifiques.
BIRT Analytics procure aux analystes et aux oprationnels des fonctionnalits avances
pour prendre des dcisions plus avises et opportunes lre des Big Data. La solution allie
la facilit dutilisation et la flexibilit des outils dexploration de donnes la puissance statistique et algorithmique des outils danalyse avance, gnralement rservs aux experts IT.
BIRT Analytics donne la possibilit aux analystes mtiers de
dcouvrir par eux-mmes des corrlations et de prvoir des
comportements et des rsultats par le biais de techniques
telles que la segmentation client, la prochaine meilleure
offre, le risque fournisseur ou la fidlisation client.
Au-del de lanalyse des donnes, BIRT Analytics offre galement la possibilit de concevoir des campagnes et den prdire
les retombes pour une amlioration constante des rsultats
oprationnels.
Avec BIRT Analytics, nous proposons le meilleur de lunivers
analytique , dclare Nobby Akiha, senior vice-prsident du
Marketing chez Actuate. Les analystes mtier nont plus se
contenter danalyses prdictives sommaires et profitent de la
puissance analytique des outils statistiques traditionnels dans
un produit visuel, facile utiliser, qui analyse tous les types et
toutes les tailles de donnes. Et mme le Big Data ajoute-t-il.
Grce BIRT Analytics, les analystes mtiers qui doivent traiter
des milliards de donnes disposent dune solution puissante et
simple dutilisation pour effectuer des prdictions sans avoir
coder.
Combin aux autres modules de la suite de produits bass
sur BIRT, BIRT Analytics fait le lien entre la gestion mtier
oriente donnes interne et externe, et vous permet de remplir votre mission daujourdhui,
cest--dire grer et dcider en vous fondant sur les donnes pour gagner un avantage
concurrentiel conclut Nobby Akiha.

www.actuate.fr

39

DISPOSEZ DES MMES ATOUTS QUE LES


LEADERS DU WEB
Affini-Tech met en oeuvre pour vous des briques technologiques packages
permettant de raliser trs rapidement des retours sur investissements importants.
Ces briques vous permettent dlargir le paysage des donnes que vous utilisez
dans vos analyses et de bnficier de toute la performance des algorithmes de
Machine Learning. Lide maitresse de ces outils est de transposer toute activit
(online ou traditionnelle) les recettes qui ont fait le succs des leaders de lconomie
numrique.
Hybridation de donnes

Moteur de Recommandation

Les donnes de votre organisation sont


80% lies des dates ou des lieux
gographiques. Accdez de potentielles
liaisons fortes de vos informations des
donnes complmentaires, pour par
exemple cibler plus finement vos clients.

Qui na jamais t frapp par les grands


sites eCommerce vous proposant dacheter
les produits que dautres consommateurs
semblables vous ont achet ? Ce levier
d'action peut tre mis au profit de votre
business simplement et rapidement.

Avec les technologies de moteur de recommandations d'Afni-Tech, tirez parti des


informations que vous possdez sur vos clients pour mettre en oeuvre des stratgies
de recommandations et de personnalisation de vos relations, et ainsi amliorer la
performance de vos business.

Afni-Tech SARL
11avenue Henri IV, 92190 Meudon
!
Tl : ! +33 (0) 6 61 88 76 71
Fax : ! +33 (0) 9 58 12 97 98
Mail : ! contact@afni-tech.com
Web : ! www.afni-tech.com

Affini-Tech
Coordonnes
Affini-Tech SARL
11 avenue Henri IV
92190 Meudon
Tl : +33 (0) 6 61 88 76 71
Fax : +33 (0) 9 58 12 97 98
Mail : vhe@affini-tech.com

Contact
Vincent
Heuschling
Fondateur

Les outils, les pratiques du Big Data sadressent toutes les organisations, quelles que soient leurs tailles.
Affini-Tech, acteur franais du Big Data, le dmontre tous les jours chez des clients de tous
secteurs dactivit. Si le Big Data est n et a grandi chez les gants du Net, cest aujourdhui
dans les industries traditionnelles que les plus grands bnfices sont gnrs.
Le positionnement affirm et le savoir-faire dAffini-Tech est de mettre la porte de toute
entreprise, sur ses volumes de donnes, les apports du Big Data : Analyse de transactions,
Prdiction, Recommandation, Classification, Audit
Par une dmarche la conjonction entre les mtiers et llT, et par la dmonstration, lentreprise dcouvre de nouvelles opportunits pour des cots radicalement plus faibles. Le
retour sur investissement est obtenu en quelques semaines, et les cots sont maitriss.
Lutilisation de mthodes agiles permet de conserver tout moment des objectifs atteignables. Vous disposez tant du savoir faire dAffini-tech que de ses briques technologiques
prtes lemploi, dveloppes pour rpondre des besoins prcis. Affini-Tech vous permet
den comprendre les ressorts et dtre en possession dune RoadMap Big Data pour vos
acteurs cls internes.
Affini-tech ne vous accompagne pas uniquement par la technologie. Une dmarche auprs
des mtiers vous permet de bien plus grandes crations de valeur et de spectaculaires
diminutions de vos cots. Cest aussi grce la nouvelle capacit offerte par les plateformes Big Data traiter massivement de gros volumes de donnes quil devient possible,
moindres cots, de mettre en place des innovations. Le Big Data est abordable.

www.affini-tech.com

41

Bime Analytics
Coordonnes
BIME (We Are Cloud SAS)
1 place Francis Ponge
34 000 Montpellier

Leur Histoire Big Data avec BIME


Puiser au cur de linternet des objets dans le dsert Australien, cest ce que fait la socit
MovingData. Afin damliorer la performance mobile de ses clients Telco nationaux, elle
assure la qualit et la disponibilit des rseaux de tlphonie en dehors des grandes villes
australiennes grce des milliers de capteurs rpartis gographiquement.

Tl : +33 (0) 4 67 41 60 64
Fax : N/A
Mail : benoit@bimeanalytics.com

Contact
Benoit
Parra
Responsable Commercial France

500 Radius Records + Network Probes

Pour comprendre plusieurs millions dvnements gnrs sur ses rseaux :

Craig Morton
Ceo of MovingData

MovingData devait rpondre 2 besoins particuliers que seul BIME pouvait satisfaire : disposer doutils permettant une analyse interactive et visuelle rapide des incidences rseaux
et pouvoir communiquer ces analyses leurs clients Telco grce des tableaux de bord
collaboratifs, disponibles en ligne, en temps rel, sur des volumtries de donnes trs importantes stockes dans Google BigQuery.
Ce projet BigData a t ralis en moins de trois mois. Trois partenaires Cloud, distants
gographiquement, ont sans jamais se rencontrer pu lorchestrer : lAmricain Google pour
la base de donnes, le Franais BIME pour lanalyse et les tableaux de bord, lAustralien
MovingData pour les indicateurs mtiers et les process dalimentation de donnes.
Pensez vos projets BigData avec lagilit et la scalabilit du Cloud.

www.bimeanalytics.com

43

Une dcision repose-t-elle


sur une intuition ou des
donnes ?
Innovation
Exprimentation

Data Science
Scurit

Performance

Gouvernance de
linformation

Conformit
rglementaire

CGI Business Consulting, cabinet de conseil en


innovation et transformation, fait partie du Groupe CGI
inc. Ses consultants associent expertises sectorielles,
fonctionnelles et technologiques pour accompagner les
plus grandes entreprises et organisations. Parce que
chaque client est unique, CGI Business Consulting a
cr des mthodes de travail spcifiques permettant
chacun de prendre part au management de sa
transformation et garantissant une amlioration durable
de ses performances.

Coordonnes
CGI Business Consulting
17 place des Reflets
92 097 Paris La Dfense cedex
Contact
Frederic Brajon, Associ
T : +33 1 57 87 50 55
Email : frederic.brajon@cgi.com
Site web
www.cgi.com

CGI Business
Consulting
Coordonnes
CGI Business Consulting
17 place des Reflets
92 097 Paris La Dfense cedex
Tl : +33 (0) 1 57 87 50 55
Fax : N/A
Mail : frederic.brajon@cgi.com

Contact
Frederic
BRAJON
Associ

Big Data & Data Science

Mieux connatre ses clients, anticiper les changements structurels de son march, dtecter
les intentions dachat, de rsiliation, de fraude Telles sont quelques-unes des promesses
du big data.
Louverture croissante de linformation pose un vritable dfi de comptitivit aux grandes
entreprises : rendre leur offre lisible dans un catalogue chaque jour plus complexe et plus
confus.
Les entreprises qui sauront non seulement triompher de cette complexit, mais en tirer
profit en se positionnant comme dtenteurs dune information intelligible et consolide,
seront au centre de cette nouvelle conomie.
Quelle est la vritable valeur de linformation que mon entreprise dtient ? Quelle information reprsente un avantage comptitif potentiel ? Laquelle pourrait devenir un produit
ou un service potentiel ? Quelles synergies pourrions-nous trouver dans des gisements
dinformation externes ?
A lheure o une masse dinformation sans prcdent devient disponible, et o apparaissent
des dizaines doutils et de mthodes pour en tirer toute la valeur, une question essentielle
demeure :
Quels gains pouvons-nous ds aujourdhui tirer de cette rvolution encore naissante ?

Russir un projet de Big Data ncessite un ensemble de comptences


permettant daccompagner les entreprises sur diffrents axes :

Stratgique : Rconcilier les dcideurs avec la donne et faire de la matrise de linformation un enjeu stratgique (anticiper les bouleversements des cosystmes, analyser les
mouvements du march, rduire les cots, valoriser le patrimoine immatriel, )
Mtier : Analyser les leviers de performances, optimiser les processus (production,
ventes, fraude, positionnement),
Organisationnel : repenser la gouvernance, faire accoster un modle multi-informationnel (donnes, rfrences, indicateurs, donnes rglementaire, donnes externes), repenser
les accs et les stratgies darchivages, redistribuer les rles, adapter les politiques RH
Cration de valeur : combiner les expertises (informatique, mathmatique, business) au
travers dune approche de Data Science prouve pour rvler le potentiel de linformation
Pour rpondre ces enjeux, CGI Business Consulting, cabinet de conseil du groupe CGI a
cr une entit ddie au traitement et la valorisation de linformation : Digital Information Strategy
Ses consultants expriments sont votre disposition pour vous accompagner dans vos
projets de transformation

www.cgi.com

45

Club Dcision DSI


Coordonnes

Le Club Dcision DSI, premier club franais ddi aux directeurs informatiques

Club Dcision DSI


16 Place Vendme
75001 Paris
Tl : +33 (0) 1 53 45 28 65
Fax : N/A
Mail : club@decisiondsi.com

Aujourdhui le Club Dcision DSI runit 1 100 membres directeurs Informatique &
Tlcoms de socits du secteur priv et du secteur public dont le parc informatique
est suprieur 200 pc. Il rassemble des hommes et des femmes dexprience, anims par
la volont de mener des actions qui soutiennent dautres directeurs des systmes dinformation
(DSI) dans la ralisation de leurs projets professionnels.
Le club est administr par Vronique Daval, la prsidente, le vice-prsident, ainsi que par
un conseil central compos de neuf directeurs informatiques.

Contact
Vronique
DAVAL
Prsidente du Club

Chaque anne le club organise :

20 manifestations thmatiques par an.


7 vnements accessibles aux partenaires (diteurs de logiciels, constructeurs,
oprateurs tlcoms, SSII)
Les Rencontres de linnovation technologique
Le consortium du DSI
Les DSI Meeting (table rondes, dbats)
Le diner de Gala avec son village solutions (rserv aux membres et aux partenaires du club)
Le dner de gala annuel

HELP DSI , le 1er Rseau francophone de 1100 DSI connects

HELP DSI ce sont des DSI, des groupes de DSI et des communauts de DSI qui changent en
associant leurs ides, leur exprience et leurs connaissances Afin doptimiser leurs choix
technologiques.
Le club dispose de son propre rseau social (RSE) sur lequel de nombreuses thmatiques
sont abordes qui permettent aux membres de capitaliser sur lexprience des uns et des
autres. Les ambassadeurs de Club Dcision DSI ont adopt cette solution afin damliorer
la communication entre les membres, de crer des groupes de rflexion sur des thmatiques varies, et de diffuser les comptences travers le rseau des membres au niveau
national et europen.
Ce moteur dexprience permet aux socits adhrentes de se servir des retours dexprience des projets IT mis en place par les membres.
Chaque anne les ambassadeurs identifient des thmatiques auprs des membres et dfinissent un programme annuel consultable sur le site internet du Club :
www.club-decisiondsi.com

www.clubdecisiondsi.com

47

Data & Data Consulting


Coordonnes
Data & Data Consulting

Zouheir Guedri, Directeur de Data&Data Consulting

31 rue Saint-Lazare
75 009 Paris

1) Pouvez-vous nous prsenter Data&Data Consulting, ses origines et sa


spcificit sur le march ?

Tl : +33 (0) 6 22 35 14 20
Fax : N/A
Mail : zouheir.guedri@data-and-data.com

Contact
Zouheir
GUEDRI
Associ

Data&Data Consulting est une start up spcialise sur le Big Data, qui conseille les socits
dans la valorisation de leurs donnes : nous apportons la fois des recommandations en
terme de pistes de cration de valeur, de choix de technologies, de procdures et de stratgies mettre en place.
Data&Data Consulting est une structure constitue de consultants expriments, spcialiss dans la data avec un background dingnieurs et de statisticiens.

2) Quelles prestations proposez-vous vos clients et quelles sont vos


cibles principales ?

Nous travaillons essentiellement avec des grands comptes mais galement avec quelques
start ups ayant des problmatiques Big Data ou small data. Leur besoin principal est de
savoir comment valoriser leurs donnes : nous leur proposons donc des tudes de march, des conseils en matire dorientations stratgiques et dorganisation, ainsi que des
recommandations technologiques en fonction de leur activit. Pour cela, nous disposons
de comptences de dveloppement ainsi que dun rseau de partenaires pour pouvoir lier
limplmentation oprationnelle aux recommandations stratgiques.
Nous disposons galement dun centre de R&D ddi aux problmatiques de Big Data et de
visualisation des donnes, et nous travaillons avec des chercheurs duniversits de premier
plan, Berkeley, Copenhagen Business School et Stanford University, sur la conception, le
dveloppement et lexprimentation de solutions innovantes pour nos clients.

3) Plus globalement, comment voyez-vous lvolution du march du Big Data en


France ? A-t-il atteint sa phase de maturit ? Y a-t-il quelques retards ?

Lanne 2013 a t une anne dexprimentation pour un grand nombre dentreprises : on


retrouve des projets avancs dans tous les secteurs, pas seulement les plus gros dtenteurs de donnes, et ce sont pour la plupart de purs projets Big Data (et non pas un recyclage de projets anciens). De plus, la rflexion autour du Big Data est largement avance, la
phase de mfiance tant dpasse : au-del dun effet de mode, on reconnat un vritable
intrt au Big Data et les rticences, bien que toujours prsentes (notamment sur la question de la confidentialit des donnes) commencent sestomper. Cependant, nous nous
trouvons pour lheure dans la phase dexprimentation et les premiers rsultats en termes
de ROI devraient plutt tre observs en 2014.
Le vritable retard en France se situe davantage du ct de la mise en place dune organisation dcisionnelle : si les technologies et les objectifs changent, les processus de prise
de dcisions restent les mmes, ce qui conduit un manque de ractivit par rapport
linformation vhicule par les donnes. Pour moi, il faudrait mettre en place des boucles
de dcisions automatises, comme aux Etats-Unis.

4) Vous voquez la question de la protection des donnes personnelles que


pensez-vous du dbat actuel et des actions des pouvoirs publics sur le sujet ?

Le Big Data, comme toute avance technologique, peut comporter des risques, quil ne
faut surtout pas ignorer : en effet, le Big Data repose sur la confiance du consommateur
et toute rupture dans cette confiance entranerait automatiquement un retour en arrire.
Ce qui sest produit avec le programme PRISM est un exemple dexcs qui peut effrayer les
citoyens et consommateurs. De la mme faon, on craint que le Cloud ne soit pas assez
protecteur, alors quil est la base de lessor du Big Data. Il est donc urgent de matriser
ces risques pour garder la confiance des consommateurs ; en cela, je crois que les projets
amorcs en Europe sur la protection des donnes vont dans le bon sens. Par contre, je juge
essentiel de ne pas opposer le modle europen au modle amricain, ce serait contreproductif et ne permettrait pas de garantir lessor du Big Data.
De la mme faon, le plan du gouvernement pour encourager la filire Big Data est un bon
signe envoy au march ; il faudra simplement lorienter davantage vers les start ups pour
les annes venir.

www.data-and-data.com

49

Ne vous laissez
pas distancer !

Dici 2015, Gartner prvoit que sur


les 500 entreprises du classement
Fortune, plus de 85 % choueront
exploiter efficacement les Big Data
pour rester comptitives.
Avec EXALEAD, aucune raison que
vous soyez lune dentre elles !

www.3ds.com/products/exalead/

Exalead
Coordonnes
EXALEAD
10 place de la Madeleine
75008 PARIS
Tl : +33 (0) 1 55 35 26 26
Fax : +33 (0) 1 55 35 26 27
Mail : contact@exalead.com

Contact
Axel
BRANGER
Directeur Commercial

EXALEAD est un fournisseur de logiciels de recherche et daccs linformation en entreprise et sur le Web.
EXALEAD propose EXALEAD CloudViewTM, une technologie logicielle industrielle qui offre
agilit, fonctionnalits smantiques avances et performances uniques. CloudView permet
de concevoir des applications dexploration et danalyse de linformation pour transformer
les donnes de lentreprise en richesse exploitable et pertinente. Ces applications reposent
sur un index et rconcilient donnes structures et non structures, internes ou externes.

Search Based Applications et Big Data

EXALEAD offre des applications dexploration et de lanalyse de linformation pour librer,


capitaliser, valoriser votre Big Data.
Les applications construites autour dEXALEAD CloudView permettent aux entreprises de
rellement exploiter leur Big Data sans remise en question du SI existant, avec un dploiement rapide et un ROI complet en quelques mois.
Que vous cherchiez valoriser les ptaoctets de vos entrepts de donnes, ou explorer la
valeur cache dans limmensit du contenu non structur comme les fichiers de logs, les
emails ou des pages Web, EXALEAD CloudView propose une approche pragmatique.

Collecte et fusion (agrgation de donnes)


Contenu Web
Contenu dentreprise
Systmes existants / spcifiques
Fusion de donnes

Data mining et analyse de contenu


Analyse de donnes textuelles
Analyse de donnes Web
Analyse multimdia
Analyse de sentiments

Recherche et navigation facilites

Recherche plein texte et navigation facettes


Accs multimdia
Recommandation de contenu

Des applications mtiers forte valeur ajoute

Dployer rapidement des applications orientes processus, enrichies des informations


pertinentes extraites des Big Data
EXALEAD est une marque du groupe Dassault Systmes.

www.3ds.com

51

FastConnect
Coordonnes
FASTCONNECT
11, rue des Peupliers
92130 Issy-les-Moulineaux

Le Big Data est une rponse aux nouveaux dfis daujourdhui






Comment faire merger la valeur dun volume dinformations en constante croissance,


dans des dlais et cots maitriss ?
Comment exploiter linformation jusqualors inexploite, due sa nature non-structure ?
Pour prendre des dcisions et des stratgies gagnantes, comment se diffrencier de ses
concurrents par des analyses toujours plus pointues et toujours plus proches du mtier ?

Tl : +33 (0) 1 45 07 81 65
Fax : +33 (0) 1 45 07 90 87
Mail : mathias.kluba@fastconnect.fr

Les solutions techniques Big Data / NoSQL sont les outils pour atteindre
ces objectifs, mais ncessitent des comptences spcifiques :

Contact
Mathias
KLUBA


Le rle du Data Scientist est de vous accompagner dans la conception et la
prsentation danalyses labores pour tirer toujours plus de valeur des donnes.

Responsable Big Data / NoSQL


Le rle du dveloppeur - ingnieur est de savoir exploiter la puissance des
outils Big Data et maitriser les environnements distribus.


Le rle de lOps est de vous aider dans la mise en place dune plateforme Big
Data robuste et performante, dans votre DataCenter ou sur le Cloud.
Grce une mthode de projet Agile, lquipe Big Data ralise vos projets de manire
transparente et maitrise.

FastConnect vous accompagne dans tout le cycle de votre projet :

Il existe diffrentes solutions Big Data pour rpondre diffrents besoins et lcosystme
Hadoop est devenu une plateforme incontournable bientt omniprsente dans les SI comme
le sont devenus les bases de donnes, les serveurs dapplications et les plateformes dcisionnelles.
Nos experts sont l pour vous aider dans la mise en place de votre solution Big Data, ainsi
que dans la formation de vos quipes.

www.fastconnect.fr

53

Plus de donnes.
Meilleurs rsultats.
Vertica, la plateforme analytique temps-rel, conue pour le Big Data.
Real-time analytics
50x-1000x faster than traditional databases
Open architecture
support for Hadoop, R and wide variety of BI and ETL tools
Optimized storage
10x-30x more data per server

Massive scalability
effectively unlimited number of nodes, petabyte
(and beyond) scale
Flexibility
deployment via industry standard hardware, optimized
appliances, or private/public cloud

Dcouvrez pourquoi des milliers de clients utilisent Vertica.


Enregistrez-vous pour un test gratuit de 30 jours sur vertica.com/evaluate

Hewlett-Packard France
Coordonnes
Hewlett-Packard France
20 Quai du Point du Jour
92100 Boulogne-Billancourt
Tl : 0820 211 211
Fax : N/A
Mail : vertica-France@hp.com

Contact
Frdric
Lemeille
Sales Manager Vertica

HP Vertica Analytics Platform


La plate-forme danalyse de nouvelle gnration spcialement conue
pour tirer le maximum des Big Data

Issue des travaux de recherche de Michael Stonebraker, le crateur dIngres et de


PostgreSQL, HP Vertica Analytics Platform est une base de donnes analytique en temps
rel capable des plus hautes performances ce jour.
Elle intgre des fonctions analytiques in-database , une intgration troite avec Hadoop
et R, un dploiement rapide et une administration minimale de la plate-forme.
Vertica est bti sur une architecture oriente colonnes tout en supportant le langage SQL, tant
pour le chargement que pour les requtes. Ainsi, il nest pas ncessaire dapprendre un langage
spcifique et tous les outils amont et aval (ETL, dcisionnels et Front-end) sont utilisables.
Avec Vertica, nos clients obtiennent dsormais des rponses de 10 1000 fois plus rapides
quavec des bases traditionnelles. Chez Kansys, un leader US du Big Data as a Service ,
une requte qui prenait prcdemment 18 heures sexcute maintenant en 10-15 secondes.
Chez Guess?, la marque de mode, les temps de requtes complexes sont de 60 80 fois
plus rapides quavant Vertica.
Le chargement des donnes est aussi extrmement rapide et les donnes charges sont
accessibles de suite pour les traitements analytiques, sans ncessit dindexation, 24h sur
24, 7 jours sur 7. Zynga, un leader mondial des jeux en ligne, capture les vnements issus
des interactions des joueurs et injecte ainsi dans Vertica 60 milliards de lignes, reprsentant 10 Traoctets de donnes semi-structures, par jour.
Le taux de compression peut atteindre 90%, rduisant considrablement les cots de stockage, en utilisant des architectures de stockage standards. KDDI, oprateur mobile japonais, charge dans Vertica 8 millions denregistrements dappels (CDR) par seconde.
Mme si HP propose des appliances configures pour Vertica, la solution repose sur larchitecture x86 et les units de stockage standards.

Quelques clients Vertica : AOL, AT&T, Groupon, Mozilla, Twitter, Guess, Comcast,
Level3, Sprint, Verizon, First American, The Washington Post
Pour en savoir plus : Testez et dployez Vertica Community Edition, une version gra-

tuite et fonctionnellement complte de Vertica Enterprise Edition, seulement limite un


traoctet de donnes et trois noeuds.
Rendez-vous sur http://vertica.com/community/eDM ou taggez ce code pour obtenir
Vertica Community Edition !

www.vertica.com

55

Interview Corinne Baragoin


et Batrice Cochard, IBM
1) Les outils Big Data deviennent un complment indispensable des entrepts
de donnes au sein des entreprises : quapportent-ils en plus ? Quest ce qui
a chang par rapport ces datawarehouses traditionnels ?

Pour moi, les datawarehouses traditionnels ne permettent pas de rpondre aux nouveaux besoins
mtier. Ils prsentent des limitations majeures et se montrent contraignants pour lutilisateur.
Tout dabord, le gros dfaut du datawarehouse est le fait quil nexploite pas lensemble des donnes disponibles dans et hors de lentreprise : ni les donnes non structures (ex : texte libre,
et au-del audio et vido) ni les donnes semi-structures provenant de logs ou de capteurs
cest donc une perte de valeur importante que les outils de Big Data ont permis de pallier en
largissant le primtre par lexploitation de ces nouvelles informations.
Ensuite, concernant leur aspect contraignant et monolithique Impossible de prendre en
compte de nouvelles demandes mtier sans bouleverser tout lentrept et en revoir le modle
! Cela implique une latence forte pour les utilisateurs, le temps ncessaire lIT pour prendre
en compte la modification du modle et son alimentation.
Le Big Data a profondment bouscul cela puisquon peut sappuyer sur une vision purement
exploratoire pour tirer parti des donnes Cest donc un vrai changement de paradigme !

2) Justement, vous parlez de la varit des donnes Est-ce un sujet nouveau chez IBM ?

Pour tout dire, cela fait longtemps que nous travaillons sur ce sujet, depuis le dbut des annes
2000. Il est apparu vident quil faudrait analyser assez rapidement les vidos, les textes, etc. qui
se dveloppaient sur les diffrents supports numriques, avec un haut niveau de granularit.
Aujourdhui, on parle beaucoup de donnes non-structures : je prfre parler dinformations multi-structures . Lavantage du Big Data est justement de pouvoir exploiter tout type
de donne et de les analyser pour les transformer en informations pertinentes pour lentreprise, et ce quelle quen soit la structure.

3) Partant de ce constat sur lintrt du Big Data et les limites des datawarehouses,
quelles technologies avez-vous mises en place pour rpondre aux dfis voqus ?

Face aux limites des entrepts, nous sommes convaincus quil faut repenser les architectures
de donnes selon 3 briques : lune permettant lanalyse dhistoriques de donnes multi-structures bas cot appele Infosphere BigInsights, une autre permettant lanalyse en temps
rel appele Infosphere Streams et nous avons depuis longtemps vu limportance denrichir les
outils danalyse par des outils plus fins lis lexploration de donnes, comme InfoSphere Data
Explorer. Et bien videmment lentre de toutes ces briques, nous nous assurons de la qualit de
lintgration des donnes et de leur gouvernance, par des outils danalyse ddis.

4) Pourriez-vous nous dcrire la brique InfoSphere Streams plus prcisment ?

InfoSphere Streams traite des flux de donnes multi-structures (donnees structures, nonstructures, audio, vido) en temps rel. Au-del de sa performance sur de grandes volumtries, sa trs faible latence (microseconde) et ses capacits doptimisation dynamique des flux,
InfoSphere Streams a lnorme qualit dexcuter tout type danalyse, quelles soient prdictives tires doutils de data mining, de moteur de rgles, de fonctions de time series, etc.

5) Et pour BigInsights, diriez-vous quil est une dclinaison dHadoop afin de


faciliter lusage de celui-ci ?
InfoSphere BigInsights sappuie effectivement sur le code open source de Hadoop et lenrichit
pour en faire une version prte pour lentreprise sur les aspects performances, acclrateurs
analytiques, dploiement de nouveaux services, facilits dadministration, etc Pour cela, InfoSphere Biginsights complte la version open source par de nombreux composants : des
connecteurs pour lintgrer au SI de lentreprise, des outils dinstallation simplifie et unifie,
des fonctions dadministration systme ou dacclration de lanalyse de tout type de donnes
(rseaux sociaux, logs, capteurs, etc.).

6) Passons maintenant au challenge le plus important : lintgration dans lentreprise.


Diriez-vous que vous avez un rle de facilitateur du Big Data auprs des entreprises ?

Notre approche nest pas seulement technologique. Nous partons des besoins mtiers, nous
demandons nos clients quel type dinformations ils auraient besoin de mieux exploiter, et
nous leur prsentons des expriences clients dj vcues. Ce qui est galement important,
cest de faire un pilote avec lIT et les mtiers afin dapprhender les dfis technologiques avec
une vision 360 et dadapter la plateforme aux besoins spcifiques du client.
Pour IBM, les technologies sont prtes : le frein est plus souvent du ct des quipes des clients qui
manquent parfois de connaissances pour les apprhender. Il faut galement faire voluer lorganisation de lentreprise pour mettre en place ces outils, ce nest pas toujours vident Cest pourquoi
un temps de formation est ncessaire et nous le proposons au travers de nos workshops.

7) Vous adressez-vous de la mme faon aux petites et aux grandes entreprises,


qui nont pas forcment les mmes volumes de donnes ?

Pour IBM, la question du Big Data nest pas uniquement celle du volume : on peut tre une

petite entreprise avec des volumes de donnes infrieurs des traoctets, et avoir des
problmatiques de Big Data. A partir du moment o lon dcide de se dmarquer de sa
concurrence par les donnes, o lon a compris que les informations gnres lextrieur de lentreprise taient fondamentales,
o lon ralise lapport du temps rel dans son
contexte pour rduire la latence dexploitation, alors on se trouve face une dmarche
de Big Data et notre rle est daccompagner
cette dmarche.

8) Si lon revient aux technologies que


vous proposez, sur quoi travaillez-vous
actuellement ? Quels sont les outils
que vous allez mettre prochainement
disposition en terme de stockage ou
danalyse ?

En terme de stockage et de solution, notre


travail se concentre essentiellement sur les
appliances, en plus de solutions purement
logicielles. Nous allons sortir au 2e semestre
2013 lappliance PureData Systems for Hadoop : acclrateur pour le dploiement de
solutions Hadoop qui intgrera InfoSphere BigInsights et permettra une installation rapide
et un temps de mise en uvre rduit.
Mais cest essentiellement sur le domaine
de lanalyse avance de linformation pour en
tirer du sens pour lentreprise que nous progressons. Au-del de solution de BI et danalyse prdictive, nous travaillons au dveloppement de systmes mme de tirer plus de
sens de linformation (analyse smantique) et
de la contextualiser, voire des systmes dintelligence cognitive. Par exemple, trouver un
diagnostic bas sur des vidences, partir de
rponses de patients: cest ce sur quoi nous
travaillons avec Watson en deep QA dans
le domaine de la sant !

9) Plus gnralement, quels sont les


dfis auxquels vous pensez devoir
faire face dans les annes venir ?

Les principaux dfis sont probablement ceux


lis au fait de placer linformation au centre
des SI de demain et de repenser les architectures de donnes avec ces nouvelles technologies.
Il faudra rpondre la question de leur intgration dans lentreprise, leur gouvernance,
mais aussi la scurit, la qualit et puis, bien
entendu, penser la formation des quipes !
Le Big Data cest un mouvement de fond pour
les entreprises. Elles ont faire face au dfi
majeur de leur organisation : tirer avantage
des informations pour tre plus comptitives.
Il est donc crucial davoir une approche globale, pas uniquement fonde sur des concepts
informatiques avec des solutions qui intgrent
toutes les dimensions de lentreprise.

Corinne Baragoin
Certified IT
Specialist Big Data

Beatrice Cochard
Big Data Technical
Sales Manager

IBM France
Coordonnes
IBM France

IBM est un acteur technologique au service de linnovation et de la transformation des PME,


des groupes internationaux et des administrations. IBM participe crer une plante plus
intelligente pour permettre aux organisations quelle sert doptimiser leur positionnement
dans un monde en perptuelle volution.

17 avenue de lEurope
92275 Bois Colombes
Tl : +33 (0) 1 58 75 00 00
Fax : N/A
Mail : isabelle_lefevre@fr.ibm.com

Contact
Isabelle
LEFEVRE
Marketing Manager Big Data

www.ibm.com

OFFRE IBM BIG DATA

Big Data permet de comprendre, avec plus de prcision que jamais, comment fonctionne
notre monde afin de produire une plus grande croissance conomique et du progrs social.
Il constitue une opportunit dobtenir des connaissances sur des types de donnes et de
contenus nouveaux, afin de rendre les entits plus agiles. Plateforme Big Data IBM IBM
seul propose une plateforme complte qui permet de rsoudre les dfis Big Data qui se
posent aux organisations. Le principal bnfice dune telle plateforme est de tirer parti de
composants pr-intgrs afin de rduire le cot et le temps dimplmentation.

IBM DB2 10.5


with BLU
Acceleration

DB2 10.5 with BLU Acceleration est une base de donnes en mmoire
oriente colonne. Cest une option de paramtrage du nouveau moteur de
base de donnes DB2 10.5 qui permet la fois de grer dans une mme instance de base de donnes des tables relationnelles, mais aussi des donnes
stockes plat et exploites sous forme de tableau en mmoire.

IBM
InfoSphere
Streams

IBM InfoSphere Streams est une plateforme de traitement qui permet d'analyser des donnes en mode flux trs haut dbit. Optimise pour le trafic intense, IBM InfoSphere Streams est capable dabsorber, de filtrer, danalyser et
de corrler des volumes massifs de flux de donnes structures ou non structures, tels que : les fichiers texte, fichiers de tableur, images, enregistrements vido et audio. les Emails, contenus de dialogues en ligne, SMS, trafic
web, blogs et sites de rseaux sociaux. les transactions financires, donnes
de scanner de police, rapports de systmes et dapplications. les donnes
satellite, donnes GPS, enregistrements de lecteurs de badges et daccs.

IBM
InfoSphere
BigInsights

IBM InfoSphere BigInsights est un produit qui sappuie sur la technologie Hadoop. Conu comme une solution intgre, il offre des fonctions de
gestion, de scurit et de fiabilit ncessaires un dploiement grande
chelle. Ses fonctions de recherche, de visualisation et danalyse permettent
de mettre en place rapidement des fonctions analytiques puissantes.

IBM
InfoSphere
Data Explorer

IBM InfoSphere Data Explorer permet dexploiter les nombreuses


sources dinformation et leur mise jour en temps rel. Cette solution
permet une vision unique des donnes du Data Warehouse, des applications dentreprise, des applications de gestion de contenus et du web.
Une interface Web, centre sur linformation, permet de rechercher et
de naviguer dans les Big Data travers des sources fdres.

IBM
InfoSphere
Master Data
Management
& Information
Server

La bonne gouvernance des donnes mais aussi la cohrence de ces donnes sont des propositions de valeur quIBM souhaite apporter ses
clients. IBM propose des solutions compltes, qui permettent d'identifier, de nettoyer, de transformer et distribuer vos donnes sans obstacle et de manire scurise dans l'ensemble de l'entreprise. Dans le
domaine du MDM, IBM propose un plateforrme disposant dun puissant
moteur de corrlation qui rsout la fois les rapprochements entre objets et les relations entre objets.

PureData
for Analytics

Appliance dcisionnelle haute performance conue pour lanalytique sur


des volumes de donnes sans cesse croissants avec plus de simplicit,
de rapidit et une meilleure accessiblit. Rduit le temps dexctution
dheures la minute sur des Petabytes de donnes.

57

BIG DATA? ALL DATA!


Tirez facilement le bnfice de
toutes les donnes disponibles

InterSystems All Data: collectez, stockez,


exploitez sans limite toutes vos donnes:
internes, externes, web, rseaux sociaux,
Donnez du sens aux masses de donnes
structures et non structures,
et dgagez rapidement de la valeur mtier
pour vos utilisateurs.

InterSystems France
Relevez le dfi du Big Data... Tout de suite!

Coordonnes
InterSystems France
Tour Europlaza - La Dfense 4
20 avenue Andr Prothin
92400 Courbevoie
Tl : +33 (0) 1 77 49 16 00
Fax : +33 (0) 1 47 76 02 63
Mail : Robert.Bira@InterSystems.com

La problmatique fondamentale des entreprises lheure actuelle est dessayer dexploiter


toutes les donnes leur disposition pour en tirer un rel avantage concurrentiel dans leurs
mtiers.

Toutes les donnes, ou ce que nous appelons le All Data, cela veut dire
principalement trois types de donnes :
Les donnes structures lintrieur de lentreprise, a priori elles sont bien maitrises et
ce depuis longtemps,
Les donnes non-structures lintrieur de lentreprise (emails, contrats, documents,
intranet) reprsentent un gisement important en fonction des mtiers, et sont peu ou
mal exploites,

Contact
Robert
BIRA

Les donnes non-structures lextrieur de lentreprise, le grand inconnu, tant en


termes de volumes, que de qualit, et de pertinence pour le mtier.

Market Development France

Cette notion de All Data est videmment une variante du Big Data tant toutes ces donnes
peuvent reprsenter des volumes considrables, une variabilit de sources et de formats
extrme, et enfin un besoin de traitement rapide et performant si on veut rendre tout cela
exploitable. Face ces trois sources quil faut rconcilier, les socits se retrouvent donc
confrontes aux 3 V bien exprims par les analystes du Big Data: Volume, Variabilit,
Vitesse
Ce challenge technologique, mais aussi mtier, est rsolu nativement par les solutions
InterSystems, originellement issues du MIT, qui permettent de mettre en uvre un projet
Big data sans rien sacrifier : la performance extrme est au rendez-vous sur des technologies standard (performance de niveau base mmoire tout en restant sur des technologies
disques classiques), ouverte maximale sur toutes les donnes structures et non structres qui restent ou deviennent accessible une SQL, volumes traits virtuellement illimit
de part la technologie de stockage mme.

Data Capture

Data-driven
Actions

Data Sharing

Data Analytics

Au cur de nos technologies: InterSystems Cach, base de donnes NoSQL/objet/relationnelle ultra performante, supporte tous les formats de donnes: aussi bien les structures simples que complexes, les modles relationnels, Objet ou NOSQL et est capable
dexploiter les donnes structures et non structures de manire intelligente. Grce
InterSystems DeepSee elle offre en outre le dcisionnel intgr et en temps rel sur tous
les formats de donnes. Le moteur danalyse smantique iKnow permet enfin de gnrer
de linformation pertinente partir de donnes non structures.
Au niveau projets BIG DATA, InterSystems Cach est notamment au cur du projet GAIA
de cartographie de la Voie Lacte (plusieurs centaine de To avec forte contrainte de temps
de traitement), du systme de trading du Crdit Suisse (forte contrainte de performance
temps rel hauts volumes), de solutions de Smart Metering en Europe, ainsi que de trs
nombreuses entreprises qui exploite les immenses volumes de donnes textuelles du web
pour leur enjeux mtiers (marketing, presse).
Au del du Big Data, InterSystems propose ses clients une dmarche vers le All Data, ce
que nous appelons librer les donnes.
InterSystems est, depuis plus de 30 ans, lun des principaux diteurs mondiaux de logiciels
novateurs dans le domaine des bases de donnes, du dveloppement rapide, et de lintgration dapplications.
Les technologies InterSystems sont reconnues et mises en uvre dans tous les ecteurs
dactivit, adoptes par plus de 2500 diteurs, mises en uvre par les plus grands intgrateurs et SSII, et plus de quatre millions de personnes travers le monde utilisent chaque
jour des applications stratgiques sappuyant sur lenvironnement logiciel dInterSystems.

www.intersystems.fr

59

Hadoop

NoSQL/NewSQL

Analytic DBMS

BigQuery

Jaspersoft: Lcosystme partenaire Big Data le plus


important de lindustrie informatique

Jaspersoft
Coordonnes
Jaspersoft SARL
3 rue Colonel Moll
75017 Paris
Tl : +33 (0) 9 70 44 40 19
Fax : +353 1 686 5249
Mail : gcarbonnel@jaspersoft.com

Jaspersoft permet des millions de personnes de prendre chaque jour, de meilleures dcisions plus rapidement, en leur donnant accs des donnes utiles et exploitables au cur
de leurs applications et processus mtier. Sa plateforme doutils de reporting et danalyse
intgrs offre chaque utilisateur une autonomie relle et les rponses dont il a besoin.
Elle sadapte toutes les architectures et tous les budgets afin de servir lensemble de
lentreprise. Grce une communaut forte de plusieurs centaines de milliers de membres,
les logiciels open source de Jaspersoft comptent des millions de tlchargements. Ses
solutions dcisionnelles sont intgres au cur de centaines de milliers dapplications et
de processus mtier do Jaspersoft The Intelligence Inside. Jaspersoft est une socit
prive qui possde des bureaux dans le monde entier.

Pourquoi Jaspersoft ?

Contact
Georges
CARBONNEL
Responsable Enterprise Accounts,
France

Le dcisionnel libre-service pour tous


Jaspersoft propose une suite dcisionnelle complte de bout en bout, en libre-service pour :
TOUS LES UTILISATEURS : En fournissant des rapports interactifs non pixelliss, des tableaux de bord et des analyses ad-hoc. Jaspersoft offre un dcisionnel libre-service intuitif
aux utilisateurs occasionnels et expriments.
TOUTES LES QUESTIONS : Grce un moteur en mmoire et une couche volue de mtadonnes, les utilisateurs reoivent des rponses ultrarapides toutes leurs requtes.
TOUS LES APPAREILS : Les utilisateurs peuvent accder toutes les fonctionnalits dcisionnelles depuis leur bureau ou en dplacement sur smartphone ou sur tablette.

Une plateforme volutive pour les crateurs de dcisionnel

La plateforme dcisionnelle Jaspersoft permet aux administrateurs du dcisionnel de


sadapter facilement pour mieux prendre en charge :
TOUS LES UTILISATEURS Le faible cot de labonnement et la rapidit dimplmentation
permettent aux entreprises de toute taille de se lancer rapidement et de passer des milliers dutilisateurs de manire conomique.
TOUTES LES INFRASTRUCTURES Flexible et entirement base sur les standards Web,
larchitecture de Jaspersoft peut fonctionner en version autonome ou sintgrer facilement
nimporte quelle application sur site ou sur environnement Cloud grce aux API tendues
et aux thmes CSS.

Conue pour le nouveau monde des TI

La plateforme dcisionnelle moderne de Jaspersoft est conue pour suivre lvolution du


monde des TI, en particulier :

LE BIG DATA

Jaspersoft est la seule plateforme dcisionnelle capable de crer des rapports et des analyses, directement depuis des sources Big Data tels que Hadoop, MongoDB et Cassandra
ainsi que les principales bases de donnes analytiques comme HP Vertica, IBM Netezza,
EMC Greenplum et bien dautres. Jaspersoft a dj travaill sur des projets Big Data au sein
de groupes comme Groupon, Ericsson, Vimeo, Jagex et SoftServe entre autres. Pour plus
dinformations, consultez www.jaspersoft.com/bigdata.

LE CLOUD

La plateforme dcisionnelle entirement mutualise de Jaspersoft offre des fonctionnalits


SaaS pour les entreprises ainsi que des fonctionnalits PaaS pour les dveloppeurs. Elle est
la premire sintgrer aux plateformes Cloud leaders tel quAmazon, Red Hat et VMware.

LE MOBILE

Jaspersoft propose le seul framework open source du march pour le dcisionnel mobile
sur les appareils iOS et Android en tant quapplications natives et sur navigateur, grce la
technologie HTML 5.
Contacts: Anthony Pangnanouvong, Business Development, France
apangnanouvong@jaspersoft.com

www.jaspersoft.com

61

Cration visuel : Elan Graphic (78) - Photos Depositphotos.com

Keyrus
Coordonnes
KEYRUS
155 rue Anatole France
92300 Levallois-Perret
France
Tl : +33 (0) 1 41 34 10 00
Fax : +33 (0) 1 41 34 10 10
Mail : bigdata-keyrus@keyrus.com

Contact
Reda
GOMERY
Directeur des Oprations

Fort dune quinzaine dannes dexprience au service de la matrise et de


la valorisation de la donne, Keyrus aide les entreprises fournir chacun
de leurs collaborateurs les informations et la motivation ncessaires au
dveloppement de leurs activits et de leurs quipes.
Sinscrivant dans la continuit de cette mission claire et partage, Keyrus
propose une capacit unique de ralisation de solutions analytiques essentielles aux enjeux de performance des entreprises. Pour ce faire, Keyrus
a runi des comptences mtiers fonctionnelles et sectorielles , et des
expertises analytiques et technologiques travaillant de faon totalement
intgre.
Notre approche unique de proof-of-value vous permet ainsi de comprendre
en quelques semaines le plein potentiel des nouveaux modes de valorisation de la donne et dentreprendre le chemin permettant de les intgrer
au sein dun portefeuille analytique au service de la dcouverte des leviers
de la performance conomique.
Dans un monde de plus en plus dmatrialis o les cls de la comptitivit et de la croissance font appel une connaissance plus fine des marchs, des clients et de leurs dynamiques, Keyrus se positionne comme le partenaire naturel de ses clients dans la transformation de leur actif informationnel en valeur conomique durable.
Sil est en effet prsent largement admis que les donnes, sous ses formes et ses origines
les plus diverses, constituent un actif majeur des organisations dans toutes les industries
et que leur rle de catalyseur de la capacit danticipation et de lagilit oprationnelle ne
fait plus aucun doute, les enjeux dessins par leur exploitation nen restent pas moins la
hauteur des opportunits quelle augure.
Conscient de limportance du changement que les nouveaux paradigmes sous-tendent au
sein dun cosystme conomique en pleine mutation et des questions bien concrtes que
lexploitation de la richesse et de laccessibilit toujours croissante des donnes soulvent,
Keyrus vous accompagne dans la mise en uvre des organisations et des solutions permettant de rpondre aux enjeux conomiques modernes dun monde devenu numrique.
Fort dune capacit unique mobiliser conjointement lexpertise mtier, analytique et technologique indispensable au succs des ambitions analytiques et Big Data de ses clients,
Keyrus rpond aux dfis daujourdhui par des modalits bien tangibles et pragmatiques,
ancres dans la ralit de lentreprise et cibles sur des projets concrets et accessibles,
construisant ainsi les fondations dun avantage concurrentiel dans la dure.

www.keyrus.com

63

LET MAPR WORK FOR YOU


WWW.MAPR.COM

MapR delivers on the promise of Hadoop with a proven, enterprise-grade Big Data
platform that supports a broad set of mission-critical and real-time production uses.

MapR Europe du Sud & Benelux


171 bis av. Charles-de-Gaulle - 92 200 Neuilly/Seine - France

sales-southEU@mapr.com

MapR Technologies
Coordonnes
MAPR TECHNOLOGIES
MapR Europe du Sud & Benelux
171 bis avenue Charles de Gaulle
92200 Neuilly sur Seine
Tl : +33 (0) 1 70 91 86 49
Fax : N/A
Mail : sales-southEU@mapr.com

Contact
Xavier
GUERIN
VP Southern Europe and Benelux

MapR est la distribution la plus la pointe du secteur pour les solutions


Apache Hadoop, faisant de la gestion et de lanalyse du Big Data une ralit
pour un nombre croissant dentreprises utilisatrices.
MapR contraste avec les autres distribution Hadoop, grce une architecture ddie entreprise qui fournit aux clients une plate-forme fiable et trs performante leur permettant non
seulement danalyser les donnes dune manire nouvelle et puissante, mais aussi de crer
de nouveaux produits et services pour leur clientle.
MapR a considrablement perfectionn Hadoop en ajoutant la plate-forme des extensions
puissantes ddies entreprise, la rendant plus simple utiliser, plus fiable et beaucoup
plus rapide que ce qui est propos par les autres distributions Hadoop. Il existe plus dune
douzaine de fonctionnalits, disponibles uniquement chez MapR. Non seulement MapR
supporte toute la gamme des API Hadoop, mais elle fournit galement un accs NFS pour
le partage de fichiers travers le rseau ; ainsi, chaque application base de fichiers peut
accder des donnes du groupe sans rcritures coder. De surcrot, la plateforme MapR
fournit des amliorations des performances, celles-ci tant multiplies au moins par deux,
voire mme par cinq, et elle permet une fiabilit de MapReduce sans prcdent. MapR
englobe, entre autres, les suites communautaires open-source populaires comme HBase,
Hive, Cascading et Zookeeper. En plus de ses fonctions particulirement simples utiliser,
MapR permet aux clients de rduire le cot des matriels hardware ncessaires de moiti,
autorisant ainsi un plus grand nombre dentreprises et dorganisations de profiter de la
puissance de lanalyse du Big Data et de devancer ainsi leurs concurrents.
MapR Technologies a connu une croissance rapide au niveau de la clientle et de son expansion puisquelle opre dsormais en Europe, au Moyen-Orient et en Asie. MapR est la seule
plateforme Hadoop disponible sur Google Compute Engine. Elle est galement prsente
dans Amazon Elastic MapReduce sur Amazon.com.
Grce sa technologie de pointe et sa rputation de pionnire dans lenvironnement Hadoop, lentreprise permet des milliers de clients de mieux grer et analyser leurs donnes
issues du Big Data. Actuellement, la plateforme Big Data MapR est utilise par des socits
issues de la finance et de lassurance, des mdias, de la recherche et de la sant, de lindustrie, des administrations, des chanes de commerce de dtail, ainsi que par les principales entreprises Fortune 100 et Web 2.0, permettant toutes ces socits ou organisations
danalyser des centaines de milliards dlments sur une base journalire, des donnes
concernant 90 % de la population connecte Internet sur une base mensuelle, et plus de
mille milliards de dollars de transactions de commerce de dtails sur une base annuelle.
Le sige social de lentreprise est situ San Jose, Californie, USA, et elle a ses bureaux
europens Londres, Paris, Stockholm et Munich. Consultez www.mapr.com pour de plus
amples renseignements concernant lentreprise et ses produits.
Pour tlcharger la version la plus rcente de Apache Hadoop de MapR Distribution, veuillez vous rendre sur www.mapr.com/products/download

www.mapr.com

65

La base de donnes de graphes Neo4j


Neo4j vous permet de reprsenter les donnes connectes naturellement, en tant quobjets relis par un ensemble de relations,
chacun possdant ses propres proprits. La base de donnes de
graphes, permet au dveloppeur de commencer immdiatement
coder, car les donnes stockes dans la base font le parallle direct
avec les donnes elles mmes.
Compar aux bases relationnelles, la base de donnes de graphe
Neo4j peut tre jusqu plusieurs milliers de fois plus rapide pour
traiter les donnes associatives, tout en simplifiant considrablement les requtes qui peuvent stendre plus facilement de larges
ensembles de donnes, car elles ne ncessitent pas de recourir aux
couteuses jointures du monde SQL. Les traverses utilisent un langage spcialement adapt pour parcourir les connections trs simplement, et trs rapidement. Vu quelles ne dpendent pas dune
modlisation rigide, Neo4j est plus propice pour la gestion de donnes changeantes et de schmas voluant frquemment.
Les bases de donnes de graphes sont un outil puissant pour
excuter des requtes de type parcours de graphe. La recherche
du plus court chemin entre deux points du graphe permettant, par
exemple, de rsoudre facilement les requtes sociales ainsi que de
gographie et danalyse dimpact.

Si vous vous arrachez les cheveux avec de nombreuses jointures et les procdures stockes complexes, il
est fort possible que vous soyez en train de construire un graphe sans le savoir : car les graphes sont partout. Depuis les applications sociale web jusqu lanalyse dimpact sur un rseau Telecom en passant par la
recherche en Biologie, les recommandations, la scurit, et la dtection de fraude, de nombreuses organisations ont adopt la bases de donnes de graphes Neo4j pour augmenter leurs capacits et leurs performances. Cest un systme conu pour grer les donnes connectes que nous rencontrez de plus en plus au
quotidien, qui est nanmoins fortement matur avec plus de 10 ans en production.
Dcouvrez avec nous ce quapporte la puissance de Neo4j une large varit de clients tels que HP, SFR,
Cisco, Deutsche Telekom, Viadeo et Glowbl.

Neo4j
Coordonnes
Neo Technology France

Tl : +33 (0) 8 05 08 03 44
Fax : N/A
Mail : cedric.fauvet@neotechnology.com

Contact
Cdric
FAUVET
Business development France

Neo Technology
Les chercheurs de Neo Technology sont les pionniers de la base de donnes de graphes
depuis 2000. Ils ont contribu mettre la puissance des graphes la disposition de nombreuses PME innovantes telles que Glowbl, Sodifrance ou Perigee, mais aussi dorganisations rputes mondialement telles que Cisco, HP, Deutsche Telekom, SFR, et Viadeo.
Ses 10 ans de service en production dans des environnements critiques pour le mtier,
ses partenaires Franais et globaux et ses milliers de dploiements russit on fait de Neo4j
le leader mondial de la base de donnes de graphe.

Cas dusages de Neo4j


Analyse dimpact

Avoir la main sur son systme et identifier en temps rel le client impact par une maintenance ou une panne.

Logistique

Calculer le meilleur chemin pour livrer un client.


Social, collaboration : Rechercher trs facilement qui sont les amis de mes amis/
Recommandation : Dfinir en temps rel la liste les produits achets par mes amis que je
nai pas moi mme achets.

Master Data Management / Gestion de configuration

Construction dun rfrentiel standardis performant et sans redondance pour vos donnes
critiques hirarchises : Hirarchie dentreprise et de produit.

Droits daccs

Gestion des groupes, utilisateurs et droits rapide et sans redondance.

Go-Spatial

Modlisation dune carte routire et calculs ditinraires.

Biologie, interactions molculaires

Rduire les risques deffets secondaires des mdicaments en calculant en temps rel les
interactions entre une protine et une future molcule.,

Bnfices cls de Neo4j


Des requtes haute performance

Le modle de donnes du graphe permet lexcution des requtes complexes avec une
haute performance, inhrentes aux donnes connectes des applications daujourdhui. En
un mot le bon outil pour le bon besoin.

Des projets livrs plus rapidement

Modliser une base de donnes de graphes est aussi simple que dcrire sur un tableau
blanc. Les entreprises peuvent capturer rapidement toutes sortes de donnes, structures,
semi-structures et dstructures et ainsi les stocker dans Neo4j. Ceci rsultant dans une
rduction des temps de dveloppement, une rduction de cots de maintenance et de plus
hautes performances.

La dcouverte de nouveaux cas dusage

Trs souvent les utilisateurs et clients de Neo4j dmarrent un projet car ils nont pas pu
trouver de solution un problme bien prcis avec les bases de donnes relationnelles.
Puis ils dcouvrent, par la simplicit du modle de donnes de graphes, de nouveaux cas
dusage trs utiles dans le monde des startup ou des industries fortement concurrentielles.

www.neotechnology.com

67

ParStream
Coordonnes
ParStream
La Grande Arche - Paroi Nord
Paris La Dfense - 92044
Tl : +33 (0) 1 40 90 34 20
Fax : N/A
Mail : sales@parstream.com

Contact
Peter
Livaudais
Sr. Director Solutions

ParStream est une plateforme innovante et prime de Big Data Analytics.


Cre en tant que technologie totalement nouvelle partir de 2008, son index compress
haute-performance (HPCI) et son architecture tat de lart (share nothing, columnar) permet dobtenir des temps de rponse en millisecondes sur des milliards denregistrements.
Conue ds lorigine pour tirer partie des environnement multi-coeur, ParStream passe
lchelle linairement et apporte linfrastructure analytique la plus efficace en cot et en
rendement nergtique.
ParStream a commenc comme dfi technologique pour un groupe dingnieurs allemands :
effectuer des oprations analytiques sur un jeu de donnes de 18 milliards denregistrements pour des centaines dutilisateurs tout en fournissant des temps de rponse interactives. Afin dobtenir de telles performances dans les contraintes serres de cots du
e-commerce, des recherches importantes ont t effectues conduisant une perce technologique et un brevet pour lindexation de grands ensembles de donnes.
ParStream se prsente comme une base NewSQL permettant une prise en main aise aussi
bien par des quipes BI, des DBA et des dveloppeurs. Elle est disponible sous forme logicielle et ne requrant pas de matriel spcifique sintgre avec une empreinte conomique et nergique optimise.
La version initiale de ParStream, montre en 2010, a reu le prix One to Watch du Emerging Companies Summit de Nvidia, ce qui lui a valu un attention immdiate et depuis soutenue dacteurs telles que Red Herring (Top 100 Europe), Gartner (Cool Vendor) ou encore
Computer Week Allemagne (Big Data Innovation). En 2013, ParStream a t classe le
premier des Startup du Big Data parmi une slection de leaders de lindustrie par CIO.com
ParStream travaille en troite relation avec le groupe Database Systems et Information
Management de luniversit de Berlin et en particulier avec le professeur Markl qui prside le conseil scientifique de la socit aux cots de Don Haderle ( le pre de DB2 ),
Marie-Anne Neimat (co-fondatrice de TimesTen et ex-VP du Dveloppement dOracle) et
Andy Palmer (co-fondateur et ex-CEO de Vertica). ParStream a ainsi accs une ampleur
et profondeur de connaissances sur le march et la technologie analytique pour soutenir et
dvelopper son avance technologique.
ParStream est membre de plusieurs initiatives et projets du gouvernement fdral allemand. Par exemple, ParStream est lun des six membres du project de recherche MIA qui
est une place de march Cloud pour linformation et lanalytique du Web Germanophone
linitiative du BMWI (Ministre fdral de lEconomie et de la Technologie). Egalement, Jrg
Bienert le CTO de ParStream, est membre du Conseil sur la Nouvelle Economie Numrique
du Ministre de lEconomie et de la Technologie et il est frquemment membre des dlgations internationales du ministre.
ParStream est soutenue par des fonds reconnus de la Silicon Valley tels que Khosla Ventures,
Data Collective, Baker Capital, et a des clients initiaux tels que Coface Services en France.
ParStream est base Cologne avec des bureaux Hamburg, Paris ainsi qua Cupertino. ParStream est utilise dans des applications varies qui vont de le-commerce la
recherche scientifique en passant par la supervision et loptimisation dinfrastructures et
de systmes complexes.

www.parstream.com

69

13-108 Pentaho FR Ad v3 print_bleed.pdf 1 20.08.2013 13:04:01

Optimisation dHadoop et plus encore.


Dcouvrir comment sur pentaho.fr

Pentaho
Coordonnes
PENTAHO
Paris - France

Tl : 0800-915343
Fax : 1 407 517-4575
Mail : ocharlery@pentaho.com

Contact
Olivier
CHARLERY
French Inside Sales

Pentaho construit le futur de lanalytique. Son hritage Open Source mne son innovation continue pour une plate-forme analytique intgre et moderne conue pour les diverses exigences
de lanalyse dentreprise de demain, notamment celles du Big Data. Lanalytique performante
moindre cot est facilement accessible grce la suite doutils de Pentaho qui permet laccs
aux donnes, la visualisation, lintgration et lanalyse de donnes ainsi que le datamining.

Pentaho permet dexploiter plus rapidement les Big Data grce sa solution danalytique pour Big Data la plus complte du march. Pentaho offre :

Pentaho Big Data Analytics Center


Une continuit totale depuis laccs aux donnes jusqu la prise de dcisions : une plate-forme
complte analytique et dintgration de donnes conue pour nimporte quel entrept
de donnes Big Data
Un dveloppement et une excution plus rapides : dveloppement visuel et excution distribue
Une analyse interactive et instantane : aucun codage ni comptences ETL requis Instaview
Pour rpondre aux besoins spcifiques des analystes Big Data, Pentaho a cr Instaview, premire application interactive et instantane pour Big Data. Instaview convertit les donnes en
analyses en trois tapes simples visant rduire considrablement le temps de recherche, de
visualisation et dexploration de larges volumes de donnes complexes et diverses.

Pentaho facilite lanalyse des donnes Hadoop

Lutilisation de Pentaho Business Analytics avec Hadoop offre une conception graphique hautement productive associe une analyse et une visualisation des donnes instantanes:
Une plate-forme danalyse Hadoop complte dveloppement visuel pour lingestion, la
prparation, lintgration et lorganisation des donnes Hadoop et visualisation, exploration
et prdiction interactives
Une meilleure productivit de lquipe informatique grce la rutilisation des comptences existantes facilement utilisables sans formation particulire par les informaticiens, les analystes dentreprise et les scientifiques spcialistes des donnes
Une protection contre les risques fonctionne avec toutes les principales distributions
Hadoop, ainsi que les bases de donnes NoSQL et les entrepts de donnes traditionnels,
en connectant Hadoop au reste de lentreprise
Productivit et performance : gain en productivit de dveloppement et en
performance dexcution multipli par 10 ou par 15 par rapport au codage
manuel MapReduce, grce lutilisation de lunique moteur ETL qui sexcute nativement comme une tche MapReduce travers le cluster Hadoop

Analyse et visualisation NoSQL

Grce un support natif des bases de donnes NoSQL les plus


utilises, notamment Apache Cassandra/DataStax, HBase,
MongoDB/10gen et HPCC Systems, Pentaho fournit :
Une plate-forme danalyse Hadoop complte : dveloppement
visuel pour lingestion, la prparation, lintgration et lorganisation des donnes NoSQL ; visualisation, exploration et prdiction interactives
Une cration de rapports et une analyse par ordinateur et par
utilisateur sur le nombre croissant de donnes gnres, telles
que contenu web, documents, rseaux sociaux ...
Une meilleure productivit de lquipe informatique grce la rutilisation des
comptences existantes : outils facilement utilisables sans formation particulire par
les informaticiens, analystes dentreprise et scientifiques spcialistes des donnes
Une protection contre les risques fonctionne avec toutes les bases de donnes
NoSQL de premier ordre, ainsi que les entrepts de donnes traditionnels et Hadoop, en connectant les bases de donnes NoSQL au reste de lentreprise
Productivit et performance : gain en productivit de dveloppement et en performance
dexcution multipli par 10 ou par 15 par rapport au dveloppement cod manuellement
pour les bases de donnes NoSQL
Visitez le Pentaho Big Data Analytics Center : www.pentahobigdata.com pour en savoir plus
sur Pentaho et Big Data, accder des articles techniques et vous tenir inform des dernires nouvelles et tendances du secteur.
Pour valuer gratuitement Pentaho Business Analytics: www.pentaho.fr/download/

www.pentaho.fr

71

QlikView donne tout son sens au Big Data


Le Big Data nous concerne tous. Il transforme le monde qui nous entoure. Grce la plate-forme QlikView
de Business Discovery, vous pouvez exploiter toute sa puissance :

Analyser des donnes issues de diffrentes sources depuis une seule et mme application;
Explorer naturellement les associations entre les donnes;
Visualiser les donnes laide de graphiques soigns et performants;
Accder vos donnes partir de priphriques mobiles pour les analyser;
Dvelopper la prise de dcisions collaboratives en temps rel et de faon scurise

Dcouvrez comment QlikView permet King.com, un acteur majeur des jeux en ligne (Candy Crush Saga)
danalyser le comportement de jeu de 40 millions de clients, grce lexploitation des donnes stockes
dans son cluster Hadoop, o deux milliards de nouvelles lignes sont cres chaque jour.

Tlchargez le livre blanc sur :

www.qlikview.fr/big-data

QlikTech France
Coordonnes
QlikTech France
93 avenue Charles de Gaulle
92220 Neuilly-sur-Seine
Tl : +33 (0) 1 55 62 06 90
Fax : N/A
Mail : infoFR@qlikview.com

Contact
Stphane
BRIFFOD
Director Presales

QlikTech (code NASDAQ : QLIK) est un leader en matire de Business Discovery, la Business Intelligence (BI) conduite par lutilisateur. La plate-forme QlikView de Business Discovery comble
lcart entre les solutions de BI traditionnelles et les applications inadaptes de feuilles de
calcul. QlikTech a mis au point une technologie pionnire de recherche associative en mmoire
et grce cet environnement de BI en libre-service, les utilisateurs peuvent explorer les informations librement, au lieu dtre cantonns une srie prdfinie de questions.

QlikView permet aux utilisateurs mtier dapprhender leur activit de


faon unique :
Consolider lensemble des donnes issues de diffrentes sources dans une seule
et mme application;
Explorer naturellement les associations entre les donnes;
Visualiser les donnes laide de graphiques soigns et performants;
Accder vos donnes partir de priphriques mobiles pour les capturer et les analyser;
Dvelopper la prise de dcisions collaboratives en temps rel et de faon scurise.
Le dploiement de lenvironnement danalyse en libre-service de QlikView ne ncessite que
quelques jours ou quelques semaines, et rpond aux besoins des PME comme des plus grandes
entreprises internationales.
Le modle orient applications de la plate-forme QlikView de Business Discovery est galement
compatible avec les solutions de BI existantes et offre une exprience collaborative base sur
limmersion et intgrant une dimension sociale et mobile.
Plus de 29 000 socits travers le monde ont dj fait le choix de QlikView.

www.qlikview.com

73

ActivePivot - Enfin lanalyse

multidimensionnelle tient ses promesses !


Profondeur danalyse
Agrgation de grands volumes
de donnes
Calculs sophistiqus partir
de vos rgles mtier
+33 (0) 1 4

ActivePivot

TM

Libert danalyse

Performance
Calculs en mmoire,
en mode incrmental
Rafrachissement des
donnes la vole

Pas de limite au nombre


de dimensions
Temps de rponse
instantans

Une base de donnes mixed workload au service de


la prise de dcision oprationnelle

www.quartetfs.com
P A R I S

L O N D R E S

N E W - Y O R K

S I N G A P O U R

H O N G - K O N G

Quartet FS
Coordonnes
QUARTET FS
2 rue Jean Lantier
75001 Paris
Tl : +33 (0) 1 40 13 91 00
Fax : +33 (0) 1 40 13 84 51
Mail : nina.krause@quartetfs.com

Contact
Nina
KRAUSE
Sales Executive

Quartet FS rpond aux besoins des entreprises qui souhaitent amliorer leur
performance en mettant lanalyse des donnes en temps rel au service de la
prise de dcision oprationnelle.
ACTIVEPIVOT EN BREF

Puissant moteur dagrgation et de calcul en mmoire, ActivePivot permet aux dcideurs


du quotidien danalyser leur activit et den optimiser la performance en sappuyant sur des
indicateurs complexes gnrs la vole partir de donnes rafrachies en temps rel.
ActivePivot est donc une solution innovante particulirement adapte aux enjeux analytiques du Big Data .
Combinant les traitements transactionnels et analytiques au sein dun seul et mme environnement tirant parti du traitement en mmoire, ActivePivot se distingue par la combinaison des caractristiques suivantes:
Agrgation de grands volumes de donnes htrognes de manire incrmentale
Calcul la vole dindicateurs partir de nimporte quel type de rgle mtier
Navigation dans les donnes diffrents niveaux dagrgation
Simulation de scnarii sur des donnes temps rel
Choix de linterface de visualisation: ActivePivot Live ou interfaces MDX/XMLA

CAS DUSAGE

ActivePivot apporte de la valeur dans les processus ncessitant lagrgation de grands volumes de donnes trs volatiles, comme la supply chain, le risk management, le pricing
dynamique ou encore la gestion de trafic. Dans ces contextes, ActivePivot permet dadresser des cas dusage indits comme la gestion par exception, loptimisation de ressources,
lanalyse dimpact, la dtection danomalies ou encore le stress testing.

Transport: Visibilit de bout en bout sur la supply chain

Un enjeu Big Data dans le monde du transport est le pilotage de la chane logistique. Pour
garantir les dlais de livraison, les oprateurs logistiques ont besoin de faire la synthse
des informations qui remontent de leur supply chain, que ce soit
des systmes de planification, de TMS ou encore de gestion des
entrepts. ActivePivot fait la synthse en continu de toutes ces
donnes pour permettre aux oprateurs logistiques davoir une
visibilit de A Z sur leur supply chain. ActivePivot permet aux
oprateurs de disposer dune vritable tour de contrle de leurs
flux oprationnels.

Finance: Analyse des risques en temps rel

ActivePivot est dploy dans de nombreux tablissements financiers pour rpondre un besoin croissant danalyse et de surveillance des risques en temps rel. Chez Lloyds Banking Group, les
traders utilisent ActivePivot pour obtenir une visibilit en temps
rel sur leurs positions en pralable toute activit de trading.
Chez Nordea, les risk managers utilisent ActivePivot pour calculer la Value at Risk en temps rel, une mesure qui ncessite
lagrgation incrmentale de grands volumes de donnes non
linaires.

E-commerce: Pricing dynamique

Un cas dusage typique pour ActivePivot dans le monde du e-commerce est la prise de dcision en mode stress ou en flux tendu, comme par exemple en priode de solde. Lorsquil
faut ajuster les prix en quasi temps rel, ActivePivot permet aux acheteurs de dterminer
les rfrences pour lesquelles une variation de prix aura leffet de levier le plus fort sur les
ventes sans pour autant dtriorer la marge de lensemble du rayon.

A PROPOS DE QUARTET FS

Cre en 2005 par un groupe de cinq entrepreneurs issus du monde applicatif, Quartet
FS est une socit capitaux privs avec des bureaux Paris (sige de la R&D), Londres,
New-York, Hong Kong et Singapour. Avec plus de 50 projets en production dans des groupes
denvergure internationale, Quartet FS a pour clients des entreprises dans de nombreux
secteurs dactivit parmi lesquels la finance, la logistique, le transport ou encore la grande
distribution.

www.quartetfs.com

75

HIGH-PERFORMANCE

Les Big Data ont trouv leur matre.


Il existe une solution rapide et efficace pour valoriser la masse de big data que vous affrontez.
SAS High-Performance Analytics simplifie lanalyse des grandes volumtries de donnes pour rsoudre des
problmes complexes et permet de prendre des dcisions rapides et fiables grce la puissance danalyse,
la capacit et la rapidit de traitement de quantits massives de donnes.

Dcouvrez tous les atouts de lanalytique haute performance sur


www.sas.com/france/hpa

SAS et les noms de produits ou services SAS sont les marques dposes de SAS Institute Inc., Cary NC, USA. Les autres noms de produits ou concepts sont des marques dposes des socits respectives. Copyright 2013. Tous droits rservs.

SAS Institute
Coordonnes

SAS, votre atout performance

SAS INSTITUTE

Prenez de meilleures dcisions plus rapidement

Domaine de Grgy
Grgysur-Yerres
77257 BRIE COMTE ROBERT CEDEX
Tl : +33 (0) 1 60 62 11 11
Fax : +33 (0) 1 60 62 11 12
Mail : comsas@fra.sas.com

Contact
Serge
BOULET
Directeur Marketing

SAS vous aide rsoudre vos problmes complexes, atteindre vos objectifs cls et exploiter
plus efficacement vos donnes. Pourquoi ? Leader mondial du dcisionnel et des solutions
de business analytics, nous proposons des outils analytiques puissants, reconnus sur le
march, des solutions de pilotage de linformation et de business intelligence, pour vous
aider faire face aux challenges daujourdhui et anticiper les opportunits de demain.

Regardez vos objectifs prendre forme

Une des priorits de votre entreprise : savoir tirer parti des big data. Lanalytique va vous
aider atteindre cet objectif, vous permettre de percevoir quun dtail peut faire la diffrence ou prendre du recul pour dtecter de plus grandes opportunits, de plus fructueuses perspectives. Cest toute la puissance apporte par lanalytique.
A cet instant mme, les clients de SAS parmi lesquels 90 des 100 premires entreprises
du classement FORTUNE Global 500 de 2012, sappuient sur nos solutions analytiques pour :
Dcouvrir et saisir des opportunits de dveloppement et de performance dans de
multiples domaines.
Prendre des dcisions stratgiques, oprationnelles et tactiques en un rien de temps.
Utiliser des donnes pour des dcisions aux rsultats tangibles.

Avec SAS, cest possible

Nous nous engageons sur le succs de vos projets sur le long terme. Nos quipes de consultants, formateurs, support 24/7, vous accompagnent tout au long du cycle de vie de votre
projet. La communaut de nos clients et partenaires contribuent cet accompagnement.

Comment nous vous aidons

Vous avez besoin dune solution spcifique adapte votre secteur ? Ou dune solution fonctionnelle transverse qui va vous
permettre de rpondre vos challenges ? Quelle que soit votre
problmatique, SAS a une rponse pour vous. Par exemple,
nous aidons combattre la fraude dans le secteur financier,
acclrer la mise sur le march de mdicaments ou identifier
des opportunits de ventes croises et additionnelles dans la
distribution.
Nous aidons aussi nos clients valoriser leur relation client,
piloter leurs risques et optimiser leurs rseaux informatiques. Nos solutions rpondent ces problmatiques complexes en sappuyant sur un socle technologique avec trois
composantes cl : la gestion des donnes, les outils danalyse
et la restitution de linformation.
Vous navez jamais pris de dcisions aussi rapidement grce
vos donnes. Avec SAS High-Performance Analytics, vous
navez plus besoin de longs processus pour analyser vos Big
Data. Obtenez des rsultats en quelques minutes ou secondes,
et consacrez le temps ainsi gagn votre business.
Nous avons aussi rendu la business analytics accessible et
simple. Changez votre manire danalyser vos donnes : avec
SAS Visual Analytics vous explorez visuellement et rapidement vos donnes. Vous pouvez crer vos rapports et partager les rsultats sur le web ou
des tablettes Android et iPad.
Tous vos collaborateurs amens prendre des dcisions, quel que soit leur mtier ou leur
niveau hirarchique, peuvent dsormais avoir accs des analyses prdictives rapides et
prcises.
Votre succs est notre succs. Et cest pourquoi nous vous aidons dployer et utiliser les
solutions SAS de la faon qui vous convient le mieux. Nous avons des offres flexibles pour
rpondre vos besoins : cloud priv, hbergement, grid ou services web dAmazon...
SAS Institute, socit prive cre en 1976. Plus de 65000 sites clients rpartis dans 135
pays, dont 2600 en France.

www.sas.com/france

77

Semsoft
Coordonnes
SEMSOFT
80, avenue des buttes de Coesmes
35700 Rennes
Tl : +33 (0) 2 99 12 19 86
Fax : N/A
Mail : Damien.regnault@semsoft-corp.com

Contact
Damien
Regnault
COO

Si votre performance dpend de lagilit de laccs aux donnes


Avec Aggrego Suite de Semsoft, relevez le dfi de lintgration de donnes dans un
contexte Big Data de manire simple et rapide tout en maitrisant votre investissement
(intgration limite, pas de stockage, mode Cloud).
La solution Aggrego Suite est une base de donnes virtuelle qui rconcilie des sources de
donnes htrognes (internes / externes, structures / non structures) en les prsentant
de manire structure et homogne.
Avec Aggrego Suite vous valorisez avec agilit votre capital informationnel tendu sans
intrusivit, ni centralisation, pour :
- Faire des requtes mtiers complexes,
- Enrichir dynamiquement vos informations clients / produits / fournisseurs,
- Collecter de manire simple des donnes pour analyse et Data mining.
Aggrego Suite est le fruit de plus de 10 ans de R & D conjointe avec lINRIA, Orange
Labs, lUniversit dOrsay et le CNRS autour des technologies du web smantique et du
VLDB (Very Large Database). Elle a dj sduit un certain nombre de clients en France dont
Orange, Total, Mdiamtrie/EuroDataTV,...
La solution Aggrego Suite de Semsoft a t prime lors des Data Intelligence Awards 2013.

ROI Valorisation du capital informationnel tendu de lentreprise vs. cots dintgration et


dexploitation faibles.

Facilit Mise en uvre en quelques jours/semaines.


Agilit Ajout de sources et volution du modle instantans, requtes mtiers complexes
et contextuelles.

www.semsoft-corp.com

79

smartsolutionsforsmartleaders

STRATEGIE|GOUVERNANCE|ARCHITECTURE

www.sentelis.com

Sentelis
Coordonnes

smart SOLUTIONS for smart LEADERS

SENTELIS
31 Rue du pont
92200 Neuilly-sur-Seine
France
Tl : +33 (0) 1 75 61 34 00
Fax : N/A
Mail : i.regnier@sentelis.com

Contact
Isabelle
REGNIER
Directeur Commercial

Nos mtiers

Stratgie / Gouvernance / Architecture

Nos prestations

Industrialisation du SI
Gouvernance oriente service de la DSI
Conception darchitecture nouvelle gnration
Etude et mise en uvre de socles SI industriels
Etude et activation de pratiques DSI industrielles
Marketing de la DSI

Une vocation accompagner les directions des systmes dinformation grce :

une parfaite comprhension des tendances de fond sectorielles et des impratifs


auxquels doivent rpondre les dcideurs
une capacit comprendre, conseiller et dfendre des approches et solutions innovantes
une exigence de haute qualit double de pragmatisme

Un savoir-faire forte valeur ajoute fond sur :

une pratique conjugue de la stratgie, de la gouvernance et de larchitecture des


systmes dinformation
des comptences interdpendantes en tude amont et mise en uvre oprationnelle
une forte exprience sur les composants et pratiques transverses (SOA, BPM, MDM, BI,
BigData, Shared Services Centre, Amlioration continue)
une mthodologie ddie la mise en uvre de ces fondations : smartfoundations

Une approche trs personnalise de nos clients qui repose sur :

une comprhension approfondie de leur contexte mtier et systme dinformation


la recherche de solution sur mesure
une quipe de talents complmentaires au sein dun cabinet indpendant

www.sentelis.com

81

Sinequa
Coordonnes
SINEQUA
12 rue dAthnes
75009 Paris
Tl : +33 (0) 1 70 08 71 71
Fax : +33 (0) 1 45 26 38 92
Mail : jeanrond@sinequa.com

Contact
Hans-Josef
JEANROND
Directeur Marketing

Sinequa fournit une plateforme de Search & dAnalyse du Big Data en temps rel.
Sa solution sadresse aux grandes entreprises et administrations publiques pour offrir
leurs utilisateurs un point daccs unifi linformation couvrant toutes les donnes
textuelles et base de donnes. Son interface visuelle permet de dcouvrir de faon intuitive
et conversationnelle linformation pertinente.
Big Data ne serait que Big Noise (grand bruit sourd) sans des capacits danalyse
puissantes pour extraire et visualiser les informations pertinentes.
Sinequa se distingue par cette capacit danalyse approfondie pour extraire linformation
pertinente partir de toutes sortes de donnes : les donnes non structures dans des
documents , emails, sites Web et des rseaux sociaux, et les donnes structures, dans les
applications dentreprise, telles que ERP , CRM , Finance, RH, etc.
Lanalyse smantique, dveloppe pour 19 langues, permet de lever le plus grand dfi du
Big Data : traiter la masse des donnes textuelles ou donnes gnres par lhumain.
Lanalyse smantique permet la fois de mieux comprendre les questions des utilisateurs,
formules en langage naturel, et le sens des textes, allant bien au-del de la recherche
de mots cls. Il contribue galement catgoriser des informations en utilisant des filtres
spcifiques un mtier afin damliorer considrablement la dcouverte dinformation.
Sinequa offre une forte scurit daccs aux informations de lentreprise avec un contrle
strict des droits daccs de chaque utilisateur.
Plus de 120 connecteurs aux sources de donnes aident faire face la diversit inhrente
au Big Data.
Nos clients utilisent notre plateforme de Search & dAnalyse du Big Data pour crer des
applications spcifiques (Search Based Applications ou SBA) lies leur cur de mtier,
comme la cration de vues 360 (par exemple sur les clients) ou de rvler les rseaux
sociaux implicites (rseaux dexperts sur un sujet donn), gnralement avec un trs fort ROI.
Les donnes sur les clients viennent souvent dapplications dentreprises classiques
comme le CRM, ERP ou systmes financiers, des systmes de gestion de documents
contenant des contrats, des descriptions de produits et de services, de courriers lectroniques
et des changes de centre dappels.
Les donnes sur les experts et lexpertise peuvent provenir de publications internes et
externes, rapports de projets, systmes RH, RSE, etc. Sinequa ne fournit pas seulement
une liste de noms comme rsultat dune recherche, mais le degr dexpertise de chacun
ainsi que les documents relatifs cette expertise et les relations entre experts. Ceci rvle
les rseaux sociaux implicites ou la matrice organisationnelle informelle dune
entreprise, pas en fonction de la position hirarchique, mais du travail accompli et de
lexpertise dtecte grce ce travail.
Dans chaque cas, de fortes capacits smantiques sont ncessaires pour aller au-del de la
recherche simpliste par mots cls, pour dcouvrir les contenus traitant dun sujet particulier,
mme si elles ne contiennent pas les mots cls utiliss dans une requte de recherche.

blog.sinequa.com

83

Quand on a la passion...
... linnovation va plus loin.

+20

ans

dexprience
au service de lindustrie

mtiers
High Tech

Conseil
Ingnierie Systme
Ingnierie Physique
Ingnierie Logiciel
Testing

+20 000

collaborateurs
Sogeti dans 15 pays

orientations

R&D - innovation

Incubateur de solutions
Partenariats laboratoires
Proprit intellectuelle
R&D interne

Avec 3 000 collaborateurs en France, et plus de 20 ans dexprience,Sogeti High Tech


figure parmi les leaders du march de lIngnierie et du Conseil en Technologies. Nous
intervenons dans de nombreux projets dinnovation et dingnierie technologiques
des plus grands groupes industriels mondiaux. Nos expertises techniques et mtiers
renforcent la valeur ajoute de nos solutions au service des challenges du monde
industriel du XXI sicle.

www.sogeti-hightech.fr

marchs
cls

aronautique,
spatial,
dfense,
nergie,
ferroviaire,
tlcoms

Sogeti High Tech


Coordonnes
Sogeti High Tech
15 bis rue Ernest Renan
92136 Issy-les-Moulineaux
Tl : +33 (0) 1 40 93 73 00
Fax : +33 (0) 1 40 93 73 73
Mail : philippe.ravix@sogeti.com

Contact
Philippe
RAVIX
Directeur Innovation

Analyse du risque, affinement du ciblage marketing, aiguillon pour la R&D


et autres axes dapplication de lanalyse prdictive sont bienvenus dans tous
secteurs dactivit, en ces temps de rigueur conomique, perus comme de
potentiels axes de croissance.
Donner accs, par exemple, aussi bien aux bureaux dtudes quau service marketing,
la confrontation des donnes de conception et fabrication dun produit avec celles issues
de son exploitation, analyse des cots induits incluse, afin doptimiser le cycle de vie de ce
produit et/ou alimenter la dmarche dinnovation de lentreprise. Tels sont en effet, dun
point de vue gnrique, les deux enjeux forts du Big Data : optimiser, dans une optique
defficacit oprationnelle ; gnrer de nouvelles ides, propositions et dbouchs, dans un
objectif de croissance de revenus.
Loffre Big Data de Sogeti High Tech, forte des comptences de plus de 200 scientifiques et
analystes spcialiss et dun savoir-faire dans le domaine de la simulation, rpond ces
besoins danalyse, expressions des besoins doptimisation et dinnovation des industriels.
Loffre Big Data de Sogeti High Tech sadresse aux industriels de tous secteurs selon une
dclinaison de services incluant :
le conseil avec notamment lanimation dateliers sur fond dtudes de cas, visant cerner
limpact potentiel dun projet, sa nature, son primtre, son organisation, les ressources
impliques,
le dveloppement de modles danalyse,
la conduite de projet menant la mise en place de systmes Big Data, de linfrastructure
aux modles danalyse de donnes sur-mesure, et, en bout de chane, les modles
prdictifs ou prospectifs.
Sogeti High Tech, filiale du groupe Capgemini, est un leader du march de lIngnierie et du
Conseil en Technologies.

www.sogeti-hightech.fr

85

Start with big data and Splunk software. End with an unfair advantage.
Splunk software collects, analyses and transforms machine-generated big data into real-time
Operational Intelligencevaluable insight that can make your business more responsive,
productive and profitable. Over half of the Fortune 100 use Splunk software and have the
business results to prove it.
Learn more at Splunk.com/listen.

2013 Splunk Inc. All rights reserved.

Toutes vos applications, vos systmes et votre infrastructure gnrent des donnes chaque milliseconde de chaque
jour. Ces donnes machine constituent le domaine le plus complexe, avec la plus forte croissance du Big Data .
Cest aussi le domaine qui possde le plus de valeur car on peut y trouver tous les dtails des transactions effectues par les utilisateurs, le comportement des clients, lactivit des capteurs de toutes sortes, le comportement
des machines, les menaces de scurit, les activits frauduleuses pour ne citer que ces exemples.

Splunk Inc.
Coordonnes
Splunk Inc.
5, place de la Pyramide
Tour Ariane La Dfense 9
92088 Paris La Dfense Cedex
Tl : +33 (0) 1 55 68 10 43
Fax : N/A
Mail : emea_sales@splunk.com

Contact
Pierre
Goyeneix
Regional Sales Director, EMEA South

Les donnes machine contiennent des informations critiques, utiles pour lensemble de
lEntreprise. Par exemple :
Monitoring des transactions de bout en bout pour les business en ligne 24h/24 et 7j/7
Comprendre lexprience client, son comportement et lutilisation des services en temps rel
Respect des SLAs internes et monitoring des SLAs des Fournisseurs de Services
Identifier les tendances et analyser les sentiments sur les rseaux sociaux
Cartographier et visualiser les scenarii et schmas comportementaux pour amliorer sa
politique scurit
Lutilisation des donnes machine est un challenge. En effet, il est difficile de les traiter
et de les analyser avec les outils de management de donnes classiques, sans parler des
performances.
Les donnes machine sont gnres par une multitude de sources diffrentes : effectuer des corrlations entre des vnements significatifs provenant de ces sources est extrmement complexe
Ces donnes sont non structures et difficiles faire rentrer dans un schma prdfini
Les donnes machines atteignent rapidement des volumes importants et sont estampilles
avec une unit de temps ; elles ncessitent une nouvelle approche pour les traiter et les analyser
Les informations les plus prcieuses en retirer sont le plus souvent utiles en temps rel
Les solutions classiques de Business Intelligence, Data Warehouse ou IT Analytics ne sont
tout simplement pas conues pour ces types de donnes de trs gros volume, dynamiques
et non structures. Des solutions mergentes en Open Source peuvent fournir une partie de la rponse mais ncessitent des quipes de dveloppeurs de trs bon niveau, trs
spcialises et qui au final coutent trs cher. De plus, quand les demandes voluent, ces
solutions fragiles nont trs souvent pas lagilit ncessaire pour sadapter. Les entreprises
daujourdhui ne peuvent pas attendre. Les dcideurs, ou quils se trouvent dans lorganisation des entreprises, doivent constamment sadapter aux changements incessants et de
plus en plus rapides de leur environnement. Ils ont besoin dune technologie qui permet les
analyses temps rel, le data mining et la production de rapports a la vole : en bref, une
solution qui leur apporte des rponses aussitt quelles sont poses.

Plateforme pour le Big Data

La plupart des organisations maintient en parallle plusieurs types de donnes (donnes


machine, relationnelles et dautres formes de donnes non structures). Splunk permet
naturellement cette intgration, afin de vous permettre dobtenir le maximum de vos informations. Que vous soyez dveloppeur, professionnel des TIC, expert scurit ou Business
Analyst, la plateforme Splunk et ses apps rendent vos donnes accessibles, utilisables
et pleines de valeur.

Quest ce qui rend Splunk Unique ?

Splunk Enterprise est une solution temps rel, intgre, de bout en bout, pour les donnes
machine. Elle offre les capacits fondamentales suivantes :
Assemblage et Indexation universelle des donnes machine provenant de toute source
Langage de recherche puissant pour analyser des donnes temps rel ou historiques
Monitoring de comportements et de niveaux ; alertes en temps rel quand un ensemble
de conditions sont remplies
Production de rapports et danalyses
Tableaux de Bord personnaliss et spcifiques pour chaque fonction de lentreprise
Haute disponibilit et volutivit sur les plateformes standard du marche
Contrle daccs et scurit base sur les fonctions
Support flexible des dploiements multi-site et distribus
Connectivite avec les autres outils de donnes comme les SGBDR et une connectivit
bidirectionnelle avec Hadoop
Une plateforme robuste et flexible idale pour les applications Big Data

Vous deployez Hadoop?

Hunk (Splunk Analytics on Hadoop) est une nouvelle application qui permet dexplorer, analyser et visualiser des donnes dans Hadoop. Sappuyant sur les annes dexprience de
Splunk dans le Big Data et le dploiement auprs de milliers de clients dans le monde,
Hunk permet une amlioration spectaculaire en termes de vitesse et de simplicit pour
analyser et interagir avec les donnes situes dans Hadoop. Tout cela sans programmation,
ni intgration couteuse ni migrations forces de donnes.

fr.splunk.com

87

Notre socit accompagne les entreprises dans le traitement de linformation


autour du CRM, de la Business Intelligence et du Big Data. Nous apportons
aux responsables fonctionnelles des moyens rapides et efficaces afin quils
puissent prendre les meilleures dcisions.
Aujourdhui, exploiter les donnes diverses (interne ou externe lentreprise) est possible
via des technologies robustes et innovantes. Nous conseillons et mettons en uvre des
systmes dinformations efficaces de prise de dcision pour pouvoir disposer dune meilleure connaissance des donnes. Nous sommes une entreprise dexperts dans les solutions CRM, Business Intelligence et Big Data.
Notre Lab Data Scientist est ddi la pratique de la science sur les donnes. Aujourdhui, de plus en plus dentreprises souhaitent exploiter au mieux leurs donnes afin
de pouvoir amliorer leur comptitivit et leur productivit. Dans cet objectif, notre entit
accompagne les entreprises dans la prise en compte du besoin mtier, dans la mise en
place darchitecture de donnes, de transformation, dacquisition de nouvelle connaissance
pour ainsi transformer les donnes en connaissance.

Cette entit travaille ainsi sur les volets ddis la Data Science savoir :
Ingnierie de la donne : architecture, stockage, modlisation, optimisation, automatisation
autour des plateformes Big Data (Hadoop, Aster Data )
Transformation des donnes : modles statistiques (calculs de distances, calcul de corrlation,
clustering, classification, arbre de dcision, rseau de neurones) appliqus aussi aux
documents textes, mise en place de techniques de machine learning
Visualisation des donnes : graphiques adapts aux donnes, mise en rcit des donnes
pour une meilleure adhsion utilisateurs
Connaissance mtiers : autour de lintelligence sociale sur les clients et produits pour
fidliser, dvelopper et grer les clients

SRD Conseil
Coordonnes
SRD CONSEIL
10 rue chteau
75009 PARIS
Tl : +33 (0) 1 74 64 06 07
Fax : N/A
Mail : contact@srd-conseil.com

Contact
Abed
AJRAOU
Directeur Business Unit BI et Big Data

SRD Conseil, entreprise cr en 2006, a pour objectif daider les entreprises dans le cur
de leurs proccupations savoir lacquisition, la rtention et la fidlisation de leurs clients.
SRD Conseil aide organiser, optimiser et mesurer lefficience des actions marketing et
commerciales par la mise en place doutils, de mthodes et de formations adapts mtier
aux besoins des entreprises.

SRD Conseil intervient sous plusieurs formes de prestations savoir :


Forfait : Sur des projets cadrs, ou afin de permettre aux clients de bnficier doffres
bases sur nos domaines dexpertise (migration, projets QuickStart, solutions standards
verticalises en mode SaaS), SRD Conseil propose ses clients dintervenir au forfait.

Rgie : Pour un besoin de renfort technique et/ou fonctionnel, sur un primtre et une
dure indfinie, un consultant SRD conseil peut intervenir en rgie, de 0,5 220 jours par an.

TMA (tierce maintenance applicative) : SRD Conseil propose dintervenir sur


des TMA de 20 1000 jours, sur engagement de 6, 12 ou 24 mois, sans ncessairement tre
lintgrateur lorigine du projet.
Formation : En tant quorganisme agr, SRD Conseil intervient auprs de vos quipes
techniques, mtiers et/ou vos utilisateurs finaux avec des plans de formations adapts.

Recrutement : En cas de besoin de renfort interne (CDI), nhsitez pas consulter

SRD Conseil: la slection de profil fait lobjet dune rigueur particulire (plusieurs entretiens, contrle de rfrences pouss, ventuels tests )

Nous intervenons dans les domaines suivants :

Banque - Finance / Assurances / Mutuelles / Sant - Pharma / Energie / Transports &


Scurit / Immobilier BTP / Htellerie & Restauration / Services BtoB & BtoC / Ngoce Distribution / eCommerce / FAI & Telecom / Administration / Association
Notre quipe de Data Scientist est l pour apporter leur connaissance des architectures Big
data, de traitements statistiques et text-mining aux donnes structures ou poly structures, et mettre en place des data visualisations pertinentes pour mieux dcouvrir et comprendre ces donnes. Lobjectif est daccompagner nos clients dans une meilleure comprhension de leur mtier et ainsi de leur permettre la mise en place dune vraie stratgie
autour de la donne.

www.srd-conseil.com

89

Is ETL Dead in the Age of Hadoop?


By Josh Rogers

The collision between traditional approaches to Data Integration and Hadoop is one of the more
interesting aspects of Big Data generally and of Hadoop specifically.
Data integration and more specifically, Extraction, Transformation and Loading (ETL), represents a natural application of Hadoop and a precedent to achieving the ultimate promise of Big
Data new insights. But perhaps most importantly at this point in the adoption curve, it represents an excellent starting point for leveraging Hadoop to tackle Big Data challenges.

ETL Must Die

On Halloween 2012, Doug Henschen published a fascinating article around the work Sears is
doing with Hadoop. Within the article, there is a section labeled, ETL Must Die. While I can
appreciate the sentiment, lets be clear: ETL as a capability in the information management
stack is not going anywhere. Data will need to be sourced (E), it will need to be related and
refined (T) and put somewhere (L). What Sears has done is a fundamental shift in architecture for delivering this capability. Sears needed a new architecture, and found one in Hadoop. As
detailed in the article, Hadoop is providing a whole range of benefits to Sears. But to say Sears
is no longer doing ETL is not accurate. In fact, the opposite would appear to be the case. Sears
is sourcing more data, the scope of the transformations has increased, and the distribution of
information has expanded. What Sears has done is to move existing workloads from various
tools and platforms into a Hadoop environment. That has shifted the reliance on specific products but not the capabilities required to maximize the value of the data.

Hadoop is not a Data Integration Solution

In a recent research piece entitled Hadoop is not a Data Integration Solution, Ted Friedman
and Merv Adrian from Gartner describe the gaps between Hadoop and a proper Data Integration
Solution. But, what is it about the Hadoop infrastructure that is attracting such interest despite
these significant gaps?
In the era of Big Data, Hadoops architecture is fundamentally superior for supporting many of
the most commonly deployed data integration functions. For this reason, organizations are flocking to Hadoop even if key functional capabilities must be written by hand today. Hadoop makes
it easy to scale computing power horizontally with low cost components. More importantly, this
architecture will also support a broader range of data integration functions.
We are seeing willingness by organizations to abandon well-understood and mature features of
Data Integration products and embrace a raw, open source technology. The main problem Big
Data creates is an architectural one, not a functional one. Perhaps it is fair to say that today;
Hadoop is not a Data Integration solution. But, as Mr. Adrian and Mr. Friedman seem to agree,
it could very well be the Big Data operating system on which next-generation data integration
solutions are built. Moreover, I believe its a safe bet that the applications needed to perform
sophisticated Data Integration in Hadoop are coming quickly.

By targeting the replacement of ELT or ETL


in Hadoop, you can provide clear answers to
many of these questions. There are massive
cost savings in just offloading the data warehouse and there is a backlog of new sources
that the business wants in the warehouse but
has not been met because of cost and scalability..
Such an approach yields a series of side benefits to the organization that will equip the team
to deliver the next Big Data project. Fundamentally, by focusing your first project on operational efficiencies, you will deliver a win for
your business partners and your organization.

ETL the Leading Use Case for Hadoop


The adoption of Hadoop and its promise is
creating hype but make no mistake it is also
creating real value today. Identifying the right
starting point can create momentum and initial wins on the journey to leveraging Big Data.

Why not start with an approach that has a


clear payback and builds the skills you need
in order to consistently deliver results? Start
by rebuilding and even augmenting existing
ETL or ELT workloads. In the process, you
wont be killing ETL but rather moving this
core capability to an architecture that can support the scale the business needs, at a cost
it can afford. Hadoop will dramatically change
the data integration landscape but it wont kill
ETL. Far from it. ETL is the killer app that will
drive mainstream adoption of Hadoop, the
new operating system for Big Data.

Rebuilding ETL and ELT in Hadoop

In his February 21st post entitled, Big Datas New Uses Cases: Transformation, Active Archive
and Exploration, Clouderas CTO, Amr Awadallah, provides a concise and accurate history of
the T in ETL. In the late 90s and early 2000s, the conventional wisdom was to extract data
from key source systems, cleanse and relate that data through transformations, then load it
into the warehouse. As businesses got customized views of information combined from multiple
systems, the traditional ETL approach, particularly the T, began to suffer under the weight
of growing volumes. At the same time, databases and the hardware that supported them were
evolving rapidly to support intense query load with massively parallel processing architectures.
Over time, a new approach to data integration was developed which would avoid the lack of
relative scalability in traditional data integration engines. The concept was simple: Extract the
tables from source systems and then load those tables directly into the data warehouse into a
separate staging area. Use SQL, a common and widespread skill to combine and relate those
raw tables into the tables required for reporting and analytics. This approach became known as
ELT and is, in fact, the most common approach used for data integration today.

While this approach provides the scalability required to perform the T for integrating the
growing sources and volumes of data, there are tradeoffs. Most of the logic used for data integration is expressed in SQL and it is hard to maintain. It requires constant tuning as data
changes. It is difficult to test and debug. Oh, and, very often, it fails to perform well.
ELT has become the conventional wisdom in integrating data but little focus has been put on
the impact these tradeoffs have from an expense and agility perspective. Current practitioners
would argue that it is the cost of operating a large-scale analytics and reporting environment
and that there is no other alternative that can provide the required scale to meet the insights
the business demands.

Josh Rogers

President of Data
Integration
Syncsort.

Syncsort France
Coordonnes
SYNCSORT France
Tour Ege - La Dfense
17 avenue de lArche
92671 Courbevoie Cedex
Tl : +33 (0) 1 46 67 46 10
Fax : +33 (0) 1 47 88 04 38
Mail : syncsortSA@syncsort.com

Contact
Florence
RABUEL
Regional Sales Manager

Syncsort propose aux organisations grant dnormes quantits de donnes des solutions
logicielles permettant de collecter et traiter de manire plus intelligente cette avalanche
exponentielle de donnes.
Puisant dans son exprience de milliers de dploiements sur toutes les plateformes majeures, y compris le mainframe, Syncsort aide ses clients, partout dans le monde, surmonter les limites architecturales des environnements Hadoop et ETL daujourdhui.
Les entreprises obtiennent ainsi de meilleurs rsultats en moins de temps, avec moins de
ressources pour un cot de possession rduit.
Pour en savoir plus, veuillez consulter notre site.

www.syncsort.com

91

Tableau Software
Coordonnes
TABLEAU SOFTWARE
Blue Fin Building
110 Southwark Street
London SE1 0TA - United Kingdom
Tl : +44 (0) 203 310 4500
Fax : +44 (0) 203 310 4501
Mail : europeansales@tableausoftware.com

Contact
Julien
SIGONNEY
Sales Area Manager

Tableau Software aide les utilisateurs visualiser et comprendre leurs donnes. Tableau
permet danalyser, de visualiser et de partager simplement des informations. La socit
Tableau Software propose des solutions de Business Intelligence qui aident les personnes
et les organisations travailler plus efficacement en leur permettant didentifier plus clairement les tendances. Grce lutilisation des outils de Tableau, les utilisateurs optimisent
leur temps en ayant accs aux informations qui leur sont importantes de manire trs
rapide. Plus de 12 000 entreprises font confiance Tableau pour obtenir rapidement des
rsultats, au bureau comme lors des dplacements.
Grce sa facilit dutilisation, Tableau Public est un outil qui permet de traiter un gros
volume de donnes facilement et rapidement et ensuite de les publier sur le web en un seul
clic. Cet outil aide diverses typologies dutilisateurs dont les journalistes analyser des
donnes complexes et extraire des informations pertinentes qui permettent de trs belles
visualisations de donnes et cela de manire dynamique.

Tableau Software a trois produits principaux pour les entreprises :


Tableau Desktop, Tableau Server et Tableau Online.
Rpondez aux questions immdiatement grce Tableau Desktop.

Tableau Desktop utilise une technologie innovante de luniversit de Stanford qui vous permet de glisser-dposer des donnes pour les analyser. Vous pouvez accder aux donnes
en quelques clics, puis visualiser et crer facilement des tableaux de bord interactifs.
Nous avons men des recherches pendant plusieurs annes pour mettre en place un systme prenant en charge la capacit naturelle des personnes penser de manire visuelle.
Basculez facilement entre les vues, suivez votre raisonnement naturel. Vous ntes pas
coinc par des assistants dexcution ni oblig de rdiger des scripts. Vous crez simplement des visualisations de donnes riches et harmonieuses.
Cest tellement simple utiliser que cest la porte de nimporte quel utilisateur dExcel.
Obtenez plus de rsultats en fournissant moins defforts. Et cest 10 100 x plus rapide que
les solutions existantes.

Tableau Server - Une incroyable alternative


aux solutions dcisionnelles traditionnelles.

Tableau Server est une solution dcisionnelle qui fournit


un outil danalyse bas sur navigateur Web accessible
tous. Cest une alternative trs rapide aux logiciels
dinformatique dcisionnelle traditionnels connus pour
leur lenteur et leur manque de flexibilit.
Vous avez un travail effectuer, mais les outils dont vous
disposez actuellement sont lents et volumineux. Tableau Server est un nouveau type doutil dinformatique
dcisionnelle 100 fois plus rapide et agrable utiliser.
Vous effectuez votre dploiement selon vos besoins.
Testez-le gratuitement en ligne. Obtenez des rsultats
en quelques semaines seulement, et non plus aprs
quelques annes.

La puissance de Tableau dans le cloud.

Tableau Online est une version hberge de Tableau


Server. Elle rend lanalyse dentreprise rapide et plus
facile que jamais. Partagez des tableaux de bord avec
lensemble de votre entreprise, et avec vos clients et
partenaires en quelques minutes. Fournissez des vues
de donnes interactives en direct qui permettront aux
personnes de rpondre leurs propres questions directement dans un navigateur Web ou sur une tablette. Faites-le dans un environnement scuris et hberg.
Soyez oprationnel en quelques minutes. Ajoutez de nouveaux utilisateurs en quelques
clics. Vous pouvez augmenter la puissance de Tableau Online en fonction de vos besoins
et le rendre accessible o que vous soyez. Aucun achat, aucune configuration et aucune
gestion dinfrastructure nest ncessaire.

www.tableausoftware.com

93

Redesigning

the data landscape


around user experience

Worldline
Coordonnes
Worldline
River Ouest
80 quai Voltaire
95877 Bezons Cedex
Tl : +33 (0) 4 78 17 69 35
Fax : N/A
Mail : infoWL@worldline.com

Contact
Gregoire
WIBAUX
Business development & Marketing
stratgique

Worldline, filiale dAtos, est le leader europen et un acteur mondial


rfrent dans le secteur des paiements et des services transactionnels.
En ajoutant ses expertises et plates-formes transactionnelles historiques des composants Big Data industriels, Worldline construit avec ses clients et partenaires des projets
exploitant pleinement la valeur intrinsque des donnes. Worldline dlivre ainsi ses
clients des services de bout en bout sur lensemble de la chaine de valeur : captation des
donnes, analyse, visualisation et valorisation.
Pour la phase de captation, Worldline tire parti de ses comptences historiques en
termes de collecte, intgration, stockage et nettoyage de gros volumes de donnes transactionnelles. Pour ces types de donnes, les composantes vlocit (temps rel) et varit
(formats divers voire changeants) sont souvent critiques. Les donnes sont gres au sein des
datacenters Worldline, ce qui permet dapporter flexibilit et fiabilit cette phase du cycle.
Dans chaque contexte client, Worldline apporte son expertise en termes danalyse de
donnes, notamment dans les domaines de la lutte contre la fraude, du scoring de transactions et de la gestion de la relation client, et met en place des modles statistiques et des
algorithmes dintelligence artificielle sur mesure pour passer de la donne brute linformation valeur ajoute.
La phase de visualisation est le maillon indispensable pour assurer un lien entre les donnes et les utilisateurs finaux. Elle est prise en compte ds la conception des services et
ce quel que soit le terminal de lutilisateur. Pour ce faire, Worldline met profit ses russites dans la cration dinterfaces et dapplications adaptes aux multiples combinaisons
contexte, support et usage.
Enfin, pour la valorisation, Worldline dispose des expertises business ncessaires pour
accompagner ses clients dans le nouveau paysage informationnel du Big Data et leur permet de tirer le meilleur parti des donnes, quelles soient internes ou externes. Cest ainsi
que se concrtisent pour eux les multiples opportunits quelles reprsentent.
En associant cohrence et niveaux de qualit de service industriels de bout en bout de la
chaine, Worldline va au-del des enjeux purement techniques pour dlivrer la valeur des
technologies et des nouveaux usages de la Big Data tous ses clients.
du BigData.

www.worldline.com

95

Play with your Big Data

Ysance crateur de plateformes digitales

www.ysance.com

Ysance
Coordonnes
YSANCE
Tour de lHorloge
4 place Louis Armand
75012 Paris

Cre en 2005 par une quipe dexperts IT, Ysance est une agence
conseil en technologie digitale forte de 100 collaborateurs.
Ysance aide les directions mtier tirer un profit des nouveaux usages du numrique en
accompagnant ses clients dans la conception, la mise en uvre et lanimation de leurs
projets digitaux.

Tl : +33 (0) 1 43 36 23 17
Fax : +33 (0) 1 73 72 97 26
Mail : contact@ysance.com

Ses activits sarticulent autour de 5 mtiers : le Marketing digital, la Business Intelligence,


le-business, le Cloud Computing et le Big Data.
Depuis 3 ans, Ysance construit des plateformes Big Data pour les mettre au service des diffrents mtiers de lentreprise : CRM, eCommerce, Marketing, Ventes, RH, Finances,
BI, Datamining, etc.

Contact
Romain
CHAUMAIS

Fort de cette exprience, Ysance a conu une mthodologie progressive et pragmatique


dcline en 4 tapes pour rapidement accder aux potentiels des Big Data :

Directeur du Dveloppement

1. Dcouvrir et estimer la valeur dune dmarche Big Data pour son activit
Evaluer les avantages et identifier les mtiers pouvant en bnficier
Imaginer les services, les analyses et les opportunits rendus possibles
Dfinir les scnarios Big Data et les business cases associs

2. Dmarrer et raliser VOS premires analyses Big Data

Dfinir un premier scope danalyse mtier


Collecter les donnes et les charger dans la plateforme Big Data dYsance
Raliser un ensemble danalyses et valider le modle

3. Dvelopper et mettre en place le socle de VOTRE plateforme Big Data


Formaliser et valider les besoins techniques et fonctionnels
Identifier les sources et les volumes de cible
Dfinir larchitecture et choisir les solutions techniques
Implmenter la plate-forme Big Data

4. Dployer et faire du Big Data un avantage concurrentiel


Industrialiser la collecte, le stockage et lanalyse en temps rel
largir, organiser et scuriser laccs la plate-forme
Capitaliser les bonnes pratiques et les normes de dveloppement
Organiser la conduite du changement

Ysance dispose dune grande expertise des technologies Hadoop,


des enjeux de Data management et des environnements Cloud.

www.ysance.com

97

guide du big data

2013 / 2014

Vous aimerez peut-être aussi