ACCENTURE - E-COMMERCE . . . . . . . . . . . . . 3 NEO4J - WALMART. . . . . . . . . . . . . . . . . . . . . 79
ACCENTURE - MEDIA. . . . . . . . . . . . . . . . . . . . 3 SAP - MOBILINK . . . . . . . . . . . . . . . . . . . . . . . 80
ACCENTURE - COMMERCIAL PROPERTY. . . . 5 SAP - COX. . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
ACCESS INSIGHT - RENAULT . . . . . . . . . . . . . 7 SAP - BELGACOM. . . . . . . . . . . . . . . . . . . . . . 81
ATOS - MTO-FRANCE. . . . . . . . . . . . . . . . . . 9 SAP - BANGLALINK DIGITAL
ATOS - ORANGE BUSINESS SERVICES . . . . 10 COMMUNICATIONS. . . . . . . . . . . . . . . . . . . . . 82
ATOS - STADE TOULOUSAIN. . . . . . . . . . . . . 10 SAP - VODAFONE. . . . . . . . . . . . . . . . . . . . . . 82
BAKAMAP - CCI. . . . . . . . . . . . . . . . . . . . . . . . 12 SAP - XL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
BIME - WEEKENDESK. . . . . . . . . . . . . . . . . . . 13
SAP - AVIVA. . . . . . . . . . . . . . . . . . . . . . . . . . . 83
CAPGEMINI - CLOUDERA. . . . . . . . . . . . . . . . 14
SAP - ELDORADO. . . . . . . . . . . . . . . . . . . . . . 84
SAP - SAMSE . . . . . . . . . . . . . . . . . . . . . . . . . 85
COUCHBASE - AMADEUS. . . . . . . . . . . . . . . . 19
CRAY - INSTITUTE FOR SYSTEMS SAP - HSE24. . . . . . . . . . . . . . . . . . . . . . . . . . 86
BIOLOGY. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 SAP - MONEXT . . . . . . . . . . . . . . . . . . . . . . . . 86
CSC - HGST. . . . . . . . . . . . . . . . . . . . . . . . . . . 22 SAP - AMERICAN AUTOMOBILE
CSC - ASSURANCES AUTO . . . . . . . . . . . . . . 23 ASSOCIATION. . . . . . . . . . . . . . . . . . . . . . . . . 87
CSC - VOYAGISTE ONLINE . . . . . . . . . . . . . . 24 SAP - SKYROCK. . . . . . . . . . . . . . . . . . . . . . . 87
DATA PUBLICA - CEGID . . . . . . . . . . . . . . . . . 26 SAP - COOPERATIVA ITALIANA DI
DATA PUBLICA - CCI PARIS . . . . . . . . . . . . . . 26 RISTORAZIONE. . . . . . . . . . . . . . . . . . . . . . . . 88
DATA PUBLICA - B-POST . . . . . . . . . . . . . . . . 27 SAP - TIPP24.COM . . . . . . . . . . . . . . . . . . . . . 89
DATAIKU - BLABLACAR . . . . . . . . . . . . . . . . . 28 SAP - KAESER KOMPRESSOREN . . . . . . . . . 89
DATAIKU - CHRONOPOST . . . . . . . . . . . . . . . 29 SAP - EBAY. . . . . . . . . . . . . . . . . . . . . . . . . . . 90
DATAIKU - CITYVOX. . . . . . . . . . . . . . . . . . . . 30 SAS - SANTIANE. . . . . . . . . . . . . . . . . . . . . . . 92
DATAIKU - PAGESJAUNES. . . . . . . . . . . . . . . 31 SAS - ELFE/INED . . . . . . . . . . . . . . . . . . . . . . 93
DATAIKU - PARKEON . . . . . . . . . . . . . . . . . . . 32 SAS - UTAC-OTC. . . . . . . . . . . . . . . . . . . . . . . 95
DELL - DANSKE BANK . . . . . . . . . . . . . . . . . . 33 SAS - BANK OF AMERICA. . . . . . . . . . . . . . . . 96
DELTAMU - SANOFI-PASTEUR. . . . . . . . . . . . 35
SAS - FRAPORT . . . . . . . . . . . . . . . . . . . . . . . 98
SAS - MACYS. . . . . . . . . . . . . . . . . . . . . . . . . 99
HP - AT&T . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
SAS - NESTL. . . . . . . . . . . . . . . . . . . . . . . . . 100
HP - BLABLACAR . . . . . . . . . . . . . . . . . . . . . . 38
SAS - RABOBANK. . . . . . . . . . . . . . . . . . . . . . 102
DE LONDRES . . . . . . . . . . . . . . . . . . . . . . . . . 39 SAS - TELECOM ITALIA. . . . . . . . . . . . . . . . . . 103
MAPR - ANCESTRY.COM . . . . . . . . . . . . . . . . 43 SENTELIS - CRDIT LA
MAPR - COMSCORE. . . . . . . . . . . . . . . . . . . . 44 CONSOMMATION . . . . . . . . . . . . . . . . . . . . . . 106
MARKLOGIC - DE GRUYTER . . . . . . . . . . . . . 45 SENTELIS - MUTUELLE DASSURANCE . . . . 107
MARKLOGIC - ELSEVIER. . . . . . . . . . . . . . . . 46 SENTELIS - NERGIE. . . . . . . . . . . . . . . . . . . 108
MARKLOGIC - HEALTHCARE.GOV. . . . . . . . . 49 SENTELIS - JEUX EN LIGNE. . . . . . . . . . . . . 110
PRESS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 SOFT COMPUTING. . . . . . . . . . . . . . . . . . . . . 113
MARKLOGIC - PRESS ASSOCIATION. . . . . . . 56 SYNCSORT - SFR. . . . . . . . . . . . . . . . . . . . . . 115
INFORMATION - 4D CONCEPT. . . . . . . . . . . . 57 SYNCSORT - TLCOMS, MDIAS,
MARKLOGIC - RSC. . . . . . . . . . . . . . . . . . . . . 59 ENTERTAINMENT. . . . . . . . . . . . . . . . . . . . . . 116
MICROPOLE - LOBS. . . . . . . . . . . . . . . . . . . . 62 TABLEAU SOFTWARE - BNP PARIBAS. . . . . . 118
MICROSOFT - PIER IMPORT . . . . . . . . . . . . . 63
MICROSOFT - THYSSENKRUPP. . . . . . . . . . . 63
TABLEAU SOFTWARE - ISCOOL . . . . . . . . . . 120
MICROSOFT - CARNEGIE. . . . . . . . . . . . . . . . 64
TABLEAU SOFTWARE - NOKIA. . . . . . . . . . . . 122
MONGO DB - BOSCH . . . . . . . . . . . . . . . . . . . 67
MONGO DB - METLIFE. . . . . . . . . . . . . . . . . . 68 TABLEAU SOFTWARE - PHARMASECURE . . 123
MONGO DB - OTTO. . . . . . . . . . . . . . . . . . . . . 70 TABLEAU SOFTWARE - SKYROCK. . . . . . . . 124
MONGO DB - WEATHER CHANNEL. . . . . . . . 72 TALEND - LENOVO. . . . . . . . . . . . . . . . . . . . . 126
NEO4J - EBAY. . . . . . . . . . . . . . . . . . . . . . . . . 74 TALEND - BUFFALO . . . . . . . . . . . . . . . . . . . . 126
NEO4J - GAMESYS. . . . . . . . . . . . . . . . . . . . . 75 VELVET - PAIEMENT. . . . . . . . . . . . . . . . . . . . 129
NEO4J - GLASSDOOR . . . . . . . . . . . . . . . . . . 76 VELVET - TELECOM . . . . . . . . . . . . . . . . . . . . 129
NEO4J - SNAP INTERACTIVE. . . . . . . . . . . . . 77 YSANCE - ARKENA. . . . . . . . . . . . . . . . . . . . . 130
NEO4J - TELENOR . . . . . . . . . . . . . . . . . . . . . 78 YSANCE - ANOVO. . . . . . . . . . . . . . . . . . . . . . 131

Retours dexpriences Big Data en entreprise




A leader Chinas B2C e-commerce portals with 35% market share, and growing at 200% annually. The Company
was exploring alternative growth areas, beyond category expansion.

The currently recommended systems was below industry benchmarks. Especially in contribution to sales.
Over a given week, many changes were applied to the website, but there was no good way to measure its ROI.
Each web-page change was slow and not many were tested each time.
The client had over 2 million unique SKUs, 20 million registered users, 1 million transactions per day and up to 3
billion page views per month. For this reason, it needs to optimize its data management, processes and system.


Derived insight from the data and identified links between data that drive conversion from recommendations.
Identified key data drivers including transactional data (product, customer and purchase history) as well as behav-
ioral data (browser behavior, search data, page views), in order to increase the richness of data analysis.
Accentures patented Recommendation Engine (ARE) was implemented. This combine multiple machine learning
techniques (basket analysis, collaborative filtering, nearest neighbour) for different scenarios to optimize recom-
mendation efficiency. The Patented Digital Optimization (ADO) solution was implemented in order to maximize
webpage presentation and online marketing at scale. This industrialized multi-variable testing solution allowed
thousands of design variations to be tested.


Machine learning algorithms improved using ARE.
Number of users given irrelevant product recommendations minimized
Conversion rates increased.
This recommendation outperformed the clients internally recommended engine by up to an estimated 30%, which
translated into increased revenue initially estimated to be up to $100 million per year and expected to grow over
time. The solution also enabled segment-based testing, which increased efficiency of testing at such a large vol-
ume of traffic. This optimization experience delivered a substantial CVR uplift and estimated revenue uplift of about
$200 million per year.




This media client is a leading pay television service operator in Europe transmitting live programs and video-on-
demand via cable, satellite, digital terrestrial television and broadband.
The company has 6 million customers, representing nearly 12 million contracts, including more than 4 million cus-
tomers receiving hundreds of channels.

Retours dexpriences Big Data en entreprise

Customer churn was rising, partly due to the global economic slump, a corresponding reduction in consumer dis-
cretionary income and diminished usage of its pay channels. Free-of-charge TV channels increased their market
share, and Internet service providers launched competing video-on-demand services.

Limited knowledge of customers inhibited long-term growth in the digital era. Customer surveys failed to dig far
beyond generalities such as household size, preferred program type and equipment. As a result, customer cam-
paigns tended to be broad in scope and relatively expensive to implement.
Digitalization and a widening array of viewing devices - including tablets, mobile phones and Web TV -offered huge
opportunities to collect data on usage by household. Web-based giants such as Amazon, Facebook and others
understood this trend and built up customer loyalty by offering tailored suggestions based on analyses of online
interactions. Using customer analytics, virtually every interaction with media player services can be added to a
continually updated log and analyzed for insight.
To compete more effectively, our media customer launched a large-scale program on usage and services statistical
analysis. Extensive sources of data knowledge could be gathered to develop insights for improved services. Their
executives turned to us for assistance with customer and marketing analytics, all aligned with high performance.


Accenture helped its client to define the project, outline the multi-year plan in successive phases, shape the tech-
nology solutions, build prototypes, promote these within the organization and monitor the gains.
The project was launched through a proof-of-concept phase, based on a sample of 100,000 customers. Accenture
Interactive organized a pilot for each initiative to gauge potential return on investment.
The project leverages TV digitalization and the ability to gather data per household on television activity, such as
switching channels, use of services, multi-screen usage and so on. One hundred million logs are collected daily,
providing a strong foundation to:
Build new insights: who watches Cable News Network, or do CNN viewers also watch other information channels?
Optimize marketing campaign efficiency: a complete set of usage indicators, calculated at the subscriber level, is
used to refine targets.
Viewing Recommendations, an innovative recommendation engine, integrates statistical analysis of usage and
services data with internal and external evaluations of programs and movies. Accenture developed a unique al-
gorithm to identify best for you programs by combining viewer habits and discovery. Each new recommendation
engine release is validated by prototypes, is beta-tested and verified on customer samples. Using business rules
- such as a customers preferred themes, or the likelihood of discovering something new he or she would like the
engine offers a tailored selection of TV programs every evening for each household.
The recommendation engine is embedded within applications, including the electronic TV program guide, cus-
tomer Website, newsletters, and call-center scripts.


In an increasingly competitive media market, Accenture has worked closely with its client over four years, contribut-
ing to reduced churn, increased customer satisfaction and restoration of the companys reputation for innovation.
Robust capabilities translate customer preferences into strategies to reduce churn (churn is two percent less
among recommendation engine users), improve service and boost revenue.
Today, the statistical analysis of usage and services project is:
More than 200 key usage indicators per customer, which are used to personalize 40% of marketing campaigns
and newsletters
25 million personal recommendations calculated daily
Helping boost TV consumption among recommendation engine users, which is up more than 20%
More than 2.5 million of our clients households are expected to enjoy the capabilities of personalized viewing
recommendations in 2013, with a forecast of 3 million by the end of 2014.

Our recommendation engine goes a step beyond Google in the words of the media clients Chief Executive Offic-
er. Our customers dont have to seek because our tool anticipates their needs and suggests appealing programs.

Customer analytics capabilities continue to be refined throughout the media clients organization, with additional
features offered to millions of subscribers. In addition, the growing base of detailed information about viewing pref-
erences has become an asset in itself that can be monetized and sold to other businesses.

Document ralis par la Socit Corp Events - Janvier 2015
Retours dexpriences Big Data en entreprise



The client is one of the leading commercial property companies in the world.

In a shopping mall, the last touch points with customers are stores. Due to its central position in the customer
journey, the shopping mall can only manage to improve the journey from the entrance of the mall to the entrance of
the shops. Therefore, the choice of stores and their location inside the shopping mall are key business decisions.
Previously, the Client made rent calculations and decisions for store renewals based on financial performance.
Operational performance measures data, such as customer traffic, were used as well but lacked precision and
insights. As a result, a large portion of the operational value of the shopping mall was misunderstood.
Wi-Fi data was a great opportunity for shopping malls. By tracking customer devices, one million logs per day and
day per mall could be used to follow traffic more precisely. Coupled efficiently with stores financial performance,
this massive amount of data gives a better picture of their true performance. This commercial property company
asked Accenture to process all Wi-Fi tracking data to follow traffic in the shopping mall and link it with all existing
data in order to better assess the true value of its stores and make the right business decisions.


Accenture helped the commercial property company by launching Wi-Fi traffic tracking and creating value from this
Big Data. Insightful key performance indicators were developed in two malls through a pilot phase.
By combining new and existing data, the shopping malls were able to:
Make better store renewal decisions: by understanding which stores create/consume traffic for/from other stores
and identifying the best performers (in terms of sales and traffic) to decide which stores will stay or be relocated
Identify new potential tenants: by knowing the customers and their journey in the shopping malls and using traffic
synergies between stores. Estimate the rental value of stores more accurately: by putting stores financial results
into perspective with their operational performance to improve area pricing Make better marketing investments: by
evaluating the return on investment of different marketing events.


Accenture worked closely with the commercial property company during the one-year pilot phase to leverage the
maximum value from the Data:
10 sources of data were combined
180 million logs were analyzed
6 data quality algorithms were implemented
through a Big Data environment:
Cloud-based Hadoop platform
Tableau, html and iPad reports
R, Python, Quantum JS
The project has already improved the key business decisions of the shopping malls: for instance, two undefined
renewal decisions were resolved much faster and the variety of the stores was maintained because of the new
insights. New pricing estimates could improve the rental value of the two pilot shopping malls by several million
euros. Big Data Analytics was quickly integrated in the two pilot shopping malls with noticeable results and would
be improved by extending the analysis to new shopping malls with new data and insights for consistently faster
and better business decisions.

Retours dexpriences Big Data en entreprise

Jean-David Benassouli : Managing Director Digital & Analytics
Clara Landry : Digital Marketing Associate Manager

Accenture is a global management consulting, technology services and outsourcing company, with approximately
319,000 people serving clients in more than 120 countries. Combining unparalleled experience, comprehensive
capabilities across all industries and business functions, and extensive research on the worlds most successful
companies, Accenture collaborates with clients to help them become high-performance businesses and govern-
ments. The company generated net revenues of US$30.0 billion for the fiscal year ended Aug. 31, 2014. Its home
page is www.accenture.com.

Retours dexpriences Big Data en entreprise



Constructeur automobile Franais de rfrence, Renault a vendu plus de 2,6 millions de vhicules en 2013, un
chiffre en hausse de 3,1% comparativement 2012. Trs prsent sur le march des particuliers, le constructeur
rpond galement avec brio aux besoins actuels des entreprises (moteurs comptitifs en terme de consommation
et de fiscalit, pertinence des offres utilitaires) ce qui lui a valu dtre class numro un des ventes sur ce secteur.
En un instant, nous avons rendu la dmarche de prospection de nos vendeurs interactive
Jean-Louis Wiedemann : Chef de service Marketing Ventes - Flottes et Vhicules Utilitaires

Le service Marketing Flotte Entreprise acquiert rgulirement des donnes publiques stratgiques concernant le
march automobile Franais. Compiles dautres sources de donnes possdes par Renault sur son march
cible, ces informations regorgent dopportunits identifier et exploiter.
Mais un problme se pose : comment croiser et retranscrire ces donnes de faon simple et interactive leurs
quipes oprationnelles ? Renault se met donc la recherche dun outil qui permettrait ses quipes com-
merciales et marketing non seulement de pouvoir accder ces informations de faon instantane et en toute
autonomie mais aussi de pouvoir interagir avec les donnes.

Laccs aux donnes aura deux buts principaux :

1) Permettre aux vendeurs du rseau de concessionnaires et managers grands comptes davoir une vision pr-
cise de la part de march de Renault sur leur secteur et de la faon de laccroitre. Ces informations permettront
doptimiser leffort commercial et de prparer un argumentaire sur mesure.
Pour se faire, loutil devra permettre de pouvoir zoomer en profondeur sur chaque secteur et entreprise pour
rvler toutes les informations au moment voulu.

2) Permettre aux services marketing nationaux ou rgionaux daccder une vue globale du march et des
performances de Renault (part de march par secteur, taux facilement des campagnes cibles qui rpondent aux
attentes des performances commerciales. La solution devra tre interactive et permettre de donner non seulement
une vision globale de la situation du march mais galement une vision prcise par secteur et mme par com-
mune pour chaque manager. La dmonstration de loutil en interne a eu un rel succs. Dautres services ont
immdiatement imagin se servir dAccess Insight pour leurs projets
Jean-Louis Wiedemann : Chef de service Marketing Ventes Flottes et Vhicules Utilitaires

Renault tait dj quip de nombreuses solutions de Business Intelligence. Cependant, Access Insight sest
prsent comme le choix le plus judicieux pour ce type de projet de tableaux de bord accessibles en rseau par
un grand nombre dutilisateurs.
Loutil sest galement distingu des autres car il permettait une mise en place rapide avec un dmarrage en
mode SaaS, ne ncessitant pas dinterventions majeures de la part du service IT.

Pour rpondre aux besoins de Renault, Access France a prsent au service marketing sa solution de tableaux
de bord interactifs et collaboratifs, Access Insight. Afin de permettre une mise en place rapide de la solution,
Renault a choisi dutiliser la solution dans le Cloud

Retours dexpriences Big Data en entreprise

En deux semaines nous avons dlivr une premire version oprationnelle, en intgrant les donnes
dimmatriculation achetes par Renault et en ralisant les premiers tableaux de bord pour que lquipe marketing
France de Renault puisse les tester Matthieu Chabeaud, Directeur Commercial Access France

Une dtection immdiate des opportunits pour les vendeurs du rseau Laccs des informations prcises
sur les entreprises de leur secteur permet aux vendeurs didentifier en un instant lesquelles sont susceptibles de
renouveler leur flotte ou peuvent tre intresses par de nouveaux vhicules. Bien informs, les commerciaux se
concentrent ainsi sur lessentiel.
Un argumentaire cibl : les commerciaux savent exactement quels arguments adopter face leurs prospects. Les
tableaux de bord leur permettent de pouvoir se prparer en consquence et didentifier les opportunits en filtrant
et creusant dans les donnes.
Un accs instantan des analyses du march pour le marketing : Alors que laccs des analyses pousses du
march prenait un temps non acceptable avant le dbut du projet, le service marketing accde maintenant aux
informations cls sur lensemble de ses cibles en un instant et peut planifier plus.
Fort du succs rencontr par loutil au sein des diffrents services, Renault prvoit dtendre cette utilisation.

Plus de 600 chefs des ventes et managers grands comptes utilisent ce jour la solution Access Insight.
de pntration par rapport aux concurrents, caractristiques de la flotte des entreprises). Toutes ces informa-
tions permettront une connaissance optimale des entreprises et un ciblage prcis. Un message adapt rpondant
presque coup sr aux besoins de chaque segment pourra facilement tre tabli.

Access Insight permet au service marketing et commercial de Renault entreprise une vue instantane sur ses
performances, sur le march et sur ses cibles. Loutil permet non seulement une vision globale mais galement
une vision par secteur et par prospect ou client pour une prparation optimale des argumentaires commerciaux.
Un avantage concurrentiel non ngligeable pour Renault.
Avant la mise en place dAccess Insight, les vendeurs avaient accs des listings de prospections basiques cres
la demande par le service marketing. Aujourdhui grce Access Insight, ils ont directement accs des infor-
mations prcises sur les entreprises les plus pertinentes, susceptibles dacqurir des vhicules ou de renouveler
leur flotte.


La solution de business intelligence nouvelle gnration dAccess permet aux dcisionnaires danalyser rapide-
ment les performances de leur activit, didentifier les problmes et de dceler les opportunits en temps rel. Son
cot user-friendly, son interface mobile, ses fonctions collaboratives et ses performances font de la solution un
outil adapt aux besoins actuels des utilisateurs.

Retours dexpriences Big Data en entreprise



Mto-France dveloppe et utilise un systme de collectes de donnes mtorologiques temps rel, mises jour
toutes les heures pour alimenter ses systmes de modlisation et ainsi piloter et suivre les volutions climatiques
et les risques lis la mto en vue dinformer et de protger les citoyens, les industriels, les agriculteurs
Ce systme a une double mission : les prvisions mtorologiques quotidiennes et la recherche sur le climat.


Amliorer et rendre plus prcises les prvisions et la localisation des phnomnes mtorologiques pour une
prvention des risques plus efficace et de meilleure qualit, pour plus de scurit au quotidien.
Diversifier loffre de services de Mto France : prvisions court terme, dfinition de nouveaux marchs et de
nouveaux supports de diffusion de linformation mto.

Systme 12 fois plus puissant que le systme prcdent
Architecture volutive : la puissance systme peut tre multiplie par 3
Supercalculateur conu pour une efficacit nergtique optimale: consommation lectrique optimise, empreinte
carbone rduite grce une technologie de refroidissement innovante.

Les supercalculateurs sont installs Toulouse. Dots dun systme de refroidissement innovant ultra performant,
quips des processeurs Intel Xeon de dernire gnration, les supercalculateurs bullx livrent actuellement
une puissance de calcul denviron 1 Petaflops, puis lhorizon 2016, une performance totale dpassant 5 Peta-
flops. Cette augmentation des moyens de calcul de Mto-France se double dune volution technologique impor-
tante : le passage de la technologie vectorielle la technologie scalaire qui repose sur les standards du march et
permet de fournir une puissance de calcul parallle nettement suprieure, pour un TCO moindre.


Le choix de Mto-France souligne le savoir-faire dvelopp par Atos en matire de paralllisation des codes ap-
plicatifs utiliss dans les domaines de la mtorologie et des sciences du climat. Une plus grande paralllisation
est essentielle pour lutilisation optimale des nouvelles machines scalaires. Elle exige une volution indispensable
des codes de calcul qui reprsente en elle-mme un grand challenge, auquel sont confronts tous les instituts
mtorologiques dans le monde.
Atos est fier du choix de Mto-France pour nos plus rcents et nos plus puissants supercalculateurs bullx. d-
clare Philippe Vannier, Vice-Prsident Excutif dAtos, Big Data & Security. Le choix de Mto-France confirme
la capacit dAtos, appuy par ses technologies Bull, aider les grandes organisations dans la modernisation de
leurs infrastructures de calcul, dans les domaines vitaux pour la socit et stratgiques pour les tats que sont
aujourdhui la prvision mtorologique et ltude du climat conclut Philippe Vannier.

Retours dexpriences Big Data en entreprise



Le projet OpenStat assure en temps rel la collecte dinformations sur les quipements du rseau ou sur les sys-
tmes de mdiation, la consolidation des indicateurs et la production dun reporting interactif pour plus de 15 000
clients entreprise en near real-time consultable en IHM, aux formats papier et M2M.


Faire voluer un systme obsolte datant de 15 ans pour assurer le reporting dusage et de performance des
offres entreprises
Rduire les cots de maintenance, dexploitation et dvolution
Accrotre lagilit
- collecter les donnes et diter un reporting sans ptir des volutions systmes permanentes et des contraintes
dun SI htrogne
- revoir la dfinition et la liste des indicateurs

Une solution base sur lOpenSource, tirant parti des avances des solutions NoSQL
Une base NoSQL de type Graphe (OrientDB) pour le rfrentiel, apportant une grande souplesse dans la modli-
sation du rseau et de la performance dans son utilisation
Une Base NoSQL de type Cl/Valeur (Cassandra) permettant dabsorber le flux continu et important de donnes,
tout en les parcourant en temps rel pour produire les indicateurs
Une architecture SOA et 100% volutive base sur JEE 7
La description en XML de la prsentation, de la navigation dans lIHM du calcul du reporting destination de
lapplication en map reduce de production des indicateurs

La solution dAtos mise en uvre permet, en toute fiabilit, la captation et le stockage de 10 millions dindicateurs
bruts toutes les cinq minutes. Sur la base de cette norme masse de donnes, des centaines dindicateurs sont
construits par OBS destination de 15 000 de ses clients entreprises. Ces tableaux de bord sont consultables en
temps rel sur diffrents types de supports. Ce projet permet de rduire de manire drastique la production de
nouvelles offres divise par environ trois - et rend possible le prototypage en agilit.



Le Stade Toulousain a choisi une solution permettant lanalyse des informations circulant sur les rseaux sociaux,
et en particulier Twitter. Il convient, dans cette norme volumtrie de donnes, de trouver linformation utile et utilis-
able. Ce qui se dit sur le Stade Toulousain et ce quexpriment les fans est collect et analys, des rapports sont
ensuite construits. Cet outil permet dadapter loffre aux tendances et aux souhaits des supporters et de dvelop-
per ainsi de nouveaux business.

Retours dexpriences Big Data en entreprise


Dvelopper une vision client 360
Mieux connatre les fans, identifier influenceurs et ambassadeurs pour adapter les offres
Mettre en place un marketing cibl
Fidliser les supporters et en attirer de nouveaux.
Augmenter les ventes de produits drivs et remplir les stades plus de 90%


La solution sarticule autour de quatre composants majeurs
Une solution Tibco pour la collecte des donnes.
Une plateforme Hadoop et des composants de son cosystme
Un socle BI temps rel
Spotfire de Tibco pour le reporting et la construction de tableaux de bord Social Network Analytics .

Quelques dtails de la solution : FLUME collecte les diffrents tweets alors que des donnes sont collectes via
les outils Tibco et dposes au sein de la plateforme Hadoop. La plateforme Hadoop permet le stockage, le tri et
le calcul statistique. De plus des composants de lcosystme Hahoop sont utiliss : OOZIE orchestre les traite-
ments, HIVE/IMPALA observe les donnes et les rsultats, OPENNLP gre lanalyse smantique. A cet ensemble
est associ un Datawarehouse pour la consolidation dinformation structure. Enfin la Solution Spotfire de Tibco
prpare et prsente le reporting ainsi que les tableaux de bord.

Ce projet est linitiative de FastConnect, socit du Groupe Atos, partenaire du Stade Toulousain depuis de nom-
breuses annes : il a t propos et prsent au Stade Toulousain, la dmarche trs innovante a sduit, la solution
est en production. La proposition dAtos reprsente le compromis gagnant entre un prix comptitif, un savoir-faire
fonctionnel et technique. Le Stade Toulousain a fait le choix de la solution FastConnect, socit du Groupe Atos,
pour son expertise dans le Big Data et le support quil apporte une quipe SI client restreinte.

Retours dexpriences Big Data en entreprise


Le service Innovation de la CCI de Rgion Nord de France ralise des prestations dans le domaine de la veille,
pour les PME-PMI, ples dexcellence et de comptitivit de la rgion. Afin damliorer la qualit de son offre de
services, CCI Innovation sest dote en 2011 dune plateforme de visualisation cartographique de linformation.

Depuis le lancement du projet, CCI Innovation confie le dveloppement de son outil et ses volutions lagence
Bakasable. Quatre annes de travail qui ont dj aboutit une vritable Formule 1 dans le domaine de la
datavisualisation. De nouvelles fonctionnalits seront implmentes dici juin 2015 pour amliorer davantage la
performance de loutil existant.


Base sur lanalyse de linformation (corpus de textes) et la cartographie temporelle, la solution Bakamap, dvel-
oppe pour la CCI de Rgion Nord de France, est un vritable outil daide la dcision stratgique. Ainsi, elle
permet :
- daccder facilement et intuitivement aux informations associes une thmatique (acteur, technologie, etc);
- de naviguer dans un grand volume de donnes sans se perdre : plus de 20 000 articles, issus de 60 sources web
sont rapidement accessibles grce la visualisation;
- de filtrer ou de cumuler les thmatiques, afin daffiner la recherche et se focaliser sur une partie du corpus;
- de percevoir les volutions des thmatiques dans le temps - laide dune timeline et dun systme de rgression
linaire - et de dtecter les technologies mergentes;
- de dcouvrir les interactions entre les acteurs, les technologies, les zones gographiques (navi-
gation de proche en proche),
- dexporter en vectoriel le rsultat de la recherche.

Aujourdhui, Jean Dufour, conseiller veille au sein de la CCI de Rgion Nord de France, utilise la cartographie pour
aider les entreprises identifier des marchs, des acteurs, des technologies en pointe sur un secteur dactivit,
mais aussi se positionner dans lcosystme de sa rgion.



La visualisation de linformation, cest beau (souvent), utile (parfois)mais au fond quest ce que cest ? Pour
rpondre cette question, lagence Bakasable propose aujourdhui un systme de datavisualisation et de cartog-
raphie de linformation accessible et comprhensible tous !
Disponible sur http://www.bakamap.fr/byod/, cet outil gratuit permet non seulement de cartographier en ligne ses
propres bases de donnes (Excel, Access), mais aussi de comprendre les enjeux de la datavisualisation avec un
exemple concret et personnel.
Les multiples interactions existantes, peu videntes sur un tableau classique, sont visibles immdiatement grce a
une reprsentation claire et graphique. Lutilisateur peut donc visualiser nimporte quel jeu de donnes, dcouvrir
les interactions qui les lient entre elles (quels sont les noeuds ? ou sont les liens ?), et naviguer facilement a travers
son patrimoine informationnel !
Un tableau de bord permet daccompagner lutilisateur dans la configuration de sa carte. Il aura ainsi le choix
dafficher entre 2 5 catgories pour dcouvrir les interactions entre toutes ses donnes, mais aussi dexporter au
format PNG le rsultat obtenu.
Ce service gratuit est actuellement en version Bta. Il saccompagnera dune offre payante, dici lete 2015, don-
nant accs dautres fonctionnalits pour aller encore plus loin dans lexploitation de ses donnes.

Heidi GHERNATI : 1 rue Suffren - 44000 NANTES
06 03 55 16 78 - ghernati.h@bakasable.fr

Retours dexpriences Big Data en entreprise



Weekendesk est une agence de voyage 100% en ligne, leader de la vente de courts sjours en Europe. Le site
gnre plus de 46M de Volume dAffaires sur les 3 pays que sont la France, la Belgique et lEspagne. Port par
le dpartement Finance & Business Analytics, leur projet BigData sarticulait dabord sur une logique de sortie du
Reporting en silo, d lhtrognit de leurs sources de donnes. Il sagissait en priorit dagrger des donnes
financires et de les mixer avec celles du trafic de leurs sites web et du comportement de leurs consommateurs.

a. Nature des donnes traites
Weekendesk est un site web marchand dont les 25 000 commandes par mois gnrent un important volume de
donnes transactionnelles entre les clients et les htels. Weekendesk analyse aussi constamment lvolution de
son trafic et son taux de conversion clients en rapport avec son offre produit et/ou service de son catalogue. Avec
plus de 2 millions de visites par mois en moyenne, Weekendesk utilise Google Analytics. Les donnes transaction-
nelles de rservation sont stockes dans des bases de donnes SQL et un ERP propritaire en ligne. Dautres
donnes sont disponibles dans le Google Drive de lentreprise.

b. Ressources et mthodologie (comptences humaines, outils techniques, fonctionnement du traitement de la donne)

Le Reporting tait prcdemment produit via Excel avec une multitude de tableaux croiss dynamiques associs
et donglets, pour couvrir tous les indicateurs cls des diffrents dpartements mtiers. Ce Reporting a rapidement
atteint les limites techniques dExcel (volumtrie croissante et problme de disparit des donnes), devenant dif-
ficilement exploitable. En slectionnant BIME, Weekendesk peut dsormais reproduire son schma de Reporting
initial avec comme amlioration majeure la fluidit de se connecter nativement toutes les sources de donnes
(SQL, Google Analytics et Drive) depuis un seul et mme endroit, puis dagrger les informations en quelques
clics, pour enfin construire et partager des tableaux de bord de pilotage en ligne avec le top management et les
diffrents dpartements.

c. Calendrier de dploiement
Le projet a dmarr en avril 2014. La Direction analyse les tableaux de bord depuis aot 2014.
Weekendesk a fait appel un intgrateur pour travailler en amont les connexions on premise aux bases de donnes SQL.

Weekendesk est une socit 100% web, oriente cloud et mobilit. Chaque employ doit imprativement accder
ses donnes mtiers depuis nimporte o. La solution de Business Intelligence de BIME, 100% web correspond
parfaitement cet ADN. Grce la gestion des profils et droits utilisateurs, chaque Business Analyst rentabilise
son temps de production des analyses. Un mme tableau de bord, agrgeant plusieurs sources de donnes, peut
en effet tre partag avec le Comit de Direction et les dpartements mtiers. Le Comit accde aux informations
globales de lentreprise tandis que les mtiers (vente, marketing) ne voient quun primtre autoris.


Exploitation de la richesse du croisement des informations multi-sources dans les tableaux de bord, la vole,
au mme endroit et en ligne. Production simplifie de graphiques visuels permettant une comprhension rapide
des performances des canaux dacquisition. Visibilit accrue des rsultats des ventes web par rgion, par canal
de vente (force de vente interne, service client, pur web), par source (ordinateur, tablette, smartphone), dans un
contexte croissant de volume de donnes. Actualisation real time des indices de comptitivit des offres, disponi-
bles en ligne pour les mtiers, chacun tant capable dexcuter des requtes adhoc pour rpondre leur question.


Optimisation, augmentation et mix des collectes de donnes de ventes et de rservations pour renforcer la granu-
larit de lanalyse au client prs. Objectif : migrer les donnes CRM (dont Salesforce) & Marketing (dont les don-
nes dAttribution comme C3 Metrics) dans Google BigQuery pour produire des tableaux de bord des profils clients
et de leurs comportements dachats, le plus rapidement possible. Bnficier des technologies Cloud pour rester
fidle lADN Web de Weekendesk et disposer dune plateforme danalyse puissante connecte en direct toutes
les sources de lentreprise, pouvant grandir linfini.

Retours dexpriences Big Data en entreprise




Capgemini and Cloudera Big Data Solution Helps Global Employment Agency Improve Insight into Localized Job Markets

The client is one of the worlds largest HR service providers, operating in approximately 40 countries. It faced a
challenge around the sheer volume of information that is increasingly becoming available in job markets today.
Sources include everything from job boards, institutions, LinkedIn, and other social media, to videos and company
reports. Even sources such as weather forecasts can be relevant in relation to seasonal and tourism industry job
The HR service provider wanted to develop a platform to consolidate all available jobs in a particular geography.
They asked Capgemini to demonstrate how an enterprise data hub, based on Cloudera Enterprise, could deliver a
Big Data solution that would help them gain faster access to higher quality information.
The initial objective was to find ways to tackle volumes of information for its own business, with the secondary aim
of developing entirely new HR services for governments and companies. This would include becoming far more
proactive in job markets, anticipating requirements and opportunities, and acting to fulfill recruitment requirements.

A Big Data solution was needed to manage and deliver rapid insight into the sheer volumes of data involved.
Capgemini and Cloudera experts worked closely with the clients team to list and prioritize the use-cases relevant
for their initial business goals. This led to a proof of concept (POC) project to match job demand and supply in a
specific geography - in this case, France.
Capgeminis solution involved implementing four major elements not present in the existing system:
Cloudera Enterprise to store all data and run the data modeling engine
An analytical SQL database running in conjunction with Cloudera Enterprise
A data visualization product
A solution to geo-code the geographical data

As part of the solution, a learning algorithm processes the text within CVs and job openings to identify and flag
similarities. The solution also delivers data from the visualization product to the existing reporting tools which are
already familiar to business users.

Retours dexpriences Big Data en entreprise

The initial project has successfully demonstrated the viability of the Big Data solution to deliver improved insight
into job markets in a specific geography. This enables users to more proactively match job seekers with relevant
The system automated the matching of offers and CVs. For instance it was able to analyze 200,000 documents
(including offers and CVs) in only two hours using a handful of computers. The client has verified the results of the
analysis, with the feedback that users have been amazed by the accuracy of the system.
After a successful and low-cost POC, the project is now being expanded to explore around 15 additional business
use-cases. These include features such as the ability to have the amount of employment contracts signed per
month, per activity, and per work area or the ability to analyze the travel time between the job seeker and the job

Retours dexpriences Big Data en entreprise



Les big data ont envahi lespace mdiatique depuis quelques annes. Si nombre darticles dtaillent les bnfices
quelles procurent, tant en termes de connaissance client, doptimisation de processus ou damlioration des
capacits de prvision des entreprises, peu sattardent sur les mthodes qui permettent de les matrialiser. Cest
certainement la raison pour laquelle seulement 25% des entreprises dclarent avoir dj mis en place un market-
ing personnalis, alors quelles sont 80% souhaiter exploiter davantage leurs donnes pour optimiser les actions

KNOWLBOX, plate-forme de data marketing unique vous aide utiliser de manire optimale toutes vos donnes.
KNOWLBOX propose directement une palette de modules danalyse mtier. Toute lexpertise ncessaire est dans
loutil. Les rsultats prsents sont valids par des tests de significativit statistique. Le dploiement des modles
sur lunivers de production est ralis dans le mme flux que lanalyse, donc sans risque derreur, trs simplement
et extrmement rapidement. Connect en permanence avec la base de donnes, les modles sont mis jour en
temps rel.

Simplicit, rapidit, flexibilit, rentabilit. Quel que soit le type de votre entreprise, KNOWLBOX vous assure de
tirer des conclusions justes pour prendre les dcisions en toute srnit. Vous amliorez ainsi le retour sur inves-
tissement de votre stratgie omnicanale, personnaliser vos offres pour fidliser vos clients, et faire croitre votre
entreprise grce aux data.


Filiale 100% de TF1, et premire socit franaise de tlachat, TELESHOPPING sappuie sur 4 canaux de
diffusion produits. La tl (1), avec 18 000 heures de programmes par an, qui permet de dcouvrir prs de 300
nouveaux produits par an, les magasins (2), les sites internet (3) et enfin, le catalogue papier (4), avec 6 millions
denvois annuels. Le catalogue, qui prsente une offre produits beaucoup plus tendue que la tl, est un lment
central de la stratgie de fidlisation aux cts de des cartes de fidlit et des leviers digitaux.
Mais pour Olivier Dubois, responsable du Dpartement Fidlisation e-CRM et Marketing Digital, la question tait :
Le catalogue papier est il encore rentablement efficace?
Nous devions mesurer, dans des temps trs courts, limpact du catalogue sur les ventes, notamment au regard
de limpact du web et des missions.
Ceci impliquait darrter de raisonner en silo, et reconstituer une vision business globale. Compte tenu des
volumtries en jeu et du fait quil tait ncessaire de reconstituer diffrentes cohortes de clients sur plusieurs an-
nes, ctait un vrai projet big data.
KNOWLBOX est conue pour rpondre directement toutes sortes de problmatiques marketing, de connais-
sance client et danalyse prdictive La solution rpondait tout fait nos besoins : quelques jours ont suffi pour
son dploiement, la fois pour intgrer nos donnes 1.2 millions de clients, et lintgralit de leur historique de
comportement - et pour la paramtrer. Et ceci sans aucun impact sur notre SI.
A partir de l, lanalyse dtaille de limpact du catalogue sur nos ventes a t mene, conformment la promesse
de loutil, en quelques clics !
Nous avons mesur avec KNOWLBOX une augmentation du nombre de commandes de 50% due au catalogue,
et dmontr que la rception du catalogue augmente les ventes de lmission tl de 20%. Au final, cest la dure
de vie du client mme qui est impacte.
Cette tude nous a aussi permis de dcouvrir la puissance, allie une grande simplicit, de la plateforme analyt-
ique KNOWLBOX, avec laquelle des scores dapptence catalogue ont aussi t dvelopps et dploys.
A TELESHOPPING, nous navons plus aucun doute sur la place du catalogue papier dans une stratgie de fidli-
sation client.

Cest ainsi qu contre-courant dune bonne partie des VADistes, TELESHOPPING dmontre que son catalogue
papier est un facteur de dveloppement des ventes.

Retours dexpriences Big Data en entreprise


A la fois diteur de solutions data analytiques pour le marketing et bureau dtudes depuis prs
de 20 ans, COMPLEX SYSTEMS innove avec la plate-forme KNOWLBOX qui permet toutes
les entreprises, quelles que soient leurs contraintes budgtaires, techniques ou humaines, de
pouvoir enfin prendre des dcisions reposant sur leurs donnes.
La plate-forme KNOWLBOX permet toutes les entreprises qui ont des donnes de pouvoir enfin les utiliser pour
optimiser leurs dcisions marketing.
Elle supprime les freins la mise en place dune dmarche data driven - manque dexpertise, cot des logiciels et
temps - et permet une monte en comptence interne progressive et adapte sur les sujets data. La tarification
sous forme dabonnement fonction de lutilisation garantit un budget maitris.
Avec KNOWLBOX, COMPLEX SYSTEMS donne toutes les entreprises le moyen de sengager simplement,
selon leurs besoins et en toute scurit dans une dmarche marketing data driven gagnante.


KNOWLBOX est une plate-forme big data marketing, dploye et paramtre en 2 jours sur tout type de base -
ORACLE, MySQL, SQLServer, cloud Amazon Web Services... Sans programmation ni traitements de donnes,
encapsulant une vritable intelligence datamining et ddie aux problmatiques marketing, KNOWLBOX simpli-
fie drastiquement lexprience utilisateur. La plate-forme, conue pour rpondre directement aux questions des
directions marketing telles que valeur client, apptence produit, parcours client, cycle de vie, repose sur des
algorithmes prouvs, et apporte aux dataminers et experts mtier des rsultats performants immdiatement ex-
ploitables. Offre unique sur le march, elle est utilisable selon les besoins selon 3 modes :

En mode autonome, la plate-forme logicielle est livre cl en main, avec un accompagnement sur 2 mois qui
garantit le succs de son implantation.
En mode collaboratif, mi-chemin entre logiciel et outsourcing, lutilisateur bnficie de lexpertise et du support
des dataminers du bureau dtudes de COMPLEX SYSTEMS, et externalise certaines tudes.
En outsourcing lentreprise dispose dune plate-forme analytique externalise et du bureau dtudes prt r-
pondre toutes les demandes de la direction marketing
Propose sous la forme dun abonnement mensuel, sans engagement, KNOWLBOX sadapte chaque instant
exactement aux besoins de lentreprise ; son utilisation peut passer dun mode un autre sans contrainte.

KNOWLBOX est la seule plate-forme big data analytique, dote de fonctionnalits cls en main la fois pr-
dictives et exploratoires, spcifiquement ddie aux problmatiques marketing. Vritable innovation de rupture,
KNOWLBOX analyse directement les donnes stockes dans une base de donnes relationnelle, sans extrac-
tion, sans traitement, sans constitution de fichier danalyse. Le processus analytique est direct, simple, rapide. En
supprimant ltape de constitution dun fichier, jusquici incontournable ds quon sort du cadre des problmatiques
BI, KNOWLBOX raccourcit considrablement le temps de ralisation des modles prdictifs, apporte une sou-
plesse ingale, et met enfin lanalytique la porte de profils mtier. Cest une avance majeure qui permet un
grand nombre de profils mtiers dutiliser les donnes.
Retours dexpriences Big Data en entreprise


COMPLEX SYSTEMS a t cr en 1996 lpoque de lmergence du datamining par deux passionns de
data. Avec 20% de son activit consacre la R&D data, et prs de 20 ans dexpertise datamining, COMPLEX
SYSTEMS, qui a gard son esprit de start-up, est un diteur innovant de solutions analytiques de connaissance
client pour le marketing.
COMPLEX SYSTEMS aide les entreprises exploiter leur capital data, acqurir la connaissance client, dvel-
oppez et dployer les modles prdictifs dont elles ont besoin.

Hlne Ivanoff - 01 42 21 48 86 - hivanoff@complex-systems.fr

Retours dexpriences Big Data en entreprise


Todays travel industry is seeing rapid growth, high customer expectations, fierce competition and pressure on
margins. Its a market driven by new technologies, new entrants and new business models. Amadeus, the leading
Global Distribution System (GDS) and the biggest processor of travel bookings in the world, looks to NoSQL and
Couchbase to meet stringent data management needs within a demanding industry.

The mission of Amadeus is to be the leading provider of IT solutions that enable success in the travel and tourism
industry. The company is a Global Distribution System (GDS), meaning they take travel and tourism data from
airlines, car companies, hotel chains, cruise lines, etc., and distribute it to travel agencies, corporations, travel
websites, airports, and other distributors. As the worlds leading GDS, Amadeus must manage a huge workload
daily, with absolutely no room for service outages, supporting:
3.7 Million Bookings per Day
1.6 Billion Transactions per Day
45 Billion Database Accesses per Day
13 Petabytes of Storage
Response Time of Less than 0.5 Seconds
Thousands of Developers Pushing New Features (100+ Changes per Day)

Amadeus became interested in NoSQL technology and Couchbase because they needed greater scalabilty and
flexibility for the service-oriented architecture (SOA) on which the business runs. Specifically they needed a low-
latency key-value store to achieve the required service levels for their architecture, including:
Consistent high performance (submillisecond latency)
Elasticity to support frequent capacity expansions of their server farms, needed to handle traffic growth
Seamless topology changes
Data persistence to support a very write-heavy environment

To get started with Couchbase, Amadeus implemented Couchbase Server for two applications. The first, the Ama-
deus Selling Platform Connect, is the website professional travel agents rely on for doing business. The Platform
supports 500,000 terminals and 150,000 simultaneous users. All web sessions are long-lived, usually lasting the
entire business day, and the amount of session data that needs to be stored is about a half a terabyte. Amadeus
wanted to offload the user sessions, which were stored in JVMs, and move them to a distributed, scalable robust
system, enabling them to reduce TCO and increase scalability. With Couchbase they can achieve this goal, and
maintain a responsive experience for the end users.
The second application, the Availability Processing Engine, is the engine behind many popular travel sites. If you
have ever booked travel online, you have encountered this engine. which displays travel information such as
prices, flights, and dates. This is a critical application for Amadeus, and the one with the most pressing need for
the performance improvements that key-value technology offers. The original system had 28 relational databases
and over 20 terabytes of data. Peak traffic is two million reads of objects per second, and 400K writes per second.
The average object size is about 1 KB.

Amadeus is a leading provider of advanced technology solutions for the global travel industry. Customers include
travel providers (airlines, hotels, rail and ferry operators, etc.), travel sellers (travel agencies and websites), and
travel buyers (corporations and travel management companies).

The Amadeus group employs around 10,000 people worldwide, serving 195 countries. For the year ended Decem-
ber 31, 2012 the company reported revenues of 910.3 million and EBITDA of 1,107.7 million. Amadeus is listed on
the Spanish Stock Exchange under the symbol AMS.MC and is a component of the IBEX 35 index.

Retours dexpriences Big Data en entreprise



Cancer researchers have a wealth of data available to them regarding the molecular and clinical characteristics of
the many forms of cancers and the use of therapeutic drugs to treat disease. This data includes both proprietary
research from their own labs as well as publicly available data such as The Cancer Genome Atlas and other col-
laborative scientific and public sources.
The hypothesis is that big data could be used to identify potential new drug treatments from data already available
through analysis of gene-drug relationships without performing wet lab work first.
However, traditional analytics tools and techniques to test these hypotheses often take several weeks to months
to execute. They are time consuming because data scientists must assemble all of the necessary data into a new
data model to determine whether the researchers hypothesis is accurate. Because of the extensive amount of time
between question and answer, the results of the experiment may be irrelevant by the time they are finally delivered.
The researchers at the Institute for Systems Biology (ISB) wanted to determine whether they could significantly
compress this wait time. They wanted a way to get to yes or no quickly in order to prioritize drug repurposing
opportunities; this would then accelerate the discovery of new cancer treatments that could be moved through the
drug development and approval process quickly, thus making a major difference to cancer patients.


To rapidly validate scientific hypotheses in real time and discover new connections within their
existing data, the ISB team needed a powerful solution that enabled data discovery at scale.
The ISB team worked with Cray to develop an innovative, real-time approach to cancer research discovery using
the Urika-GD graph analytics appliance. Using the Urika-GD system, the team was able to assemble all of its
data into a single graph in the appliances vast shared memory eliminating the need to partition the data or cre-
ate time-consuming and complex data models prior to posing a hypothesis. This solution is scalable, which allows
the data set to expand over time without losing performance or data integrity.
The ISB team identified new cancer therapy candidates by exploring correlations between frequently mutated
genes from tumor samples to identify existing gene-drug associations that could be possible drug candidates. In
addition to discovering promising new therapies, they also sought to rapidly eliminate from consideration those
drugs that would not deliver the desired result..
To deliver results quickly, the researchers needed a way to discover unknown relationships within the data that the
current data management strategy couldnt deliver. The Urika-GD system enabled ISBs researchers to look at the
data in a different way than what theyd be limited to with query-based relational database systems, where the data
determines what questions can be asked. This resulted in a clear visualization of the connections and associations
within the data to help identify promising candidates for new therapies.
The graph analytics approach enabled the research team to identify thousands of drug repurposing opportunities
that warranted further investigation. For example, this methodology revealed that nelfinavir, which is used to treat
HIV, showed selectivity in a separate research study for HER2-breast cancer. The ISB team came to the same
conclusion about nelfinavir in a fraction of the time, with no need for hands-on wet lab work to test the hypothesis
- validating the accuracy and efficacy of the big data approach for identifying drug treatment solutions.


The Urika-GD system, with its large global shared memory, RDF/SPARQL interface and proprietary Threadstorm
multithreaded graph processors, allowed the team to rapidly integrate ISBs proprietary data with publicly available
data, enabling the researchers to identify new relationships in the data without any upfront modeling. No advance
knowledge of the relationships within the data is required to identify non-obvious patterns, facilitating true data
Using the Urika-GD platform instead of traditional database strategies and investigative laboratory experiments,
the ISB researchers significantly reduced the time to discovery, saving months or years of research with a higher
probability of success.

Retours dexpriences Big Data en entreprise


The impact of using a more powerful analytics solution was immediate-and dramatic: In the amount of time it previ-
ously took to validate a single hypothesis, the team could now validate 1,000.
About Urika-GD The Urika-GD big data appliance for graph analytics helps enterprises gain key insights by discov-
ering relationships in big data. Its highly scalable, real-time graph analytics warehouse supports ad hoc queries,
pattern-based searches, inferencing and deduction. The Urika-GD appliance complements an existing data ware-
house or Hadoop cluster by offloading graph workloads and interoperating within the existing analytics workflow.


Cray Inc. provides innovative systems and solutions enabling scientists and engineers in industry, academia and
government to meet existing and future simulation and analytics challenges. Leveraging more than 40 years of
experience in developing and servicing the worlds most advanced supercomputers, Cray offers a comprehensive
portfolio of supercomputers and big data storage and analytics solutions delivering unrivaled performance, effi-
ciency and scalability. Go to www.cray.com for more information.

2014 Cray Inc. All rights reserved. Specifications subject to change without notice. Cray is a registered trademark
and Urika-GD is a trademark of Cray Inc. All other trademarks mentioned herein are the properties of their respec-
tive owners. 20140915

Retours dexpriences Big Data en entreprise


Western Digital, lun des leaders mondiaux de la conception et de la fabrication de disques durs sest attaqu
au dfi daccrotre la qualit de ses disques durs, damliorer lefficacit oprationnelle de sa fabrication et de
permettre aux personnes de toute lentreprise de profiter de nouvelles donnes. Le problme auquel lentreprise
devait faire face tait des ensembles de donnes qui devenaient si vastes et complexes quil devenait compliqu
de travailler avec ces donnes en utilisant les outils et techniques habituels. En utilisant la solution CSC Big Data
Platform as a Service pour relever ces dfis, la totalit des sources de donnes disparates de HGST a pu tre mise
en pratique professionnelle en fournissant des outils permettant dafficher lensemble de lADN de lentreprise
du dveloppement la fabrication, en passant par les tests de fiabilit et le marketing et les ventes - pour que
tout soit accessible tout moment et en quelques secondes. Une fois en production, la plateforme de big data CSC
leur a permis daccrotre les normes de qualit, damliorer la qualit du produit fini et daugmenter les niveaux de
satisfaction des clients. Le retour sur investissement du projet a t immense grce des conomies tires des
cas dutilisation initiaux qui ont pay pour lintgralit de cet effort en trois mois.

Lunit des disques durs (DD) de Western Digital devait relever plusieurs dfis, comme des chances de projet
trs courtes, lintgration de sources de donnes disparates, une expertise interne rduite et des volumes de don-
nes gigantesques. Lorsquune intgration client choue lors dun test, le client de Western Digital demande
voir les donnes de fiabilit pour tous ses disques durs, afin dtablir une comparaison. Avant, ce processus aurait
pris des semaines deffort manuel, notamment si les donnes devaient tre extraites de diffrents silos et bandes

Infochimps, une socit de CSC, a aid Western Digital en dployant son Big Data Cloud grce un moteur
danalyse de donnes machine sophistiqu. Nous avons galement propos une infrastructure trs volutive of-
frant des interfaces simples pour ajouter de nouveaux lments de donnes et dployer de nouvelles analyses de
donnes sappuyant sur des solutions open source de socits leader du Web comme Google, Yahoo !, Facebook.

Grce lanalyse des big data, lintgralit de lADN dun disque - du dveloppement la fabrication et au test de
fiabilit - est accessible tout moment. La nouvelle infrastructure implique une charge oprationnelle minimale (en
tant que service entirement gr), une chance de dveloppement rduite et une infrastructure souple et agile
pour convertir efficacement les donnes en recettes.

Retours dexpriences Big Data en entreprise



Une compagnie dassurance automobile leader du march qui compte plus de 18 000 agents au service de 81
millions de clients aux tats-Unis et au Canada souhaitait lancer un programme fond sur la tlmatique qui per-
mettrait ses conducteurs de personnaliser leur prime automobile en fonction de leur conduite. CSC a propos
une plateforme de big data conomique conue et gre pour mettre en pratique les exigences de niveau de ser-
vice une vitesse sans prcdent afin de traiter des volumes levs de donnes tlmatiques par le biais dune
plateforme forte disponibilit. La solution a acclr le dlai de mise sur le march et a permis de respecter les
dlais commerciaux essentiels.

Cette initiative particulirement visible au niveau du Conseil dAdministration visait rattraper le retard sur dautres
oprateurs qui offrent dj des produits sur le march. Elle ncessitait une plateforme prenant en charge une ap-
plication analytique fonde sur un haut volume de donnes tlmatiques.
Les challenges relever tant :
- La capacit rpondre aux exigences de mise sur le march de lentreprise
- Le foss de comptences technologiques internes
- les plateformes technologiques actuelles ntaient pas capables de raliser ce traitement et ntaient pas

Une plateforme solide, intgre et scurise pour permettre une application de tlmatique de tirer le meilleur
parti des technologies dinfrastructure et de scurit informatiques pour les analyses et la collecte de donnes.
Un moteur dingestion de big data hberg avec un rseau hautement scuris
Conu pour des volumes levs de donnes tlmtriques (6 millions de clients)
Haute disponibilit fournie par 2 centres de donnes pour la continuit de lactivit
Solutions de surveillance et de scurit de classe mondiale avec assistance 24h sur 24, 7j sur 7

Retours dexpriences Big Data en entreprise

La solution a permis la mise en place dun programme de discount sur les polices dassurance li la qualit de
conduite. Ce programme sappuie sur lanalyse des habitudes de conduite en traitant des quantits massives de
donnes venant de capteurs et en dveloppant des modles dynamique danalyse de risques
Les autres bnfices pour le client furent :
- des dpenses initiales limites pour un lancement rapide
- une plateforme hautement disponible : conue et gre pour mettre en pratique les exigences de niveau de service
- une rapidit de mise sur le march : la plateforme CSC a permis au client dacclrer le temps de mise sur le
march et de respecter ses chances commerciales essentielles.
- une expansion et une volution rapide au fur et mesure que le programme est dploy et adopt au sein des
52 tats couvrir.



Avec laide de CSC, ce client leader du march web europen des offres de voyages et de loisirs a augment
significativement son chiffre daffaire en segmentant sa base clients et en lanant une campagne marketing cible.
En utilisant le modle RFM (Recency, Frequency and Monetary Value), CSC a fusionn et nettoy 7 sources de
donnes et ralis de lanalytique sur sa base clients. Des donnes ouvertes (open data) provenant de lINSEE
y ont t insres afin damliorer lalgorithme dvaluation en sappuyant sur :
- les donnes gographiques avec coordonnes GPS pour calculer les distances de voyage
- les revenus moyens par zone dhabitation
- lge moyen par prnom pour chaque client potentiel

La fusion de ce client avec un de ces comptiteurs engendra le besoin de raliser des synergies entre les deux
socits, la priorit tant de fusionner et moderniser leur Connaissance Client et de construire un nouvel outil com-
mun de gestion de campagne marketing

Lapproche de CSC consista dvelopper une nouvelle base de Connaissance Client en :
- dfinir les besoins clients avec des analystes marketing
- ddupliquer et nettoyer les donnes client

Retours dexpriences Big Data en entreprise

- ingrer des donnes ouvertes pour amliorer lalgorithme dvaluation

- construire une solution avec les meilleures technologies du march
CSC a recommand la segmentation de la base clients en utilisant le modle RFM (Recency, Frequency and
Monetary Value) et a affin les valuations afin damliorer le retour sur investissement des campagnes marketing.

CSC a dlivr un Datamart clients pour faciliter le reporting, lanalyse et la segmentation de la clientle.
Grace ce Datamart le client a augment :
- sa rtention client de 5%
- ses revenus de 6% en recommandant des stratgies dupsell
- ses revenus de 10% en recommandant des stratgies de cross sell

Retours dexpriences Big Data en entreprise





Frdric Bornuat, responsable du ple connaissance client et CRM, direction marketing du Groupe Cegid, avait
besoin de mieux identifier ses cibles de prospection afin dalimenter les quipes de tlmarketing avec des fichiers
neufs. Il cherchait notamment identifier des cibles trs prcises savoir les entreprises sous-traitantes dans les
secteurs de lautomobile et de laronautique. Or il nexiste pas de code NAF qui permet didentifier les entreprises
de ces secteurs dactivit. Cegid a donc fait appel aux technologies du produit C-Radar pour les aider dans cette
dmarche de segmentation.
Grce la base de donnes B2B alimente par les donnes du web, ce travail de ciblage a t particulirement
rapide et efficace. Plusieurs centaines dentreprises correspondant exactement la cible dsigne ont t identi-
fies : les quipes de tlmarketing du Groupe Cegid ont t alimentes en fichiers de prospection contenant de
nouveaux contacts, jamais identifis.
Grce la solution C-Radar, nous avons pu traiter rapidement une base de donnes entreprises de plusieurs
dizaines de milliers dentits pour en extraire les quelques centaines de contacts trs cibls que nous voulions
Frdric Bornuat, responsable du ple connaissance client et CRM, direction marketing du Groupe Cegid




La Chambre de Commerce et dIndustrie Paris Ile-de-France est un interlocuteur privilgi des entreprises de sa
rgion. En effet la CCI Paris Ile-de-France collabore avec plusieurs centaines de milliers dentreprises locales qui
reprsentent prs de 30% des entreprises franaises. Elle les accompagne de la cration la transmission en
passant par toutes les tapes de leur dveloppement. Pour tre mme de rpondre aux besoins des entreprises
et dapporter une rponse ciblee, la CCI Paris Ile de France met en place une approche par filire pour laquelle
elle avait besoin dtre accompagne techniquement par des experts du traitement des donnes B2B.
Catherine Demongeot, directrice du marketing et de la relation clients dclare notamment Data Publica grce
son outil C-Radar nous permet de raliser une segmentation plus fine que celle ralise partir de codes NAF
par exemple. La solution C-Radar de Data Publica est une interface performante qui fournit aux conseillers, au
quotidien, les informations par filires ainsi quune fiche de synthse par entreprises. Sans la technologie de Data
Publica ce classement aurait t moins pertinent. Nous avons apprci la capacit de DP mener bien le projet,
en respectant les dlais et le budget.

Retours dexpriences Big Data en entreprise




Bpost (la poste belge) a lanc en 2014 un ambitieux projet pour exploiter les promesses du big data dans le do-
maine de la prospection commerciale afin de dmarcher de faon plus efficace et notamment mieux segmenter
le march.
Sbastien Dreossi, senior expert au service customer intelligence and business analytics et chef du projet dclare:
Aprs avoir consult 4 socits, Bpost a retenu Data Publica du fait de son approche base sur un produit ex-
istant en constante volution (C-Radar), sa capacit sadapter la spcificit linguistique de la Belgique, et du
fait de son engagement co-crer une solution adapte aux besoins et la taille de bpost.
Les premiers rsultats du projet sont conformes nos attentes, nous avons apprci tout particulirement
limplication totale des quipes de DP, leur coute et leur capacit faire voluer la solution en fonction de nos

Retours dexpriences Big Data en entreprise




Au cur de sa stratgie Big Data, BlaBlaCar cherche amliorer sa connaissance client. Cette connaissance
permet dentreprendre une communication cible pour ses diffrents profils dutilisateurs. Grce la collecte et
lanalyse approfondie des donnes, BlaBlaCar calcule des indicateurs de performance afin doptimiser le taux de
conversion et damliorer la rtention.


Avec le Data Science Studio de Dataiku, les quipes mtiers, Marketing et BI ont la main sur les donnes. Elles
peuvent ainsi acqurir des donnes externes, les centraliser et les formater afin de gnrer des rapports BI. Elles
nont plus besoin de faire des demandes dextractions de bases SQL auprs des quipes techniques.
Avec le logiciel Data Science Studio, lquipe en charge du projet data chez BlaBlaCar peut construire un flux qui
rcupre des donnes depuis diverses sources (bases SQL, donnes partenaires ou externes), de les agrger
et de les stocker dans une base Vertica optimise pour les calculs analytiques en contexte Big Data. Par la suite,
les quipes mtiers, marketing et BI peuvent construire et consulter des rapports loisir sans rgnrer des
requtes complexes et couteuses sur les bases SQL de production. Une fois les rapports gnrs, Tableau est
branch la base Vertica et permet de crer des visualisations sur les donnes.


DSS est prvu pour tous les corps de mtiers de la Data Team - du data engineer au data analyst. Avec
laide de DSS, nous avons cr une structure qui nous permet de rendre autonomes les quipes danalystes.
Les itrations ne sont pas dpendantes des techniciens, ce qui tait un de nos objectifs premiers.
Galle Priat - BI Manager, BlaBlaCar

BlaBlaCar a lanc en 2011 le 1er service de rservation en ligne au monde dans le secteur du covoiturage, faisant
de cette nouvelle pratique un vritable moyen de transport. BlaBlaCar compte aujourdhui plus de 10 millions de
membres dans 13 pays et connat une croissance de 200% par an.

Retours dexpriences Big Data en entreprise



Le logiciel de Dataiku, Data Science Studio, ouvre Chronopost de nouvelles perspectives danalyses de donnes
pour mieux servir la stratgie de lentreprise. Lhistorique des livraisons de Chronopost, qui contient notamment
des donnes horaires et gographiques sur plusieurs annes, est pleinement exploit afin de crer de la valeur.
Les applications issues de ces donnes peuvent tre dordre technique, commercial (nouvelles offres) ou opra-
tionnel (optimisation de lorganisation, des processus de distribution, etc).


Chronopost utilise DSS pour analyser et identifier, lchelle de la France, les moyens oprationnels engags chaque
jour pour couvrir lensemble du territoire. Grce des analyses approfondies de leurs bases de donnes, Chronopost
assure une qualit constante de ses diffrentes offres (livraison avant 13h, avant 8h) au meilleur cot de produc-
tion. Un score est ainsi calcul pour chaque adresse afin dindiquer la facilit de livraison un moment donn.
A terme, lobjectif est daffiner les moyens routiers ncessaires pour optimiser le dernier kilomtre quelque soit le
moment de lanne, notamment les priodes critiques comme Nol, la fte des mres, etc.
Le projet est men en interne par le ple dassistance matrise douvrage de Chronopost.


DSS nous permet un accs souple et direct nos donnes de masse. Nous pouvons plus facilement nous en
faire une vision globale, puis affiner notre recherche rapidement dans une architecture alliant Big Data et archi-
tecture standard.
Rgine Buys - Responsable de Domaine BI

Chronopost est lun des acteurs majeurs de la livraison express de colis. En 2013, Chronopost a transport 102,2
millions de colis dans plus de 230 pays en Europe et dans le monde.

Retours dexpriences Big Data en entreprise



Afin de mieux comprendre ses utilisateurs et leurs attentes en terme de sorties, loisirs et vnements, Cityvox a
dcid de regrouper dans un mme environnement lensemble de ses donnes. Par exemple, cela comprend les
donnes des utilisateurs, les historiques dutilisation du site internet et des applications mobiles, les notations des
utilisateurs, les renseignements sur les restaurants, etc.
En utilisant le Data Science Studio de Dataiku, Cityvox a t en mesure de regrouper simplement ces don-
nes, pourtant htrognes, dans le but den tirer de la valeur. Linterface graphique et les processeurs intgrs
ont permis de nettoyer, harmoniser, enrichir les donnes puis de les croiser (par lieu, vnement, utilisateur).
Aujourdhui, une base Vertica stocke lensemble des donnes consolides de Cityvox.


Une fois les donnes centralises et nettoyes, les quipes de Cityvox ont pu en extraire des informations et ob-
tenir des pistes damliorations pour leur business. Par exemple, des optimisations ont t ralises sur les fiches
restaurants afin daugmenter les visites sur le site. Pour ce faire, Cityvox a construit avec DSS des modles pr-
dictifs afin de dterminer les facteurs qui influent sur la satisfaction utilisateur. Une autre valorisation des donnes
a t ralise avec la gnration de graphiques pour diffrents reportings internes.


DSS est loutil qui nous permet dautomatiser le nettoyage et la centralisation de toutes nos donnes au mme
endroit. Grce loutil, nous maitrisons entirement le processus dentre et de sortie de nos nombreux flux de
donnes pour pouvoir en faire bon usage. Raphal Guillet - Directeur Technique de Cityvox

Cityvox, entreprise ne Marseille en 1999, est un portail ddi aux loisirs et aux sorties en ville. Avec plus dun
million de membres et plus de deux millions de visiteurs uniques par mois, Cityvox est le site rfrent de lactualit
des sorties en France.

Retours dexpriences Big Data en entreprise




Huit Franais sur dix font appel au site PagesJaunes.fr pour se renseigner ou pour faire la promotion de leur
activit, ce qui gnre plusieurs centaines de millions de requtes chaque anne. La qualit et la pertinence des
rsultats de ces requtes est donc un enjeu majeur pour PagesJaunes. Lobjectif du projet tait pour PagesJaunes
damliorer la qualit de ses rponses, en automatisant la dtection et la correction des requtes problmatiques.


PagesJaunes a choisi lexpertise de Dataiku et son Data Science Studio qui combine des outils de gestion de don-
nes, de statistiques, de visualisation et danalyse prdictive en contexte Big Data.
Le projet tire massivement parti de la richesse de lcosystme Open Source intgr Data Science Studio :
Python, scikit-learn, Pig, Hive, ElasticSearch, etc. Des donnes issues de lutilisation du moteur de recherche
(listes des requtes, logs de navigation et clics, ordre des visites des pages, etc.) sont assembles et exploites
afin disoler les recherches infructueuses. Un score est ainsi calcul pour chaque requte afin de prdire celles
qui donnent des rponses non-satisfaisantes aux utilisateurs. Ceci permet de cibler les failles du moteur et par
consquent damliorer lexprience utilisateur.
Depuis le dbut du projet, une dizaine de collaborateurs PagesJaunes ont t forms lusage dHadoop,
des statistiques et du Machine Learning via le Data Science Studio. Ce projet a servi de pilote et a permis
lmergence chez Pages Jaunes de plusieurs autres initiatives dinnovation par la donne.


La technologie de Dataiku nous a permis de rationaliser notre approche, en utilisant des statistiques bases
sur des millions de requtes, le procd est carr et nous travaillons en conscience !
Erwan Pigneul, Responsable Projet PagesJaunes

PagesJaunes.fr est le leader franais de la publicit et de linformation locale sur Internet, mobile et papier.
Il est un client historique de Data Science Studio, la solution de Dataiku.

Retours dexpriences Big Data en entreprise



Parkeon a cr Find Me A Space, une application mobile unique permettant aux conducteurs de trouver une
place de stationnement disponible.
Sous son apparente simplicit se cachent des algorithmes prdictifs de dernire gnration, valorisant des mil-
lions de transactions de parcmtres chaque jour, croises avec des donnes gographiques crowdsources
dOpenStreetMap (points dintrt tels que les restaurants et commerces) afin de prdire la pression de stationne-
ment de manire individualise dans chaque rue. Cette application, simple et intuitive, est un exemple typique
de Data-Product moderne: exploitation et enrichissement de donnes machines, algorithmes prdictifs en
environnement Big Data et packaging grand public (application iOS).


Pour dvelopper le back-office prdictif de lapplication, Parkeon a choisi dutiliser le Data Science Studio (DSS) de
Dataiku, qui a permis lintgration des donnes parcmtres, lenrichissement avec des donnes gographiques, le
dveloppement des modles prdictifs de stationnement et leur industrialisation grande chelle.


Nous avons t sduits par la capacit de DSS fonctionner sur des volumtries importantes de
donnes ainsi que par son ct ouvert et transparent quant au fonctionnement des algorithmes.
Yves-Marie Pondaven, CTO de Parkeon

Parkeon, leader international dans le secteur de la mobilit urbaine, propose des quipements et des services
permettant de matriser tous les aspects de la gestion dune infrastructure de stationnement (notamment des parc-
mtres, plus de 50% de parts de march mondiale).

Retours dexpriences Big Data en entreprise





Danske Bank a dploy la Plate-Forme Dcisionnelle Dell Statistica pour la modlisation, le reporting et la ges-
tion du risque. La solution fournit une aide la dcision en temps rel pour des besoins mtiers varis et de trs
nombreux sites en Europe.
Le logiciel Dell Statistica permet dacclrer la cration, le test et le dploiement des modles de risque, et permet
Danske Bank doffrir ses clients des services sur-mesure plus forte valeur ajoute, dans tous les pays et pour
tous les marchs.
Travailler avec les experts de la Danske Bank a t rellement passionnant. Nous avons russi crer en-
semble un systme de scoring en temps-rel trs performant. Ce systme permet une recalibration aise des
modles, une grande prcision dans la prdiction du risque, et offre dexcellents temps de rponse sur de grosses
volumtries de donnes en temps-rel et dans un environnement exigeant confie George Butler, Vice-Prsident
en charge du Dveloppement chez Dell Statistica. La solution mise en place est un vritable tat de lart tech-
nologique, dploy dans environnement informatique de pointe
Lorsque Danske Bank a dcid de mettre jour son systme informatis de gestion du risque et de scoring,
lopportunit sest prsente de faire voluer lancienne plate-forme analytique vers une plate-forme plus perfor-
mante, pouvant facilement rpondre aux diffrents besoins mtiers en termes dETL, de scoring, de reporting et
daide la dcision en temps rel.
Danske Bank a ralis pendant prs de deux ans une tude approfondie et un comparatif minutieux des solutions
et des plates-formes analytiques disponibles sur le march, qui ont finalement abouti au choix de la Plate-Forme
Dcisionnelle de Dell Statistica. Danske Bank a eu recours Dell Statistica pour la mise en oeuvre de la solution,
la formation des utilisateurs ainsi que dautres services en vue dassurer une transition en douceur et dans les
dlais impartis pour ce projet.

La solution Dell Statistica est aujourdhui en production afin de rpondre aux besoins de la Danske Bank dans ses
applications mtier courantes et ses oprations en temps-rel. Danske Bank a t particulirement impression-
ne par la flexibilit et la convivialit des solutions de Dell Statistica, ainsi que par ltendue et la puissance des
fonctionnalits offertes.
Nous sommes trs heureux des efforts dploys par Dell Statistica pour comprendre les besoins de Danske
Bank et fournir une solution rpondant ces besoins dclare Jens Chr. Ipsen, Premier Vice-Prsident et Direc-
teur du Dveloppement des Systmes de Gestion du Risque. La solution propose a t facile intgrer, et a
t dploye dans le respect des dlais et des cots impartis. Dell Statistica a t trs ractif aux demandes de
modifications fonctionnelles, et les quipes de Dell Statistica sont la fois professionnelles et sympathiques. La
solution propose est dsormais totalement oprationnelle et fonctionne parfaitement.
Dans un environnement de plus en plus complexe pour les modles de risque, la solution mise en oeuvre par
Dell Statistica constitue un socle solide pour assurer le suivi du contenu, des performances et des versions des
diffrents modles conclut Monsieur Ipsen.
Cette intgration de la Plate-Forme Dcisionnelle de Dell Statistica avec les systmes de Danske Bank dmon-
tre limportance pour un logiciel dadhrer aux conventions et aux normes dintgration actuelles, pour la mise
en oeuvre russie et rapide dune solution analytique de pointe dans un environnement informatique mature et
complexe, et qui doit rpondre des besoins multiples comme cest le cas pour Danske Bank. souligne George
Butler. Le fait que Dell Statistica soit en mesure de fournir une plate-forme logicielle moderne, non seulement
trs performante mais galement capable de coexister en parfaite harmonie avec les systmes informatiques
existants, est essentielle pour gnrer de la valeur immdiatement et sur le long terme.
Les composantes de la plate-forme Dell Statistica dploye chez Danske Bank comprennent Dell Statistica Enter-
prise Server, Dell Statistica Data Miner avec Optimisation de Processus, le Systme Expert de Suivi et dAlertes
de Dell Statistica, Dell Statistica Live Score ainsi que la Plate-Forme Dcisionnelle de Dell Statistica. Le systme
est utilis en particulier pour le dveloppement des modles analytiques et le scoring du risque crdit, qui sont des
applications essentielles dans toutes les banques du Groupe Danske Bank.

Retours dexpriences Big Data en entreprise


Continental Automotive a slectionn la solution Statistica afin de classer des images transformes numrique-
ment pour prvoir et contrler la qualit de sa production.
EOS KSI a slectionn Statistica pour optimiser ses processus de recouvrement de la dette http://www.statsoft.
Unipetrol RPA utilise Statistica Rseaux de Neurones pour analyser ses processus de production https://www.


Dell Statistica est lun des principaux diteurs de logiciels analytiques avec 30 centres de comptences dans le
monde et plus d1 million dutilisateurs. Dell Statistica est un systme intgrable lchelle de lentreprise qui est
utilis dans de nombreuses applications critiques, partout o la modlisation prdictive permet damliorer la pro-
ductivit et la rentabilit. Dell Statistica est en outre fier de contribuer lamlioration de la sant, au renforcement
de la scurit et la prservation de lenvironnement.
Plus ergonomique et offrant un meilleur rapport qualit-prix par rapport ses concurrents,
Dell Statistica est sans conteste lun des logiciels analytiques les plus performants et les plus volus ce jour
; les utilisateurs apprcient particulirement la qualit et le soin apports son dveloppement, garants depuis
toujours de son succs.

Pour obtenir plus dinformations visitez notre site Internet : www.statsoft.com
Pour tlcharger une version dvaluation : http://software.dell.com/products/statistica/
Pour obtenir notre livre blanc, la Rvolution du Big Data Comment extraire de la valeur partir des Big Data :
Pour visualiser les vidos Le Data Mining en 35 leons : https://www.youtube.com/playlist?list=PL0C134C89
Pour avoir plus dinformations contactez-nous : info.statistica@software.dell.com

Retours dexpriences Big Data en entreprise



Dans le cadre de la qualit de ses productions de vaccins, Sanofi Pasteur utilise de nombreuses micropipettes.
Compte tenu de lexigence Qualit autour de ses vaccins, lentreprise vrifie priodiquement ses micropipettes.
Ces vrifications consistent en la ralisation de mesures de la masse de volumes deau pipets. Ces masses,
converties en volume partir de la masse volumique de leau (et des conditions environnementales, temprature,
pression et hygromtrie, de cette mesure), permettent de sassurer que le volume prlev est bien le volume sou-
hait. Lanalyse des carts entre volume mesur et volume prlev permet dcarter les micropipettes qui
nont pas la performance attendue.
Ltude conduite par Delta Mu a permis de montrer que, contrairement aux ides initiales, les carts observs
taient dus en grande majorit la variation de pipetage des techniciens chargs de lopration plutt quaux
micropipettes. Impossible, dans de telles conditions, de tirer des conclusions pertinentes quant un phnomne
si la mesure (Dans cet exemple, et finalement, le technicien) nest pas reprsentative de la grandeur quon croit
mesurer (la micropipette) !
Lire http://www.deltamu.fr/Publications/TelechargerArticlePublication/57



Spcialise depuis plus de 20 ans dans le traitement thermique de pices mtalliques, la socit mesure par
chantillonnage la qualit de sa production. Les mesures sont ralises sur les pices, aprs traitement. Il sagit
de quantifier la duret obtenue une fois ralis le process de trempe. Ses principaux clients lui demandent de
sassurer de la capabilit de ses processus de mesure, cette exigence tant notamment inscrite au rang des exi-
gences de la norme Qualit qui lui est impose (FD ISO/TS 16949).
Accompagne par Delta Mu dans lanalyse des rsultats obtenus, lentreprise se rend (enfin) compte que ses
mesures (quelle croyait fiables) dispersent 3 fois plus que le process quelle contrle avec ! Ses mesures ne lui
permettent finalement pas de voir rellement sa production
Note : Ltude de capabilit consiste sassurer, via un plan dexprience spcifique, que lincertitude de mesure
(fiabilit) est compatible avec la dispersion du process analyser.


Forte dune comptence reconnue dans le domaine de lvaluation de la qualit des mesures (fiabilit), Delta Mu
intervient diffrents niveaux :
Evaluation de la qualit des mesures, cest dire leur capacit reprsenter le plus fidlement possible la gran-
deur recherche ;
Prconisations en vue de lamlioration de la qualit des mesures (si ncessaire) ;
Prconisations quant au maintien de la qualit des mesures dans le temps ;
Prconisations quant la robustesse des mesures en cas de changement de capteurs.
Note : La robustesse se dfinit comme tant linsensibilit dune mesure une cause dincertitude.
La prestation prend plusieurs formes : Diagnostic/expertise sur site, Rapport de prconisations, dveloppement
de briques logiciel spcifiques, formation,

Retours dexpriences Big Data en entreprise




AT&T has made Big Data analytics a core component of the business decision-making process to drive its growth
and maximize customer satisfaction. In May 2013, the telecommunications company augmented its Enterprise
Consolidated Data Warehouse with the HP Vertica Analytics Platform (HP Vertica) to improve the performance of
critical analytics workloads. HP Vertica, a core engine of the HP HAVEn Big Data Platform, has surpassed AT&Ts
expectations and is providing company decision makers with actionable insights into areas such as customer and
network use patterns.
John Yovanovich, Director of Data Strategy, Delivery, and Support at AT&T, explained that his company chose the
HP Vertica Analytics Platform after concluding that we needed a platform that supported the columnar database
technology required by critical workloads. This conclusion reflected the increasingly
prominent position of Big Data analytics at AT&T and the potential value the company sees in it.
Yovanovich credits HP Vertica with changing how analytics are consumed and used by AT&Ts lines of business
(LOBs). Above all, his internal LOB clients demand a robust analytics platform that can
run required queries quickly and efficiently. Before deploying HP Vertica, AT&T could not fully exploit the potential
of Big Data analytics because of the cost and time associated with running certain queries on its legacy platform.
With HP Vertica, Yovanovichs team provides superior outputs at a much lower cost, so business teams are bring-
ing many more projects to his team.
Yovanovich cited a number of ways in which HP Vertica drives value for AT&T. From the onset, the move avoided
investment costs of $11 million in pending capacity expansion. Business decision makers get query results in less
time and can run more complex queries and analyses. As such, they have more actionable information in their hands
sooner, which helps them craft improved business strategies and make better decisions. This results in improved
services for AT&Ts customers, improved customer relationships, and operational efficiencies.
Meanwhile, Yovanovichs team has benefited from the speed with which HP Vertica runs queries and its ease of use;
he estimates that teams responsible for preparing and carrying out data queries have become roughly 20% more pro-
ductive since deploying HP Vertica. Finally, AT&T is paying much less to run analytics workloads on HP Vertica than it
was paying to run analytics workloads on its legacy platform. This allows business units to migrate certain workloads
to HP Vertica and pay much less even as the quality and speed of the outputs improve substantially.
Based on discussions with Yovanovich, IDC calculates that AT&T is achieving discounted benefits of
$63.38 million over five years with its to-date deployment of 570TB of data on HP Vertica, including cost savings
on analytical queries compared with its legacy row-based analytics platform, costs avoided for increasing its legacy
platforms capabilities, more efficient retention of data, and improved productivity for its data analytics team. Over a
projected five-year period, this results in a return on investment (ROI) of 657% and a payback period of 4.0 months.

AT&Ts Big Data strategy is centered on leveraging the voluminous customer use data that feeds into the com-
panys Enterprise Consolidated Data Warehouse to create actionable insights and ultimately business advantages.
As of October 2014, the warehouse employs 3.2PB of storage in total and supports all of AT&Ts home and busi-
ness solutions product and service lines. The foundation of AT&Ts Big Data strategy is to feed this huge amount
of information more than 100 million files an hour flow from AT&T cellular towers alone into shared relational
databases and then move this data into the data warehouse via the Hadoop open source software framework for
analysis driven by analytics platforms.
Two years ago, AT&T began evaluating columnar-based analytics engines after concluding that performance limi-
tations with its legacy row-based analytics solution would prevent it from fully leveraging data to drive its business.
It had discovered that it could not economically run many of the complex data queries and analyses requested by
its LOBs on its legacy row-based analytics platform. As a result, AT&T sought a more robust, query-oriented ana-
lytics platform with columnar-based analytics technology to enable it to handle more complex queries and handle
queries more efficiently.
AT&T carried out a proof of concept with several Big Data analytics engines and found that HP Vertica came out
on top in both performance and cost. No one came close to HP Vertica on price, Yovanovich said. We also liked
the fact that they are a market leader in columnar database technology with a proven track record among large-
volume customers like us.

Retours dexpriences Big Data en entreprise

AT&T initially deployed HP Vertica in May 2013 over four days with four employees in support. Onsite training was
initially provided for 15 employees and has since continued. HP Vertica performed well out of the box, Yovanovich
said. It has exceeded my expectations. Its quicker, so we spend less time on design. Also, were able to spend
more time on development to make sure we put out the best-performing product possible.
In the first year, AT&T deployed 70TB of new data that had never been sourced to another data analytics platform
to HP Vertica. It also migrated about 160TB off of its legacy analytics platform to HP Vertica, which opened up
space on that platform and improved its throughput. Yovanovich expects HP Vertica to support a growing percent-
age of AT&Ts data warehousing operations over the next four years, fueled by new projects, mergers and acquisi-
tions, and organic growth.

HP Vertica has changed the economics of using Big Data analytics for AT&Ts LOBs while minimizing the likelihood
that performance bottlenecks will prevent business teams from realizing the full potential of Big Data analytics. As
a result, AT&Ts data analytics team can now provide more actionable data, and Big Data analytics has become
an important component of the companys growth plans. Yovanovich described a number of ways in which AT&Ts
strategic decision makers are leveraging queries and analyses made possible by HP Vertica. He explained: Were
enabling our marketing team to create significant customer insights with HP Vertica based on data records that
they never could before. This results in personalized customer marketing efforts because we can determine
which messages and ads to present to a customer based on the customers profile and use history. Strategic
business decision makers at AT&T are also increasingly leveraging analytics delivered by HP Vertica to make im-
portant decisions. Yovanovich explained that AT&T uses call detail analyses to understand how its customers use
its network of cellular towers and then applies this understanding to its strategy for investing in and expanding its
cellular network infrastructure. This analysis, which took 17 hours to complete on AT&Ts legacy analytics engine,
takes just more than 30 minutes to complete with HP Vertica. This means that AT&T can now run these analyses
more often and provide its strategic decision makers with actionable data and insights into how its network is being
used on a more regular, timely basis.
The speed with which HP Vertica can run queries and analyses means that users get results faster and can better
integrate them into their decision-making processes. AT&T is also leveraging HP Verticas improved compression
capabilities 6:1 rather than 2.5:1 with the legacy system to double the retention time of data for analytics use
from three months to six months. Yovanovich said that this improves the quality of queries and analyses by provid-
ing more complete insights based on a longer history. He said, My goal is to retain 13 months of data, and I expect
to do this within a year or so, which would give us full seasonality.
In addition to having a positive impact on AT&Ts lines of business, HP Vertica has altered the economics of Big
Data analytics. HP Vertica costs only a fraction per terabyte (TB) of what AT&Ts legacy analytics platform costs.
This means that Yovanovichs team can offer the win-win proposition of improved analytics outputs at a much
lower price thanks to the savings it is achieving with HP Vertica. As a result, business teams can afford to support
more projects with analytical queries and data. For Yovanovich, the result is straightforward: We save our lines of
business so much money on capital with HP Vertica that they give us more projects. AT&Ts data analytics team
handles this increased project workload in part because of efficiencies it gains by using HP Vertica. Yovanovich
cited the ease of using HP Vertica and its ELT approach (Extract, Load, Transform): Take the source data, load it
onto the platform, and then transform it on Vertica. This allows you to go directly to provisioning the data because
you dont need to get it ready to put on the platform. This allows his team to more accurately track any errant code
and ultimately close tickets faster. Yovanovich estimated that his team is about 20% more efficient with HP Vertica
because we spend less time with system requirements and development to transform data into an appropriate
model that our internal end users want to see. HP Vertica has also helped AT&T achieve other cost savings related
to its use of Big Data analytics engines. By migrating projects from its legacy analytics platform onto HP Vertica,
AT&T lengthened the life span of its existing system by about 16 months, which is allowing it to avoid significant
expenses associated with buying more space on the system.


Based on interviews with Yovanovich about AT&Ts use of the HP Vertica Analytics Platform, IDC has quantified the
benefits the company is realizing from its to-date deployment of 570TB. When projected
over five years, the benefits from improved data analytical operations, cost reductions, and increased data ware-
housing team productivity averaged $17.81 million per year.


The HP Vertica Analytics Platform has allowed AT&Ts lines of business to make analytics a more central part of
their operations and planning. For the purposes of this study, IDC has quantified the benefits to these business
teams as the difference in cost for the use of the 160TB of capacity on HP Vertica that was transitioned from the
legacy row-based analytics solution while also taking into account employee time costs associated with making
this transition. IDC calculates the value to AT&Ts business teams at an average of $16.53 million per year over
five years.
In addition to these cost efficiencies, AT&T business teams benefit from HP Vertica by being able to afford to run
more queries and analysis and being able to run more robust queries. This translates into productivity gains for
business team end users as well as higher revenue for AT&T through the development of more powerful applica-
tions and enhanced strategic decision making, although these benefits have not been quantified separately for the
purposes of this study.

Retours dexpriences Big Data en entreprise


AT&Ts team dedicated to supporting data analytical operations has also become more efficient and productive
since deploying HP Vertica. In particular, HP Vertica makes the data ingestion process faster and less labor in-
tensive. This means that AT&T has been able to evolve its ELT approach so that staff spend less time on system
requirements and development to transform data into deliverables that serve end users. In addition to benefiting
end users by shortening the overall query process, it also means that the data analysis support team spends less
time on each query or request. As a result, the teams supporting AT&Ts data analysis efforts have been able to
cope with higher demand for their services based on the lower price point for queries run with HP Vertica without
a commensurate increase in staff size. This is a significant benefit for AT&T given that it has several hundred em-
ployees supporting its data analytics efforts. IDC calculates that this benefit has a value of $1.28 million per year
over five years in increased efficiency and higher productivity for these team members.

IDC projects that over five years, AT&T will achieve total discounted benefits of $63.38 million by using
the HP Vertica Analytics Platform versus a discounted investment of $8.37 million. This results in a five-year ROI
of 657%, with breakeven on its investment in HP Vertica occurring in 4.0 months.
IDC conducted several interviews with AT&T to quantify the benefits and investment associated with its use of the
HP Vertica Analytics Platform and created an ROI analysis from the results.
IDC calculates the ROI and payback period in a three-step process:
1. Measure the benefits from increased IT staff and user productivity and other cost savings since deployment.
2. Ascertain the total investment.
3. Project the investment and benefit over five years and calculate the ROI and payback period. The ROI is the
five-year net present value of the benefit divided by the discounted investment. To account for the time value of
money, IDC bases the ROI and payback period calculations on a 12% discounted cash flow.
IDC ExpertROI SPOTLIGHT - Sponsored by: HP - Matthew Marden - November 2014


La plateforme communautaire renforce lefficacit de ses campagnes marketing en exploitant la puissance des
analyses de donnes Big Data avec HP Vertica
BlaBlaCar, la place de march communautaire en ligne qui met en relation des conducteurs disposant de places
dans leur vhicule avec des passagers la recherche dun trajet en voiture a amlior la fidlisation de ses clients
et lefficacit de ses campagnes marketing en ralisant des analyses Big Data avec HP Vertica.
BlaBlaCar, la startup innovante et performante dont le sige est situ Paris, et dont les quipes sont rparties
Madrid, Milan, Varsovie, Hambourg, Londres et Moscou, a cr un modle de rseau social de transport entire-
ment nouveau. Avec son site web et sa plateforme mobile sophistiqus, un centre de service client ddi et une
communaut dutilisateurs en forte croissance, BlaBlaCar rend le voyage en voiture moins coteux, plus convivial
et plus pratique pour plus de 10 millions de membres rpartis dans 12 pays.
BlaBlaCar connait un succs tel parmi les voyageurs europens, que nous transportons chaque mois plus de
personnes que lEurostar, et que nous traversons une phase de croissance internationale rapide dclare Galle
Periat, Manager Business Intelligence chez BlaBlaCar. La Business Intelligence est au cur de nos mcan-
ismes de prise de dcision. Nous avons choisi une approche centre sur les donnes pour amliorer lefficacit
de notre marketing. Plus de deux millions de personnes utilisent les services de BlaBlaCar tous les mois, et HP
Vertica nous aide exploiter toute la puissance de nos Big Data pour optimiser la performance de nos campagnes
de Gestion de la Relation Client et amliorer le confort dutilisation de nos services pour nos clients.
Le logiciel HP Vertica, install sur un cluster Hadoop Cloudera, fournit BlaBlaCar une plate-forme danalyse
Big Data en temps rel. Conue pour supporter des charges de travail intensives, elle dlivre des performances
de requtes SQL ad hoc qui ont dcupl lefficacit des campagnes marketing en permettant la manipulation et
lanalyse des donnes une frquence plus leve, un niveau de granularit plus fin et partir de plusieurs
points daccs.

Dans le futur, HP Vertica permettra BlaBlaCar daffiner encore davantage ses activits marketing en intgrant
Retours dexpriences Big Data en entreprise

des informations provenant des rseaux sociaux, et en prdisant le comportement de ses clients grce des m-
canismes de reconnaissance des tendances.
Supervis depuis une machine virtuelle sous Debian 6, le cluster distribu Hadoop est compos de deux machines
quipes de HP Vertica, dune machine tournant le logiciel Tableau pour lexploration et la visualisation des don-
nes, et dune machine quipe du logiciel Data Science Studio de Dataiku. Cette structure permet BlaBlaCar
de donner une autonomie informatique complte ses quipes danalyses de donnes et de garantir des temps
de traitement trs courts.
Pour rpondre leurs dfis en termes de marketing, des entreprises comme BlaBlaCar ont besoin danalyser
des volumes massifs de donnes structures, semi-structures et non-structures des vitesses jamais at-
teintes dclare Florence Laget, Directrice de lactivit Big Data chez HP France. La plateforme analytique HP
Vertica a t conue pour offrir rapidit, volutivit, simplicit et ouverture, et architecture pour effectuer des
traitements analytiques de 50 1000 fois plus rapides quavec les solutions de DataWarehouse traditionnelles.




Les solutions HP Autonomy permettent la principale police britannique de mieux impliquer la population et de
rpondre des vnements locaux. Conscient des lacunes dans le suivi et lutilisation des mdias sociaux, le
Metropolitan Police Service (MPS) a dmarr avec HP pendant lt des Jeux olympiques de Londres le dploie-
ment doutils danalyses des mdias sociaux. Le rsultat est un engagement plus efficace de la communaut, un
signalement anticip des problmes, et une analyse plus prcise des sentiments sur les mdias sociaux. Ces
rsultats ont bnfici aux oprations de police, y compris les renseignements et les enqutes criminelles.
Le Metropolitan Police Service (MPS) est la force policire la plus importante du Royaume-Uni, avec 31 000
agents et plus de 10 000 employs de support. Il couvre une population de 7,2 millions d habitants et des vne-
ments publics majeurs du Royaume-Uni. lt 2012, le MPS a supervis les Jeux Olympiques de Londres et les
Jeux Paralympiques, ainsi que la Royal Jubilee et le Carnaval de Notting Hill annuel. Cela a ncessit un niveau
de maintien de lordre sans prcdent.
Conscient des missions du MPS et ses projets sur les mdias sociaux long terme, HP Autonomy a propos un
essai pour aider mieux comprendre et utiliser lanalyse des mdias sociaux (SMA) pour lengagement com-
munautaire. HP est un fournisseur important pour la police au Royaume-Uni, fournissant des lments cls de son
infrastructure informatique. Le dploiement test sest droul de juillet septembre dans deux arrondissements de
Londres, Haringey et Hammersmith & Fulham. Il a aid le MPS laborer une stratgie long terme pour les m-
dias sociaux et a donn un aperu sur la faon dont les mdias sociaux peuvent tre utiliss pour faire progresser
lengagement de la communaut, la collecte de renseignements et les enqutes criminelles.
Rapide mettre en uvre, adaptable aisment, la solution HP Autonomy exploite la puissance de IDOL (Intelligent
Data Operating Layer) pour comprendre automatiquement les concepts exprims dans les tweets, les articles de
presse et les blogs. IDOL est capable didentifier les tendances, les thmes et les sujets connexes, naviguant
automatiquement dans la masse des donnes. Cela offre une comprhension en temps rel de ce qui capte
lattention du public. Pour le MPS, il a produit des rapports sur des thmes, des tendances et mots la mode,
consolids sur un tableau de bord unique, personnalisable pour chaque utilisateur.


Le test a t rapidement considr comme un succs, et a t poursuivi jusquen novembre. Limpact le plus vi-
dent tait que la solution HP autonomy a pu faire face aux grands volumes de donnes non structures gnres.
En moyenne, il y avait 2 306 796 tweets par jour en provenance de Londres du 12 Juillet au 13 Aot, avec un pic
de 3 291 998 le jour de la crmonie douverture des Jeux Olympiques.
De ce dluge dinformations, MPS a t en mesure de dterminer de nouveaux influenceurs de la communaut et
de recueillir un premier aperu des questions pertinentes. Il a permis de gnrer des valuations de limpact com-
munautaire beaucoup plus rapidement et avec plus de crdibilit. Lessai a galement apport une contribution
importante aux oprations en cours en permettant MPS :

Identifier une connexion entre deux sources de renseignement qui ntaient pas identifies jusqualors
Identifier les incidents potentiels et leurs relations beaucoup plus rapidement et avec plus de prcision que par
des moyens traditionnels
Retours dexpriences Big Data en entreprise

assurer une rponse oprationnelle proportionne et approprie des vnements communautaires trs sensibles
Identifier plusieurs inconnus tmoins dun coup de couteau mortel
Transfrer des tweets concernant des vnements de la communaut et rpondre des tweets errons
Aider construire un glossaire des termes utiliser pour des recherches croises de mots-cls
En synthse, la solution a pu fournir une analyse prcise sur une base en temps quasi rel par rapport avant, o
les donnes ntaient disponibles que 24 heures aprs.
Vitesse de comprhension et de sensibilisation oprationnelle
Prcision de lvaluation menant des dcisions oprationnelles mieux informes
Facilit daccs et dvaluation de lhumeur du public et de lopinion
Analyse plus efficace, fournissant automatiquement des informations plus succinctes et laissant le temps
lanalyste de mieux se concentrer sur les priorits
Capacit prendre des dcisions plus claires tous les niveaux, des oprations au commandement

Retours dexpriences Big Data en entreprise




Le leader mondial des paiements lance une initiative de transformation oprationnelle et optimise lexprience cli-
ent grce la solution PowerCenter Big Data Edition
Western Union, leader des services de paiement mondiaux, a choisi Informatica Corporation (Nasdaq :INFA),
premier fournisseur indpendant de logiciels dintgration de donnes, dans le cadre de son projet dintgration de
donnes. En investissant dans la solution PowerCenter Big Data Edition dInformatica pour Hadoop, Western Un-
ion pourra dsormais fdrer les donnes structures et non-structures issues de multiples sources mainframe,
bases de donnes disparates et fichiers de logs et les adapter des fins de traitement sur Hadoop, quelle que
soit la latence, en temps rel ou sur une base journalire.
Lambition de Western Union est doptimiser le traitement intelligent de ses donnes de faon perfectionner ses
offres de services numriques, maximiser la satisfaction client et renforcer la fidlisation des utilisateurs la marque
sur lensemble de ses oprations mondiales. En effet, la socit dispose dun volume colossal dinformations qui
transite au sein de son infrastructure. Rien quen 2013, travers le monde, 242 millions de transactions de par-
ticulier particulier et 459 millions entre professionnels, soit, en moyenne, plus de 29 transactions par seconde,
ont t ralises. Grce lintgration et lanalyse de ces donnes transactionnelles, la socit va dsormais
bnficier de multiples atouts :
Identification des tendances en matire denvoi et de rception de fonds afin damliorer davantage lexprience client
Suivi minutieux de lvolution des transferts de fonds pour mieux planifier les stratgies dexpansion,
et identification des opportunits, afin de proposer lutilisateur une exprience intgre sur de multiples canaux,
notamment Internet, tlphone, boutiques et terminal mobile. Lensemble de nos oprations met au centre de
nos proccupation nos clients. Western Union dispose dune opportunit unique dexploiter au mieux le potentiel
de lanalyse des donnes collectes travers les nombreuses transactions. Lobjectif est didentifier des tend-
ances nous permettant de mieux dfinir notre stratgie oprationnelle et, terme, damliorer la satisfaction de
notre clientle. Nous nous rjouissons de la dcision de poursuivre notre collaboration avec Informatica qui nous
offrira la possibilit de maximiser le potentiel mondial de notre entreprise et de notre base clientle. explique
Sanjay Saraf, senior vice president and chief technology officer chez Western Union.


La disponibilit immdiate de la version dveloppeur d Informatica PowerCenter a jou un rle crucial dans la
mobilisation dun personnel ddi ce projet. Lensemble des versions de la solution Informatica PowerCenter
reposent sur Informatica Vibe, la toute premire et seule machine de donnes virtuelle embarquable. Mme en
labsence de comptences Hadoop spcifiques, les dveloppeurs uvrant sur PowerCenter bnficient dune
vlocit de dveloppement cinq fois suprieure sur cet environnement Hadoop, qui est celui de Western Union.
Par ailleurs, Western Union sera mme deffectuer de manire efficace les oprations dintgration des donnes
au fur et mesure des volutions technologiques, sans devoir adapter les flux de traitement des donnes.
Western Union incarne cette ambition de dimension mondiale qui donne la notion de service toute sa porte.
Comme dans bon nombre de socits, les donnes revtent, pour Western Union, un caractre fondamental.
Elles sont indispensables la ralisation de ses objectifs. Etre lcoute des besoins de sa clientle, lui assurer
une exprience homogne quel que soit le canal utilis, optimiser les oprations et poursuivre ses innovations
constituent aujourdhui les cls du succs sur ce march trs dynamique. Informatica apporte Western Union
des solutions pour exploiter ses donnes, grce lautomatisation de lintgration et de la saisies des donnes
avant traitement et analyses. conclut Ash Kulkarni, senior vice president et general manager, Data Integration,


La socit Western Union (NYSE : WU) est un leader dans les services de paiement travers le monde. Avec
ses services de paiement Vigo, Orlandi Valuta, Pago Facil et Western Union Business Solutions, Western Union
propose aux particuliers et aux entreprises des services rapides, fiables et pratiques pour envoyer et recevoir de
largent partout dans le monde, pour raliser des paiements et passer des ordres de paiement. Au 31 dcembre
2013, les services Western Union, Vigo et Orlandi Valuta taient disponibles dans un rseau de plus de 500 000
points de vente rpartis dans 200 pays et territoires ainsi que plus de 100 000 distributeurs automatiques de bil-
lets. En 2013, Western Union a ralis 242 millions de transactions de particulier particulier travers le monde,
transfrant 82 milliards de dollars entre particuliers et 459 millions de dollars entre professionnels.
Pour plus dinformations sur Western Union : www.westernunion.com

Retours dexpriences Big Data en entreprise

Informatica Corporation (NASDAQ : INFA) est le leader des fournisseurs indpendants de solutions dintgration
de donnes. Les entreprises du monde entier font confiance Informatica pour exploiter le potentiel de leurs
informations et rpondre leurs principaux impratifs mtiers. Informatica Vibe, la premire et la seule machine
de donnes virtuelle embarquable du march, supporte les fonctionnalits exclusives de mapping unique pour
dploiement universel ( Map Once. Deploy Anywhere. ) de la plate-forme Informatica. Plus de 5 000 entreprises
dans le monde sappuient sur Informatica pour tirer pleinement profit de leurs ressources en matire dinformations
issues des priphriques, des rseaux mobiles et des Big Data, hberges sur site, dans le Cloud et sur les
rseaux sociaux. Pour en savoir plus, appelez le 01 42 04 89 00 ou visitez notre site www.informatica.com/fr.
Vous pouvez galement contacter Informatica sur http://www.facebook.com/InformaticaCorporation, http://www.
linkedin.com/company/informatica et http://twitter.com/InformaticaFr.

Retours dexpriences Big Data en entreprise




Ancestry.com, the worlds largest online family history resource, uses machine learning and several other statistical
techniques to provide services such as ancestry information and DNA sequencing to its users.

According to the Chief Technology Officer, Scott Sorensen, Ancestry.com has more than 12 billion records that are
part of a 10-petabyte (or 10-million gigabyte) data store. If youre searching for John Smith, he explained, it will
likely yield results for about 80 million Smith results and about 4 million results for John Smith, but youre only
interested in the handful that are relevant to your John Smith. For Ancestry.com their data is highly strategic. As
Sorensen explains, there are 5 fundamental ways they make use of data to enhance the customer experience.
These include:
With more than 30,000 record collections
in their data store including birth, death, census, military and immigration records, they mine this data using pat-
terns in search behavior to speak to their more than 2 million subscribers or tens of mil- lions of registered users
in a more relevant way. For instance, only a selection of their users will be interested in newly released Mexican
census data.
They mine their data to provide product development direction to the product team. Analyzing search behavior
can show where a subscriber might be stuck or where they leave the service and therefore where new content
could be created.
They rely on big data stores to develop new statistical approaches to algorithmic development, such as record
linking and search relevance algorithms. Today, the vast amount of user discoveries are deter-mined by Ancestry.
com hints derived from strategically linked records and past search behavior (e.g., Charles Westman is the same
person as Charles Westmont). Two years ago, the majority of discoveries were based on user-initiated search.
Advanced data forensics is used to mine data for security purposes to ensure ap- propriate use of their information.
DNA genotyping to provide information about genetic genealogy is a new area of focus. Customers spit in a
tube, send the package to Ancestry.com, and then mo- lecular tests and computational analyses are performed
to predict a persons ethnic- ity and identify relatives in the database. For every AncestryDNA customer, 700,000
SNPs (distinct variable regions in your DNA) are measured and analyzed, resulting in 10 million cousin predictions
for users to-date.

A portion of Ancestry.coms data is processed on three clusters using MapR as the Hadoop distribution. One cluster
is for DNA matching; another is for machine learning and the third, which is just being built-up, is for data mining.
Massive distributed parallel pro- cessing is required to mine through 10 petabytes of data and the large quantities
of DNA data. Ancestry.com runs batch jobs and wants to run the DNA pipeline constantly with no interruptions, so
high availability is very important. MapRs high availability JobTracker enabled the company to run different tasks
on the same cluster. They have also been pleased with MapRs service and support, and the ability to quickly get
everything up and running with the graphical user interface and client configuration.

Retours dexpriences Big Data en entreprise


comScore is a global leader in digital media analytics and the preferred source of digital marketing intelligence.
comScore provides syndicated and custom solutions in online audience measurement, e-commerce, advertis- ing,
search, video and mobile. Advertising agencies, publishers, marketers and financial analysts rely on comScore
for the industry-leading solutions needed to craft successful digital, marketing, sales, product development and
trading strategies.
c omScore ingests over 20 terabytes of new data on a daily basis. In order to keep up with this data, comScore
uses Hadoop to process over 1.7 trillion Internet and mobile events every month. The Hadoop jobs are run every
hour, day, week, month and quarter, and once theyre done, data is nor- malized against the comScore URL data
dictionary and then batch loaded into a relational database for analysis and reporting. comScore clients and ana-
lysts generate reports from this data; these reports enable comScore clients to gain behavioral insights into their
mobile and online customer base.

The comScore engineering team processes a wide variety of Hadoop work- loads and requires a Hadoop distribu-
tion that excels across multiple areas:
Performance : As comScore continues to expand, the Hadoop cluster needs to maintain performance integrity,
deliver insights faster, and also needs to produce more with less to minimize costs.
Availability : comScore needs a Hadoop platform that provides data protection and high availability as the cluster
grows in size.
Scalability : comScores Hadoop cluster has grown to process over 1.7 trillion events a month from across the
world, in the past comScore has seen increases of over 100 billion events on a month over month basis. Con-
sequently, comScore needs a Hadoop platform that will enable them to maintain per- formance, ease of use and
business continuity as they continue to scale.
Ease of Use : comScore needs things to just work, and operating the cluster at scale needs to be easy and intuitive.

MapR has been in continuous use at comScore for over two years. MapR has demonstrated superior performance,
availability, scalability, ease of use, and significant cost savings over other distributions.
Performance : Across various benchmarks, MapR executes jobs 3 - 5 times faster when compared to other Ha-
doop distri-butions and requires substantially less hardware than other distributions.
Availability : MapR protects against cluster failures and data loss with its distributed NameNode and JobTracker
HA. Rolling upgrades are also now possible with MapR.
With architectural changes made possible by its no NameNode archi- tecture, MapR creates more files faster, pro-
cesses more data faster, and produces better streaming and random I/O results than other distributions. comScore
now runs more than 20,000 jobs each day on its production MapR cluster.
Ease of Use : comScores Vice President of Engineering, Will Duckworth said, With MapR, things that should just
work, just work. This means there is a lot less for comScore to manage with MapR. One of the advantages that
Duckworth cites is that everything is a data node. This configuration re- sults in much better hardware utilization
from his perspective. With MapR, it is easy to install, manage, and get data in and out of the cluster.
Speed : comScore is also able to use the MapR advanced capabilities to enforce parallel data allocation patterns.
This enables key analyses to be performed using map-side merge-joins that have guaranteed data locality, resulting
in a 10x increase in computation speed. The specific features of MapR, such as volumes, mirroring and snap-
shots, have allowed us to iterate much faster, said Michael Brown, CTO of comScore.

MapR delivers on the promise of Hadoop with a proven, enterprise-grade platform that supports a broad set of
mission-critical and real-time production uses. MapR brings unprecedented dependability, ease-of-use and world-
record speed to Hadoop, NoSQL, database and streaming applications in one unified big data platform.
MapR is used by more than 500 customers across financial services, retail, media, healthcare, manufacturing,
telecommunications and government organizations as well as by leading Fortune 100 and Web 2.0 companies.
Amazon, Cisco, Google and HP are part of the broad MapR partner ecosystem. Investors include Lightspeed Ven-
ture Partners, Mayfield Fund, NEA, and Redpoint Ventures. MapR is based in San Jose, CA.
Connect with MapR on Facebook, LinkedIn, and Twitter.

Retours dexpriences Big Data en entreprise


Academic publishing is a long-standing and venerable industryand De Gruyter is among the most established.
Since 1749, this European publisher has been producing and distributing English and German content, focusing
primarily on scientific, technical, legal, humanities, and social sciences. With an output of approximately 1,400
books per yearin addition to journals, reference materials, and databasesDe Gruyters compiled catalog ex-
ceeds 65,000 titles. They also offer a program called e-dition, which is essentially e-books on demand. Unlike
other industries, De Gruyters customers are not usually the end users: they sell to university libraries and other
academic institutions, and its the scientists and educators at those universities who actually use the materials.

For many years, scientific publishing was focused on printed materials, but the last decade has seen an increasing
demand for digital access. This industry-wide shift has forced De Gruyter to reassessand redefinetheir
business. With this change in content output, were not really a traditional publisher anymore, Christian Kohl,
Director of Information & Publishing Technology, explains. Were becoming more of a service provider, and also
a hosting platform. And customers needs are changingboth in terms of format and timeframe. As Kohl points
out, they want more granular access to content, and they want it faster. Purchasing is shifting from just in case to
just in time. We cant afford to have a production time of several years. It needs to be quick, custom, and flexible.
Since 2006, De Gruyter has invested in a wide range of technologies and support staff. With so many different
types of content and business models, theyve relied on a variety of legacy databases, websites, and online plat-
forms. Not only was this cumbersome and expensive to maintain, the complicated infrastructure prevented them
from moving forward with new innovations.
The writing was on the wall: in 2009, De Gruyter realized it was time to simplify. We needed a new, consolidated
platform that would bring increased flexibility, lower costs, and more automation, Kohl says.

Kohl and his team began searching for a solution that would support all of their various data types and adapt to
constantly changing structures. Excellent searching and browsing capabilities were also high on the list. And with
their limited budget, they needed a turnkey solution that wouldnt require third-party technologies.
In November of 2010, De Gruyter chose MarkLogic to consolidate up to ten of their legacy systems into one
customer-facing application. The new platform would combine all of
the existing systems on top of a MarkLogic database and search engine. Using an agile development approach,
they were able to implement new iterations for key features. Just a little over a year later, the new platform was

Quicker Response, Higher Revenue: With previous systems, it could take up to six months to add new features or
changes. With Marklogic ever-increasing requests can be met in a matter of daysor even hours. This has also ena-
bled the company to increase acquisitions and partnerships with publishing partners. Reduced time to market: Data-
base products and reference works used to take a year to develop and deploy. Now, its a matter of days or weeks.

Seamless Integration & Automation: De Gruyter was able to set up XML feeds to send all data from their ERP sys-
tem - which houses metadata, catalogs, pricing, and other informationdirectly into MarkLogic. The new platform
also hooks into the companys CMS and MAM systems, streamlining the flow of content. Streamlined acquisition
process: Historically, acquiring more providers and content was a very painful process, particularly for the IT de-
partment. With the new platform, De Gruyter can ramp up data volume without impacting performance.
Reduced Costs: With MarkLogics more simplistic structure, there is no longer a need to map between the SQL
database and the application layerwhich translates to lower maintenance costs. And by eliminating much of its
hardware requirements, De Gruyter has cut its hosting costs in half.
Out-of-the-box Search: With their limited budget, De Gruyter needed a solution that wouldnt require a third-party
tooland MarkLogic delivered. Theres no need to integrate with the SQL server, Kohl says. MarkLogics search
is already powerful enough.

Document ralis par la Socit Corp Events - Janvier 2015
The last thirty years have seen a major shift in the production, storage and retrieval of content. Elec- tronic, rather
than printed, content now powers a new class of products and services, with the Inter- net key to delivery. Driving
critical activities within companies, it also provides many of their content- based services to customers. Yet this ex-
ploding volume of content, typically comprising 85% of an enterprises information, is fundamentally dif- ferent from
the structured data that relational database technology was created to deal with. A cornerstone in most enterprises,
relational data- bases function by structuring data and applications into tables. They cannot readily accommodate
the unstructured content residing in vast reservoirs of Word files, lab reports, data sheets, operating manuals, mes-
sages, HTML documents, PDFs, Pow- erPoint slides, emails, etc. So organizations wishing to repurpose and real-
ize more value from digital content are stymied, since the applications needed to deliver added value to customers
are difficult and expensive to create. These issues have had even more impact in the publishing industry, where
content is a companys greatest asset. And for Elsevier, a leading publisher and information provider for medical,
academic and health-related organizations, they were particularly challenging. Elsevier supports, and continues
to enlarge, a digital content repository unsurpassed in its market. Yet despite Elseviers significant investments in
search technology, their users found it increasingly time-consuming to extract the information they needed from
this mountain of data. Elsevier was unable to quickly create applica- tions that would make extracting content faster
and easier...until Mark Logic demonstrated a prod- uct that could rapidly ingest enormous volumes of content, and
then execute complex, fine-grained queries against it with lightning speed.

Reconciling the need for relevancy with the necessity for volume. One of the worlds leading publishers, Elsevier
prides itself on supplying customers with the information they need to conduct research, perform experiments,
aid patients, and achieve mission-critical objectives. To this end, Elsevier invested heavily in digitizing its content,
amassing vast repositories of medical and scientific information, and making it available via a range of online
database-driven solutions. However, as Chief Technology Officer David Marques points out, users often have lit-
tle time to locate the data most relevant to their work. If a doctor is at the point of care or a scientist is working in
the lab on an experiment, they dont have time to go searching through 10 or 20 possible sources. Yet as more
content amassed, its sheer volume meant customers were spending more time refining searches to winnow out
the content most relevant to their needs. Elseviers greatest asset was growing more difficult to deliver with the
level of granularity required by users. And this, explains Marques, is precisely the kind of value- added service
Elsevier wished to supply. We wanted to help customers solve the problems they face in their particu- lar setting...
By enabling our customers to extract only the pieces of content that matter to them at that moment, and to flexibly
combine them, Elsevier can provide maxi- mum value per use of content. To achieve its objective for increased
customer satis- faction, Elsevier set two goals: quickly transform the content rigidly held in its many separate da-
tabases into a liquid asset easily tapped by users in any way they desired. And in so doing, establish a common
platform for developing future products.
But facing Elsevier were four formidable challenges:
1. Lack of central repository. Each body of content existed in a separate database either in a relational database
format or a proprietary one with several ap- plications on each database.
2. Huge range of file formats. Normalizing content was extremely time-consuming. For one application project
alone, there were 35 different document formats involved.
3. High cost. New functionality was time-consuming and expensive to build. The complex logic needed to decon-
struct a document and analyze relationships between documents had to be built application-by-application. Moreo-
ver, from a performance perspective, forcing this logic into an application was inefficient, compared to lev- eraging
a specialized content server that can efficiently retrieve large amounts of information.
4. Massive amounts of content. The final content repository was estimated to exceed 5 terabytes in size. Included:
More than five million full-text journal articles across 1,800 journals; over 60 million citations and abstracts (sepa-
rate from the articles); 20,000 in-print books; 9,000 out-of-print books; and thousands of infor- mational pamphlets.

Retours dexpriences Big Data en entreprise

Preparing the way.
In an increasingly aggressive industry, Elsevier required shorter delivery cycles for its competitive offerings. So as
a pioneer in the digital marketplace, they defined the parameters for products that extracted content from authors
fast and put it online even faster. Equally signifi- cant, Elsevier recognized that to give users exactly the information
they wanted, any new solutions must have the power to dynamically assemble relevant information from across
multiple sources. Recognizing the poten- tial of tagged search elements, Elsevier started in the year 2000 to rede-
sign products along Web services architecture.
Beginning with Standard Generalized Markup Language (SGML), Elsevier moved forward, keeping pace with the
evolution of descriptive signature technologies and ultimately investing in the benefits of XML (Extensible Markup
Language). Of course, such advances helped deliver greater content relevancy to users. But enabling the highest
degree of granularity meant the structural relationships of tagged content had to be leveraged in a way that allowed
relevant information deep within docu- ments to be parsed and reassembled into new content.
Accordingly, the absence of a centralized content repository had to be remedied, since an intelligent terminus
would be required for all searches enabling the deconstruction and synthesis of documents into con- text- spe-
cific results. This eliminated the deployment of traditional relational database systems, whose concepts and data
models were conceived in an era of short, highly- structured records of data, and not the unpredictable and time-
varying structure found in content.
Instead, the new solution would need to:
Exploit the wide variety of unstructured content, rather than be constrained by it.
Eliminate format and content-prejudiced conditions for standardization of information.
Function without a single, standard, pre-defined schema, and indeed in the presence of many different and
changing schemas
Achieve performance without sacrificing relevance. Both the user interface and the returned results had to oper-
ate quickly and efficiently, and to deliver the right pieces of information at the right time.
Roadblocks to rapid product development
When developing new products, Elsevier had to confront:
Difficulty in leveraging and synthesizing information from docu- ments held among a wide range of different da-
tabases and the applications on each.
Lack of a content common denominator for normalizing informa- tion within applications or databases.
Risk of poor ROI due to long and expensive implementation of new functionality and applications.
A mountain of disparate content with no existing unifying solution


Transforming a mountain of documents into a single, searchable contentbase.
By the year 2004, Elsevier had reengineered their products along the lines of web service architectures, creating
an XML repository offering new efficiencies to their IT staff and higher functionality for users. But the apron strings
of relational database technology still tied the company down to long, expensive product develop- ment cycles and
less than optimal performance. To get reasonable content performance from their database management systems
they still needed to pre-define schemas and access paths: time-consuming tasks that ultimately limit content inges-
tion and the power of resultant searches. And after intensifying their hunt for new ways to shorten time to market
and add greater value to their content they found what looked like a per-fect way to leverage their significant invest-
ment in XML: MarkLogic Server.
We offered to show Elsevier how the MarkLogic Server could leverage their investment in XML to deliver on El-
seviers vision, recalls Mark Logic Co-founder and Chief Technologist Paul Pedersen. Our promise was simple.
Hand us any amount of data, as is, from your archives.
Well hand you back an entirely new application based on that content. And as Pedersen further described to
Elsevier, The system lets you reach across large content sets, extract exactly the information that you need, and
then present it as a new document that was created automatically.
Intrigued by the prospect of being able to simply pour existing archives and content into MarkLogic Server and
receive a fully functional application, Elsevier agreed to the test. And to see just how short a timeline Mark Logic
could deliver a competitive product in, they made it a demanding one. According to Pedersen, ...Their team
handed us an entire product line of 20 medical textbooks, each a thousand pages long or more. They didnt even
provide the DTDs, he recalls. They just said Go. So we did, and in about a week we came back to them with a
fully functional application.
Moreover, according to David Marques, the application Mark Logic delivered in just a few days was more flexible
than anything Elsevier had online at the time. This ac- complishment was all the more remarkable considering that
the 0.5 terabytes of content loaded into MarkLogic Server was comprised of over 35 different formats a flexibility
matched only by the level of granularity provided by searches using the resulting application. Im- pressed, Elsevier
engaged Mark Logic and is using Mark- Logic Server to consolidate all of its archives, rapidly build new applica-
tions, and create value-added services from its repository. As Marques affirms, MarkLogic Server will be a core of
all our major electronic products going forward, since it allows us to even better serve our customers and users.


Putting content in its place, fast.
From Mark Logic, Elsevier found an immediate solution to all the key challenges facing publishers who need to
hasten the deployment of new, more competitive online products. They are now consolidating all of their content
archives, rapidly bringing new applications to market and enhancing existing applications with value-added func-
tionality that makes every last byte of content available to users in the most relevant way.
Combining the power of database-style queries against content, with the speed and scalability of search engines,

MarkLogic Server repurposes content on-the-fly, combining information into new content for users seek- ing an-
swers to different questions involving the same subject matter literally creating new content from old and adding
value in the process. Massively scalable in both storage and performance, it can manage millions of documents
and terabytes of content with no degrada- tion in executing queries and updates.
A boon to publishers and their customers, Mark Logic revolutionizes search technology by enabling:
Consolidation of content archives. MarkLogic inte- grates content from many sources into a single reposi- tory,
then creates new content by summarizing informa- tion across various content categories.
High-performance XQuery implementation. A com- plete XQuery implementation delivers high performance
against multi-terabyte datasets, thanks to MarkLogics search-engine-style indexing mechanisms.
Rapid application development, no fixed schemas. MarkLogic does not require schemas or document type defini-
tions (DTDs). MarkLogic loads content, as is, and allows you to instantly start building applications that leverage it.
Element-level granularity. Using XQuery, MarkLogic Server fulfills searches by reaching deep inside docu- ments
to identify, analyze, combine, and extract pieces of content exactly relevant to the task of the user, precisely within
the context in which theyre working.
Extreme flexibility. MarkLogic accepts content as is from many sources, eliminating the lengthy process of pre-
paring content. Rather than having to plan ahead for every possible use of the content, publishers can rely upon
the flexibility of the technology to evolve applica- tions over time.


With Mark Logic, Elsevier has achieved:
Consolidation of all content archives into one centralized repository.
A high performance platform for multi-terabyte contentbases.
Higher efficiency through centralized storage of content and indexing.
Element-level search granularity for users.
Preparation-free content loading.
Speedy application development thanks to the power of XQuery and the elimination of extensive content preparation.
Just-in-time delivery of information that is precisely tailored to users needs, within the context theyre working in
and in the form they need.


The results.
The power of a database, the speed and flexibility of word and phrase search functionality, the ability to de- liver
it all in a fraction of the time previously necessary... With MarkLogic, Elsevier not only speeds the delivery of new,
more competitive products, but enables users to get exactly the data they need to complete their tasks 5 to 9 times
faster than before.
For example, Elsevier no longer needs to normalize content to transform it into their repository. Now they can build
directly on the inherent variability of dif- ferent types of content slashing time to availability by two-thirds. And,
says David Marques, the ultimate benefit to users is fantastic granularity: ...When a user has a question, we want
to reduce the number of search results from 10 possible documents down to two precise sections or paragraphs
so we deliver just the right bit of content the user needs.

But for the Elsevier team, the gratification of providing this kind of added value to users goes beyond feelings of
pride in their technical accomplishment. As Marques explains, by enabling researchers and medical profes- sionals
to find fast answers to urgent questions, they
also help improve treatments and outcomes for patients: Medical reference books are invaluable resources for

making a diagnosis, but laboriously searching and cross- referencing a number of different books is an inefficient
way to do this. The products we build with MarkLogic allow physicians to quickly pull out only the relevant pas-
sages from across a range of different books, in order to reach an informed diagnosis.
And the future for Elsevier and its customers holds even more promise. MarkLogic has dramatically accelerated
the deployment of products and services, while greatly reducing the costs of content loading and design trans-
lating into even faster research cycles and clinical diagnoses, thanks to a new generation of solutions for helping
professionals find exactly the information they need, when they need it most.

Following the approval of the Affordable Care Act of 2010, the US Department of Health and Human Services
(HHS) Centers for Medicare and Medicaid Services (CMS) needed to design, build, and implement a technology
platform capable of enrolling millions of Americans in new healthcare plans. CMSs driving vision was to enable
better access to healthcare for all Americans through smart and efficient tools and systems that would also help
reduce costs.

CMS had to develop a Health Insurance Marketplace (HIM) and Data Services Hub (DSH) that would allow millions
of Americans to shop for insurance, check their eligibility against dozens of federal and commercial data sources,
and provide a way for state health exchanges to connect. This was the first time the US government would tackle
an IT project of this kind.
CMS had to overcome some daunting challenges:
Strict time constraints. CMS was mandated by ACA to launch on October 1, 2013.
Stringent security requirements. Whatever solution CMS chose, it would have to provide the transactional consist-
ency, reliability, disaster recovery, security, and auditing capabilities required for the federal government.
Multiple data sources. The system would need to take in a vast array of data from states, health plan providers,
and government entities to evaluate applicants eligibility status, including the Department of Homeland Security;
the Internal Revenue Service; the Social Security Administration; and Veterans Affairs.
An unknown data specification. As with most large-scale implementations, when development started, the data
specification was not yet determined. There were numerous changing factors driven by insurance providers and
participating states. The database needed to be able to handle constant change and a schema that could evolve.
Scalability. From the outset, CMS knew the marketplace would serve individuals from as many as 51 jurisdictions
(the states plus Washington, D.C.). CMS needed a technology that could scale rapidly, on cost-effective commodity
hardware, to meet any level of demand.

CMS concluded that the MarkLogic Enterprise NoSQL database platform provided the scalability and agility re-
quired to meet an 18-month timeframe from software procurement to launch.
The teams working on this initiative realized the effort to complete this project would take too long using a tradi-
tional relational database.
MarkLogics schema-agnostic data model ingests data as-is and adapts to modifications, as new data sources are
included and as policies or regulations change, to help meet tight deadlines.
MarkLogic was the only platform able to process massive amounts of poly-schematic information while simultane-
ously offering ACID-compliant transactions.

Faster time to production. MarkLogic helped CMS get the Healthcare.gov site running within 18 months. In less
than 5 months after the website launched, MarkLogic supported 5,500+ transactions per second (TPS-back-
end transactions to database) to help over 8 million people sign up for health insurance.
Nearly limitless scalability with record-breaking performance. MarkLogic has supported 160,000 concurrent users
and delivered over 99.9% availability. More than 99.99% of queries have logged response times of less than 0.1
seconds, without any data loss or data inconsistencies.
A seamless online shopping experience for Healthcare.gov users. MarkLogics schema- agnostic data model pro-
vided CMS the ability to manage and integrate data as is so data from multiple states, government agencies,
health plan providers, and personal information from millions of Americans did not have to be recoded. This al-
lowed the system to qualify Americans and provide them competitive healthcare coverage and options.
Confidence to manage and integrate confidential user information. MarkLogics enterprise-grade NoSQL database
platform meant CMS did not have to sacrifice any of the enterprise features expected from a traditional database,
such as government-grade security, ACID transactions, and HA/DR, and could take full advantage of a NoSQL
schema-agnostic document model that handled the heterogeneous and unstructured data.

This case study chronicles one organizations focus on streamlining its publishing process to facilitate the crea-
tion and delivery of new products. With the growing use of the Web and other electronic sources for information
discovery and access, organizations like Oxford University Press are being pressed to deliver content through
multiple channels. They must also create products that are aimed at specific market segments, often utilizing
multiple information sources.
For Oxford University Press, each new online project meant starting from scratch. Building a standard publishing
platform and using XML for its content format enabled Oxford University Press to quickly produce new products
in much less time and re-use work from previous projects. This company provides an excellent example of an
organization that:
Continues to introduce new products targeted toward specialized market needs
Understands that content for its products can come from multiple information sources, possibly with different
content structures, characteristics, and attributes
Recognizes the inefficiencies of building new workflows and systems for each content product
Realizes the value that an XML-based publishing platform can provide
Comprehends the importance of content aggregation and searching as core capabilities for building new products
from the growing base of source information
To obtain these benefits, Oxford University Press built a publishing platform based on an XML content server
from Mark Logic that enabled it to work with multiple content structures. To make the platform extensible for future
needs, Oxford University Press developed an API (application programming interface) that would enable it to work
with multiple development firms without major changes to the platform. Benefits are typically accrued across a
range of projects, but Oxford experienced significant results with its very first project.

Oxford University Press (OUP) has an illustrious history. The company had its origins in the information technology
revolution of the late fifteenth century, which began with the invention of printing from movable type. The first book
was printed in Oxford in 1478, only two years after Caxton set up the first printing press in England.
Despite this early start, Oxfords printing industry developed in a somewhat haphazard fashion over the next cen-
tury. It consisted of a number of
short-lived private businesses, some that were patronized by the University. In 1586, the University itself obtained
a decree from the Star Chamber confirming its privilege to print books.
This was further enhanced in the Great Charter secured by Archbishop Laud from King Charles I, which entitled
the University to print all manner of books.
In 1896, Oxford University Press opened an office in New York that followed all of Oxfords traditions of religious
and academic publication. OUP USA is currently Oxford University Presss second major publishing center (after
Oxford), annually producing nearly 500 titles.
Since 1896, OUPs development has been rapid in all areas. Music, journals, and electronic publishing have been
introduced during the past 75 years, and ELT publishing (which started with books to teach English in Africa and
India) has grown into a major international business. OUP is now one of the largest publishers in the U.K. and the
largest university press in the world.
The project to create a publishing platform for its online content was led by New York-based OUP, Inc. This archi-
tecture and its resulting benefits would then spread out across Oxford University Press.

Since the onset of internet publishing, the introduction of each new online product (i.e. OED.com, American Na-
tional Biography Online) required Oxford University Press to staff its own project team to create a new platform.
Apart from shared best practices, therefore, OUP was unable to fully leverage its investments from one product to
the next. This approach made sense while Oxford University Press was building flagship products like The Oxford
Dictionary of National Biography, but OUP needed a more effective way to build niche products (i.e. a reference-
based subscription product for the African American Studies market). This time, Oxford University Press wanted to
produce a project in a way that would make it easier to handle similar projects in the future.
Oxford University Press understood that this could be achieved with the creation of a publishing platform. The
platform needed to be flexible enough to handle varying functional requirements and diverse types of content, but
scaleable enough to meet the needs of large and small projects.

Oxford University Press made a strategic decision to develop its new platform simultaneously with the first product
implemented on it. While this added complexity to the project, the company believed that this approach would ac-
complish two goals. First, it would mean that OUP could more quickly realize the fiscal and practical benefits of
the platform. Second and perhaps more importantly, the platform would have a real-world example against which
to test itself.


The Oxford African American Studies Center (AASC), edited by Henry Louis Gates, Jr., was developed to be the
online authority on the African American experience. To be the preeminent scholarly reference on African American
studies, the AASC site needed to aggregate and publish a range of content and formats:

Core content: Five major Oxford encyclopedias covering all aspects of the African American past, including En-
cyclopedia Africana (5 vol.) and Black Women in America (3 vol.)
Additional source content from more than 18 Oxford reference sources, all editorially selected and reviewed
Approximately 1,000 images at the product launch, with an ongoing image research program expected to add
hundreds more images annually
100 primary sources, including the Emancipation Proclamation, Frederick Douglasss slave
narratives, and text of speeches. Brief introductory essays accompany each primary source.
More than 200 charts, tables, and graphs representing demographic information in areas like history, government
and politics, business and labor, education, law and crime, and the arts
Over 140 thematic maps illustrating demographics and history in a variety of areas
A general timeline of African American history, and specific thematic timelines
Learning center: Designed for the school market, this will be a growing area that aims to help users explore the
content with ready reference tools like country profiles, suggested lesson plans by grade level, and study guides
to match the curriculum
The AASC needed to support two types of users with different expectations for finding information:
The primary users would be librarians, who are knowledge professionals. This class of users would demand
complex search functionality, including boolean, proximity, field, thesaurus, stemming, and wildcard.
Secondary users would be students, who would want simple searching capabilities in the model of Google.

The two guiding principles for developing the platform, according to Alex Humphreys, OUPs Director of Online
Engineering, were flexibility and scalability. He goes on to say, These two principles should each be realized in
the areas of content creation and management, product development, and project management.



OUP wanted a model where content could

be created once, and then used in multi-
ple products. At the same time, the plat- The platform could not place any constraints
CONTENT form could not define the content format. It on the volume of content that could be sup-
would need to use and integrate content in ported.
a variety of formats, from different sources,
and using different DTDs.

For the platform to be successful, the invest-

It was critical that the platform did not dic-
ment in features, hardware, and resource
tate product features or capabilities. In-
PRODUCT stead, it needed to be extensible to support
training needed to be leveraged between
products. Each new product could not be a
market-driven needs and requirements.
one-off proposition.

The platform needed to provide multiple The platform needed to provide a foundation
options for integration with other systems that would enable OUP to work on multiple
and capabilities. It needed to enable OUP projects simultaneously. This meant limiting
PROJECT to work with any number of different ven- its dependence on any one vendor by allow-
dors, suiting the vendor selection to the ing multiple vendors to interact with the plat-
specific needs of each new project. form using a defined API.

To ensure longevity and extensibility of the platform, OUP decided that the platform would need to be standards-
based, utilizing XML to the greatest extent possible.

In March 2005, Oxford University Press selected Mark Logics XML content server as the foundation technology
upon which to build its new product platform. MarkLogic Server would provide three things:
A flexible database for the content that OUP would include in AASC and in all future platform-based projects. As
a database, it was specifically designed for the structured XML documents that constituted OUPs content.
A powerful search engine that would enable customized searching on a per-product basis
The ability to use the XQuery language, a W3C standard that OUP considers to be cutting-edge
Not long after selecting MarkLogic as the basis for its platform, Oxford University Press chose Boston- based In-
teractive Factory (IFactory) to build the platform and the AASC product. Having worked with IFactory on the Oxford
Dictionary of National Biography (www.oxforddnb.com), OUP was confident in its ability to understand the complex
requirements of the platform and the product. The design phases of both projects began in June 2005.
Meanwhile, OUP was assembling the content for the African American Studies Center. The content took a variety
of paths into the product:
The core content from the main African American encyclopedias needed to be tagged into XML.
Other content was used from other products such as Oxford Reference Online and Grove Music Online; this
content required very little work to incorporate.
Some content needed to be created specifically for the site. This set included articles and features as well as
certain metadata regarding the rest of the content on the site.
By late fall, OUP had solid designs for the product and the platform. The company also had the bulk of the content
created and detailed plans for the remaining elements. With this, the development phase with IFactory began.
The platform was released and tested in an Alpha site in January, and a Beta site in March. The AASC product was
launched in late April, in time to market it for the summer academic library season.
The teams responsible for the project consisted of a core group of four people from OUP and an additional four
from IFactory. Those teams expanded, however, to include other people and roles when the project demanded it.
In all, OUP spent two years on this project. The first year was spent assessing opportunities and needs. Once
MarkLogic and IFactory were chosen, the site and platform were designed and developed in less than eleven
months. The schedule was aggressive, but ultimately successful.

Figure 1: Publishing Platform and AASC Project Timeline


The product implemented on the platform looks similar to existing projects that were done the old way. This is a
testament to the fact that OUP met its goal of not having the platform limit the products design or functionality. The
first reviews of AASC have been extraordinarily positive.
The impact of the platform will be felt more significantly on future projects. For one thing, the new project team
now has a resilient new platform on which to work. This should enable OUP to diminish the duration and cost of
implementing new projects. Under the right circumstances (i.e. in the development of new Studies Centers), the
time taken to develop new products could drop from 10 12 months to 4 6 months.

Figure 2: Example from the Oxford African American Studies Center Site

Going beyond the ability to develop and introduce new products faster and more affordably, Oxford University
Press is also likely to see:
More efficient utilization of technical staff, all trained on and fluent in one platform
The ability to introduce new types of functionality and content in new and existing products, and the ability to
combine various content types in ways that were once impossible
Reduced hardware costs through shared servers and better utilization of resources
The ability to add delivery channels such as print or even mobile
Flexibility in choosing third-party vendors to develop new sites
As long as it is similar to an existing projectmeaning that the content is of a similar structure (DTD) and that the
functionalities of the Web sites are similara new project can be replicated fairly quickly. That is not to say that
additional costs will not be incurred on future projects. Three things are likely to increase the cost of a new project:
New types of content, specifically each new DTD learned by the platform. Alex Humphreys, Oxfords Director
of Online Engineering, noted that when and if lexical content is added, the platform would need to be taught how
to handle it.
New functionality, such as the ability to print to PDF or wiki-based interactivity
The need for a new implementation vendor to implement a project. We understand that there will be a learning
curve, and therefore additional costs, when each new vendor implements a product using our platforms API,
states Humphreys. By being able to spread our projects across multiple vendors, we can avoid keeping all of our
eggs in one basket.

Humphreys concludes, The key value proposition of this solution is flexibility. The platform provides us with the
flexibility to respond to specific project and product requirements. That could mean launching new products more
quickly, or it could mean scaling the platforms hardware to handle a site much larger than AASC. We feel that this
flexibility gives OUP a real advantage in responding to the rapidly evolving academic publishing marketplace.
Oxford University Press has three new products to add to the platform, and many more will follow.

As with any project, a number of valuable lessons were learned by the Oxford University Press team as it devel-
oped its new platform and rolled out the African American Studies Center.

Know your content. In addition to understanding the type of information and its structures,

one must also understand how the content is interrelated. Possessing a deep understand-
ing of the information enables you to fully define the content, its metadata, and its pub-
lishing requirements. You can then verify that the functionality you have planned properly
leverages the contents granularity. The information and relationships play directly into the
design of the final product.
Understand that technology is not magic. In the end, technology is not a silver bullet that

can do everything for youit is a tool that enables you to speed the development and pub-
lishing of information. In the end, it will not provide 100% automation, nor will it eliminate
the need to work directly with the information. If used correctly, however, technology can
greatly improve the pace and effectiveness of creating and delivering information.

Utilize an XML architecture to help ensure flexibility. Using XML helps to remove the de-
pendency of information on any one particular technology, and this ultimately adds lon-

gevity to the information and platform. XML-based information can be aggregated with
other information, automatically processed, and published in a more automated manner. It
reduces the amount of direct interaction that is necessary to reuse or repurpose the con-
tent. An XML content server like MarkLogic Server can significantly improve this process.

Plan for iterations. Functionality, content, and metadata are often intertwined. For instance,

metadata that was not used in the original content may be core to the online product.
According to Alex Humphreys, Iterations are about coordination. By cycling through these
iterations, we can simultaneously mitigate risk while ensuring that the entire project team
is working towards the same goal.


Mark Logic Corp. helps its customers accelerate the creation of new information products. MarkLogic Server is
an XML content server that enables organizations to build content applications, or applications that are based on
content and that support business processes. With MarkLogic Server, companies can deliver products through
multiple channels, integrate content from different sources, repurpose content into multiple products, build unique
information products, and discover previously unknown information. MarkLogic has a complete implementation of
XQuery, the W3C-standard for querying XML, and provides very fast and highly scalable content retrieval.
San Mateo, California-based Mark Logic is privately-held and backed by Sequoia Capital and Lehman Brothers.
The company serves large, recognized companies in the publishing industry, public sector, and other industries.


As MarkLogic Server is an XML content server, it is an ideal platform for content applications. With a native XML
repository and a complete implementation of XQuery, MarkLogic provides robust support for:
Content loading: Content can be loaded in its current format, converted to XML as necessary, and automatically
indexed for later retrieval. Supporting any number of DTDs or XML schemas, MarkLogic Server is able to make
sense of a disparate array of content.
Query: With full-text and XML indexes accessible via XQuery, MarkLogic Server provides fine-grained search and
retrieval based on document type, content structure, occurrence, and attributes.
Content manipulation: MarkLogic Server provides the means to transform, update, and even assemble new con-
tent products based on specific needs.
Rendering content: MarkLogic Server enables companies to format, publish, and deliver content products. If
needed, MarkLogic can be integrated with other publishing technologies to facilitate the delivery of content through
any number of media or channels.
MarkLogic Server enables organizations with high-volume content needs to automate the processes of content
integration, content repurposing, content delivery, and custom publishing.

Many organizations have numerous disparate silos of content due to unique project needs, mergers and acquisi-
tions, licensing, or changing corporate standards. Much of that content is maintained in different formats. Until the
content has been integrated, however, its true value cannot be realized.
MarkLogic Server bypasses the typical content normalization step by importing content as is. It uses the power of
its query system to cut across all of the types and formats in a content base. MarkLogic supports loading, query-
ing, manipulating, and rendering content in consistent ways even if there are no common DTDs, XML schemas,
or formats. Furthermore, MarkLogic Server does not shred or chunk documents, so there are no problems with
round-tripping documents to and from the content base. No information is ever lost.

Content Publishers often need to repurpose content into multiple products to increase revenues, decrease costs,
or accelerate time to market. The goal is simplewrite once, use many. These organizations want to assemble
content components to create customized, purpose-built documents and information products.
MarkLogic Server delivers content that is formatted and organized to end-users specifications. It can automati-
cally create summary documents that extract relevant content across entire collections. MarkLogic is the basis of
self-service publishing systems that enable customers to assemble their own information collections. Content re-
purposing is vital when multiple variants of a document are drawn from common materials. For example, a section
of a research article may be combined with different content for Internet portals, print journals, grant applications,
reference manuals, and textbooks. In another example, a master technical document about an aircraft may be ex-
cerpted to form manufacturing instructions, maintenance manuals, pilot briefing books, and training presentations.

When documents are ready to be published, syndicated, or otherwise delivered, they must go through an output
formatting and rendering process. Preparing the same content for use in a textbook and a magazine means deal-
ing with different document organizations, formats, and layouts. Meanwhile, publishing the same content for a Web
portal, on-demand PDF, or handheld document reader requires further output rendering.
MarkLogic Server provides the services needed for delivery of content that is optimized for multiple output for-
mats, media, and devices. It also provides a content processing framework that offers custom content processing
pipelines to coordinate multi-step production processes. The content processing framework has a Web services
interface for easy integration of third-party tools and applications, enabling MarkLogic Server to be seamlessly
integrated into existing business processes to create efficient content delivery systems.

Custom publishing is the on-demand assembly and production of documents from existing content. With a custom
publishing system, users can build a custom document, book, article, newsletter, or collection of articles simply by
snapping together content components from different sources.
MarkLogic Server provides the services that enable content to be located, selected, and then assembled into a
complete book or whatever format is required.


Traditional enterprise search engines can often prove useful, especially when you know exactly what you are looking
for. All too often, however, the potential matches are too numerous to even review. Furthermore, a user may not always
know what he or she wants to find. MarkLogic Server provides extensive enterprise search capabilities (i.e. phrase,
Boolean, wildcard, proximity, parametric, range searches) and language processing features (i.e. stemming, thesauri,
spell checking). All of these features are implemented in a platform that can scale to handle terabytes of content.

Figure 3: MarkLogic Server vs. Enterprise Search Engine

The Oxford University Press story is an excellent example of a company that made an infrastructure investment in
a standardized XML publishing system that enhanced its ability to quickly develop new products while also reduc-
ing costs. The Mark Logic-based publishing platform enabled OUP to develop new projects in less time than it had
taken to produce one-off projects. This directly translates into a better utilization of resources, the ability to respond
more rapidly to changing market conditions, and the flexibility to respond to new requirements and content in the
future. XML-based publishing solutions are gaining favor as customers and their vendors realize that information
consistency is critical and metadata is paramount for a wide range of publishing projects. In fact, content- centric
applications that assemble and distribute content through multiple touchpoints using open standards such as XML
are no longer in the minority. OUPs willingness to grapple with its online publishing problem using an XML-based
publishing approach that is built on MarkLogic Server will enable the company to better serve customers in the
future as their information needs continue to evolve.
Mike Maziarka, Craig Cline

For over 140 years, the Press Association (PA) has served as the UKs biggest provider of fast, fair, and accurate
news content. Today, PA Group provides a range of global multimedia content and editorial services, including
news, sports, data, weather forecasts, images and video as well as more bespoke services. Their diverse customer
base ranges across media and from small businesses to global corporations and government agencies.

Originally made up of multiple companies brought together to form PA Group and with such diversification in differ-
ent types of content and services, more technical cohesion and strategy was needed when John ODonovan joined
as Director of Architecture & Development.
All of the different parts of the business were utilizing different technologies, he says. Each of the various types
of data - images, video, news stories and so on - were built and managed on different systems.
PA needed a new, centralized solution that could handle XML, while also merging a large volume of structured
and unstructured content in a useful and efficient way. ODonovan and his team knew that traditional databases
wouldnt have that capability: We needed something that could build a single, common platform to align all of our
diverse and complex content.
Speed and efficiency were also key considerations. With previous solutions, the company was spending 70% of
their time managing and manipulating data before they could get any use out of it. It was important that the new
platform be fast and flexible.

PA has enjoyed a beneficial relationship with MarkLogic for several years. Most notably, they used MarkLogic to
facilitate news delivery during the Olympic Games and have rebuilt their central editorial system including certain
sports news systems using MarkLogic as the common content store. During the Olympics, PA fulfilled over 50
billion information requests, including competition results, athlete information, news stories and more. MarkLogic
rose to the challenge, serving up all that data in a
fast and efficient manner for it to be distributed to many different clients in 26 languages across 40 regional ter-
ritories. Throughout the whole event, the technology worked exactly the way we wanted it to, says ODonovan.
When considering their key objectives for the new platform, MarkLogic was a natural fit; The platform aligned
perfectly with our business strategy and development goals, ODonovan says. They were equipped to deliver a
central, common database - one system to accommodate all types of data.
After a successful launch, the PA team immediately recognized several key benefits. The new system had the flex-
ibility and scalability they needed, which will seamlessly accommodate future growth. It also offered a high degree
of security they were seeking.
With the new platform, PA is able to manage data issues much more efficiently. As an example, one specific project
would have taken up to 100 workdays to complete with the old platform; with the MarkLogic solution, it took only
34 days - a 66% boost in efficiency. There are fewer restrictions and less complexity in transforming data from
one format to another, notes ODonovan. We can store and manage data in a way that aligns with how we want
to present it to customers.
Overall, PA feels they are utilizing the new tool to the best of its ability, enabling them to not only deliver their exist-
ing products, but to also deploy new solutions that were previously too difficult, time-consuming or expensive to

After successfully launching several key applications, the Press Association has become a huge advocate of Mark-
Logic. Weve converted many people over to their platform, ODonovan says. Its fun to watch people use it and
have these Eureka moments when they realize how easy it is to do things that used to be so complex.
According to ODonovan, even the most traditional developers become invigorated by MarkLogics clever and
unique way of handling structured and unstructured data. MarkLogic provides an elegant solution for dealing
with the complex content issues of the PA. For this high-volume multimedia content provider, such a capability is
newsworthy indeed.

Reed Elsevier is the worlds leading publisher of pro- fessional content, with 37,000 employees across 200 offices
worldwide, accounting for sales of nearly 8 billion euros. Its four principal industry divisions Sciences & Medical,
Legal, Education, and Business produce more than 15,000 professional references, magazines, books, CD-
ROMs, online information and business intelligence services annually.
As a subsidiary of Reed Elsevier, Reed Business Informa- tion (RBI) provides business professionals across five
continents unrivaled access to a wide range of commu- nication and information channels. With offerings from
magazines to directories, conferences to market re- search, RBIs main objective is to become the undeniable
reference in key business sectors across a diverse range of industries. The companys vision is that superior infor-
mation and communication products help its customers gain competitive advantage in areas such as commerce,
marketing and decision support.
Yet, just as important to its central mission, is to operate as a cost-efficient, high performing organization. When
assessing any new technology, RBI strikes a constant balance between cost and the potential impact of effec-
tive, efficient, but substantial investment in new revenue streams. Driving this effort at its core is the utilization of
the Internet as a key delivery channel. RBIs portfolio of leading prestige brands comprise powerful products and
services that, thanks to Mark Logic OEM partner 4Dcon- cepts XMS product, leverage all forms of new media to
adapt professional information to specific customer requirements.


RBI France publishes a number of successful titles including the leading French weekly business magazine Stra-
tgies, the monthly Direction(s), the #1 electron- ics review in Europe EPN, and its sister publications EPN France
and EDN Europe. Last March RBI acquired Cosmedias, the leading French publisher in the beauty market with
famous magazines like Cosmtique Mag, ICN and Coiffure de Paris. The office also publishes books, guides, CDs
and databases in areas of interest as diverse as social services, education, human resources, public policy, self-
help, and legal.
RBI France was laboring under challenging content transformation and production processes. Such issues have
even greater negative impact in the publishing industry, where content is a companys greatest asset. RBI France
was already familiar with the power of XML to tag and index content, but reusing this content often proved quite
difficult. Regarding its magazine content, RBI France remained tethered to use of an SQLServer database as its
content repository. This meant that for reuse purposes, any existing content selected would be exported out into
XML, reprocessed for publishing, and then new pages exported out of XML again for re-stor- age in the database.
This laborious use of XML made the press composition process neither clean nor quick. The constant back and
forth transformations required to produce new content first for print production and ultimately to the web was
proving too difficult to man- age. Waiting for production to get print content first and then load it on the Internet had
introduced latency into the update process as well.
It was becoming clear that RBI Frances content produc- tion, storage and retrieval processes were interfering with
fulfilling one of its central missions understanding and exceeding customer expectations. RBI resells its profes-
sional content to business partners who arent in the publishing business but rather leverage custom, industry-
specific information published by RBI to better serve their own end customers. RBI Frances partners include
banks, consumer sites, retail outlets, and technol- ogy companies. Because of its sometimes laborious production
processes, RBI Frances wish to repurpose and realize more value from its digital content as new services was
stymied, making the creation and delivery of added value to these indispensable partners both dif- ficult and ex-


Although RBI Frances main technical challenge was in transforming content back and forth from XML, its solu- tion
requirements did not end simply at a database that could handle XML. It needed to be a fully realized enter- prise
content management system leveraging a single centralized XML repository as the main content source for all
publishing operations. This required that the content platform selected offer workflow functionality to speed and
ease production and content management of the French publishers books, magazines, websites, applications,
and partner offerings. The company also wanted to be sure that the solution selected was fully compatible with
Adobe Framemaker, InDesign and the other design tools already in use and favored by its editors. Finally, RBI was
seeking a partnership with its supplier that would be long-term and mutually beneficial.

Reed Elsevier, the parent company of RBI, has a stated value that pervades the company system-wide: innova-
tion. Management encourages workers to welcome and push change, challenge the status quo, take risks and be
entrepreneurial. Reed Elseviers U.S. and U.K. offices first started working with Mark Logics XML server back in
2006. Certainly, going with a new solution called an XML Database at that time was a new idea and a bold move
indicative of out-of-the-box thinking. By the time their counterparts in France were ready for a similar solution,
Elseviers corporate IT department had already completed 2 projects. The result: MarkLogic had a leg up on the
competition in solving the problems of RBI France.


After the selection of MarkLogic Server, RBI France launched its implementation project at the end of 2006. It
started small, with a pilot based on only one of its profes- sional electronics magazines, EPN (Europe-wide edi-
tion), EPN France, and one of its books, Le Guide Familial the leading French family law guide used by half of
the countrys social workers. Why? Because sales efforts were already aligned behind these products, and suc-
cess with their high profile brands could be used as a compelling business case to help IT push a larger goal the
ultimate move to a true enterprise-wide editorial content management system.
To succeed in this challenge, RBI France turned to one of its trusted local IT solution providers, 4Dconcept. 4Dcon-
cept would provide critical know-how in multi-channel publication for the press and publishing industries. After
having learned to integrate Mark Logic in a matter of weeks, 4Dconcept managed the 6-month pilot program to
a successful conclu- sion and also set the foundation for the future editorial con- tent management system. This
solution, called XMS, would drive the production of other RBI France content.
However, it didnt take RBI France very long to under- stand the distinct advantages of an editorial content man-
agement system relying on a database specialized in handling full XML content. This is how RBI France got
involved in the development of XMS. XML simply made sense for a wider solution that would anticipate all RBI
Frances future needs. First, XMS places no limitations on the original structure of the content, meaning it can be
tagged and indexed from any source just as efficiently.
RBI France is able to repurpose content without any con- straint from the media itself. Changes anywhere, even to
a single word in a single story, ripple out to be reflected in all citations automatically without IT intervention.
Finally, editors were able to keep in place all of their pre- ferred publication layout and design tools such as Adobe
InDesign, Framemaker and Bridge.
After the pilot project was completed, RBI France conducted three to four months of analysis to measure its suc-
cess. This process yielded some best practices to optimize the massive rollout of XMS across RBI France. EPN
and Le Guide Familial are not large publications.
Hence, it was critical that the success of the future XMS be demonstrated and proven in action here before mov-
ing on to larger, more prestigious brands.


As a result of the successful implementation of XMS, RBI France was actually able to reverse its original produc-
tion process of new content from web to print, versus print to web. Changing this workflow allows editors
to publish in XML without media constraint, to launch new material on the web in seconds when ready, and to
provide new value-added services for customers and partners. The content lives in XML without needless trans-
formations, streamlining a process thats cleaner, quicker and always up-to-date. The print production team now
consistently leverages the latest information to churn out RBI Frances magazines weekly and monthly, or its new
book editions on a quarterly basis.
Because of 4Dconcept and Mark Logics success with some of the most high profile brands at RBI France, the
division was able to rollout a true enterprise-wide edito- rial content management system a live, fully functional
solution with direct connections to and from in-house layout and design tools. Seven different RBI brands now
have their content fully loaded as XML in XMS, includ- ing numerous leaflet books and some of the larger, more
prestigious magazines published by RBI France such as stratgies. The high level of scalability and reliability of
XMS ensures work can continue until all of RBI Frances products live in the XML database. The amount of upfront
index definition completed during XMS conception means little additional development investment is necessary to
integrate new brands or products into XMS quickly and cleanly.
In summary, RBI Frances investment in XMS is indeed paying off. Streamlined production has lead to the com-
panys ability to repurpose its digital content and to de- liver more value offering new resale services to partners.
Rich XML allows innovative products to be introduced easily and less expensively, whether internal or external.
One example of dynamically updated custom content resulting in a new service includes the case of one of RBI
Frances major bank customers. This content resale part- ner was able to rapidly produce a new audit guide on
their own website, completely powered by RBI content. Mark Logic and 4Dconcept have thereby helped RBI
France to fulfill another one of its core corporate objectives: to be highly valued and respected by its customers.
The official introduction of XMS to the market occurred in October 2008 in Paris. RBI France, 4Dconcept and Mark
Logic continue to partner for ongoing development and evolution of XMS.

4Dconcept provides leading organizations with services to drive, define, design and deploy documentary and
editorial information systems in the aeronautics, de- fense, construction, manufacturing, telecommunication, trans-
port, publishing, media and administration sec- tors. 4Dconcept addresses matters such as content and knowledge
management, editorial content enrichment and publishing, after-sale market and maintenance engi- neering, and
cross-media publishing. It offers a range of services to advise customers on best practices, develops custom-made
solutions, and produces graphical (2D/3D) and text content applications. 4Dconcept also offers a set of modular
and adaptable turnkey solutions to help customers produce and manage their information in mul- tiple sectors. The
implementation of technologies such as XML enables 4Dconcept to bring relevant information to the people who
need it, when they need it. To learn more about 4Dconcept, visit www.4dconcept.fr.
When the content experts at the Royal Society of Chemistry (RSC) found themselves struggling to manage millions
of buried data files, they partnered with MarkLogic to build a new solution. Using the MarkLogic Enterprise NoSQL
database, the RSC has made over a centurys worth of information accessible to entrepreneurs, educators, and
researchers around the world.

Founded over 150 years ago in the United Kingdom, the RSC is Europes largest organization dedicated to further-
ing awareness of the chemical sciences. With more than 48,000 global members, the RSC is the heir and suc-
cessor of four renowned and long-established chemical science bodiesThe Chemical Society, The Society for
Analytical Chemistry, The Royal Institute of Chemistry, and The Faraday Society. The RSCs headquarters are in
London and Cambridge, UK with international offices in the USA, China, Japan, India and Brazil.
To strengthen knowledge of the profession and science of chemistry, the RSC holds conferences, meetings, and
public events, and also publishes industry-renowned scientific journals, books and databases.
Adding to its wealth of content, the RSC recently acquired the rights to The Merck Index. Widely considered as
the worldwide authority on chemistry information, this renowned reference book has been used by industry profes-
sionals for over 120 years.

Its a tall order to manage a single years worth of dataso how about 170 of them? Since the 1840s, the RSC has
gathered millions of images, science data files and articles from more than 200,000 authors. All of that information
was stored in a wide range of formats at multiple locations and was growing by the day.
In 2010, largely due to the huge growth of social media and digital formats, the RSC launched an initiative to make
its data more accessible, fluid and mobile.
David Leeming, strategic innovation group solutions manager for RSC, sums up the societys goal: We needed an
integrated repository that would make all of our content accessible online to anyonefrom teachers to businesses
to researchers. The key was finding the right technology.

After evaluating several major providers, the RSC chose MarkLogic as the best platform for its needs, and built
three sites on it:
RSC Publishing: http://www.rsc.org/publishing
Learn Chemistry: http://www.rsc.org/learn-chemistry
Chemistry World: http://www.rsc.org/chemistryworld

Given the societys wide range of information media books, emails, manuals, tweets, metadata, and morethe
data does not conform to a single schema, which means a traditional relational database cant accommodate it.
MarkLogics document-based data model is ideal for varied formats and hierarchical metadata. The RSC can
simply load its information as-is, without having to conform to a rigid format.
As Leeming points out, A book chapter is very different from a journal article. A relational database cant combine
the two. MarkLogic is flexible enough to handle all types of unstructured content in a single delivery mechanism,
from spreadsheets and images to videos and social media comments.
MarkLogic offers many key benefits, including the ability to store content as XML documents. The database also
enables logical associations between different types of content.
Each image, video, and article is automatically tagged, allowing users to find, understand, and process the infor-
mation they need. As shown in the image above, searching RSC publications is a quick, intuitive process using a
standard Web browser.
The new MarkLogic platform will be a significant benefit in the RSCs acquisition of The Merck Index. Were ea-
gerly looking forward to developing The Merck Index for the digital future, says Dr. James Milne, RSC Publishing
Executive Director. The schema-less MarkLogic database will help to ensure the continued growth of the publica-
tions online format.


With the greater data accessibility afforded by the new MarkLogic database, the RSCs publishing division has
become much more productive, publishing more than 20,000 articles in 2011. We can now publish three times as
many journals and four times as many articles as we did in 2006, and get them to market faster, says Leeming.
And we have the ability to build new educational programs to spread chemistry knowledge among more people.
In addition, since implementing the integrated MarkLogic database, the RSC has seen a 30 percent increase in
article views, a 70 percent traffic boost on its educational websites, and a spike in research activity in India, China,
and Brazil.
Although the integrated data repository has been the biggest game-changer, the MarkLogic technology has ena-
bled other opportunities. Leveraging MarkLogics Enterprise NoSQL database, the RSC has launched many new
research journals, mobile applications, social media forums, and applications for children.
Dr. Robert Parker, RSC Chief Executive, sums up the major role MarkLogic has played in this successful transition.
Using MarkLogics big data platform has allowed us to open up the world of chemistry to a much wider audience,
whilst increasing the volume and quality of the research that we publish.

For over 160 years, Springer has led the industry in scientific and medical publishing.
With a staff of 6,000 employees around the world, the company publishes more than 8,000 new book titles each
yearand thats just in print. To meet the growing demand for online delivery, Springer also maintains an online
catalog of more than 169,000 eBooks, and has the worlds largest open access portfolio.
The companys content delivery platform, SpringerLink, is the heart of the companys business, hosting more than
8.4 million scientific documents including journals, books, series, protocols and reference works.

Launched in 1996, SpringerLink was one of the first publicly available online content platforms. The site was origi-
nally used as a home to some of the companys journals, but as online content became an increasingly important
part of the companys business, SpringerLink became the hub for every journal the company published, and later,
its entire library of books.
With a massive content library and a shift in revenues from print to electronic, Springer needed a greater level of
flexibility and control over its online content distribution, which had grown to account for two-thirds of total company
revenue. The Springer team required:
An in-house solution. For the past eight years, Springer had been using a third-party technology provider to power
SpringerLink. As it evolved into a crucial component of their revenue, the company decided that they didnt want
that strategic asset resting on a technology they didnt own.
Rapid deployment. With the end of their outsourced technology contract fast approaching, Springer faced the
daunting task of completing the project in just 11 months.
Fast search. As online content exploded, readers came to expect better functionality from content providers,
including sub-second search.

Springer chose MarkLogic as its new platform because it allowed them to deliver more rich applications to their
customers so they could create a user experience that went beyond simply delivering a piece of content. It had
previously built and deployed some high-performing applications using MarkLogic technology, including a tool to
track the locations of document authors, a search engine for mathematicians, a program that displays snippets
of scientific language in a publishing context, and SpringerImages, a robust platform that allows users to search
through the millions of images stored in SpringerLink.

MarkLogic gave Springer an in-house solution that dramatically improved SpringerLinks performance. MarkLogic
also helped Springer:
Create revenue. SpringerLink has become the core of Springers business, generating 95 percent of Springers
online revenue and driving more than 2 million page requests and over a million downloads a day.
Increase performance. In fractions of a second, SpringerLink can now analyze hundreds of contracts per cus-
tomer identifying which of the millions of items they can access. During high-traffic periods, the new platform loads
twice as fast, and runs essential functions up to four times faster.
Boost user engagement. Since moving to MarkLogic, the time users spend on SpringerLink has increased by
one-third, bounce rate has been cut in half, and number of page views grown.
Re-build SpringerImages. MarkLogic searches image captions as well as relevant text surrounding the image
ensuring more robust and accurate results.
Fit its agile development process. MarkLogics agile approach supports automated tests, continuous integration
and deployment, and weekly iterations.
Simplify architecture. MarkLogics built-in powerful search engine helped Springer simplify its architecture and
allows users to subscribe to their own reusable queries.
Support multi-language search. MarkLogic is able to change the search parameters based on the users lan-
guage. German-speaking users and English-speaking users will see results tailored to them.
Go to market quickly. From three releases each year on the old platform to now weekly releases, Springer is able
to take new features to market as soon as a business need is identified.

LOBS (ex-Le Nouvel Observateur), acteur majeur de linformation sur les supports magazine, web et mobile a
retenu en 2013 Micropole et son agence digitale Wide pour laccompagner dans la dfinition et sur la mise en place
de sa stratgie multicanal personnalise.
Avec 8 millions de visiteurs uniques par mois* et plus de 800 000 abonns, le groupe souhaitait disposer dune
connaissance 360 de lensemble de son audience afin de lui proposer de nouveaux services individualiss forte
valeur ajoute.

Dans un contexte de mutation des usages, particulirement dans le domaine des media et de transformation de
linformation (volume, vitesse et varit), lOBS entreprend alors :
- Dcouter sur tous les points de contact, digitaux ou offline ;
- Danalyser les donnes pour mieux connatre et apprhender les centres dintrt du lecteur ;
- De comprendre et danimer en cross-canal lensemble de son lectorat traditionnel et digital.
Pour atteindre ces objectifs de collecte, danalyse et dengagement de la relation client, lOBS sappuie sur la
plateforme Customer Data mise en place par Wide. Cette solution repose sur les principes technologiques du Big
Data et met disposition les services mtiers en mode SaaS (Software as a Service) de la solution Cloud Digital
Marketing Optimization de IBM .

Ainsi, lOBS est en capacit de proposer un contenu personnalis en accord avec les prfrences de ses lecteurs
et selon leur historique de navigation, ceci en temps rel. Le groupe est galement capable dadresser des com-
munications individualises (emails, newsletters) tenant compte de leurs centres dintrt.
Cette stratgie digitale a rapidement port ses fruits car le nombre dabonnements la newsletter a augment de
25% en seulement 6 mois. Le lecteur abonn est alors reconnu et anim par le CRM.

Avec IBM et Micropole, nous avons fait le choix de lambition et de linnovation. Grce aux fonctions avances
de cette nouvelle plateforme, nous sommes capables de comprendre les centres dintrt dun internaute, sans
pour autant connatre son identit, tout en apportant de nouveaux services forte valeur ajoute nos abonns.
Plus gnralement, ceci nous permet doffrir nos lecteurs la possibilit de bnficier de contenus et de services
personnaliss en temps rel , a dclar le Directeur Marketing Digital de LOBS.
*Source : Mdiamtrie NetRating mai 2013

With over 1,000 stores, Pier 1 Imports aims to be their customers neighborhood store for furniture and home dcor.
But the way customers are shopping is different today and Pier 1 Imports recently launched a multi-year, omni-
channel strategy called 1 Pier 1, a key goal of which is to understand customers better and serve them with a
more personalized experience across their multiple interactions and touch points with the Pier 1 brand.
Pier 1 Imports recently adopted Microsoft Azure Machine Learning to help them predict what their customers might
like to buy next. Working with Microsoft partner MAX451, they built an Azure ML solution that predicts what a
customers future product preferences might be and how they might like to purchase and receive these products.
Many Microsoft customers across a broad range of industries are deploying enterprise-grade predictive analytics
solutions using Azure ML. You too can get started on Azure ML today.


Urban migration is one of the megatrends of our time. A majority of the worlds population now lives in its cities. By
2050, seven of every ten humans will call a city their home. To make room for billions of urban residents to live,
work and play, there is only one direction to go up.
As one of the worlds leading elevator manufacturers, ThyssenKrupp Elevator maintains over 1.1 million eleva-
tors worldwide, including those at some of the worlds most iconic buildings such as the new 102-story One World
Trade Center in New York (featuring the fastest elevators in the western hemisphere) and the Bayshore Hotel in
Dalian, China.
ThyssenKrupp wanted to gain a competitive edge by focusing on the one thing that matters most to their customers
having elevators run safely and reliability, round the clock. In the words of Andreas Schierenbeck, ThyssenKrupp
Elevator CEO, We wanted to go beyond the industry standard of preventative maintenance, to offer predictive and
even preemptive maintenance, so we can guarantee a higher uptime percentage on our elevators.


ThyssenKrupp teamed up with Microsoft and CGI to create a connected intelligent system to help raise their eleva-
tor uptime. Drawing on the potential of the Internet of Things (IoT), the solution securely connects the thousands
of sensors in ThyssenKrupps elevators sensors that monitor cab speed, door functioning, shaft alignment, motor
temperature and much more to the cloud, using Microsoft Azure Intelligent Systems Service (Azure ISS). The
system pulls all this data into a single integrated real-time dashboard of key performance indicators Using the rich
data visualization capabilities of Power BI for Office 365, ThyssenKrupp knows precisely which elevator cabs need
service and when. Microsoft Azure Machine Learning (Azure ML) is used to feed the elevator data into dynamic
predictive models which then allow elevators to anticipate what specific repairs they need.
As Dr. Rory Smith, Director of Strategic Development for the Americas at ThyssenKrupp Elevator, sums it up,
When the elevator reports that it has a problem, it sends out an error code and the three or four most probable
causes of that error code. In effect, our field technician is being coached by this expert citizen.
In other words, these Smart elevators are actually teaching technicians how to fix them, thanks to Azure ML. With
up to 400 error codes possible on a given elevator, such coaching is significantly sharpening efficiency in the field.

An academic, architect, researcher and activist for energy conservationVivian Loftness is a champion of biophilic
design. Her workspace, surrounded by light and plants, reflects her passion.
Vivian Loftness is obsessed with sustainability and building performance. Having called many different cities
around the world home from her birth city of Stockholm, to early years in Los Angeles and Paris, to study and
work stints in Boston, Helsinki, New York City, Cologne, Athens, Ottawa and finally, Pittsburgh, where she is a pro-
fessor at Carnegie Mellons School of Architecture Loftness has checked out more than a few buildings close up.
Loftness singular passion is for sustainable architectural design and the need to get buildings in our world to a
zero state where they have the smallest possible energy footprint without sacrificing comfort. This is no small
feat, and a problem that is technological as much as it is architectural. But advances in technologies such as cloud
computing, data analytics and services such as Microsofts Azure Machine Learning are helping Loftness and two
researchers at Carnegie Mellons Center for Building Performance and Diagnostics slowly crack the code, one
building at a time, and in ways previously unthinkable.


The Intelligent Workplace, which sits atop the Margaret Morrison Carnegie Hall, was established in 1997 as the first
Living Laboratory of its kind dedicated to research in building sustainability.
The Robert L. Preger Intelligent Workplace, which sits atop the stunning Margaret Morrison Carnegie Hall, is where
Loftness and 30 researchers and graduate students are studying the impact of a variety of factors on the quality
of built environments. Natural light dominates this space they call the Living Laboratory, streaming in through
skylights and wall after wall of expansive windows that offer sweeping views of the campus grounds. Research
students occupy open, collaborative workspaces. Unfinished wooden building models sit on work tables which, like
the rest of the furniture and walls in the lab, are reconfigurable and movable all in a matter of minutes. Plants
are everywhere, and if you look closely enough, several are wired with sensors, as are the walls and ceilings of
this living workspace.
For these researchers, the journey started with really simple questions: How do you give people who work in build-
ings a comfortable environment while using the least possible energy? How do you make people accountable for
their own energy footprints? And how can technology assist in that journey?
Senior researchers Bertrand Lasternas and Azizan Aziz work with Loftness, sharing her passion for taking on one
of the most daunting problems facing our generation How do you make buildings more energy efficient? The
statistics are sobering. Nearly 70 percent of all electricity in the United States goes toward building operations
heating and cooling systems, lighting, ventilation and plug loads. For these researchers, the journey started with
really simple questions: How do you give people who work in buildings a comfortable environment while using
the least possible energy? How do you make people accountable for their own energy footprints? And how can
technology assist in that journey?


Not unlike a crew of investigators methodically working their way through evidence at a crime scene, these energy
sleuths have cultivated a healthy respect for data and are capturing it from buildings all across the Carnegie Mellon
campus. Theyre about halfway there, drawing data from 40 buildings, with roughly 25 more to go.
Data is how buildings reveal their secrets and to miss one key piece could potentially derail an entire investigation.
The behaviors of buildings we analyze and the people who occupy them are unique, complex and hard to predict,
says Loftness. There are students who leave windows open in their dorm rooms during bitterly cold winters when
heat is blasting. There are building managers who leave air conditioning systems running during cool summer
nights. There are offices that enjoy bright daylight but whose staff still leave the lights on all day. And then there
is the challenge of managing things thermostats, computers, microwaves, elevators as well as analyzing
external factors such as day-to-day fluctuations in weather.

Loftness conducts a lecture with graduate students at the Intelligent Workplace. Some of her students assist with
the data sleuthing activities.
The large number of variables means one simple thing: Buildings, like those who inhabit them, are living beings.
What are they telling us? More importantly, are we doing enough to listen?
There is no question that we save 30 percent in most buildings through better awareness of where the energys
going, and giving users better controls to adjust for their individual needs while driving down energy usage, Loft-
ness says.
The stakes are high and so is the urgency. About 40 percent of CO2 emissions globally come from buildings.
Buildings use technologies and products assembled in hundreds of unique ways, generating literally millions of

variations. Buildings also vary in age, with generations of local architectural adaptations made over time. Then
there are the occupants a mix of people with unique activities and comfort thresholds. Understanding how all
these factors mesh together requires historical data and data analysis. A lot of it.
These are complex and critical problems were trying to solve. And cloud and machine learning technology is
helping us push boundaries of what is possible in ways I couldnt have imagined a few years ago. Azizan Aziz,
Senior Research Architect


Making all the captured data from buildings work together is like putting together a massive jigsaw puzzle. Some
buildings on campus, such as the Gates Center, have hundreds of sensors, and others not so many. These sen-
sors are tracking CO2 levels in different rooms, measuring the distribution of temperatures by floor, by room and by
height, monitoring windows, lighting systems and plug loads. And theres more: People who work inside make up
the most significant part of a buildings heartbeat so user satisfaction data is being added to the mix based on
occupant surveys in order to have a holistic picture of the indoor environmental quality of the workplace.
To say its a complex task would be putting it lightly. Lasternas and Aziz spend a good deal of time being data
sleuths, and finding ways to listen to what the buildings are trying to communicate the story that lives in the data.
There is a real difference you can make in energy conservation by giving people data that is actionable instead of
asking them to just do their best Bertrand Lasternas, Senior Researcher
When Lasternas came to Carnegie Mellon from France in 2010, he was a physics and chemistry major working
towards a masters degree in mechanical engineering and building sciences. Today, hes an expert in extracting
data from building management systems and sensors, both to understand how buildings work, as well as to help
people manage energy more efficiently.
Recalling challenges from the earlier phases of the research, Lasternas says, We might have 10 different manu-
facturers of equipment in a single building, and none of them share information. So how do you pull all of that
together? We wanted to empower people to be more engaged in the living building, more aware of their energy
usage patterns.
With help from Microsofts Global ISV partner OSIsoft, Lasternas and Aziz began using their solution, the PI Sys-
tem, four years ago. It offered the missing glue that helped the team bring data together from various sources,
cleanse it, store it in a common, usable format, and make it ready for historical and real-time analysis. The PI
System supports more than 400 interfaces that can connect to systems from the many different vendors of building
systems and controls.


Were not trained data scientists. We went overnight from using complex statistical analysis tools to drag-n-drop
insights. Thats a breakthrough for the work we do Senior Researcher Azizan Aziz
Having conquered the data integration and storage challenge, the team dove into analysis a world of massive
spreadsheets and programming languages such as MATLAB to handle big, iterative computations. It was an
exercise that very quickly got unwieldy. Were not trained data scientists by background, and complex statistical
packages are outside of our immediate area of expertise, says Aziz.
One of our former students was using MATLAB for analysis, he recalls. It took her a long time just to prepare and
sort the data, and then a single run of analysis took 30-45 minutes. Thats far too long to develop good predictions
for demand reduction. We really need to do these iterative analyses in real-time.
Machine Learning, cloud and data visualization technologies changed the dynamics of their project dramatically.
With Azure Machine Learning, the time it took to run a single experiment went from 45 minutes to instantaneous,
Aziz says. Its really fun to be able to use multiple types of machine learning algorithms and just have the results
appear immediately. Were able to play with all the variables and make sense of which ones contribute most to a
specific change in building conditions.


To let the data tell its own story in a way that is visual and easy to grasp, the Carnegie Mellon researchers build
digital dashboards that make data anomalies much easier to spot. Using these dashboards, theyve been able to
solve puzzles in the buildings theyre working on. In one case, Lasternas recalls, We saw an unusual area of low
temperature in a building and realized that someone was leaving a window open in the middle of winter, when it
was minus-eight degrees outside.
According to Aziz, when a strange condition is spotted on the dashboard, the solution is often a simple one. We
ask people why they have the boiler on when the temperature outside is 85 degrees. Turns out they didnt know it
was on, because they dont have the data presented to them clearly, he says.
Having data-based insight on-the-fly is great, but where things get really interesting is with the potential to do pre-
dictive modeling. This is an area where cloud and machine learning technologies have truly been a game changer.
Because Carnegie Mellon is collecting and storing real-time and historical data on campus buildings using the PI
System, they finally have the ability to do predictive analysis using Azure Machine Learning in exciting ways.
For people who live in buildings and use its systems, providing data alone isnt enough to change behavior. Peo-
ple need to see the impact of their actions every minute. Digital dashboards often trigger the aha! moments.
One of the teams early experiments involved trying to figure out the ideal time to ramp up the heating in campus
buildings to hit 72 degrees at start of business (by 8 a.m.), given predicted variations in outdoor temperature and
sunshine. Using Azure Machine Learning, they built a model that looked at months of heat up data from the build-
ings records and matched that to multi-day external temperatures and anticipated solar radiation. The result? They
were able to zero in on a custom model for each day to start heating a building at the lowest energy use.
As simple as that victory sounds, the implications for energy and dollar savings are simply enormous especially
when you scale up, notes Lasternas. For this group of researchers, the potential to scale up such predictive ca-
pabilities to forecast factors such as energy demand spikes and equipment failures, to simply and proactively
give people actionable information at their fingertips is where their research can have real and broad impact.
These are complex and critical problems were trying to solve. And cloud and machine learning technology is help-
ing us push boundaries of what is possible in ways I couldnt have imagined a few years ago, Aziz says.

Vivian Loftness checks out a model of a planned second wing to Margaret Morrison called Invention Works where
Carnegie Mellon inventors from across campus could collaborate to create products and systems that improve our
environment, our health and our quality of life.
The journey of these energy crusaders is just picking up steam. Early alliances include partnerships and projects
with United States Department of Energy and the Department of Defense, OSIsoft, the city of Pittsburgh and PNC
Bank, one of the largest diversified financial services organizations in the country.
With the growing commitment to sustainable design initiatives across the public and private sector, Loftness be-
lieves the energy conservation movement is quickly hitting a tipping point in the U.S.
Climate change is a serious challenge and I expect to see energy management in buildings rise from its under-
championed status today to the forefront of the energy conservation movement, Loftness says. Technology is
helping us get to better insights, and faster, creating a movement that will ripple across the country in the next few
years, reshaping how we live, work and play.

Things (e.g., devices, assets) are getting more intelligent. And every day, more and more of them are connecting
to the Internet. This is forming the Internet of Things (IoT).
Theres no company more connected to this trend than the Bosch Group, a multinational engineering conglomerate
with nearly 300,000 employees. Known for its appliances in the U.S., Bosch is also the worlds largest automotive
components manufacturer. From smart power tools and advanced telematics to microelectromechanical systems
(MEMS), its at the forefront of IoT.
With such a wide-reaching, diverse product base, IoT represents a huge opportunity for the Bosch Group to in-
crease efficiency and to develop new business models. It also poses a significant challenge, to design, develop
and operate innovative software and industry solutions in the IoT. Bosch Software Innovations (Bosch SI) spear-
heads all IoT activities inside the Bosch Group and helps their internal and external customers to be successful in
the IoT.
IoT is in its infancy, but growing up fast. By some estimates, 50 billion devices, appliances and systems will be
connected by 2020. Traditional systems cannot support the volume, speed and complexity of data being generated
across such a vast spectrum of potential use cases. Bosch SI was looking for an innovative partner to meet the
challenges of Big Data in IoT.


IoT goes beyond simply connecting assets and devices. It requires creating services that gather data and deliver
immediate insight. The Bosch IoT Suite and the integrated database from MongoDB make this possible.
IoT is the culmination of agility and flexibility on the one side and big data on the other side and this is where
MongoDB is of great value to us.
Dirk Slama, Bosch Business Development Take, for example, the automotive field data app that Bosch is piloting.
The app captures data from the vehicle, such as the braking system, power steering and windshield wipers. The
data can then be used to improve diagnostics for preventative maintenance needs, as well as analyze how com-
ponents are performing in the field. The value isnt simply in the sensor attached to the electromagnetic compo-
nents, but in how the back-end service is able to improve maintenance and product design processes.
In another example, an app based on the Bosch SI technology gives aircraft manufactures unprecedented control
over how operators use highly advanced power tools used to tighten the six million screws, nuts and bolts on an
airplane -- a mission-critical job with zero room for error.
The app captures all data transmitted wirelessly, including battery level, operator details and time-series calibration
readings. If the torque or angle is off by the slightest bit, the app sets off an alarm so the operator can make on-the-
fly adjustments. It manages maintenance schedules, tracks and traces details to prevent loss, and also creates an
audit trail of tightening processes for compliance with the FAA and other regulatory bodies. By connecting data to
manufacturing processes in real-time, the app makes that power tool exponentially more powerful.
In both instances, the Bosch IoT Suite collects data from individual sensors and equipment the cars braking
system, or the wireless tightening tool. MongoDB stores, manages and analyzes all of this event data in real-time.
MongoDB also stores business rules that trigger alarms and notifications, such as alert driver when brake pres-
sure drops below a certain level or send alarm when tool is being used incorrectly.


The massive volume and increasingly unstructured nature of IoT data has put new demands on Bosch SIs entire
technology stack, especially the underlying database. Rigidly defined RDBMS data models have limited use in IoT.
They lack the flexibility, scale and real-time analytics needed to quickly capture, share, process and analyze IoT data.
IoT calls for a new mindset, and a new database. MongoDB helped Bosch SI reimagine whats possible. Heres how:
1. Manage complex data types. IoT data arrives at higher speeds, in greater volumes and variability of structure. Mon-
goDB can easily handle the full spectrum of data: structured, semi-structured, unstructured. Efficient modeling of data
using JSON makes it easy to map the information model of the device to its associated document in the database.
2. Support continuous innovation and business agility. Changes in IoT customer requirements, standards and use
cases will require frequent data model changes. MongoDBs dynamic schema supports agile, iterative develop-
ment methodologies and makes it simple to evolve an app. Adding new devices, sensors and assets is straight-
forward, even when youre dealing with multiple versions in the field concurrently. Instead of wasting time dealing
with the mismatch between programming language and the database, MongoDB lets developers focus on creating
rich, functional apps.
3. Create a unified view. Creating a single view of an asset or customer with a relational database is complicated.
Source schema changes require additional changes to the single view schema. MongoDB makes it easy to ag-
gregate multiple views of related data from different source systems into one unified view.

4. Power operational insight with real-time analysis. Apps handling fast-moving IoT data cant wait on ETL process-
es to replicate data to a data warehouse. They need to react and respond in real time. MongoDBs rich indexing
and querying capabilities including secondary, geospatial and text search indexes, the Aggregation Framework
and native MapReduce allow users to ask complex questions of the data, leading to real-time operational insight
and business discovery.
5. Be enterprise-ready. MongoDB complements agility with enterprise-grade availability, security and scalability.
Zero downtime with replica sets. Proven database security with authentication, authorization, auditing and encryp-
tion. Cost-effective scale-out across commodity hardware with auto-sharding. As IoT data volumes continue to
explode, Bosch will be able to efficiently scale without imposing additional complexity on development teams or
additional cost on the business.


Bosch SI is making a strategic bet on MongoDB to drive innovative apps in every industry where it does business. It
can improve the retail shopping experience with in-store maps and personalized notifications. Create safer working
conditions in manufacturing environments. Trace agriculture through the food chain to support farm-to-table initiatives.
Its great to see MongoDB as a stable and growing company that we can strategically bet on Dirk Slama, Bosch
Business Development
The use cases are limitless. And MongoDB makes every single one possible.
The IoT market is exploding and Bosch is moving quickly. Bosch SI is continuing development on new apps and
working closely with MongoDB to scale up existing apps like growing a three million car pilot to a 300 million car
With MongoDB, scale-out will be fast, reliable and cost effective.
As a technology provider, partner and fellow innovator, MongoDB is in lock-step with Bosch SI. Bosch SI is accel-
erating implementation of new IoT apps and business models, ensuring the business units and customers it serves
dont miss a beat as new generations of sensors and equipment come online.
Copyright MongoDB Inc 2014


Reinventing customer service. In 2011, MetLifes new executive team knew they had to shake up how the insur-
ance giant catered to customers. Because todays consumers hyper connected, digitally empowered, information
savvy have little patience and even less loyalty.
MetLife wanted to harness Big Data to create a 360-degree view of its customers so it could know and talk to each
of its more than 100 million clients as individuals. But the Fortune 50 company had already spent many years trying
unsuccessfully to develop this kind of centralized system using relational databases.
Which is why the 145-year old insurer in 2013 turned to MongoDB. Using MongoDBs technology over just 2
weeks, MetLife created a working prototype of a new system that pulled together every single relevant piece of
customer information about each client.
Three short months later, the finished version of this new system, called the MetLife Wall, was in production
across MetLifes call centers. The Wall collects vast amounts of structured and unstructured information from
MetLifes more than 70 different administrative systems. After many years of trying, MetLife solved one of the
biggest data challenges dogging companies today. All by using MongoDBs innovative approach for organizing
massive amounts of data.


Today, when a customer calls MetLife to ask about a claim, add a new baby to a policy, or dig into coverage details,
customer representatives use the Wall to pull up every bit of information they need in seconds name, address,
policies, and life events.
Using a touchscreen and a design based on how Facebook dishes up information, The Wall is instantly familiar to
MetLifes call center operators. Which means customer reps can quickly and efficiently answer questions, handle
claims, suggest new services, or offer promotions, while slashing wait and call times. MetLife now understands
and serves each customer individually.

What sparked this change? Were all too familiar with typical customer service. Call any business and you enter an
endless maze where youre passed around to different people who ask for the same bits of information.
The culprit is data silos. Like most companies, MetLife has scores of data systems created or acquired over the
years. MetLifes systems contain a huge array of structured and unstructured data, including policy and customer
information and transactional history about everything from claims to payments. Few are connected and many are
on mainframes with cumbersome interfaces.
Ripping out its administrative systems and replacing them with one unified system wasnt an option for MetLife.
So the company had tried over the years to use relational databases, which require a common schema and strict
mapping of data sources. Adding each new system was an expensive and time consuming process of changing
schemas, and extracting, cleansing, and matching data one that MetLife never won.
Working with MongoDB, MetLife could finally sidestep this whole exercise. What makes MongoDB different is its
flexible data model. MongoDB looks at data more naturally, making it easy to evolve schemas in real time. If rela-
tional databases are like Excel spreadsheets where data is organized into sheets but where you add a column
every time you add a field, creating a structured but unwieldy project MongoDB is a series of Word documents.
Each entry is a document that can have its own schema.


MongoDB also makes the most of todays computing resources, including commodity hardware and cloud infra-
structure. This helps slash the cost of ownership and lets organizations scale their operations and applications
quickly. MongoDBs horizontal scaling via automatic sharding provides reliable partitioning of massive amounts of
data across multiple servers. And its flexible, allowing organizations to leverage multiple data centers and multi-
temperature storage techniques.
Just as crucial for productivity and agile application development is the ease of use MongoDB provides developers.
Developers can interact with the database in the same programming language they use to write the application,
whether Java, Ruby, Python, or something else. Which means they can focus on building apps instead of wrestling
with ORMs.
And MongoDB provides a variety of rich features, such as integrated search, geospatial, and native analytics, that
dont exist in a traditional database. Giving companies the right resources they need to get projects done quickly.


MongoDB helped us to deliver that 360 view of the customer in just 90 days. That was really ground-breaking for
MetLife, ground-breaking for the insurance industry. And it really set an example of the type of company that we
want to be recognized as.
John Bungert, senior architect at MetLife
Working with MongoDB led not just to The Walls success, but a wave of innovation inside MetLife. Harnessing Big
Data is letting the insurance giant do things it never could do before.


Rolling out The Wall internationally
Developing a version of The Wall for its sales force
Creating a real-time analytical system that predicts customer attrition rates, prompting customer reps to offer
alternative products or promotions

Considering adding social data and data from mobile apps into The Wall to gain an even better understanding of
customers, something thats easy to do with MongoDB.
With MongoDB, MetLife joined the vanguard of the Big Data revolution. By quickly and successfully cracking one
of the biggest problems it faced, MetLife changed the expectations of what is possible.
Copyright 2014 MongoDB, Inc



Online retailers have access to troves of data. They know more about their customers than the corner store shop-
keeper knew decades ago. Smart retailers use that data to give shoppers a highly personalized, painless shopping
experience. Thats how you attract and keep todays customer.
OTTO is Germanys top online retailer for fashion and lifestyle goods; the company turns over more than 2B per
year and has more than two million daily site visitors. It has long held the customer at the centre of its retail strategy.
Yet existing systems were slowing it down loading new catalogue updates for two million products often took all day.

With a MongoDB-powered catalog, OTTO gets an edge with speed. Its fast to develop. Fast to load data. And fast
to personalize a shopping experience for a great number of customers.
Personalization based on real-time data is the key success factor for e-commerce sites.
Peter Wolter, head of OTTOs e-commerce Solutions & Technology Division


OTTOs previous site was static, slow and expensive to change. So was its approach to development. OTTO had
one big system with one big team. Only small fragments of the site could be changed to personalize the customer
experience. This prevented it from quickly responding to market changes, such as competitive price fluctuations. It
also lacked the ability get the most relevant products in front of customers as soon as they hit the site.


The average customer doesnt stay on an e-commerce web site for very long. OTTO has only 1-2 seconds to ac-
cess customer profiles in real time and decide how to react.
This is especially challenging with a product catalogue as diverse as OTTOs. It offers one stop shopping for over
5,000 brands -- everything from jeans to sofas to stereo systems, each of which has a different set of attributes
(such as name, colour, size). In addition, product pricing and availability are dynamic, and need to be constantly
refreshed to maintain competitive advantage.
Using a relational database to update a site with such variation in products and attributes is painful, often requiring
reading from dozens of tables to update a single product. Querying is complicated. Scaling is slow and difficult.
MongoDBs flexible data model erases that complexity and is well suited to an asset catalogue. OTTO can quickly
iterate data schema for changes to products, attributes and customer profiles without taking the database offline
or affecting performance. Plus, all product information can be read from a single JSON document, allowing for in-
credibly fast reads. Complete insight into customer behaviour hinges on analytics that take advantage of real-time
data. This is what drives true personalization.
OTTO has scaled up to 800 page impressions per second that generate 10,000 events per second every click,
every hover is stored in MongoDB. This rich insight into shopping behaviour enables OTTO to deliver a unique site
with a personalized set of products, navigation and filters for every customer.
It can also move incredibly fast. In-memory speed and on-disk capacity have led to dramatically improved site
response times. In addition, all touch points browser, mobile, tablet are integrated, so OTTO can deliver instan-
taneous personalization during each customers journey on the site.
The result is boosted engagement, revenue and a new way to deliver superior customer service.

OTTO needed fast results. MongoDB delivered.
Parallel teams spanning business, project management, and IT all individually chose MongoDB as the best tool to
quickly and easily achieve results. MongoDB was the go-to preference for every team, even though the business
problems varied. Today, each team has its own MongoDB installation to get done what it needs to do without any
architectural governance on top. This is only possible because MongoDB has proven to be easy to use, easy to
integrate and easy to operate.
With loosely coupled teams, architecture, and operations, OTTO has removed the bottleneck to deploy and test.
Teams can easily correct errors and innovate risk-free. Complete autonomy means they move at speeds never
before possible. This move to agile development wasnt mandated. It was inspired by MongoDB and driven by the
teams. Now, both business and IT can produce fast results while staying focused on enterprise operation, scal-
ability, request handling, and speed.
OTTO has successfully bridged two worlds: a lean approach and sustainable enterprise operations.
We always want to be at the forefront of an increasingly competitive online trading market, said Wolter. We now
have a modern, digitally-oriented application development environment which allows us to implement our innova-
tive ideas as quickly as we create them.

In changing its operations, development, technology tools, and the way in which they cooperate, OTTO took a risk.
But it was a risk worth taking one thats paying off for the business and for customers.


New channels. More traffic. An endless aisle of products. E-commerce is booming and OTTO is ready.
OTTO already has a strong foundation of a 65-year-old trusted brand, loyal customers, and innovative retail strate-
gies. Now it has the stable, proven technology architecture and agile development to match vital pieces that will
propel it forward in the face of unknown challenges and growing demand.
Copyright 2014 MongoDB, Inc.

Weather changes quickly. In its extreme form, its volatile, sometimes dangerous and often thrilling. Given its im-
pact on lifestyle, people are eager to get their hands on the latest information. They want to know now whats
In 1982, The Weather Channel started a 24x7 television network to meet the demand for non-stop, as-it-happens
weather reporting. Several years later, they made the natural progression online with weather.com. But because
the site was built on a cumbersome relational database backend, developing mobile apps was difficult. The Weath-
er Channel team needed to iterate more quickly, with responsive apps and a scalable system. For a user base
of 40 million and quickly growing on smartphones, the Weather Channel brand needed to move beyond a legacy
relational database approach.


Theyve replaced high costs and complexity with simplified scale and speed. And now that theyve modernized on
a cloud infrastructure, they are transitioning news, lifestyle and some weather content from their digital properties
to MongoDB.

With a fleet of apps built on MongoDB, users can personalize their experiences across mobile devices, tablets and
the website. They can view incredibly fast radar maps and receive severe weather alerts in real-time.


As we work with our user base to figure out killer features, rapid innovation cycles with MongoDB are a real benefit.
Luke Kolin, vice president of architecture at The Weather Channel


Five million users rely on The Weather Channel for the severe weather alert feature. Its a competitive differentiator
for the brand, and a must-have feature for many users.
If the National Weather Service (NWS) issues a storm warning for Cook County, Illinois, for example, The Weather
Channel has to notify those 125,000 local subscribers as fast as possible.
With MongoDB, The Weather Channel can quickly distribute those weather alerts to subscribers in affected geo-
graphic locations in real-time.
According to Kolin, MongoDBs secondary indexes and fast ad hoc querying make it the only product that can reli-
ably perform that kind of lookup on such a large user base in mere seconds.

Document ralis par la Socit Corp Events - Janvier 2015
Retours dexpriences Big Data en entreprise


Weather is hard to predict. So is the online traffic for weather apps.
With MongoDB, The Weather Channel doesnt have to worry about app performance during unpredictable peak times.
The apps typically handle two million requests per minute, including weather data and social sign-ins. As the user
base scales, so will MongoDB. With its native scale-out capabilities, MongoDB can support thousands of nodes,
petabytes of data and hundreds of thousands of ops per second.
The Weather Channel initially planned to build its own management services for the new cloud infrastructure.
Instead, they saved significant time and money by taking advantage of MongoDBs management application,
MongoDB Management Service (MMS). Built by the same engineers who develop MongoDB, MMS is a cloud
service that makes it easy to run MongoDB at any scale. Features like performance visualization, custom alerts
and point-in-time recovery ensure The Weather Channel can mitigate issues before they arise and optimize its
MongoDB deployment.


MongoDB met The Weather Channel brands needs from day one, with no significant optimization needed.
As part of our infrastructure redesign, we needed to ensure that new app development was never waiting on the
back-end, said Kolin.
MongoDB was made for this mission.
Today, The Weather Channel team can iterate rapidly without worrying about schema changes. They can adapt.
They can push out changes to users in a fraction of the time. And at much lower cost.
New features, new devices, new expectations. Users want awesome apps that keep getting better. And now, Mon-
goDB helps The Weather Channel deliver.
Copyright MongoDB Inc 2014

La socit londonienne Shutl tait rpute pour lincroyable rapidit de ses services avant mme son acquisition
par eBay, leader mondial du e-commerce. Depuis sa cration en 2009, sa mission est de livrer le plus rapidement
possible les achats effectus sur Internet leurs destinataires. Quil sagisse de jouets, de chaussons, de cravates
ou encore diPhones, eBay fait dsormais appel la plateforme nouvelle gnration de Shutl pour redfinir le e-
commerce en acclrant et en simplifiant la livraison des commandes passes sur Internet ou appareil mobile.
eBay limine le plus gros obstacle entre les vendeurs et les ache- teurs en ligne en proposant une livraison des
articles le jour mme. Aujourdhui, la plateforme de Shutl est la base des oprations du service de livraison locale
eBay Now dans quatre marchs amricains et son extension 25 grandes villes aux tats-Unis et au Royaume-
Uni est prvue pour la fin 2014. Volker Pacher, dveloppeur senior pour eBay, fait partie de lquipe principale de
la plateforme de services charge de fournir une API aux transporteurs et aux marchands. Les requtes envoyes
lAPI ont connu une croissance exponen- tielle, do un allongement des temps de rponse. Lquipe a donc
entirement repens la premire plateforme SaaS de Shutl. Volker Pacher savait quune base de donnes oriente
graphe permettrait de simplifier la modlisation du domaine sans affecter la structure existante. laide de Neo4j
et dune structure de graphe sans schma (schema-less), lquipe a cr une base de donnes permettant aux
requtes de rester localises lintrieur du graphe, amliorant les performances grce la facilit dexpression.
Comme aime le dire Volker Pacher : Notre systme fonc- tionne sur sept lignes de Cypher .
La plateforme Shutl orchestre les livraisons entre les boutiques, les coursiers et les acheteurs 24 h/24 et 7 j/7. Les
envois seffectuent directement depuis les points de vente. Le service organise la collecte et la livraison des articles
selon les prfrences des clients, gnralement dans un dlai de deux heures, ou dans une fentre de livraison dune
heure choisie par les clients. Le rsultat : un service innovant qui amliore la qualit de service pour les clients ainsi que
la producti- vit des partenaires revendeurs et transporteurs. Tous les acteurs sont gagnants : les clients disposent de
plus de choix pour la livraison, les coursiers ne perdent plus de temps attendre et les boutiques peuvent proposer des
services suppl- mentaires leurs clients sur Internet. Shutl sauve les petits commerces dans chaque ville en faisant
appel leurs services marchands et de livraison et en leur permettant ainsi de rester comptitifs.

Le service de livraison le jour mme de Shutl sest dvelopp de manire exponentielle et couvre aujourdhui
jusqu 85 % du Royaume-Uni. Sa plateforme de services a d tre entirement repense afin de prendre en
charge lexplosion du volume de donnes et les nouvelles fonctionnalits. Les join- tures MySQL utilises au-
paravant ont cr une base de code trop lente et complexe. Les dlais dex- cution des requtes de slection
du meilleur coursier taient tout simplement trop longs et Shutl avait besoin qui permette son service de rester
comptitif. Volker Pacher et lquipe de dveloppement pensaient quen ajoutant une base de donnes oriente
graphe lAOS et la structure de services, il serait possible de rsoudre les problmes de performan- ces et
dvolutivit. Lquipe a choisi Neo4j, la meilleure solution ses yeux.

Le choix sest port sur Neo4j pour sa flexibilit, sa vitesse et sa simplicit dutilisation. Son modle de graphe
proprits tait parfaitement com- patible avec le domaine modlis. La base de donnes ne ncessitant pas de
schma, cela a simplifi son extensibilit et a permis dacclrer la phase de dveloppement. Enfin, les limitations
en termes de rapidit et dvolutivit de la solution prcdente ont t surmontes. Notre solu- tion Neo4j est
littralement des milliers de fois plus rapide que la solution MySQL prcdente, avec des requtes qui ncessitent
de 10 100 fois moins de code. Dans le mme temps, Neo4j nous a permis dajouter des fonctionnalits jusquici
impossibles , explique Volker Pacher. Cypher a permis dexprimer les requtes sous une forme trs compacte et
intuitive, ce qui a acclr le dveloppement. Lquipe a pu exploiter le code existant laide dune bibliothque
Ruby pour Neo4j prenant gale- ment en charge Cypher.

Base sur jRuby, Sinatra, MongoDB et Neo4j, la nouvelle plateforme garantit des transactions rapides avec des
performances relativement constantes. Par ailleurs, son modle de donnes permet aux requtes de rester locali-
ses lintrieur de leurs portions respectives du graphe. Nous avons obtenu des performances constantes pour
les requtes en utilisant Neo4j pour crer un graphe qui est son propre index. Cette flexibilit de dveloppement
est tout simplement unique , explique Volker Pacher. La phase dimplmentation a t ralise dans les dlais
prvus, en peine une anne. Les requtes sont dsormais simples et rapides. Le rsultat est une plateforme
volutive capable de prendre en charge le dveloppement de lentreprise, et notamment la croissance de lactivit
laquelle elle doit faire face en tant que plateforme du service eBay Now.

La socit Gamesys est lun des leaders des jeux dargent en ligne. Elle a t nomme en tant que compagnie
technologique prive ayant eu la plus forte cro- issance au Royaume-Uni par le Sunday Times, avec des paris
dargent hauteur de 4,3 milliards de Livres en 2012. Leur produit phare rcompens par un prix, Jackpotjoy ,
est depuis le principal site en ligne de Bingo et de jeu gain instan- tan (Instant Win), avec plus de quatre mil-
lions de joueurs. Gamesys a fait passer sa plate-forme de jeux au niveau suprieur en ajoutant une plate-forme
sociale base sur Neo4j pour offrir une intgration Facebook, un systme de gestion des donnes de rfrence,
et bien plus encore. La versatilit de Neo4j a permis Gamesys dapporter de nouvelles fonctionnalits en ligne
facilement, en offrant aux utilisateurs finaux un systme trs performant et fiable.

Face au challenge que reprsente la cration dun nouveau rseau social, Gamesys a considr les types de bas-
es de donnes disponibles. Aprs avoir ralis que les bases de donnes relationnel- les ne sont pas adaptes
la gestion une intercon- nexion de donnes massive; Gamesys a valu les solutions NoSQL et ralis rapidement
que les graphes taient une solution naturellement adapte leur problmatique. La maturit de la base de don-
nes choisie tait plus importante que tous les autres facteurs. Si Gamesys pariait son expansion dans lespace
social sur une base de donnes, cel- le-ci devait tre trs utilise, compter un bon ser- vice de support, tre bien
documente, et avoir fait ses preuves dans des dploiements en production multiples et grande chelle.

Les ingnieurs de GameSys ont valu plusieurs bases de donnes de graphes. Aprs avoir inspect dautres of-
fres, ils ont vite ralis que Neo4j tait de loin la plus mre. Par rapport dautres vendeurs, il est clair que Neo4j
et Neo Techno- logy taient le monstre sacr de lunivers des graphes, et un bon investissement long terme.
Lors de lvaluation des bases de donnes relationnelles, il est devenu clair quune base de donnes de graphes
tait un choix plus avis et plus sr pour ce pro- jet. Lun des facteurs les plus importants tait la rsistance au
changement. Les donnes et requtes taient clairement adaptes un graphe, et il tait vident que la manipula-
tion de donnes au format tabulaire gnrerait des cots signi- ficatifs pour le projet et une augmentation impor-
tante des temps de traitement. Lavantage majeur tait que la base de donnes graphes rpondait aux exigences
oprationnelles et analytiques environnement technique
Avant lintroduction de Neo4j, Gamesys utilisait principalement des bases de donnes relationnelles. Gamesys a
profit du lancement de son nouveau projet social pour porter un nouveau regard sur les options technologiques.
Les bases de donnes de graphes, naturellement adaptes au domaine social sont une technologique qui cor-
respond bien mieux cet usage que les bases relationnelles,.
Gamesys a dbut le projet avec trois groupes dinstances hautement disponibles, un choix adapt lvolutivit
de leurs besoins et des exigences de disponibilit maximales. Gamesys a galement dploy une instance pour
un projet danalytique. Gamesys de excute de cette faon des requtes temps-rel en direct sur les donnes sans
besoin dun entrept de donnes, ce qui leur permet de dcouvrir de nouveaux indicateurs et des mesures indites
sans dlai et sans besoin de pr-calculs.

Gamesys propose ses clients une offre sociale comptitive et convaincante en utilisant Neo4j. Les capacits de
dvelopper rapidement et avec souplesse, ainsi que les cot raisonnable de Neo4j leur a assur le succs. En
introduisant une base de donnes de graphes comme Neo4j dans son architecture, Gamesys a scuris sa crois-
sance future en terme dvolutivit et dextensibilit un plus grand nombre dutilisateurs.

Glassdoor est une communaut en ligne ddie lemploi qui aide les deman- deurs demploi prendre des
dcisions professionnelles claires et conseille les entreprises afin dattirer les meilleurs collaborateurs du mar-
ch. Forte de plus de 20 millions de membres, Glassdoor offre une vision 360 degrs du travail au sein dune
entreprise particulire et un poste donn grce aux contributions de ses membres. Sa base de donnes en
croissance constante contient dsormais plus de 4 millions de publications anonymes : rapports sur les salaires,
analyses dentreprises, valuations de PDG, questions poses en entretien dembauche et autres enseignements
sur lenvironnement de travail.
Glassdoor exploite lide rpandue selon laquelle les rseaux personnels et professionnels per-
mettent gnralement dobtenir un emploi, et a lanc une nouvelle initiative afin de se dmarquer
davantage des autres acteurs du march de lem ploi en ligne. En effet, elle a cr un systme
appel InsideConnections permettant aux demandeurs demploi didentifier parmi leurs amis de
leur rseau Facebook ceux qui travaillent pour des entreprises particulires.
Lorsque les membres sinscrivent sur Glassdoor via Facebook, ils doivent fournir des renseignements basiques
permettant damliorer leur exprience sur le site, tels que leurs emplois actuels et pr- cdents ainsi que leur
formation. En contrepartie, les membres de Glassdoor peuvent dcouvrir qui, parmi leurs connaissances, travaille
dans certaines entreprises, et recevoir des recommandations pro- fessionnelles davantage personnalises.
slECtion dunE basE dE donnEs oriEntE GraphE
Glassdoor avait besoin dune base de donnes pour grer les informations four- nies par les amis des membres
et leurs amis, ainsi que les relations avec lem- ployeur. Il a t convenu quune base de donnes oriente graphe
constituait la solution parfaite pour obtenir cet ensemble de donnes connectes. Neo4j, qui sintgre sa tech-
nologie existante, a t dsigne comme tant la base de don- nes idale grce sa maturit et ses fonctions


Au cours de la premire anne de lancement dInsideConnections, Glassdoor a connu une croissance phnom-
nale. Sa base de donnes sociale en constante volution a rapidement compt plus de 600 millions de personnes,
soit plus de la moiti du graphe Facebook. Linstallation de Neo4j par Glassdoor a connu une croissance rgulire.
Toutes les donnes ont t runies dans un cluster unique (et de grande capacit) haute disponibilit, conu pour
sadapter des dbits levs de lecture et dcriture.

Neo4j constitue la technologie adapte la technologie de recherche demploi tendue de Glassdoor, et la solution
idale pour grer les donnes connectes de Glassdoor. Glassdoor, qui compte dans sa base de donnes plus de
600 millions de membres quelle relie entre eux, dtient lun des plus vastes graphes sociaux du monde, offrant
ses membres une porte exceptionnellement tendue.
Neo4j sadapte au gigantesque graphe social de Glassdoor en exploitant son affinit naturelle avec les donnes
connectes, sa technologie de clustering haute disponibilit et ses fonctionnalits de partition- nement de cache,
permettant ainsi Glassdoor daccrotre sereinement sa communaut ainsi que sa popularit.

La vocation de la socit base Manhattan SNAP Interactive, Inc. (OTCBB: STVI) est de permettre aux per-
sonnes daccder au 3e degr. tes-vous intress ? Voici la question pose tous les utilisateurs de lapplication
Web et mobile de rencontre en ligne AYI (AreYouInterested?). Cette question a fait de SNAP lun des leaders du
dveloppement dapplications pour sites Web et plate- formes mobiles de rseaux sociaux.
Depuis 2005, SNAP cherche amliorer la russite des rencontres en ligne en mettant des amis en relation et en
recoupant leurs intrts. SNAP a choisi dex- plorer le filon des donnes des connexions de 3e degr. Ingnieur
Big Data chez SNAP, David Fox connaissait les statistiques. La probabilit quune personne se connecte avec
un ami du 3e degr est presque la mme que pour un ami du 2e degr, o ils ont un ami commun , explique-t-il.
Il sagit dun point essentiel pouvant faire exploser lengagement et la taille dun rseau. Mais ces donnes sont
extrmement difficiles rcuprer avec une base de donnes relationnelle.
Le dfi de SNAP consistait reprsenter les donnes de type amis des amis . Lquipe ne disposait daucun
moyen efficace de trouver les connexions de 3e degr au sein de son immense rseau social, avec plus dun mil-
liard dindividus dans le graphe et plus de 7 milliards de relations.
David Fox a exploit Neo4j pour modliser les donnes entre les utilisateurs amis et crer des connexions de 3e
degr visibles (cest--dire les amis damis ainsi que les amis des amis damis) lchelle de lapplication AYI. Le
retour sest avr colossal.
Aujourdhui, AYI est lune des applications sociales les plus utilises sur Internet, avec plus de 70 millions
dinstallations, des millions de visiteurs actifs et un par tenariat stratgique avec Match.com. Nous continuons
innover avec Neo4j en exploitant la puissance des traverses multi-saut en temps rel pour grer le volume de
donnes sociales et sommes passs de 7 8 milliards de relations , explique David Fox.

lorigine, le service de SNAP tait bas sur Apache Solr et reliait les amis de 2e degr, prsentant les donnes
de type amis des amis . Lquipe ne parvenait pas trouver une solution efficace pour rechercher les connex-
ions de 3e degr au sein dun corpus de donnes comptant plus dun milliard de nuds dindividus et plus de 7
milliards de relations. Aprs avoir minutieusement explor et test MySQL, lquipe a conclu que cette plateforme
ne permettait pas de grer les connexions de 3e degr ni dautres problmes complexes. Le temps ncessaire au
dveloppement et la maintenance de lindexation et des jointures aurait t trop important et la solution aurait
t incapable de grer le trafic et le volume de donnes existant.
David Fox a alors pris la dcision de passer une base de donnes oriente graphe et a choisi Neo4j, seule et
unique solution ses yeux capable de grer la croissance du service AYI.

Le choix sest port sur Neo4j pour sa flexibilit, sa vitesse et sa sim- plicit dutilisation. SNAP a ainsi pu proposer
une offre particulire- ment distinctive en amliorant nettement le nombre de recomman- dations de rencontres
travers lexploitation des connexions de type
amis des amis . Grce Neo4j, le dveloppement a t simplifi. Cypher, le langage de requte de Neo4j, a
acclr la phase dimpl- mentation en facilitant grandement le codage. La possibilit dutiliser Java en natif a
aid SNAP respecter les spcificits en termes de lecture et a offert une vitesse et une flexibilit maximales pour
optimi- ser limportation dun volume de donnes considrable.

Le service AYI de SNAP offre aujourdhui des temps de rponse rapi- des sur lun des graphes sociaux les plus
vastes au monde, comptant plus dun milliard dindividus, grant les recommandations de ren- contres entre
amis damis avec des performances en temps rel constantes. Le choix de Neo4j pour grer le rseau social de
SNAP a galement permis de rduire sensiblement les dlais de dveloppe- ment et le cot global par rapport
MySQL. Neo4j a facilit lajout de fonctionnalits et permet des requtes rapides et flexibles.
Aujourdhui, 98 % des requtes sont excutes plus rapidement que prvu. Lutilisation de Neo4j pour grer les
relations amis damis savre plus que payante. Les utilisateurs vont interagir sils voient quils ont un ami
en commun, la 3e connexion. SNAP rvle les amis des amis, gnrant ainsi un nombre dutilisateurs de plus
en plus important, ce qui augmente dautant linteraction entre les utilisa- teurs et permet une croissance rapide
du rseau. Cela reprsente un engagement colossal, qui a fait augmenter le nombre de relations de 7 presque
8 milliards depuis limplmentation de Neo4j. Cest de bon augure pour notre entreprise , explique David Fox.
travers Neo4j, SNAP a galement gagn une prcieuse vue densemble de son rseau dutilisateurs.
Lorsque nous tudions une reprsentation gospatiale du rseau social gnre par des algorithmes, nous
pouvons voir les connexions qui relient les amis ainsi que leur localisation. Cela nous donne une meilleure vision
densemble du rseau et permet SNAP de proposer des fonctionnalits innovantes et damliorer le service AYI.
Nous y voyons de nouvelles mthodes pour amliorer les probabilits din- teraction. Neo4j a fourni SNAP un
moteur de base de donnes volutif capable de prendre en charge lexpansion de lentreprise et de lapplication
AYI, simposant ainsi en tant que partenaire stratgique incontournable pour dautres services de rencontre en
ligne tels que Match.com.


Telenor Norvge est le principal fournisseur de tlcommunications et de services de donnes du pays. Avec plus
de 3 millions de souscripteurs mobiles, cest ga- lement le fournisseur numro un de bande passante de la nation
et, en tant que partie du Groupe Telenor, lun des plus grands oprateurs mobiles du monde.
Les systmes de Telenor exposent les donnes du client et du produit une gamme de canaux diffrents, avec
entre autres une solution web en autoservice, o les entreprises clientes peuvent grer leur propre portefeuille.
La disponibilit du systme et les temps de rponse daccs et de rcupration sont critiques pour la satisfaction
du client.

Derrire le portail dautogestion en ligne de Telenor, vous trouverez lintergiciel responsable de la gestion des
structures dorganisation des clients, des accords, des souscriptions et de laccs des utilisateurs leurs souscrip-
tions mobiles daf- faires. Lintergiciel est soutenu par Sybase, avec des demandes implmentes en tant que pro-
cdures stockes. Comme les souscriptions mobiles ont augment, en donnant de grands portefeuilles de clients,
et comme les utilisateurs attendent une ponctualit et des temps de rponse en temps rel des systmes en ligne,
le module dautorisation de ressource existant crit en SQL ntait plus assez perfor- mant. Les autorisations de
ressources prenaient jusqu 20 minutes pour les cli- ents les plus importants et devaient tre pr-calcules et
mises en cache chaque nuit, ce qui causait galement lapparition de donnes obsoltes.
Sebastian Verheughe, architecte et dveloppeur de Telenor Mobile Middleware Services, dclare: En tant que
fournisseur premium Telco en Norvge, nous avi- ons besoin dun systme fiable pour pourvoir aux besoins de no-
tre importante base de donnes. La base de donnes Neo4j offre des services de haute perfor- mance pour notre
chane de valeur. La solution couvre la fois les clients entre- prises et les rsidents, leur structure corporative, les
souscriptions contenant le numro de tlphone, le plan de financement et le propritaire/payeur/utilisateur des
souscriptions, les comptes de facturation et tout accord daffaires ou rsidentiel offrant des rduc- tions pour tous
les membres de laccord.

La modlisation du graphe de ressources de Neo4j tait naturelle tant donn que le domaine model tait un
graphe par essence. Neo4j a fourni un accs rapide et scuris, et des rponses des questions importantes,
comme: quelles souscriptions peut avoir accs un utilisateur, est-ce que lutilisateur a accs une ressource
donne, et de quels accords un client fait il partie ? La vitesse et la pr- cision de ces oprations sont critiques,
parce que les utilisateurs du sys- tme ne peuvent pas accder des donnes tant que le calcul dautorisa- tion
na pas eu lieu. Avec des dpendances complexes entre les comptes, les produits et les entreprises, le moteur
haute performance de Neo4j offre une flexibilit de reprsentation des donnes, avec des caractristiques qui
vont au-del des bases de donnes relationnelles habituelles .

En surmontant la fois les limites de performances et de fiabilit des donnes du projet prcdent, Neo4j a per-
mis des performances leves et une excution fiable des rgles dautorisation. La transition a eu pour rsultat
non seulement des performances plus importantes, mais aussi un code plus mainten- able, car les rgles daccs
peuvent tre exprimes encore plus facilement dans un graphe. Les temps de rponse ont t rduits quelques
secondes, voire millisecondes, dans de nombreux cas, alors quils taient de plusieurs minutes auparavant.

Walmart est unique : une entreprise familiale qui en un peu plus de 50 ans est dev- enue la plus grande socit
anonyme par actions au monde avec plus de 2 mil- lions demploys et un chiffre daffaires annuel de 470 milliards
de dollars1. En ayant su comprendre les besoins de ses clients, Walmart est devenu le plus grand dtaillant au
monde, et la base de donnes Neo4j reprsente un atout essentiel pour maintenir cette position.
Plus de 250 millions de clients se rendent chaque semaine dans lun des 11 000 magasins Walmart rpartis
sur pas moins de 27 pays et sur son site Web de vente accessible dans 10 pays. Le groupe de-commerce brsil-
ien de Walmart a choisi Neo4j pour parvenir comprendre le comportement et les prfrences des acheteurs en
ligne, avec une prcision et une vitesse telles quil devient pos- sible de proposer des recommandations person-
nalises en temps rel et ainsi maximiser les bnfices.
Marcos Wada, dveloppeur logiciel du service de-commerce de Walmart, groupe Brsil, nous en dit plus : Neo4j
nous aide comprendre le com- portement de nos clients en ligne et la relation entre nos clients et nos produits.
Il sagit de loutil parfait pour les recommandations de produits en temps rel.

Dans sa qute de la meilleure exprience Web pour ses clients, Walmart cherchait optimiser ses recomman-
dations en ligne. De nos jours, les clients sattendent des recommandations parfaitement person- nalises et
rpondent de moins en moins bien aux suggestions universelles. Cela requiert toutefois des bases de donnes
capables dtablir des liens entre les don- nes client et produit complexes et volumineuses et les donnes
connectes en gnral, dans le but de mieux apprhender les besoins des clients ainsi que les tendances de
consommation. Walmart sest rendu compte du dfi auquel il faisait face avec la technologie de base de donnes
rela- tionnelle traditionnelle. Comme lexplique Marcos : En raison de la complexit de nos requtes, une base de
donnes relationnelle ne suffisait pas pour satisfaire nos exigences en matire de performance et de simplicit.
Pour pallier ce problme, lquipe de Marcos a dcid dutiliser une base de donnes oriente graphe Neo4j, le
leader du march.

Les bases de donnes orientes graphe peuvent rapidement interroger lhistorique dachat des clients, ainsi que
capturer les nouveaux intrts manifests par les clients au cours de leur visite sur le site, ce qui savre essentiel
pour proposer des recommandations en temps rel. Faire correspondre les donnes dhistorique et de session de
cette manire est chose aise pour les bases de donnes orientes graphe telles que Neo4j, qui surpassent de
loin les performances des bases de donnes relationnelles et NoSQL. Marcos a assist pour la premire fois une
dmonstration de Neo4j la confrence QCON de New York en 2012 et a tout de suite compris :
Neo4j peut nous permettre de remplacer un processus lourd de traite- ment par lot par une base de donnes
oriente graphe simple et en temps rel. partir de l, son quipe a test la technologie et a obtenu des rsultats
positifs qui lont aid mrir sa dcision. Son verdict ? Il est parfaitement adapt nos besoins.

Walmart utilise Neo4j pour analyser le comportement des acheteurs en ligne afin de favoriser la monte en gamme
et les ventes croises des prin- cipales lignes de produits dans les marchs cls.
Neo4j a t dploy dans son application de marketing de relance, gre par lquipe informatique de-commerce
de lentreprise base au Brsil. Walmart utilise Neo4j en production depuis dbut 2013 et est pass la version
2.0 cette anne. Marcos nous explique les avantages : Neo4j nous a permis de remplacer un processus par
lot com- pliqu que nous utilisions pour prparer notre base de donnes relationnelle par une base de donnes
oriente graphe simple et en temps rel. Nous avons pu concevoir un systme de recommandation simple et en
temps rel avec des requtes faible latence. Il conclut : En tant que leader actuel sur le march des bases
de donnes orientes graphe, Neo4j reprsente loutil idal pour atteindre nos objectifs, notamment grce ses
fonctionnalits mtier offrant volutivit et disponibilit.


Les graphes nous entourent. Neo Technology a jou un rle prpondrant en rendant la technologie des graphes
accessible de nombreuses organisations, comprenant une base globale de 2 000 clients qui ne cesse de crotre,
parmi lesquels Cisco, HP, Accenture, Deutsche Telekom et Telenor. En assistant la production de ses clients depu-
is plus de dix ans, Neo4j sest impos comme le leader mondial dans le domaine des bases de donnes orientes
graphe, grce un large ventail de partenariats et des dizaines de milliers de dploiements couronns de succs.

Socit Mobilink | Sige social Islamabad (Pakistan) | Secteur dactivit Tlcommunications | Produits et ser-
vices Services de communication fixes et sans fil haut dbit Services de communication de donnes | Salaris
7000 | Chiffre daffaires 1,1 milliard $USD; Rapprocher les personnes travers des solutions de communication
innovantes, cest la solution adopte par Mobilink pour devenir le principal fournisseur de tlcommunications
du Pakistan. Face la croissance explosive du march et une concurrence froce, Mobilink avait besoin de se
protger contre le taux dattrition des clients en proposant certains services aux bons clients et au bon moment.
Pour relever ce dfi, Mobilink a d extraire de la connaissance client de ses 35 millions dabonns et de 200.000
distributeurs prsents dans 10.000 villes et villages du Pakistan.


Devancer la concurrence travers une approche prochaine action cible , qui permet de proposer les meil-
leures offres, aux meilleurs clients, au meilleur moment
Utiliser les big data et lanalyse prdictive pour renforcer la confiance des clients, les fidliser, diminuer le taux
dattrition toute en maintenant les marges de profit

Aprs avoir tudi les solutions dautres fournisseurs telles que SAS et SPSS, a rapidement dploy la solution
SAP InfiniteInsight pour bnficier de ses excellentes capacits prdictives, de son interface ergonomique et de
sa compatibilit avec de nombreuses autres solutions
A labor des modles prdictifs, combins avec des techniques de clustering et danalyse des big data collec-
tes sur les rseaux sociaux pour dgager une connaissance essentielle sur le comportement des clients


Campagnes mieux cibles et promotions plus efficaces, ce qui sest traduit par une utilisation accrue des ser-
vices valeur ajoute tels que SMS, sonneries et musique
Rduction du taux dattrition par prdiction puis prvention du comportement des clients
Meilleure connaissance des communauts dintrt (grandes ou petites), ce qui a permis dinjecter du marketing
viral dans de nouveaux segments en vue dacqurir de nouveaux clients et de rduire le taux dattrition
8x: Augmentation de lefficacit des offres de rtention des clients (de 0,5 % environ 4 %) avec une dpense rduite
380 %: Augmentation du taux de rponse aux campagnes grce lanalyse des rseaux sociaux
<1 jour: Pour dployer de nouveaux modles prdictifs


Socit Cox Communications Inc. | Sige social Atlanta (Gorgie) | Secteur dactivit Tlcommunications | Produits
et services Services bande large et divertissement par cble | Salaris 50.000 | Chiffre daffaires 15 milliards $USD
Troisime plus grand prestataire de services large bande et de divertissement par cble aux tats-Unis, Cox Com-
munications a t lun des premiers proposer une offre groupe de services de tlphone, tlvision et Web pour
permettre aux consommateurs de sadresser un fournisseur unique. Pour amliorer son service la clientle et
la vie numrique des individus, Cox avait besoin de technologie pour personnaliser ses offres auprs de 6 millions
dabonns dans 28 rgions.

laborer des modles prdictifs pour faciliter la cration doffres personnalises, plus rapidement et avec une
plus grande prcision pour plus de 6 millions dabonns dans 28 rgions
Doubler le taux de conversion des campagnes de marketing direct

A dploy la solution SAP InfiniteInsight pour analyse prdictive, y compris segmentation, classification, rgres-
sion et agrgation des donnes
A optimis ses processus danalyse du march lchelle de lentreprise grce une quipe analytique centrali-
se charge de couvrir ses 28 rgions


Une solution volutive pour accompagner les besoins court et long terme, y compris modlisation prdictive
pour les acquisitions de client, la rtention des clients, lvaluation des clients sur la dure et le marketing vne-
Analyse prcise et rapide de 10 millions dobservations et de 800 variables pour analyser le comportement des
clients, dont propension lachat, risques dattritions et risques de solvabilit
14 %: Augmentation du nombre de produits par foyer
28 %: Rduction du taux dattrition des clients
80 %: Rduction du temps de cration des modles
42x: Rendement plus lev pour les analystes (de 40 1680 modles prdictifs par an)


Socit Groupe Belgacom| Sige social Bruxelles, Belgique | Secteur dactivit Tlcommunications| Produits et
services Services de tlphonie fixe et mobile, de tlvision et dInternet| Salaris 15 859 (2012) | Chiffre daffaires
6,4 million d (2012). En matire de services de tlphonie, dInternet et de tlvision, Belgacom est un oprateur de
tlcommunications incontournable en Belgique. En rgle gnrale, il est pourtant difficile de russir le lancement de
nouveaux produits sur ce march hautement comptitif. Avec la solution SAP InfiniteInsight, Belgacom a pourtant
su relever ce challenge en automatisant les outils dexploration de donnes ( data mining ) qui permettent de mieux
comprendre les besoins de chaque client et de dployer ainsi des services et des campagnes personnaliss rpon-
dant prcisment leurs attentes. Rsultat : le taux de satisfaction des clients de Belgacom ne cesse daugmenter.

Exploiter de prcieuses informations caches sur la clientle permettant daugmenter la fidlisation et didentifier
de nouvelles perspectives de croissance
Amliorer la dtection des risques de dfection, acclrer le dploiement de modles prdictifs et identifier les
sources de revenus potentiels toutes les tapes de la relation client

Un savoir-faire et des rsultats reconnus dans le secteur des tlcommunications
Des modles prdictifs puissants et fiables pour analyser les comportements clients (professionnels et particuli-
ers) avec la solution SAP InfiniteInsight
Une solution flexible et conviviale, au service de statisticiens et danalystes de gestion qualifis

Un marketing prdictif oprationnel sur tous les canaux dinteraction avec les clients, des centres dappels
aux boutiques en ligne
Des changes de qualit optimale dun bout lautre de la relation client permettant de tirer profit dune mine
dinformations de grande valeur
De nouvelles opportunits de revenu issues de failles ou de lacunes du march
Des taux accrus de satisfaction et de rtention des clients
Un meilleur retour sur investissement marketing
Un temps de modlisation ramen de plusieurs mois quelques jours

Socit Banglalink Digital Communications Ltd. | Sige social Dhaka (Bangladesh) | Secteur dactivit Tlcommuni-
cations | Produits et services Services de tlcommunication intgrs (technologies voix, donnes, mobile tradition-
nel et mobile haut dbit, fixe)| Salaris 2500 | Chiffre daffaires 550 millions $USD : Depuis 2005, Banglalink Digital
Communications Ltd. se positionne comme lun des principaux oprateurs de tlphonie mobile du Bangladesh.
Cette socit amliore la vie des citoyens en leur proposant des services de tlcommunication cot modr. Pour
faciliter la diffusion de ses solutions de tlcommunications mobiles au plus grand nombre, Banglalink a utilis la
solution SAP InfiniteInsight. En dfinissant des modles prdictifs, Banglalink parvient conserver dimportants flux
de chiffre daffaires en luttant contre le taux dattrition et amliorer lexprience globale de ses clients.

Amliorer les rsultats des campagnes de rtention pour lutter contre le taux dattrition des clients
Analyser les big data gnres par des sources telles que les enregistrements des centres dappel, les abonne-
ments aux produits, les transactions de vouchers, les conversions de forfaits et les relais cellulaires

Supporte llaboration de modles prdictifs, mme par les utilisateurs ayant peu ou pas dexprience en infor-
matique ou en statistiques
Inclut des modles prdictifs et une architecture de donnes analytiques. Ces lments prdfinis permettent
de rduire le temps ncessaire pour prparer les donnes analytiques, laborer les modles prdictifs et dployer
les scores rsultants en production

A pu dfinir un modle capable de dtecter plus dun quart des clients en risque dattrition, en utilisant seulement
un chantillon de 10 % des scores les plus levs
A dploy la solution SAP InfiniteInsight en moins de cinq mois
A dcouvert les outils ncessaires pour crer et dployer des modles de prvision en quelques heures, et non
en plusieurs semaines ou plusieurs mois

Intgrer des modles prdictifs dans le systme de gestion des campagnes, de manire proposer aux abonns
la meilleure offre au meilleur moment, dans tous les canaux ct clients
Ajouter lapplication SAP InfiniteInsight Social pour identifier les influenceurs en vue de les intgrer dans des
programmes de marketing viral, et pour dtecter toute activit frauduleuse chez les clients


Socit Vodafone Pays-Bas| Sige social Amsterdam (Pays-Bas) | Secteur dactivit Tlcommunications | Pro-
duits et services Services de tlcommunication, y compris paiement la rception pour consommateurs et entre-
prises, paiement fixe, paiement lenvoi et paiement de machine machine
Lanalyse prdictive est importante, car elle permet une entreprise de tirer le meilleur parti possible de ses
dpenses marketing. Nous utilisons SAP InfiniteInsight pour que nos offres soient plus pertinentes pour nos clients, et
pour viter de les contacter trop souvent. Viliah Overwater, Analyste senior en modlisation, Vodafone Pays-Bas

Socit PT XL Axiata Tbk | Sige social Djakarta (Indonsie) | Secteur dactivit Tlcommunications | Produits et
services Communications mobiles, Internet haut dbit, communication de donnes, services 3G | Salaris 2,000 |
Chiffre daffaires 2,1 milliards $USD Nous avons pu excuter des campagnes marketing finement cibles grce
aux modles prdictifs gnrs par SAP InfiniteInsight. Depuis le dploiement de cette solution, nous avons rduit
le taux dattrition de 8,2 % dans tous les domaines et nous avons augment notre base de clientle de prs de 25 %.
Pradeep Kumar, directeur gnral de lanalytique client chez PT XL Axiata Tbk

Devancer la concurrence dans un march concurrentiel et presque satur
Gnrer des relations plus profitables avec nos clients et amliorer leur rtention et leur fidlisation


La modlisation prdictive permet danalyser des donnes sur plus 40 millions dabonns et de dterminer certaines
caractristiques telles que lattractivit des produits et les risques de taux dattrition
Plbiscite par rapport aux solutions concurrentes et traditionnelles de gestion de la rtention et de la fidlisation des
clients parce quelle elle est rapide dployer, facile utiliser et quelle contribue lagilit des oprations marketing

Possibilit dlaborer des modles prdictifs en quelques heures
Utilisation des donnes dligibilit du client, de disponibilit en inventaire et de profitabilit pour prioriser la
prsentation des offres et dployer une approche prochaine action cible
Optimisation des campagnes pour rtention maximale, ventes croises/ventes de gamme suprieure dans les
diffrents canaux marketing, augmentation du chiffre daffaires et de lactivit des abonns
Identification proactive et ciblage trs en amont des clients en risque dattrition
200 %: Augmentation du taux de conversion des campagnes
28 %: Augmentation de la prcision des prdictions lors du ciblage des influenceurs sociaux
66,6 %: Rduction globale du taux dattrition de 8,2 % et acquisition dabonns plus forte valeur
25 %: Croissance de la base de clientle
102 %: Retour sur investissement



Socit Aviva plc | Sige social Londres (Angleterre) | Secteur dactivit Assurance | Produits et services Assur-
ance gnrale, assurance-vie | Clients 31,4 millions, dans plus de 15 pays | Salaris 27.700 (monde) | Bnfice
dexploitation 2,5 milliards . Aviva protge environ 31 millions de clients dans le monde entier avec ses produits
dassurance, dpargne et dinvestissement. Aviva est le plus grand assureur du Royaume-Uni, et galement lun
des principaux prestataires europens en assurance, assurance-vie et gestion dactifs. Fermement engage dans
le service de ses clients pour proposer des offres plus fortes, plus durables et ayant une incidence positive sur la
socit, Aviva a choisi la solution SAP InfiniteInsight. Ses modles prdictifs aident Aviva dgager la connais-
sance ncessaire au ciblage des meilleurs clients avec la meilleure offre et au meilleur moment.

Utiliser lanalyse prdictive pour laborer des modles de propension dcrivant des groupes de clients spci-
fiques plutt que des modles gnriques portant sur lensemble des clients
viter de contacter les clients trop souvent tout en amliorant les taux de rponse des campagnes
Augmenter le retour sur les investissements marketing et amliorer le succs des campagnes en identifiant les
clients les plus susceptibles de rpondre

Les nombreux graphiques permettent aux experts marketing de visualiser limpact prvisible des modles
Lautomatisation trs efficace de la modlisation permet de dfinir rapidement et facilement une gamme com-
plte de modles
Lanalyse automatique de la contribution un modle de plusieurs centaines de variables remplace lexamen
visuel dun nombre limit de variables

Taux de rponse aux campagnes plus lev et plus grande valeur des clients sur la dure grce des offres
mieux personnalises
Augmentation significative du nombre de modles de propension utiliss dans la socit (dont plus de 30
modles en production)
Possibilit dutiliser les donnes les plus rcentes pour actualiser les modles et capturer les dernires tendances

Amliorer nettement le retour sur les investissements marketing par une modlisation des intentions des clients
capable de prdire limpact des initiatives de marketing sur des groupes cibles spcifiques
laborer des modles prdictifs pour analyser lacquisition et la relance des clients


Socit Eldorado LLC | Sige social Moscou (Russie) | Secteur dactivit Distribution | Produits et services lectro-
nique grand public et appareils lectromnagers | Salaris 15.000 | Chiffre daffaires 2.4 milliards (2012)
Pour les produits lectroniques, les appliances, les ordinateurs, etc., les Russes plbiscitent Eldorado. Rseau
fort de 700 magasins et franchises, plus de 30 prsences en ligne et 120 points de commande et denlvement, ce
distributeur russe doit grer dimportants volumes de donnes pour amliorer la prvision de ses ventes, exploiter
un potentiel de chiffre daffaires insouponn et rduire considrablement ses frais dinventaire. Pour exploiter au
mieux ses big data grce lanalyse prdictive, Eldorado a choisi la solution SAP InfiniteInsight.

Analyser les donnes stockes dans la solution SAP 360 Customer, gnres par plus de 1,5 millions de transactions
sur les points de vente. Ventes portant sur plus de 420 groupes de produits et plus de 8000 rfrences par mois
Amliorer la prcision des prvisions pour booster les ventes et rduire le cot des inventaires

Partenaire technologique de confiance avec une exprience dmontre et des succs dans lensemble du secteur
Possibilit dutiliser plus efficacement laccs en temps rel aux gros volumes de donnes dj disponibles avec
lapplication SAP Business Warehouse (avec SAP HANA) et avec lapplication SAP Planning for Distribution
Facilit dutilisation, prcision des modles prdictifs et outils automatiss innovants disponibles avec la solution
SAP InfiniteInsight

laborer environ 500 modles prdictifs par mois une tche impossible envisager avec les techniques de
modlisation traditionnelles qui exigent plusieurs semaines ou plusieurs mois pour dfinir un seul modle
Cration de prvisions pour la planification des assortiments, rapprovisionnement des tagres, analyse des prix et
des promotions, fusion de magasins, slection de lemplacement des magasins et planification des ventes et des achats
Prcision jusqu 82 % des prvisions de ventes, une amlioration de 10 % par rapport aux techniques pr-

Migrer dautres applications SAP vers SAP HANA pour tirer pleinement partie du potentiel de la technologie de
traitement en mmoire
Poursuivre lexpansion et faire voluer les activits de lentreprise en faisant appel des systmes IT perfor-
mants et linnovation

Socit Groupe SAMSE | Sige social Grenoble, France | Secteur dactivit Grande distribution | Produits et servic-
es Distribution de produits et services (matriaux et outils de construction) | Salaris 5,000 | Chiffre daffaires1,138
million d. Que ce soit pour entreprendre un projet de dveloppement de grande envergure ou rnover son domi-
cile, les professionnels comme les bricoleurs du dimanche franais font confiance aux outils, matriaux et conseils
personnaliss que propose le groupe SAMSE. Grce la solution
SAP InfiniteInsight, Groupe SAMSE peut dvelopper des modles prdictifs pour analyser et exploiter les nor-
mes masses de donnes clients recueillies chaque jour. Avec des taux de rponse aux campagnes marketing en
augmentation de 220 %, Groupe SAMSE propose ses clients des offres tailles pour leurs besoins.

Optimiser les performances des campagnes marketing, la prvention des risques et la planification des stocks
pour 25 marques et 290 points de vente
Analyser des traoctets de donnes issues de plus de 300 000 dtenteurs de cartes de fidlit et de 30 000
entreprises clientes chaque jour
Dvelopper une vision globale des relations entre entreprises (B2B) et avec les clients (B2C) et la complter
danalyses approfondies
Mettre jour les modles prdictifs chaque semaine, plutt que mensuellement, pour renforcer la fiabilit des prvisions

Des analyses rutilisables et facilement modifiables avec la solution SAP InfiniteInsight
Des modles prdictifs qui facilitent la planifica- tion de plus de 75 units de gestion des stocks de produits et
lanalyse de la cote de solvabilit pour prvoir le risque de dfaut de paiement des clients

Des taux de rponse aux campagnes de marketing direct en augmentation de 220 %
La mise jour des modles prdictifs ramene de plusieurs mois une semaine seulement
Un quilibre entre une exploration systmatique et flexible des donnes quotidiennes relatives aux marques du
groupe laide de modles prdictifs
Un systme dalerte prcoce pour les projets de construction de particuliers, permettant dtablir des recomman-
dations de produits personnalises quasiment en temps rel sur plusieurs canaux dinteraction avec les clients,
notamment les magasins, les centres dappels et les commerciaux

Attirer toujours plus de clients grce une juste apprciation de leurs comportements
Poursuivre une stratgie doptimisation de lactivit en adoptant des technologies de pointe

Socit Home Shopping Europe GmbH (HSE24) | Sige social Ismaning (Allemagne) | Secteur dactivit Distri-
bution | Produits et services Mode, bijoux, produits de beaut pour la maison | Salaris Environ 2900 (y compris
centre dappels externe et personnel logistique) | Visiteurs 515 millions (2012)
Avec SAP HANA, nous avons vu une opportunit dinfluencer le comportement dachat de nos clients et de
rduire le taux de retour des produits. Chaque anne, plus de 11,5 millions de colis HSE24 sont envoys 1,5
millions de clients. Spcialiss dans le VPC, nous estimons que diminuer notre taux de retours de seulement 1 %
pourrait conduire une conomie sept chiffres !
Michael Kuenzel, vice-prsident IT chez Home Shopping Europe GmbH (HSE24)


Devenir une entreprise de vente et de service clientle de classe mondiale
Rduire les retours des commandes en VPC
Ragir la demande en temps rel

Dploiement du logiciel SAP Predictive Analysis et de lapplication analytique SAP Audience Discovery and
Targeting (avec SAP HANA) Dfinition dun plan de migration de lapplication SAP Customer Relationship
Management SAP HANA (phase II du projet dimplmentation de SAP HANA)


La vue 360 degrs des informations client permet de dfinir des campagnes cibles plus prcises et mieux
cibles et facilite les interactions avec les clients
Laccs instantan lensemble des donnes client permet aux spcialistes marketing de prendre les mesures
appropries pour rduire le taux de retours
Les interactions plus riches avec les clients facilitent la dfinition doffres pertinentes pour les consommateurs
et refltent mieux les exigences uniques de chaque personne - Temps rel: Lagrgation des donnes fournit une
vue complte de chaque client - Efficace: Interactions plus puissantes et plus efficaces avec les clients - Cibl:
Des campagnes marketing qui mettent laccent sur des segments spcifiques de clientle - Pertinent: Des offres
qui rpondent avec une meilleure prcision aux demandes de clients


Socit Monext SAS | Sige social Courbevoie, France | Secteur dactivit Banque | Produits et services Solutions
et services de traitement des paiements et des cartes de paiement | Salaris 480 | Chiffre daffaires 67 million
(2011) SAP InfiniteInsight nous procurera un rel avantage concurrentiel et nous fera ainsi conomiser chaque
anne des centaines de millions deuros.
Annabelle Gerard, Analyste de Business Intelligence et de Data Mining, Monext SAS
Rduire la fraude lectronique pour quelques-uns des principaux e-commerants, distributeurs et banques europens
Remplacer une solution analytique externalise qui utilisait un modle gnrique pour prdire la fraude lectronique
Diminuer les fausses alertes pour amliorer lexprience client et rduire les cots du centre dappels

Modlisation prdictive adapte chaque fournisseur de carte et type de carte, notamment les cartes de crdit,
de dbit, prpayes, premium, disponible avec la solution SAP InfiniteInsight.
Formation automatise pour une modlisation rapide, allie une interface puissante et conviviale

Un analyste mi-temps suffit pour crer des modles personnaliss pour chaque fournisseur et type de carte
Rsultats fiables obtenus en quelques heures au lieu de plusieurs jours ou semaines
Analyse des Big Data collectes sur des centaines de millions de transactions et jusqu 500 attributs natifs et
drivs utiliss pour valuer les transactions en quelques millisecondes
conomie de centaines de millions deuros sur les pertes annuelles potentielles de revenus pour les fournisseurs
de cartes afin de procurer un rel avantage concurrentiel et damliorer considrablement lexprience client

Innover davantage pour effectuer des paiements de manire encore plus pratique et sre sur tous les canaux
Continuer soutenir et protger les entreprises et les consommateurs laide de la technologie logicielle SAP



Socit American Automobile Association (AAA) | Sige social Orlando (Floride) | Secteur dactivit Assurance |
Produits et services Assistance aux automobilistes Vhicules, voyages et services financiers | Salaris > 40.000
Sur la route, des millions dAmricains font confiance lAmerican Automobile Association (AAA) pour ses services
dassistance, dassurance et de dpannage. Pour optimiser les services des 44 automobile-clubs AAA des tats-
Unis et du Canada, le AAA National Office a cr un centre daction centralis pour dgager une meilleure
connaissance des besoins de ses membres. Avec lanalyse prdictive performante propose par la solution SAP
InfiniteInsight, AAA peut rpondre aux besoins de ses membres au moment prcis o ils les expriment.


Socit Skyrock.com | Sige social Paris | Secteur dactivit Mdias| Produits et services Services de partage de
rseaux sociaux, de blogs et de mdias | Salaris 80 | Visiteurs 12 million per month
En matire de contenu en ligne, les internautes font confiance leurs amis pour dcouvrir de nouveaux sujets
dintrt. En mettant gratuitement disposition de ses membres un espace Web personnalis pour y crer des
blogs, ajouter des profils et changer des messages avec dautres membres inscrits, Skyrock.com est lun des
rseaux sociaux de blogs les plus dynamiques au monde. Toutefois, la socit recherchait une solution lui permet-
tant de tirer parti de toutes ces donnes clients et montiser sa croissance rapide.
Dcrypter les sources de Big Data pour obtenir des prvisions prcises et des recommandations personnalises
sur les produits, les amis et le contenu
Amliorer la fidlit au site et lengagement social
Augmenter le nombre de pages consultes par visite pour proposer des annonces publicitaires payantes plus
rmunratrices et doper les revenus

Dploiement de lapplication SAP InfiniteInsight Recommendation, en permettant la segmentation laide de
lanalyse des rseaux sociaux et les recommandations sociales d amis
Lancement dun projet pilote pour recommander des blogs aux visiteurs et aux membres selon des profils et des
gots pour accrotre la fidlit au site


Possibilit de fournir chaque matin des recommandations d amis pertinentes aux membres du site
Meilleure comprhension des utilisateurs, facilitant ainsi lidentification des communauts partageant les
mmes centres dintrt, des caractristiques et des comportements, comme les fans de shopping, les amateurs
dquitation, les jeunes mamans et les passionns dautomobile
20: Recommandations damis pertinentes envoyes chaque matin aux membres du site
2x: Plus de demandes dajout dami et augmentation correspondante du taux dacceptation
<600000: Nouveaux liens damis chaque jour
20000: Communauts distinctes identifies



Socit Cooperativa Italiana di Ristorazione S.C. (CIR food) | Sige social Reggio Emilia (Italie)| Secteur dactivit
Voyages et transport vnementiel | Produits et services Services alimentation et restaurants, tickets repas,
traiteur/catering, planification de services de formation | Chiffre daffaires 500 millions | Salaris 11.500 | Parte-
naire B4C Consulting. CIR food compte sur ses partenaires pour laider atteindre ses objectifs commerciaux.
Les solutions SAP nous aident non seulement obtenir des rsultats exceptionnels, mais elles nous permettent
galement de rduire notre dpendance envers le dpartement IT et atteindre nos objectifs de chiffre daffaires.
Luca Baccarini, DSI chez Cooperativa Italiana di Ristorazione S.C. CIR food

Implmenter un systme de reporting performant pour dgager plus rapidement de la connaissance sur le statut
des budgets et pour rduire les temps de raction
Rduire la charge du dpartement IT en proposant des rapports en libre-service lensemble des utilisateurs,
sur le lieu de travail et en mobilit
Proposer un systme de prvision qui diffuse aux restaurants des donnes susceptibles damliorer les dci-
sions dachat et dembauche

Fournit des solutions innovantes pour la plupart des activits de lentreprise, dont gestion des ressources (ERP),
gestion des stocks, Business Intelligence (BI) et analytique
Propose un portefeuille complet de solutions analytiques qui sintgrent parfaitement avec les logiciels SAP
Business Suite

Avec le logiciel SAP HANA, reporting nettement plus rapide (surtout sur les terminaux mobiles)
Meilleure navigation des donnes de la base SAP HANA grce au logiciel SAP Lumira. Rduit la dpendance
envers le dpartement IT
Le logiciel SAP Predictive Analysis dgage une meilleure connaissance des tendances en matire de restau-
rants, ce qui facilite les dcisions dinventaire et dembauche
Avec lapplication SAP Business Planning and Consolidation, rduction de 4,5 mois 1 mois du temps nces-
saire pour gnrer le budget.
77 %: Rduction du temps ncessaire pour gnrer le budget (avec SAP Business Planning and Consolidation)
4 000 %: Augmentation du nombre moyen dutilisateurs quotidiens des outils de BI
Plus grande Indpendance des utilisateurs, do une rduction des sollicitations du dpartement IT

Socit Tipp24.com | Sige social Londres (Angleterre) | Secteur dactivit Sports et divertissement | Produits et
services Loteries en ligne
Pour mieux comprendre ses clients et amliorer la prcision de ses activits marketing, Tipp24.com, un des prin-
cipaux intermdiaires de loterie sous licence dEurope, a opt pour une solution danalyse prdictive. En faisant
appel la solution SAP InfiniteInsight pour sa modlisation prdictive, Tipp24 a pu amliorer de 300 % la
prcision de ses ciblages. Ces rsultats lui permettent de proposer les meilleures loteries aux joueurs et de leur
souhaiter Bonne chance !

Mieux comprendre le client sur la dure pour suivre les clients de grande valeur, augmenter les opportunits de
vente croise et de vente de gamme suprieure et rduire lattrition
Collecter des donnes dtaille sur le comportement des clients pour optimiser les campagnes marketing
Mettre la disposition des activits marketing et des canaux client une solution efficace de modlisation prdictive


Amliorer les performances et lvolutivit par rapport aux logiciels SAS et SPSS dIBM
Possibilit didentifier les tendances de comportement des clients en vue damliorer leur satisfaction
Possibilit de prdire les clients qui risquent de devenir inactifs et les clients inactifs qui sont susceptibles de
redevenir actifs

Optimise les campagnes et le comportement des clients sur la dure dans plusieurs canaux, y compris tl-
phone, marketing direct et mail
Permet la gestion proactive des relations avec les clients grande valeur (existants et potentiels)
Rduit le taux dattrition et augmente la valeur des clients sur la dure

300 %: Amlioration de la prcision de ciblage, y compris identification des joueurs qui seraient les plus intresss
par des participations hebdomadaires, mensuelles ou permanentes certaines loteries
25 %: Rduction de la taille de laudience cible pour une campagne donne (grce des fonctions analytiques
plus prcises)
90 %: Rduction du temps ncessaire pour crer et dployer des modles prdictifs (de plusieurs semaines
quelques jours), augmentation de la productivit de lquipe Analytique




Socit Kaeser Kompressoren SE | Sige social Cobourg (Allemagne) | Secteur dactivit Machines et quipe-
ments industriels | Produits et services Systmes air comprim (y compris services de consulting) | Salaris
4400 | Chiffre daffaires 600 millions (2012) | Partenaire SAP Consulting
Nous allons mettre profit toute la puissance de SAP HANA pour amliorer les processus mtier ex-
istants, dployer des processus entirement nouveaux et rduire notre TCO. Nous avons pris un excellent

dpart avec la migration en douceur et rapide de SAP CRM vers SAP HANA. Cette opration va tre
suivie par le dploiement dautres applications SAP Business Suite et de solutions personnalises.

Dfinir un environnement IT innovant et capable de supporter lvolution vers un business mode de prestataire
en solutions
Amliorer les processus commerciaux existants et exploiter la puissance des big data et de la maintenance
prdictive pour devenir plus concurrentiel, plus proactifs et plus lcoute des clients
Tirer parti de la plate-forme SAP HANA pour transformer et simplifier le paysage de solutions SAP

Migration efficace de lapplication SAP Customer Relationship Management (SAP CRM) SAP HANA en 2,5
mois et avec un temps darrt limit 1,5 jour
Excellente collaboration avec SAP pendant toutes les phases du projet

Dployer des fonctionnalits de maintenance prdictive (solution personnalise base sur SAP CRM et SAP
HANA) pour amliorer le service client
Migrer toutes les applications de SAP Business Suite vers SAP HANA (dont SAP ERP, SAP Supply Chain Man-
agement et SAP Business Warehouse)
Dployer SAP CRM (avec SAP HANA) dans le cloud avec dautres offres cloud telle que la plate-forme de
logiciels sociaux SAP Jam en vue dactiver une stratgie de relation client (CRM) plus mobile et plus sociale

SAP CRM (avec SAP HANA) lanc en production sans aucune difficult

Temps de rponse de la base de donnes x5 plus rapides

Un environnement IT et des processus mtier plus simples et plus agiles

Socle pour la maintenance prdictive


Socit eBay | Sige social San Jose (Californie) | Secteur dactivit Services spcialiss | Produits et services
Place de march en ligne | Salaris 31.500 (2012) | Chiffre daffaires 14,1 milliards $USD (2012)
SAP HANA met toute sa puissance au service de la connaissance. Pour lutilisateur, il suffit de spcifier des
indicateurs : il na pas se proccuper de la qualit des algorithmes, et il peut utiliser facilement le systme parce
que celui-ci est intelligent et configurable.
Gagandeep Bawa, responsable Analyse et planification financire (FP&A) pour lAmrique du Nord chez eBay Inc.

Amliorer la capacit de sparation des signaux et du bruit afin didentifier les principaux changements subis
par la place de march deBay
Amliorer la prvisibilit et la fiabilit des prvisions portant sur lconomie virtuelle deBay
Amliorer la connaissance des carts et de leurs causes

Difficult dtecter les signaux critiques dans la masse de 100 pta-octets de donnes stockes dans le data
warehouse principal deBay
Processus hautement manuel, exigeant lintervention des analystes (impossibilit dappliquer un modle unique
aux diffrents indicateurs)

Le systme de dtection automatique des signaux (aliment par lanalyse prdictive SAP HANA) slectionne le
modle le mieux adapt aux indicateurs de lutilisateur ce qui a pour effet daugmenter la prcision des prvisions
Un systme fiable et volutif gnre un aperu en temps rel qui permet aux analystes de se concentrer sur les
tches stratgiques
Une arborescence dcisionnelle et la possibilit dajuster les scnarios permet eBay dadapter le meilleur
modle ses diffrents types de donnes
Dtermine avec une prcision de 100 % et avec une confiance de 97 % quun signal est positif Systme de dtec-
tion de signal automatique et prcoce avec SAP HANA

Le premier courtier en ligne dassurance-sant adopte SAS Visual Analytics pour exploiter les grands volumes
de donnes dont il dispose et ainsi optimiser ses ventes de contrats sant.
Socit de courtage dassurance sant pour les particuliers et les entreprises, le Groupe Santiane est devenu en
moins de 5 ans le premier courtier en ligne en France. Cette forte croissance a ncessit une structuration la
hauteur des ambitions de lentreprise, avec notamment, le dveloppement de ses quipes de direction. Pure play-
er de lassurance sant en ligne et empreint dune forte culture numrique, Santiane a quip ses nouvelles qui-
pes dirigeantes (gnrale, financire, commerciale) de loutil SAS Visual Analytics, pour guider leurs dcisions en
explorant les donnes sur PC et tablettes. La grande force de SAS Visual Analytics, cest son interoprabilit loutil
sest branch naturellement nos systmes mais aussi aux donnes externes issues de Facebook et Google.
Alexandre Ginesty, Directeur des Systmes dInformation


Grce la puissance de traitement et danalyse de SAS Visual Analytics, nous puisons dans nos grands vol-
umes de donnes des informations riches et parfois insouponnables sur notre portefeuille clients, explique Alex-
andre Ginesty, Directeur des Systmes dInformation du Groupe Santiane. Avec notre quipe dactuaires, nous
avons notamment pu dcouvrir de nouvelles variables explicatives sur le comportement de notre portefeuille, par
exemple sur des lments en tout dbut de la chane du contrat
Le domaine de lassurance sant induit pour le Groupe Santiane une grande diversit des populations cibles, et
bien que trs jeune, cette socit dispose dun historique de donnes trs riche, stock depuis 2007. En tant que
premier courtier de sant sur Internet, le Groupe est dautant plus arm pour embrasser lenjeu du Big Data : des
donnes compltes sur les parcours en ligne enrichies de celles issues de Google et Facebook, sur les nouvelles
acquisitions de contrats et plus globalement la vie des contrats, sans oublier la chane de traitement commercial.


La stratgie du Groupe Santiane sest toujours appuye sur les nouvelles technologies et le passage la data
visualisation claire aujourdhui les managers et les rend plus autonomes. Sur iPad ou PC, les utilisateurs peu-
vent laborer eux-mmes leurs tableaux de bord et les partager en mode collaboratif. Ainsi, une dizaine de profils
(sur un effectif total de 250 personnes) utilisent SAS Visual Analytics, essentiellement la Direction Gnrale. La
Direction Financire et actuarielle, le Digital Marketing ainsi que les Directions Oprationnelles. Les dlgus
commerciaux de la filiale Noliane Sant & Prvoyance profitent en particulier de la version tablette pour leurs
dplacements sur le terrain.
Des donnes qui jusque-l taient inertes, sont aujourdhui utilises pour amliorer la construction des produits,
la fois dans une meilleure segmentation du risque pour les partenaires, et en adquation avec les besoins des
clients. Entirement numris jusqu la signature en ligne des contrats dassurance, le Groupe Santiane optimise
aujourdhui la vente de ses contrats sant grce aux donnes et grce la data visualisation.
Nous souhaitions donner les moyens nos directeurs dexplorer les donnes sans quils aient ncessairement
des comptences informatiques particulires, pour ainsi soulager notre R&D sur-sollicite , ajoute Alexandre
Ginesty. La grande force de SAS Visual Analytics, cest son interoprabilit ; loutil sest branch naturellement
nos systmes mais aussi aux donnes externes issues de Facebook et Google. Nous avons choisi avec SAS
loutil de dataviz le plus abouti du march, sa puissance de calcul in-memory nous permet aujourdhui dtre plus
cratifs grce aux temps de rponse trs rapides .


Parmi les principaux points forts de SAS Visual Analytics, le Groupe Santiane a bnfici dun dploiement trs
rapide grce loffre Quickstart de SAS, permettant daccder aux premiers tableaux de bord en un temps record.
Loutil fait en outre gagner du temps en proposant un modle de donnes prconu.
Pour la filiale Neoliane Sant & Prvoyance, courtier grossiste pour les professionnels, dont les forces com-
merciales ont vocation dvelopper le rseau de partenaires sur le terrain, les fonctionnalits de golocalisation
sont particulirement intressantes. Loutil leur donne une meilleure vision sur limplmentation gographique des
partenaires, et leur permet de suivre sur iPad leur activit dans une dimension collaborative.

Retours dexpriences Big Data en entreprise


SAS Visual Analytics, la solution phare de SAS ddie au reporting agile, lexploration visuelle et lanalyse des
donnes, est disponible dsormais sur des petits serveurs, ouvrant son utilisation aux entreprises de toutes tailles.
Accdez partout et immdiatement vos informations.
Testez gratuitement SAS Visual Analytics en ligne avec des donnes correspondant votre secteur dactivit.
Vos donnes comme vous ne les avez jamais vues : quimportent votre secteur dactivit, votre profil ou le volume
de donnes analyser, vous pouvez, avec SAS Visual Analytics, explorer toutes les donnes pertinentes rapide-
ment et aisment. Rejoignez-nous sur nos vnements
Lance en 2012, SAS Visual Analytics a dj t adopte par plus de 2 600 entreprises dans le monde, dont plus
de 100 en France.

Transformer rapidement de gigantesques quantits de donnes en informations stratgiques
Amliorer la construction des produits en adquation avec les besoins des clients
Exploiter les donnes sans avoir de comptences informatiques particulires avec un modle de donnes prconu
La vente des contrats sant est optimise grce aux donnes et la data visualisation
Sur iPad ou PC, les utilisateurs laborent eux-mmes leurs tableaux de bord et les partagent en mode collaboratif
Ltude scientifique ELFE tire parti de la richesse fonctionnelle de SAS Visual Analytics pour dresser une image
prcise de la situation de lenfance en France, travers le regard de multiples chercheurs.
SAS, leader mondial de la business analytics annonce que lInstitut national dtudes dmographiques (Ined) a re-
tenu sa solution dexploration et de visualisation des donnes SAS Visual Analytics dans le cadre du programme
ELFE. LIned, le plus important institut de recherche dmographique au monde, tudie les populations de la France
et des pays trangers avec les outils du dmographe et les apports des autres disciplines : histoire, gographie,
sociologie, anthropologie, conomie, biologie, pidmiologie. Ses chercheurs travaillent dans des domaines aussi
divers que la contraception et lavortement, les migrations, les populations en marge et lallongement de la dure
de vie. LIned emploie environ 200 personnes, dont 60 chercheurs titulaires, 110 techniciens ou ingnieurs, une
vingtaine de doctorants, ainsi que des chercheurs associs.
Les fonctions analytiques proposes par SAS Visual Analytics sont particulirement sophistiques -explo-
ration, constitution dynamique de rapports, croisements, etc.- et nous ouvrent de nouvelles perspectives.
Ando Rakotonirina, Directeur des systmes dinformation de lunit de recherche ELFE de lIned
ELFE : Etude Longitudinale Franaise depuis lEnfance
ELFE, lun des programmes de recherche phares de lIned, vise suivre, pendant 20 ans, 18 300 enfants ns
en 2011, pour mieux comprendre comment les conditions prinatales et lenvironnement dans ses diffrentes
dimensions affectent le dveloppement, la sant et la socialisation des enfants, de la priode intra-utrine
ladolescence. Le projet est pluridisciplinaire et se construit partir des propositions de plus de 100 chercheurs
associs. En tout, plus de 300 quipes de recherche dmographes, conomistes, mdecins, gnticiens, sp-

Retours dexpriences Big Data en entreprise

cialistes de lenvironnement, pidmiologistes, etc. participent ce programme, soit au total 1500 personnes.
Ce programme, de trs grande ampleur, doit prendre en compte une quantit dantesque de variables associes
aux enfants : sant, sciences sociales, environnement, gntique, environnement familial, etc. Il repose sur des
enqutes menes chaque anne et dclines en quatre vagues (qui correspondent aux saisons). Les donnes
issues de ces enqutes sont stockes dans un systme hautement scuris de base de donnes et dcrivent la
situation de lenfant travers des milliers de variables tmoigne Ando Rakotonirina, Directeur des systmes
dinformation de lunit de recherche ELFE de lIned. Nous apportons un soin tout particulier aux contrles qualit
afin de garantir nos chercheurs des donnes cohrentes. Si nous avons ralis ces contrles manuellement lors
des premires enqutes (maternit et 2 mois), nous avons souhait industrialiser ce processus particulirement
Dans le pass, les rponses aux questionnaires taient stockes dans une solution SAS dploye sur un poste
autonome (non reli au rseau) et gres par une personne charge de raliser des tests de cohrence et de
travailler sur la validit des donnes avec des chercheurs affects cette tude en leur mettant disposition
des informations sous la forme dextractions. Pour des raisons de confidentialit, les chercheurs ne peuvent pas
accder lintgralit des donnes de toutes les enqutes, des extractions taient donc ncessaires chaque
demande. Ces pr-tudes de donnes permettaient de faire des redressements ou corrections ventuelles. Pour
obtenir une base propre pour une collecte contenant 5 200 variables pour 18 300 individus pouvant tre mise
disposition de chercheurs du monde entier il fallait compter un an et demi.


Les travaux de contrle qualit ncessitant de multiples extractions taient trs fastidieux et la transmission
des donnes tait ralise via des supports physiques. De nombreux changes taient ncessaires avec les
chercheurs pour dterminer exactement quelles donnes ils souhaitaient recevoir poursuit Ando Rakotonirina.
Nous cherchions une solution permettant de fluidifier ces changes, dacclrer la mise disposition des donnes
et de garantir le principe dun dpt unique rclam par les autorits. Par ailleurs, la future loi sur la protection
des donnes scientifiques va dans ce sens (limitation des extractions des donnes) pour prserver la matrise de
proprit des donnes des chercheurs. Au vu des volumtries que nous traitons, cette solution devait en outre offrir
une grande puissance de traitement.
Si, au dpart, le Ple SI de ELFE de lIned a privilgi des outils open source, il a pris conscience que ceux-ci ne
rpondaient qu une partie des objectifs. Une veille a t ralise sur les outils de SAS et particulirement SAS
Visual Analytics (VA). Plusieurs maquettes ont t dveloppes.
Nous avons finalement dcid non seulement dadopter VA, mais galement de nous affranchir des anciennes
solutions sur postes autonomes pour basculer sur SAS Server, puisque nous avions la garantie dviter les ex-
tractions grce au systme de dpts scuriss combin une gestion personnalise des accs. Les fonctions
analytiques proposes par loutil sont particulirement sophistiques (exploration, constitution dynamique de rap-
ports, croisements, etc.) et nous ouvrent de nouvelles perspectives explique Ando Rakotonirina. Depuis la
mise en uvre de VA, le Ple SI et ladministrateur de donnes ELFE ont pris en main la solution pour crer des
rapports et des explorations de base quils ont mis disposition des chercheurs. Ceci dans un premier temps pour
amliorer ladhsion. Dans un deuxime temps, les chercheurs pourront choisir en toute autonomie les donnes
sur lesquelles ils travaillent et la manire de les prsenter.


En quelques mois, SAS Visual Analytics est devenue une pice matresse de linfrastructure analytique du pro-
gramme ELFE. Non seulement les multiples extractions ne sont plus ncessaires puisque chaque chercheur
dispose de droits de consultation personnaliss et despaces de travail scuriss, accessibles via un simple navi-
gateur web, mais de plus, lensemble des modifications et des mises jour sont traces.
Pour Ando Rakotonirina, le principal objectif du projet a t atteint : La problmatique de scurit des donnes
lie aux extractions a t rsolue. Nous respectons les contraintes lgales et rglementaires, ce qui est bien sr
capital. Mais paralllement, nous avons gagn en efficacit en termes dorganisation des contrles qualit : les
donnes sont mises disposition dans SAS VA ce qui vite les nombreux allers-retours entre nos services. Pour
lenqute 2 mois, 18 mois ont t ncessaires pour rendre nos donnes exploitables. Avec VA, ce dlai va tre
rduit 5 mois ! se rjouit-il. Paralllement, VA nous offre une richesse fonctionnelle qui permet de nouvelles
dimensions danalyse. Par exemple : nos utilisateurs peuvent, de manire autonome, visualiser dynamiquement la
rpartition des enfants allaits dans chaque dpartement sur une carte. Filtrer les donnes selon leurs envies et
obtenir les rsultats instantanment. .
Avec SAS, Elfe/Ined se dclare parfaitement quipe pour exploiter ses big data : Les big data sont le carburant
de la recherche moderne ! Elles sont en train de rvolutionner notre profession : auparavant, chacun travaillait
dans son coin et sur un mode vertical, les chercheurs partageaient difficilement leurs dcouvertes. Aujourdhui,
nous sommes en mesure denrichir nos analyses et de susciter la collaboration conclut Ando Rakotonirina.

Prendre en compte une quantit dantesque de variables.
Fluidifier less changes entre les chercheurs.
Acclrer la mise disposition des donnes.
Garantir le principe dun dpt unique rclam par les autorits.

Retours dexpriences Big Data en entreprise

SAS Visual Analytics

VA va rduire de 18 5 mois le dlai ncessaire pour rendre les donnes exploitables
Les multiples extractions ne sont plus ncessaires (chaque chercheur dispose de droits de consultation person-
naliss et despaces de travail scuriss, accessibles via un simple navigateur web).
Lensemble des modifications et des mises jour sont traces.
VA offre une richesse fonctionnelle qui permet de nouvelles dimensions danalyse.
Visualisation dynamique de la rpartition des donnes en toute autonomie.
Rsultats obtenus instantans.
Exploitation des big data pour enrichir les analyses et susciter la collaboration.


Chaque anne, plus de 20 millions de contrles techniques (100 000 par jour environ) sont centraliss par
lOrganisme Technique Central (OTC, groupe UTAC/CERAM).
Pour mieux explorer et exploiter ces donnes, lOTC sest dot en 2013 de SAS Visual Analytics. Retour sur une
premire anne de mise en uvre, avec les premiers rsultats, les premiers enseignements, et les perspectives de
dveloppement. Mis en place en 1992 pour les vhicules lgers, le contrle technique automobile est aujourdhui
assur par 6 000 installations de contrle, la plupart appartenant lun des cinq grands rseaux oprant sur tout
le territoire. Depuis lorigine, lUTAC a t notifi par le ministre des Transports comme Organisme Technique
Central pour recueillir, aujourdhui en temps rel, les donnes issues de chaque contrle. Lorganisme surveille
les oprateurs et dlivre les agrments, sassure de lhomognit des contrles et tient jour des informations
sur ltat du parc automobile franais pour adapter et faire voluer les quipements et les mthodes de contrle.
Aujourdhui, lOTC dispose de plusieurs bases de donnes contenant lensemble des contrles techniques depuis
1992 soit environ 400 millions de contrles au total, avec quelque 450 variables releves !


Dj quip doutils SAS pour lanalyse des donnes, lOTC a choisi en 2013 de se doter de SAS Visual Analyt-
ics. Avec une telle volumtrie, il tait impossible dignorer la data visualisation... au moins pour voir ! explique
Thierry Ageron, responsable Etudes & Productions Statistiques du groupe UTAC/CERAM. LOTC a donc choisi de
partir sur une configuration minimale (un serveur de 16 curs avec 100 Go de donnes lues sur disque et 50 Go
de donnes en mmoire) pour tester lexploration de donnes et les possibilits de loutil en matire ddition de
rapports. Une base de donnes de 42 Go contenant tous les contrles effectus depuis 2008 (soit 43 colonnes et
148 millions de lignes), a ainsi t charge in memory .
La mise en place de SAS Visual Analytics sest ralise en quatre jours : deux jours pour linstallation du produit,
puis deux jours de formation et de prise en main pour les quatre statisticiens chargs dexplorer loutil. Travailler
en amont avec les consultants SAS pour assurer le transfert de comptences constituait pour Thierry Ageron un
investissement humain essentiel : on imagine souvent quon peut en faire lconomie, on se dit que a va pas-
ser... mais prendre le temps au dpart nest pas un luxe inutile : cest un vrai facteur de succs ! .


La premire tude mene avec VA a concern les temps de contrle. Avec demble, un atout important : la
dtection trs facile des donnes atypiques (des contrles infrieurs 5 minutes, par exemple... voire des dures
ngatives en cas de mauvaise saisie des donnes), et la possibilit de les liminer in-memory pour travailler plus
vite sur une base statistiquement plus fiable. Nous navions pas cette souplesse auparavant ! note Thierry
Ageron, qui rappelle quoutre les tudes statistiques, les cas les plus tonnants peuvent tre transmis aux services
dpendant du ministre des transports, qui peuvent ainsi contrler les contrleurs .
Des premires analyses ont ainsi t ralises pour comparer les dures moyennes selon les rseaux, linstallation
de contrle, le jour de la semaine - ou selon les mois de lanne, avec des changements qui apparaissent claire-
ment lors des deux mois dt... Le bilan ? SAS Visual Analytics permet de bien voir les tendances gnrales,
avec la possibilit de zoomer sur une situation qui semble atypique, et de retourner en un clic la donne de base
pour lexaminer. Ce qui nous prenait beaucoup de temps avant se fait ici trs facilement . Un mode dexploration
idal pour changer sur nos hypothses lorsque lon explore les donnes plusieurs.

Retours dexpriences Big Data en entreprise


Lchange, cest ce que permet aussi Visual Analytics avec ldition de rapports dynamiques, qui peuvent tre
diffuss sur tablette auprs des clients de lOTC : ministre des transports et directions rgionales, rseaux
doprateurs, gendarmerie, douanes... Thierry Ageron salue la facilit dexport, reste voir si la diffusion mobile
entrera dans la culture de ses interlocuteurs. Jusquici, son quipe en est reste des premiers tests pour
comparer deux centres sur un mois donn, par exemple. Nous avons dj plusieurs centaines de rapports sous
format pdf, explique-t-il. Certains donnent pleine satisfaction nos clients, il nous faut encore rflchir avant de
passer au tout-VA.
Le moment est venu en effet pour lorganisme dtudier lopportunit dintgrer plus avant Visual Analytics dans
les processus de production et de restitution des informations. Restera-t-il un outil parmi dautres dans larsenal
de lOTC, ou peut-il terme remplacer le portail dcisionnel actuel ? Une dcision la fois technique, financire
et culturelle, qui tiendra aussi compte de lapparition rcente du petit frre de VA, SAS Visual Statistics...


En attendant, une autre utilisation de la data visualisation est dj envisage, pour tudier les retards de prsenta-
tion des vhicules au contrle technique. Pendant longtemps, nous navons pu raliser ces analyses que sur des
chantillons, et travailler sur la base en frontal tait gnant. Aujourdhui, nous pouvons travailler sur lexhaustivit
des donnes grce un ODS ddi. Reste tester lanalyse avec SAS Visual Analytics, pour voir ce que pourra
apporter la souplesse de loutil.
Parmi les perspectives se profile aussi lintgration de donnes non structures en reliant par exemple les infor-
mations du contrle technique avec des donnes daccidentologie venues de lextrieur. Mais la route est encore
longue !

- Optimiser laccs la donne
- Amliorer la recherche de donnes atypiques
- Produire des statistiques pertinentes et les mettre rapidement disposition des clients

- SAS Visual Analytics
SAS Visual Analytics permet de bien voir les tendances gnrales, avec la possibilit de retourner en un clic
la donne de base pour lexaminer
Thierry Ageron, responsable Etudes & Productions Statistiques du groupe UTAC/CERAM



Modeling portfolio credit risk is a fundamental function in banking today. Loan products, such as lines of credit,
mortgages and credit cards, entail a high degree of risk for banks, and on a large scale, especially in turbulent
economic periods -- defaults produce difficult situations and huge implications for both the lender and the borrower.
Banks regularly employ credit-risk management processes to monitor and assess credit portfolios, to make certain
estimates, and to understand their risk position and value of assets at any given time. In todays complex and ever-
changing financial system, powerful, rigorous and accurate credit-risk management processes and technology
play a critical role in mitigating a lending institutions exposure.
Without SAS, processing times would be longer, hedging decisions would be delayed and, ultimately, the bank
would be behind the market.
Russell Condrich, Senior Vice President, Corporate Investment Group
With approximately 59 million consumer and small business relationships, 6,000 retail banking offices and more
than 18,000 ATMs, Bank of America is among the worlds leading wealth management companies and is a global
leader in corporate and investment banking and trading across a broad range of asset classes.
The Corporate Investments Group (CIG) manages Bank of Americas available-for-sale portfolio and is responsi-
ble for modeling and calculating the probability of default (PD) on the 9.5 million mortgages it services. In addition,
the group calculates the market value, prepayment speeds and sensitivity to changes in interest rates and hedges
these risks for the $19 billion mortgage-service-rights asset. Recently, CIG began assisting with the task of fore-
casting loan losses for the banks credit card portfolio.

Retours dexpriences Big Data en entreprise


CIG had been using analytics from SAS for credit-risk modeling for many years, but with the addition of the credit-
card loss forecasting responsibility, it was forced to reassess its use of an internal shared-services environment
to run its modeling and calculation processes. Doing so would help reduce processing time, increase access and
availability of resources for ad hoc analysis, while ensuring business continuity for this mission-critical function of
the banks business.
We needed a solution that addressed todays business problems, as well as a solution with the flexibility for any
future business requirements, says Russell Condrich, Senior Vice President, Corporate Investment Group. Pro-
cessing large, multi-terabyte datasets in a quick, efficient manner was a key requirement for us and SAS performed
flawlessly. Without SAS, processing times would be longer, hedging decisions would be delayed and, ultimately,
the bank would be behind the market.


To meet its performance requirements, the group moved its processing to a dedicated platform comprised of SAS
Enterprise Risk Management on SAS Grid Computing, SAS Scalable Performance Data Server on a 224 core
IBM BladeCenter grid and the IBMs XIV Storage System. The initiative has already produced considerable
results, such as reducing the banks probability of default calculation time from 96 hours to just four. Processing
time for ad hoc jobs has been reduced by 90 percent and, according to the CIG, they are processing at three times
the speed of the previous environment.
The platform pulls data from eight systems of record (SOR), amounting to hundreds of millions of records, or 30
terabytes of source data, and allows the SAS environment to consume 3.9 gigabytes of I/O throughput per second
from IBMs XIV storage environment. Approximately 30 users now have unfettered access to the environment, as
opposed to the shared services environment of the past, in which user time was competitive and response times
varied dramatically due to the high number of jobs being executed.

We now have an environment that provides users with a robust platform on which to schedule and prioritize jobs,
based on duration or computational requirements, so that ad hoc usage is not competing with scheduled work,
says Stephen Lange, Managing Director, Corporate Investments Group. This advanced grid platform is giving us
unparalleled performance. SAS is indispensable for its unique way of handling large data sets.
As an example, Lange adds, we have to score a particular portfolio of 400,000 loans with our suite of models,
using multiple scenarios, and we need to run it over the 360 months of the mortgages life. That process used to
take three hours, now it takes 10 minutes because of the parallelization capabilities of the grid. The ability to go
from three hours to 10 minutes on a job demonstrates a tremendous increase in our ability to deliver information
and make decisions.
The bank has a strong desire to enable loss forecasting as accurately and quickly as possible, right up to the
senior executive layers of the organization, says Lange. The only way we can do that is to have sufficient IT
resources to score loans and appropriately assess risks. The partnership between SAS, IBM and our internal tech-
nology group has provided a platform for us to demonstrate risk management leadership.

Reduce processing time for credit-risk modeling, scoring and loss forecasting.
Increase ad hoc analysis time while ensuring business continuity and guaranteed up-time for these mission-
critical functions.

SAS Enterprise Risk Management
SAS Grid Manager
SAS Scalable Performance Data Server

Reduced probability of loan default calculation time from 96 hours to just four.
Yields timely decisions around defaults.
Reduced its scoring routine of 400,000 loans from three hours to 10 minutes.
Helps minimize losses and can handle new growth opportunities for banks loan portfolio.
Reduced processing time by 90%.

Retours dexpriences Big Data en entreprise



Frankfurt Airport in Germany flies more than 57 million passengers and 2 million metric tons of freight to 113
countries each year making it Europes third-busiest airport, behind only London Heathrow and Paris-Charles de
Gaulle. Its up to transport company Fraport AG to make sure that airport operations can handle so much traffic.
In addition to the extra speed, were also looking forward to new opportunities for data exploration and visualiza-
tion with SAS Visual Analytics.
Dieter Steinmann, Manager of Information and Communication Services for Business Systems
Using SAS High-Performance Analytics and SAS Visual Analytics, Fraport is reducing the cost of operations and
boosting the performance of decision-support processes.
We need to analyze massive quantities of data in real time, explains Dieter Steinmann, Fraports Senior Manager
of Information and Communication Services. High-performance analytics is the perfect solution for us. In addition
to the extra speed, were also looking forward to new opportunities for data exploration and visualization with SAS
Visual Analytics.
Migrating from the tried and tested SAS Business Analytics platform to SAS High-Performance Analytics, Fraport
sets a course toward the most advanced approach to data analysis. Fraport also opted for SAS Visual Analytics,
which allows users to analyze data quickly and intuitively using a graphical interface.
Fraport implemented SAS Visual Analytics on a Pivotal DCA (formerly EMC Greenplum DCA), which was opti-
mized with SAS for big data analytics.
With its decision in favor of big data analytics, Fraport AG is creating a huge competitive advantage for itself. We
are very pleased that, together with SAS, we can provide the technology basis for this, declares Sabine Bendiek,
CEO of EMC Germany.

Fraport required a solution to reduce operation costs and improve analysis of big data.

SAS High-Performance Analytics
SAS Visual Analytics

The airport saves both time and costs by analyzing data efficiently.
Retours dexpriences Big Data en entreprise



After more than 80 years in business, Macys Inc. is one of Americas most iconic retailers. With annual revenues
exceeding $20 billion, Macys enjoys a loyal base of customers who come to its stores and shop online each
day. To continue its legacy of providing stellar customer service and the right selection of products, the retailers
e-commerce division Macys.com is using analytical software from SAS to better understand and enhance its
customers online shopping experience, while helping to increase the retailers overall profitability.
To more effectively measure and understand the impact of its online marketing initiatives on Macys store sales,
Macys.com increased its analytical capabilities with SAS Enterprise Miner, resulting in an e-mail subscription
churn reduction of 20 percent. It also uses SAS to automate report generation, saving more than $500,000 a year
in comp analyst time.
... they can look at data and spend more time analyzing it and become internal consultants who provide more of
the insight behind the data.`
Kerem Tomak, Vice President of Analytics


We want to understand customer lifetime value, explains Kerem Tomak, Vice President of Analytics for Macys.
com. We want to understand how long our customers have been with us, how often an email from us triggers a
visit to our site. This helps us better understand who our best customers are and how engaged they are with us.
(With that knowledge) we can give our valuable customers the right promotions in order to serve them the best
way possible.
Customers share a lot of information with us their likes and dislikes and our task is to support them in return
for their loyalty by providing them with what they want, instantly, adds Tomak. Macys.com uses Hadoop as a data
platform for SAS Enterprise Miner.
Initially, Tomak was worried that segmenting customers and sending fewer, but more specific emails would reduce
traffic to the website. The general belief was that we had to blast everyone, Tomak said. Today, emails are sent less
frequently, but with more thought, and the retailer has reduced subscription churn rate by approximately 20 percent.


Tomaks group is responsible for creating a variety of mission critical reports some daily, some weekly, others
monthly that go to employees in marketing and finance. These data-rich reports were taking analysts four to
twelve hours to produce much of it busy work that involved cutting and pasting from Excel spreadsheets. Macys.
com is now using SAS to automate the reports. This cuts the time dramatically. It saves us more than $500,000
a year in terms of comp FTE hours saved a really big impact, Tomak says, noting that the savings began within
about three months of installing SAS.
Now his staff can maximize time spent on providing value-added analyses and insights to provide content, prod-
ucts and offers that guarantee a personalized shopping experience for Macys.com customers.
Macys is a very information-hungry organization, and requests for ad hoc reports come from all over the company.
These streamlined systems eliminate error, guarantee accuracy and increase the speed with which we can ad-
dress requests, Tomak says. Each time we use the software, we find new ways of doing things, and we are more
and more impressed by the speed at which it churns out data and models.

With the extra time, the team has moved from being reactionary to proactive, meaning they can examine more
data, spend quality time analyzing and become internal consultants who provide more insight behind the data, he
says. This will be important to supporting the strategy and driving the next generation of Macys.com.
As competition increases in the online retailing world, Tomak says there is a push toward generating more accu-
rate, real-time decisions about customer preferences. The ability to gain customer insight across channels is a criti-
cal part of improving customer satisfaction and revenues, and Macys.com uses SAS Enterprise Miner to validate
and guide the sites cross- and up-sell offer algorithms.
Tomak is also training staff on SAS/OR, business process optimization software, to further optimize the promo-
tions that the company sends to clients. We want to maximize the efficiency in sending these promotions to the
right customer at the right time.

Retours dexpriences Big Data en entreprise

Macys.com needed enhanced customer insight, online and across channels, to effectively measure and under-
stand the impact of its online marketing initiatives on Macys store sales.

SAS Enterprise Guide
SAS Enterprise Miner
SAS/OR Software

Increased customer insights; cross-sell and up-sell effectiveness; productivity, revenue and customer satisfaction,
an approx.20 percent reduction in churn rate and more than $500,000 savings in productivity annually in terms of
FTE time saved.
SAS and Cloudera for big data
We chose Clouderas Platform for Big Data for its unparalleled Hadoop management and SAS An-
alytics for deep insight into our data. These combined technologies make our customer interac-
tions more aligned to their preferences, which leads to improved satisfaction. Ultimately, working
with these two industry leaders allows my team and me to have more time to focus on more strategic
initiatives through automated processes instead of manually collating reports for our business stakeholders.
Kerem Tomak, Vice President of Analytics, Macys.com
A billion units roll off Nestl production lines every single day. This number illustrates the sheer quantity of goods
produced by the worlds biggest food company. To deliver on its promise of Good Food, Good Life, Nestl has
brought to market a whopping 10,000 products aimed at improving consumers lives with better and healthier foods
and beverages.
To ensure the right amounts of those products make it to the shelves and into customers hands, Nestl relies on
forecasting. After all, even the best marketing promotions can backfire if the shelves are empty when the custom-
ers show up for their favorite foods.
It comes as no surprise that Nestls interest in closely managing the supply chain and keeping inventories within
tight limits is proportionate with the size of its operations. Its sheer size makes planning on a global scale highly
complex. Product categories, sales regions and an abundance of participating departments combine to weave a
tangled web.
Its also the nature of the food and beverage industry that makes operational planning a challenge. Seasonal influ-
ences, being dependent on the weather to provide a good harvest, swings in demand, other retail trends and the
perishable nature of many products make it difficult to plan production and organize logistics.
Were now able to drill down through customer hierarchies and do things such as integrate the impact of promo-
tions and special offers into the statistical models.
Marcel Baumgartner, Head of Global Demand Planning Performance and Statistical Forecasting


Supply chain management is a well-established, recognized stream and process at Nestl, explains Marcel
Baumgartner, who leads global demand planning performance and statistical forecasting at Nestls corporate
headquarters. Our professionals take care of transportation networks, run efficient warehouses and are the first
point of contact with customers. One area of focus is planning or, more precisely, demand and supply planning.
According to Baumgartner, this process tackles two important metrics: customer service levels and inventory lev-
els. One can improve customer service levels defined as the percentage of complete and on-time deliveries by

Retours dexpriences Big Data en entreprise

expanding inventories. But that ties up capital, and its often difficult to find storage space. The freshness of the
product suffers as well.
In this industry, products are processed in very large batches to keep unit prices low, ensure quality and take
advantage of raw ingredient availability. This make-to-stock production strategy contrasts with the make-to-order
principle frequently seen in other sectors such as the automobile industry. To have the right quantity of the right
products at the right place and time, we rely heavily on being able to predict the orders our customers will place as
precisely as possible, says Baumgartner.
Other business metrics, such as budgets and sales targets, are also important factors. The overarching goal, ac-
cording to Baumgartner, is to be able to take proactive measures instead of simply reacting. To accomplish this,
Nestl focuses on strong alignment processes, stronger collaboration with customers and the use of the proper
forecasting methodology.


There are two main options for generating forecasts. The subjective method is mainly dependent upon on the
estimation and appraisal of planners based on the experience they draw upon. The statistical method approaches
the forecasting problem with data.
Before using SAS, Nestl was primarily using SAP APOs underlying forecasting techniques, together with models
from the open-source statistical software R, integrated into APO. Those forecasts were then revised by the Nestl
demand planners. SAS enhances this, and thus complements SAP APO perfectly.
Statistical forecasting tends to be more reliable if sufficient historical data is available. But one thing has become
clear to us you cant predict the future with statistics by simply looking at the past. It doesnt matter how complex
your models are.
So its not the statistical methodology thats the problem for Baumgartner and his team. The critical factor in this
complex environment is being able to assess the reliability of forecasts. Two elements have attracted the most at-
tention within this context: dealing with volatility, and SAS.
Predictability of demand for a certain product is highly dependent on that products demand volatility, says Baum-
gartner. Especially for products that display wide fluctuations in demand, the choice and combination of methods
is very important. SAS Forecast Server simplifies this task tremendously.
Of particular importance for demand planning are the so-called mad bulls, a term Nestl uses to characterize
highly volatile products with high volume. A mad bull can be a product like Nescaf, which normally sells quite
regularly throughout the year, but whose volumes are pushed through trade promotions. A simple statistical calcu-
lation is no more useful in generating a demand forecast than the experience of a demand planner for these less
predictable items. The only way out is to explain the volatility in the past by annotating the history. Baumgartner and
his team rely on the forecast value added (FVA) methodology as their indicator . The FVA describes the degree to
which a step in the forecasting process reduces or increases the forecast error.


According to Baumgartner, SAS Forecast Server is the ideal tool for this scenario. The solutions scalability al-
lows a handful of specialists to cover large geographical regions. And selecting the appropriate statistical models is
largely automated, which is seen as one of the strongest features of SAS Forecast Server. At the same time, were
now able to drill down through customer hierarchies and do things such as integrate the impact of promotions and
special offers into the statistical models.
The results paint a clear picture. In a comparison between the conventional forecasting method and SAS Forecast
Server procedures for the most part using default settings the results showed that Nestl often matches and
improves its current performance for the predictable part of the portfolio and thus frees up valuable time for de-
mand planners to focus on mad bulls.
Last but not least, Nestl emphasizes that even a system as sophisticated as SAS Forecast Server cannot replace
professional demand planners. Particularly for mad bulls, being connected in the business, with high credibility,
experience and knowledge is key. With more time available to tackle the complicated products, planners are able
to make more successful production decisions. And that means really having enough Nestl ice cream at the
beach when those hot summer days finally arrive. .

Ensure the right amounts of products make it to the shelves and into customers hands. Manage supply chain, plan
operations and organize logistics on a global scale based on a variety of influences and factors.

SAS Demand-Driven Planning and Optimization

Reliable forecast methods free up time to focus on demand planning for highly volatile products. More successful
production decisions ensure products are available when customers want them.
About Nestl
Nestl is the worlds biggest food company. More than 330,000 employees work at 469 locations in 86 countries to
generate annual revenues of more than 90 billion Swiss francs. These sales figures make Nestl the global market
leader by a large margin.

As Manager Concern Controller at Rabobank, John Lambrechts was assigned to implement chain management to
improve the banks ability to quickly gain insights from information coming from its chains or groups and improve
decision making. The Rabobank Group, a leading global financial services provider serving more than 10 million
customers and headquartered in The Netherlands, wanted to optimize its operations by improving the financial and
collaborative alignment across its chains.
We are much more flexible in our ability to provide information and direct our chain managers more effec-
tively. Our people have become more engaged because they can quickly see the results of what they do.
John Lambrechts, Manager Concern Control
Lambrechts explains, The first step we took to properly set this up, was to look at the data available and to de-
termine how this could be viewed. We discovered that there was an enormous amount of data available from all
groups of the banks organizational chain such as departments, business units and local branches. We needed one
system to integrate and structure all the information efficiently and provide the ability to share results.

Lambrechts found data visualization to be the perfect match.
Data visualization lets us analyze large amounts of data. The diverse visual options lead us to ask new questions
that we had not asked before, said Lambrechts. We are much more flexible in our ability to provide information
and direct our chain managers more effectively. Our people have become more engaged because they can quickly
see the results of what they do.
Rabobank developed new cost and chain models with partner Finext and implemented SAS Visual Analytics. The
bank also created a new data scientist job function for banking chain specialists. These specialists can probe the
data more extensively, evaluate cost backgrounds, and establish relationships and causes.
Because of the resulting transparency, Rabobank can see exactly who does what within the chain and which areas
must be tightened to optimize the profit of the chain. And although the solution is scalable to the number of users,
the banking group is using it in a strictly controlled environment to standardize how information is provided to chain
managers and organizational leaders.

I am extremely proud of what we have achieved so far. We have seen an increase in our managers use of chain
information, says Lambrechts.
Another important outcome has been the removal of boundaries between the chains and the motivation to develop
new thought processes. In the past, for example, departments would look within to find cost savings. But this type of
siloed action was sub-optimal and not always in the organizations best interests. With the knowledge and access to
all chain information, we are able to let go of old business models and replace them with more dynamic ones.

Improving how information is retrieved and shared from all groups within Rabobanks organizational chains to
optimize operations and make faster decisions.

SAS Visual Analytics

A centralized view of information about the banks organizational chains for improved financial and collaborative
A dynamic organization where the boundaries between departments and business components are removed and
chain information is embraced by decision makers.

Retours dexpriences Big Data en entreprise

To operate in the crowded telecommunications industry, service providers must answer the call for speed and avail-
ability millions of times each day. To prosper, they have to pick up the phone before it ever rings.
As Italys largest telecommunications provider, and with a notable presence in Latin America, Telecom Italia always
looks for ways to improve customer experience. That means delivering the reliable service that subscribers expect
today and knowing which offers they will expect tomorrow.
Were very impressed in terms of the usability and flexibility and time to market, too of SAS Visual Analytics.
Fabrizio Bellezza, Vice President of National Wholesale Services and Head of Market Development


As part of a program to improve customer experience for its 32 million mobile subscribers, the company had to
extend and reinforce its ability to monitor network service. To make sense of the enormous amount of unique and
varied data at its disposal, Telecom Italia turned to SAS for a way to make wise decisions quickly based on up-to-
the-minute trends.
We need to be able to respond quickly with new and improved offerings to our customers, and to analyze the
impact of these offers for the foreseeable future, says Fabrizio Bellezza, Vice President of National Wholesale
Services and Head of Market Development at Telecom Italia. Analysis that is valuable and makes sense today
may be irrelevant tomorrow. And we need to see well beyond tomorrow.
To understand how it stacks up to the competition, Telecom Italia needed to define and analyze key performance
indicators for mobile network voice and data traffic. In a fast-changing market filled with devices and applications
running on different generations of technology, whats relevant today might not be tomorrow. And beating the com-
petition means always knowing the right offer for each customer at the right time.

With SAS Visual Analytics, business executives at Telecom Italia can compare the performance between all
operators for a key indicator such as accessibility or percentage of dropped calls on a single screen for a quick
overview of pertinent strengths and weaknesses.
Using SAS, Telecom Italia adds in-memory analytics and advanced data visualization to the providers geomar-
keting system, simplifying the decision-support and operational processes that go into technical and commercial
planning. SAS Visual Analytics supports us in identifying network shortcomings and making fast improvements,
Bellezza says. It also allows us to calculate the statistical correlations between various KPIs for more effective
further analysis.
SAS Visual Analytics has allowed us to identify profitable areas that we can strengthen in terms of infrastructure
and services to be marketed.


A company whose leadership has always understood the role of sophisticated analytics in monitoring network traf-
fic and performance, in addition to spotting trends, Telecom Italia has used SAS since the 1990s.
SAS Visual Analytics allows Telecom Italia to analyze a range of KPIs at different levels of aggregation for both
voice and data traffic. These can be viewed on a single screen and can include:
Drop rate
Call setup time
Data throughput

Retours dexpriences Big Data en entreprise

This gives us a rapid overview of areas of competitive strengths and weaknesses, Bellezza says.
SAS Visual Analytics allows Telecom Italia to analyze coverage of specific areas and identify possible scenarios as
make or buy, prioritized by cost and benefit.
It helps analyze customer behavior and create a predictive model, forecast services and evaluate the profitability
of a development area after an investment.

When initially analyzing data, its impossible to predict the questions users may ask and often even the users
themselves are unaware of them, Bellezza says. SAS Visual Analytics helps us gain insights by simplifying the
transformation of data and enabling us to put it into a user-friendly format.
As a result, decision makers get a more comprehensive understanding of whats happening in the market, he adds.
Were very impressed in terms of the usability and flexibility and time to market, too of SAS Visual Analytics,
Bellezza affirms.

Telecom Italia required a flexible, user-friendly solution for visualizing large amounts of data.

SAS Visual Analytics

SAS Visual Analytics allowed the company to display data in a user-friendly format.

Retours dexpriences Big Data en entreprise



CLIENT: Grand groupe dassurance mutuelle et paritaire de protection sociale - N1 en retraite complmentaire
Porteur du Projet: Damien LEPRETRE

Transformations importantes au sein de lentreprise : Rapprochement avec une autre structure
Avnement du monde digital Ces deux grands dfis induisent des effets structurels sur les SI et sur le fonc-
tionnement de la DSI, auxquels lentreprise doit se prparer pour : Faciliter la convergence vers le futur SI com-
mun du groupe (best in class, rationalisation, industrialisation et effets dchelle,) Anticiper et acclrer la
digitalisation du groupe offres et services, relation client, culture et capacits test & learn, mode Lab, matrise
du capital informationnel interne et externe, agilit / time to market, small apps,


Lobjectif de la mission a t de construire une vision CONVERGEE CIO/CDO de la Stratgie SI Digitale et de
lorganisation cible DSI/CDO/Mtiers pour une approche conjointe auprs du COMEX

La mission a t mene en 4 tapes : Prise de connaissance afin de sapproprier le contexte SI Identifier le
niveau des rflexions digitales et le traduire en capacits digitales Partager, au sein de la DSI, une vision du
SI Digital et de ses impacts sur le fonctionnement de la DSI Confronter et faire converger les visions : CIO / SI
Digital - CDO / Stratgie Digitale de lEntreprise

Retours dexpriences Big Data en entreprise




CLIENT: Grand acteur international du crdit la consommation

Porteur du Projet: Jrme BESSON

Nouvelle stratgie dentreprise base sur 3 piliers :
Transformation digitale
Simplification et industrialisation des process
Augmentation des marges


Lobjectif de la mission a t de dfinir la nouvelle architecture de rfrence SI commune lensemble des filiales
du Groupe pour rpondre la disruption digitale et lacclration de la transformation de lentreprise vers le tout
numrique :
Fdration des exigences des diffrentes entits du groupe : omnicanalit de lexprience utilisateur, dmatriali-
sation tendue des processus mtiers, contextualisation et personnalisation la vole de la proposition de valeur
client et prescripteur et de lexprience vcue (interaction, processus & informations), cross-selling/up-selling,
volution rglementaire
Dfinition de la cible darchitecture, des principes directeurs en respect des cadres darchitecture dentreprise
Analyse critique architecturale de lexistant des diffrentes filiales et maturit de leur SI vis--vis de la cible
Co-construction avec les diffrentes DSI filiales des architectures de transition, des trajectoires de transformation
et dinvestissements pour atteindre la cible de rfrence
Fdration du portefeuille des projets des diffrentes filiales. Identification des projets transformant. Dtection
des synergies transnationales. Animation de la communaut des architectes. Conduite du changement auprs
des DSI et Directions Mtiers, France et International.
Cette mission a galement consist conduire des tudes darchitecture cibles intgrant la mise en place
dune infrastructure fdre de donnes (Shared Data Backbone) : Cible darchitecture dcisionnelle et cible
darchitecture du poste de travail des agents commerciaux.

Retours dexpriences Big Data en entreprise



CLIENT: Grand groupe franais de Mutuelle dAssurance

Porteur du Projet: Sbastien LAYER

Grand programme de transformation Ambition Client 2020 autour de 4 axes :
- Dvelopper la PROXIMIT Digitale


Mettre en place un socle Big Data INDUSTRIEL CROSS-METIERS pour gagner la bataille des donnes, la
bataille de la modernisation digitale et la bataille du lien client


Analyse ractive (contextualisation temps rel de la relation client sur tous les canaux)
Analyse historique du portefeuille client sur lensemble des donnes disposition (micro-segmentation, qualit et
volution de la relation, segmentation comportementale)
Analyse prdictive du portefeuille client (dtection dopportunits, prvention des risques)


Intgration dans un lac de donnes dune trs grande varit de donnes reprsentative du systme dinformation
(donnes transactionnelles, vnementielles, conversationnelles, sociales rfrentielles, dcisionnelles) pour
un volume avoisinant plusieurs milliards de donnes.


Conduite dune preuve-de-concept sur un usage emblmatique (vision 360 Client) valeur mtier et architec-
turale, base une infrastructure Commodity Hardware et des composants Open Source de lcosystme Hadoop
. Ralisation par une quipe mixe mtier-SI en mode agile (Utilisateur mtier, Ergonome, Analyste Donne, Stat-
isticien, Architecte Big Data, Dveloppeur Big Data) 3 mois
Choix des composants de la stack Big Data du projet de mise en uvre 2 mois
Industrialisation dun core-model groupe multi instanci au niveau des diffrentes enseignes + dploiement des
premiers usages en production 6 mois
En parallle, dfinition de loffre de service associe la fondation Big Data et de lorganisation mettre en place
pour en assurer la prennit et le dploiement dans lentreprise
Enrichissement versionn du socle core-model groupe en phase avec les besoins et exigences mtiers

Une innovation plusieurs niveaux :
Architecturale, avec la validation de la pertinence du modle darchitecture 3.0
Comportementale, avec le dcloisonnement des donnes entre les mtiers, entre monde oprationnel et monde
o Amlioration dusages existants (ex : vision 360 Client, Contrat)
o Perspective de nouveaux usages (ex : analyse de la couleur et la teneur de la conversation client, corrlation
des flux comptables)
o Capacit dinnovation renforce (Test & Learn, Data Lab)
Technologique, avec la mise en uvre de solutions innovantes issues des gants de la donne, permettant de
motoriser larchitecture 3.0


Le projet a permis denvisager une exploitation de toutes les donnes disponibles structures et non-structure
comme jamais auparavant, sans frontire de temps ni despace (ex : analyse des commentaires clients dans les
questionnaires de satisfaction et corrlation avec la notation ; dtection de nouvelle segmentation via des algo-
rithmes danalyses non propritaires).

Retours dexpriences Big Data en entreprise


La mise en place du lac de donnes a t un rvlateur et un catalyseur de nouveaux usages pour lensemble des
mtiers, encourags par des cots et une performance de traitement sans commune mesure avec lexistant. Elle
ouvre la place, au-del de lamlioration de la Business Intelligence et du dveloppement de la Business Analytics,
au dveloppement de la Data Science pour tirer le maximum de valeur du capital informationnel de lentreprise.
Elle a mis en vidence la ncessit dune gouvernance de la donne resserre pour matriser lexplosion des don-
nes et des usages.
Le lac de donnes est la premire tape vers la construction dune infrastructure fdre des donnes entre
monde oprationnel et monde analytique (Shared Data Back Bone), dont la frontire disparait.



CLIENT: Un des plus grands groupes mondiaux du secteur de lnergie

Porteur du Projet: Jean-Baptiste CECCALDI

Plusieurs tendances de fond, dj engages, rvlent et vont cristalliser les limites des Systmes dInformations.
Ces tendances de fond concernent toutes les Branches, toutes les BU. Elles vont induire de nouvelles exigences
multi-branches et refltent les enjeux du digital pour lentreprise.
Des exprimentations ont dj t entames par les BU pour rpondre localement ces sujets. Mais des stra-
tgies ou des choix locaux non encadrs (modle darchitecture, technologies, recours au cloud,) peuvent se
montrer incompatibles avec les enjeux ou crer de nouveaux risques, de nouvelles limites.
La DSI Corporate souhaite porter les transformations des SI du groupe et de ses pratiques.


Lobjectif de la mission a t de cadrer cette transformation au niveau groupe destine proposer lensemble
des entits et filiales une rponse architecturale et technologique adapte aux enjeux de partage/matrise/exploita-
tion de la donne pour accompagner les volutions digitales venir ou dj engages par les mtiers.

Document ralis par la Socit Corp Events - Janvier 2015
Retours dexpriences Big Data en entreprise

Dfinition de la feuille de route globale 18 mois : cible architecturale et technologique, trajectoire de transforma-
tion oprationnelle, organisation et cadre de gouvernance, plan de communication et de conduite du changement,
services activer, budgets requis
Communication de la vision et de la proposition de la DSI Groupe auprs de la Direction Groupe et des Directions
des multiples entits
Identification des premires cibles dexprimentations concrtes ncessaires pour dmontrer et convaincre
rapidement de la pertinence des gnes du modle Architecture 3.0
Prparation des diteurs/fournisseurs technologiques aux sollicitations venir
Identification des contributions de partenaires cls en particulier la Production sur les infrastructures et services
de production
Approfondissement avec les BU/BL des cas dapplication ou des besoins concrets dj identifis

Retours dexpriences Big Data en entreprise



CLIENT:Acteur majeur franais du jeu

Porteur du Projet:Jean-Baptiste CECCALDI

Le plan stratgique de cette entreprise vise entre autres :
A renforcer la connaissance de ses clients et de ses modes relationnels
A dvelopper une offre multi canal
La DSI identifie des axes sur lesquels le SI prsente des faiblesses structurelles, en particulier autour de la
matrise et du partage de la donne

La mission a permis de dlivrer en 6 semaines lensemble des lments permettant de lancer sereinement la
fabrication :
Dun SOCLE Big Data, garant de lexigence industrielle en production, regroupant les fonctionnalits requises
pour supporter les premiers cas dusage etpermettant de prparer le coup suivant
Des premiers USAGES pilotes, choisir parmi les projets candidats inscrits au plan 2015, et permettant de
dmontrer rapidement la valeur du modle tout en matrisant les risques oprationnels


Primtre fonctionnel des pilotes, les objectifs associs (mtiers et DSI)
Orientations architecturales et technologiques, linfrastructure ncessaire
Planning de ralisation, chances de livrables
Equipe de ralisation et organisation
Cot, prrequis de dmarrage, risques majeurs mettre sous contrle
Cible architecturale long terme (inscrire les actions court-terme dans la bonne direction)


Lancement de la phase dindustrialisation du socle Big Data et des projets candidats slectionns lors du cadrage
Identification dautres cas dusage et accompagnement des projets pour leur mise en uvre avec prise en
compte des volutions ncessaires du socle



CLIENT:Editeur et fournisseur de solutions informatiques mutualises dune grande banque internationale Fran-
aise. Porteur du Projet: Jean-Nicolas BIARROTTE-SORIN

Plan de transformation 3 ans autour des axes suivants :
Renforcement de la position vis--vis des filires linternational
Dveloppement dun nouveau business model et operating model
Fast IT
Scurisation des donnes et applications
Poursuite de la stratgie dindustrialisation
Retours dexpriences Big Data en entreprise


La mission a consist :
Dfinir les orientations darchitecture
Elaborer le plan daction de transformation


Architecture Data Centric
Architecture anywhere, anytime, any devices
Mise en place de modles permettant de dployer de nouvelles solutions transverses de niveau Groupe, en
sappuyant sur trois dimensions complmentaires:
o Une approche socles diffrencis, adapte la varit des entits,
o une approche SOA, pour faciliter lintgration aux paysages locaux et avec le Corporate,
o une approche Cloud, pour tre capable de supporter une varit de stratgie de dploiement (interne, externe,
hybride), en ligne avec la diversit des entits.

Retours dexpriences Big Data en entreprise

Retours dexpriences Big Data en entreprise




La rvolution numrique qui se droule sous nos yeux a pour corollaire une explosion des donnes, encore ac-
centue par le dveloppement des objets connects et la digitalisation des interactions. Ce dluge de donnes
ouvre de nouveaux horizons en matire de connaissance et de dialogue avec les clients. Le marketing devient
rsolument conversationnel, individualis, contextualis, mobile, social, temps rel et omnicanal.
Fort de plus de 30 ans dexprience en matire de valorisation du Capital Client, Soft Computing, Entreprise de
Services du Numrique spcialiste en CRM, Big Data et Digital, runit prs de 400 consultants, dlivrant des pr-
estations de Conseil, de Technologie et de Marketing Services.
Ainsi, nous accompagnons annonceurs & organisations, dsireux de mettre en place des plateformes Big Data et
omnicanal, relever les dfis oprationnels suivants:
Comment capter, analyser, exploiter (en temps rel ou non) lensemble des donnes off line et on line pour activer
une animation visiteur/client rentable, engageante, cohrente sur lensemble des points de contacts ?
Comment rconcilier des donnes de navigation & empreintes digitales (authentifis ou non) et donnes du
CRM tout en garantissant lunicit, la qualit des donnes, ainsi que le respect des rgles lgales locales et/ou
Comment crer une infrastructure de donnes prenne et agile, fonde la fois sur la ralit des besoins opra-
tionnels daujourdhui et lesquisse des usages de demain?
Comment apprhender les nouvelles technologies manant la fois du monde innovant Open Source, des pure-
players et des diteurstraditionnels et solides?
Comment prparer les organisations la fois dans leur monte en comptence et leur transformation: Data-
Scientism, Marketing prdictif, Agilit ?

Nous menons plusieurs projets Big Data dans les secteurs de la Banque, le Retail, les Transports, lnergie et des
Tlcoms. Notre dmarche pragmatique, pour matriser ces enjeux, guide nos interventions autour de 5 axes:
Cadrer: Aligner la stratgie, les besoins mtiers et SI pour tablir une trajectoire de mise en uvre volontaire face
aux enjeux de marchs hautement concurrentiels,
Evaluer : Choisir les solutions technologiques pour rpondre aux enjeux mtiers & SI puis valider leurs bon fonc-
tionnement et potentiel travers des phases dexprimentation ou Proof Of Concept,
Dcliner: Mener les chantiers par priorit pour construire une solution prenne, oriente rsultat et gnratrice
defficacit oprationnelle,
Dployer: Piloter toutes les phases projet pour garantir la bonne mise en uvre et implmentation du nouveau
Piloter: Consolider les indicateurs de performance, QOS, QOD et mesurer leurs volutions dans le temps tout en
mobilisant les ressources internes et externes au regard des objectifs dfinis.
Nos retours dExpriences: Laccompagnement de lun des acteurs majeurs de lnergie en France, dans la mise
en uvre dune DMP (Data Management Platform) a fait ressortir les points cls suivants:


Limiter le nombre de donnes first party en face des millions de lignes clients permet dintgrer progressivement
des donnes complmentaires. Dmarrer par des cas dusages mtiers simples et raisonnables permet de valider
le fonctionnement de la DMP par itration avant dinvestir des cas complexes forte volumtrie


Rconcilier les donnes Web et clients suppose de porter une attention particulire sur la gestion des identifiants
Internautes (cookies, IP, Mac) et CRM (email, Id foyer, ). La connexion lespace client reste un vecteur priv-
ilgi et efficace pour rapprocher internaute et client (plus que le clic dans un e-mail par exemple).


Connaissance client, rebond entrant, campagne marketing ne ncessitent pas la mme ractivit et le mme type
de rponse. Aussi il est crucial de dfinir les usages temps rel versus batch J+1 pour adapter le dispositif aux
diffrents besoins mtiers Laccompagnement dun leader du march des Tlcoms dans la mise en place dun
socle de connaissance client omnicanal (Big Data) afin de parfaire sa matrise des canaux (reporting & dataviz),
lanalyse comportementale client, puis dclencher des actions personnalises auprs des visiteurs sur des canaux
traditionnels (point de vente, service client) et digitaux (bannire web, selfcare), nous amne souligner les
points suivants:
Retours dexpriences Big Data en entreprise


Ne pas tenter de prsumer des usages de la donne de demain, mais plutt imaginer le dispositif agile (architec-
ture) qui permettra dabsorber rapidement une nouvelle source ou un nouveau format de donne sans retour
arrire et sans dstabiliser les chanes dinformation critique (ERP, DWH)


Se mettre en situation de propager des donnes client forte valeur ajoute en temps rel (tags, lments de
parcours ou scores) pour pouvoir demain activer la bonne action (push ou argumentaire de vente) au bon moment
quel que soit le canal (une poste vendeur ou une bannire web)


Exprimenter et driver des premiers dveloppements partir de use cases simples, ralistes simplifiant une exp-
rience cross canal et gnratrice dun ROI rapide

Laisser place la dcouverte des donnes

Laisser du temps aux quipes oprationnelles pour sapproprier et cruncher des nouveaux univers de donnes
(cest le cas des donnes de navigation mobile ou selfcare) pour imaginer la fois de nouveaux modles statis-
tiques prdictifs et de nouveaux processus client.
En synthse, les principes mis en uvre dans les projets de relation clients depuis plusieurs annes sappliquent
encore aujourdhui dans cette nouvelle aire du digital data driven. Il apparait important de souvrir aux nom-
breuses nouveauts quoffrent ces perspectives tout en gardant une dmarche pragmatique et oriente vers des
rsultats oprationnels tangibles et concrets.

Retours dexpriences Big Data en entreprise



En tant quoprateur tlcom majeur comptant plus de 21 millions de clients, SFR collecte quotidiennement une
quantit norme de donnes. Lobjectif du projet Hadoop chez SFR tait en premier lieu de rduire les cots
dexploitation de ces donnes. Au fur et mesure que le volume de donnes augmente, il est de plus en plus
difficile et coteux de stocker et traiter les donnes. En utilisant de faon optimale le cluster Hadoop et les outils
puissants de tri et ETL de Syncsort, il est possible de limiter linvestissement dans du nouveau hardware.


SFR a dcid de lancer le projet Hadoop la fin de 2013. Dans une premire phase, le choix sest port sur la
distribution Hadoop Cloudera et dbut 2014, il a t dcid de travailler avec DMX-h de Syncsort pour loader et
offloader des donnes partir du cluster Hadoop. SFR utilisait dj loutil ETL DMX de Syncsort pour quatre autres
projets, pour lesquels il avait fait ses preuves. Les trs bonnes performances de DMX-h de Syncsort ont ensuite
pu tre dmontres dans le cadre du Proof of Concept pour le projet Hadoop. Nous travaillons encore en mode
batch, explique Franois Nguyen, en charge de la division Connaissance Client chez SFR. Cela implique que
nous disposons dune fentre de traitement rduite. Nos engagements prcdents avec Syncsort se sont rvls
trs efficaces. Leurs capacits de tri nont pas dquivalent sur le march, et nous sommes trs heureux que Sync-
sort soit lun des vritables innovateurs sur le march Hadoop. Leur mcanisme de tri est incorpor la distribution
Hadoop que nous utilisons.
Au cours de lt 2014, les premires sources de donnes ont t loades dans le cluster Hadoop, et davantage
de sources seront ajoutes toutes les deux ou trois semaines. Il ne sagit pas dun projet avec un horizon dter-
min, nous allons continuer ajouter des sources de donnes en permanence, explique Franois Nguyen.
A lheure actuelle, la division Connaissance Client gre une base de donnes trs volumineuse , qui narrte pas
de crotre. Les donnes traites dans le cadre du projet Hadoop sont principalement des donnes structures mais
on y retrouve galement des donnes semi-structures provenant de logs.

Le projet chez SFR est lune des premires vritables expriences Big Data et Hadoop sur le march franais. Le
projet permettra SFR de raliser des conomies, grce la performance des solutions implementes.


Lune des premires russites du projet a t la capacit concrtiser les premires tapes dans le dlai imparti
et selon le budget, ce qui est une prouesse compte tenu quil sagit de lintroduction de technologies de pointe. La
mise en route aussi rapide du projet est principalement due au fait que SFR na pas eu effectuer une phase de
tuning avant de commencer utiliser DMX-h pour manipuler les donnes ni raliser de codage supplmentaire.
Les rsultats seront valus en permanence au fur et mesure que de nouvelles sources de donnes sajoutent
au cluster Hadoop.
Lutilisation des puissantes capacits de tri de Syncsort DMX h nont pas rendues ncessaires lacquisition de
hardware supplmentaire.



PagesJaunes, filiale 100% de Solocal Group (groupe cot sur le march Euronext Paris), migre sur la plateforme
Hadoop pour optimiser ses outils daide la dcision. LETL pour Hadoop de Syncsort est apparu comme la solu-
tion la plus fiable, tant en termes de volumtrie que de rapidit, pour rpondre aux nouveaux besoins business
dans le contexte dune transformation numrique qui fait cas dcole aujourdhui.
Retours dexpriences Big Data en entreprise

PagesJaunes est le leader franais de la publicit et de linformation locale sur Internet (pagesjaunes.fr, pagespro.
com), mobile (sites et applications) et imprim (lannuaire PagesJaunes et lannuaire PagesBlanches). Pages-
Jaunes est aussi un des leaders des services de renseignements par tlphone et SMS (118008), des petites
annonces en ligne (annoncesjaunes.fr) et est le premier crateur de site Internet en France.
En pleine transformation numrique de ses mtiers, PagesJaunes est la recherche de solutions analytiques
agiles qui permettent ses quipes commerciales de prendre les bonnes dcisions, rapidement. Lentreprise
sest engage dans une transformation de sa plateforme daide la dcision pour sortir de la Business Intel-
ligence traditionnelle et tirer rellement des avantages business des Big Data. Notre ambition est de faire parler
les donnes, situe Abed Ajraou, responsable de Domaine Business Intelligence au sein de Business Solutions
chez PagesJaunes. Il a rejoint lentreprise il y a un an environ pour mettre en place une stratgie Big Data, dans
le contexte dune migration dune infrastructure base de donnes IBM avec appliance Netezza vers le framework
Hadoop. Lobjectif est de faire face aux dfis techniques en termes de capacit (explosion du volume des don-
nes), de stockage de donnes non structures et de reporting en temps rel.


ETL pour Hadoop permet doptimiser notre informatique dcisionnelle, explique Abed Ajraou. En rsum,
lenjeu consiste mettre disposition des responsables commerciaux des capacits danalyse granulaire, leur
permettant doptimiser leurs forces de vente par secteur gographique notamment.
La solution DMX-h fournie par Syncsort est utilise pour lextraction, la transformation et le chargement (ETL) sur
Hadoop, ainsi que pour des fonctions dexportation et importation de donnes. Les chos du march taient
positifs quant aux performances de lETL Hadoop de Syncsort. Des progrs considrables ont t raliss en 2
ans. Nos tests et notre proof of concept ont galement t concluants. Venant du monde du mainframe, le four-
nisseur jouissait dj dune rputation de solidit. Ce sont les premiers fournir ce genre doutil sur Hadoop.,
souligne Abed Ajraou.
Bien que la vocation premire du projet Hadoop chez PagesJaunes ne soit pas de raliser des conomies, mais
bien damliorer la qualit des donnes et booster ainsi les performances commerciales, le cot abordable de la
solution Syncsort est galement un argument non ngligeable : la solution devrait nous permettre de faire des
conomies substantielles sur les cots de support logiciel. Nous pourrons faire beaucoup plus avec beaucoup
moins, affirme Abed Ajraou. Le dploiement dapplications sur Syncsort DMX-h a dmarr dbut 2015. Un
premier retour dexpriences est attendu pour mars et sera dailleurs partag la confrence Big Data de Paris.


Une demi-douzaine dapplications web sont progressivement mises en production. Elles visent pour la plupart
booster les performances des quipes marketing et ventes en acclrant le reporting financier, le cas chant sur
un appareil mobile. Les applications sont en effet conues selon les principes du responsive design. Un point
central porte sur la possibilit de rafrachir les chiffres de ventes, toutes les 5 minutes, par produit, par segment,
par gographie ou par agence.
Globalement, les enjeux de performances techniques sont davantage lis la rapidit des temps de rponse et
la granularit des donnes analyses quau volume de donnes en tant que tel. Nous parlons de 45 millions de
lignes de data, ce qui nest pas si norme compar dautres implmentations sur Hadoop. La plateforme nous
permet lavenir de grer de gros volumes de donnes pouvant atteindre entre 15 et 20 To de donnes, poursuit
Abeb Ajraou. Ce projet Big Data sur Hadoop est emblmatique dune stratgie dentreprise qui met linformatique
au service du business, nhsitant pas le cas chant anticiper les besoins des quipes commerciales et
leurs donner des instruments de proactivit. Ce nest pas pour rien quau sein de PagesJaunes, le dpartement
systmes dinformation a t rebaptis Business Solutions, avec une mission qui va bien au-del dun simple
support oprationnel. Ce type de projet contribue renforcer la valeur ajoute de linformatique auprs de la direc-
tion gnrale, souligne Abed Ajraou.



Profil de lentreprise: Grand groupe de tlcoms, mdias et home entertainment.

Acteur majeur du home entertainment, cette entreprise gnre et collecte des volumes de donnes parmi les plus
importants du march. Pour cela, elle exploite un data warehouse Netezza de plusieurs ptaoctets dont le volume
suit chaque anne une croissance deux chiffres. Comptes clients, communications, programmes de fidlisation,
paramtres de confidentialit, mesures daudimat ce data warehouse sous-tend les applications critiques de
toute lentreprise.

Retours dexpriences Big Data en entreprise

Au dpart, lentreprise avait choisi dassocier Informatica du codage SQL manuel pour effectuer ses traitements
ELT lourds dans la base de donnes Netezza, y compris des operations courantes comme le tri, lagrgation et
la CDC (Change Data Capture). Or, cette approche extrmement gourmande en capacits Netezza sest trs tt
rvle ingrable car trs coteuse en mises niveau des matriels, logiciels et bases de donnes. Ct res-
sources, la pression tait galement norme car les dveloppeurs ETL devaient consacrer un temps prcieux
optimiser et maintenir des centaines de lignes de code SQL, ne laissant que trs peu de marge la gestion des
nouveaux besoins mtiers.

Face la hausse des cots de ses logiciels de bases de donnes et ETL, lentreprise dcida de stopper tout in-
vestissement dans sa plate-forme ETL existante devenue ni plus ni moins quun planificateur de tches onreux
et doffloader plus de 500 oprations ELT vers Netezza.
Pour mettre la solution en place, elle sest tourne vers Syncsort. Rapide et scuris, le logiciel dentreprise Sync-
sort DMX-h permet aux entreprises de dvelopper des flux de donnes sophistiqus dans Hadoop, sans aucune
criture ni optimisation de code. Syncsort DMX-h sexcute nativement sur YARN. Contrairement dautres solu-
tions, ce logiciel ne gnre aucun code Java, Pig ou HiveQL et ne ncessite aucune compilation, optimisation ou
maintenance de code.
Une fois les objectifs et le cahier des charges connus, Syncsort a propos son client une solution doffload de
son data warehouse.
Lune des principales vocations dHadoop consiste prendre le relais de systmes anciens et coteux pour le
stockage et le traitement de donnes. Or, sans les outils appropris, lidentification, laccs et le transfert des
donnes vers Hadoop peuvent rapidement se rvler complexes. Cest pourquoi Syncsort offre des outils cibls
permettant doffloader rapidement et efficacement les traitements batch et ELT des data warehouses vers Hadoop.
Pour lentreprise, ladoption dune solution doffload Syncsort-Hadoop reprsentait le meilleur moyen de rduire
ses cots et de prparer son infrastructure de gestion des donnes aux futures initiatives mtiers. Ainsi, outre la
forte preference du client pour lopen source pure, le partenariat troit entre Syncsort et Hortonworks a favoris sa
dcision en faveur dHortonworks Data Platform comme plate-forme Big Data pour son projet doffload.

En offloadant le data warehouse, la solution Syncsort-Hortonworks est appele gnrer plusieurs millions de
dollars dconomies sur diffrents facteurs de cots dans les annes venir :
Matriels et logiciels de bases de donnes
Licences logicielles ETL
Maintenance et optimisation des codes SQL
La pnurie de dveloppeurs Hadoop comptents en Pig, Hive et MapReduce constituait lun des principaux ob-
stacles ladoption dHadoop dans lentreprise. Grce son interface graphique, Syncsort DMX-h a permis aux
dveloppeurs dexploiter leurs comptences ETL existantes pour crer des flux et traitements de donnes sophis-
tiqus, sans aucun codage manuel. Par exemple, il na fallu quune semaine un dveloppeur pour transfrer une
opration ELT de 340 lignes SQL vers DMX-h. Cette mme opration lui aurait pris entre trois et quatre semaines
de codage.
La connectivit complte de DMX-h Hadoop permet aux quipes informatiques dextraire et de charger native-
ment les donnes depuis la plate-forme HDP ou dexcuter une opration hors cluster sur un serveur ETL.
Par ailleurs, lintgration troite de DMX-h Apache Ambari, au JobTracker dHadoop et aux protocoles standards
de scurit comme LDAP et Kerberos leur permet de dployer, maintenir, monitorer et scuriser leur nouvel envi-
ronnement HDP en toute simplicit.
Enfin, cette nouvelle architecture offre une plate-forme plus flexible, scalable et conomique pour le dploiement
de nouvelles initiatives mtiers : collecte et analyse dun plus grand nombre de donnes issues des box TV-Inter-
net, augmentation des mesures daudimat et assimilation des donnes dactivit des internautes.

Syncsort propose des logiciels dentreprise srs et performants. Solutions Big Data dans Hadoop ou applications
Big Iron sur mainframes : quels que soient les enjeux de nos clients, nous intervenons dans le monde entier pour
acclrer la collecte, le traitement et la diffusion de leurs donnes, tout en rduisant les cots et les ressources
engags. Cest pourquoi la majorit des entreprises du Fortune 100 font confiance Syncsort. Utiliss dans plus
de 85 pays, nos produits vous permettent de raffecter vos charges coteuses et inefficaces, dacclrer les traite-
ments dans votre data warehouse et sur votre mainframe, et doptimiser lintgration de vos donnes au Cloud.
Pour en savoir plus, rendez-vous sur www.syncsort.fr

Retours dexpriences Big Data en entreprise




o Partner : BNP Paribas

o Contact person : Pierre Thebault (BNP Paribas) and Edouard Beaucourt (Tableau Software)

Innover pour dvelopper des parts de march, remporter de nouveaux clients et augmenter la part du portefeuille
de clients existants.

Le gant bancaire franais a mis sur Tableau pour recueillir et analyser ses donnes en seulement quelques min-
utes. La division BNP Paribas du Sud-Ouest de la France dispose maintenant de la capacit de visualiser les tend-
ances de gocodage utilises dans le cadre des campagnes commerciales et marketing de la banque. Et laperu
partag et dtaill de la performance de 2 000 agences travers la F contribue renforcer la comptitivit.

Pierre Thebault, goanalyste, est charg danalyser et didentifier les tendances de gocodage au sein dune r-
gion. Grce Tableau, il traque les opportunits de prospecter de nouveaux clients et de dvelopper de nouvelles
campagnes marketing extrmement cibles : Tableau est le moyen le plus rapide de passer des donnes aux
dcisions . Il est mme de localiser et de visualiser le nombre de prospects dans la rgion de Toulouse, et de
les segmenter par revenus, par risques et selon les services financiers de BNP Paribas dont ils disposent dj.
Sils ont souscrit un prt immobilier, ils constituent un candidat potentiel pour la souscription dune assurance habi-
tation ou dune carte de crdit. Tableau permet de visualiser lensemble des donnes en quelques secondes, ce
qui permet son quipe de transmettre ce public cible segment aux quipes commerciales internes de la banque
pour un suivi immdiat.
BNP Paribas recherche constamment des manires de diffrencier ses services en offrant une exprience plus
localise. Tableau permet la banque dtudier la localisation des distributeurs automatiques de billets des concur-
rents et didentifier les sites potentiels pour de nouveaux distributeurs : Comparer la localisation de nos clients
avec la disponibilit du rseau existant de distributeurs automatiques de billets nous permet de cibler de nouveaux
emplacements de distributeurs , dclare Pierre Thebault.
Malgr lexpansion des services bancaires en ligne, les franais restent attaches aux agences physiques. Tableau
reprsente la source primaire pour les rapports sur la performance des 2 000 agences BNP Paribas franaise.
Directeurs et responsables partagent un aperu dtaill de la performance de chacune des agences : chiffre
daffaires, rentabilit, personnel, adoption des services bancaires en ligne de la part des clients, etc. Laccs
rapide des donnes fiables, grce Tableau, se traduit par une prise de dcision vive et fiable concernant les
agences , affirme Pierre Thebault. Il poursuit, Avant Tableau, nous utilisions des feuilles de calcul et une base
de donnes Access. Cela nous prenait des heures, des semaines, voire des mois, pour trouver les donnes
correctes et les rponses dont nous avions besoin. Dsormais, grce Tableau, lintgration homogne et la
simplicit dutilisation signifient que nous obtenons les rponses en quelques minutes. Cela rend-il la banque plus
perspicace ? Oui, sans lombre dun doute.

La majeure partie de linspiration pour ce programme couronn de succs appartient Mydral, le partenaire
dexcution de BNP Paribas. La vision, la perspicacit et lexprience de lquipe de Mydral ont contribu au
lancement de Tableau en quelques jours. Mydral a galement fourni BNP Paribas trois jours de formation et de
transfert des connaissances afin de garantir que lquipe soit oprationnelle presque immdiatement.
Ce projet attire dsormais lattention dautres services de la banque. BNP Paribas dploie actuellement Tableau
sur les sites rgionaux de Paris et Nantes dans le cadre dun projet de segmentation de la clientle. Ces donnes
sont utilises pour comprendre les tendances, concevoir de nouvelles campagnes, et maximiser la valeur de BNP
Paribas tire des donnes marketing.

Retours dexpriences Big Data en entreprise



o Partner : Croix Rouge franaise

o Contact person : Marie-Ange Tnani (Croix Rouge franaise) et Edouard Beaucourt (Tableau Software)

La Croix-Rouge franaise faisait face un cloisonnement des systmes dinformation, sans vision transversale,
avec une remonte dinformations irrgulires. Lassociation souhaitait mettre en place un systme dinformation
dcisionnel transverse sappuiant sur une plateforme complte: un outil dETL, une base de donnes et un outil
de tableaux de bord.

Association but non lucratif, la Croix-Rouge franaise dispense ses services dans les domaines sanitaire, social,
mdico-social, de la formation, et de laction humanitaire. Prs de 54000 bnvoles renforcent les 18112 salaris
qui sont rpartis dans plus de 570 tablissements. Au cur de lassociation, les systmes dinformation (SI)
ont pris une place prpondrante, accompagnant le dveloppement et les besoins des diffrents mtiers de la
Croix-Rouge franaise. Quarante-trois personnes travaillent la Direction des Systmes dInformation, auxquelles
sajoutent 7 responsables informatiques rgionaux. Le budget de la Direction des Systmes dInformation dpasse
8 millions deuros.

Les annes 2000 ont vu le dveloppement des systmes dinformation dans loptique dun meilleur pilotage
de lensemble de lassociation explique Laurent Monnet, Directeur des Systmes dInformation de la Croix-
Rouge franaise, en suivant une logique dharmonisation de nos solutions, de rationalisation de nos ressourc-
es. Lambition affiche de la Direction des Systmes dInformation est doptimiser le pilotage de lactivit de
Lors de la construction des SI, nous tions focaliss sur le dveloppement de la partie support et transaction-
nelle. Dsormais, lattente des utilisateurs est forte pour des outils de pilotage. Le moment tait venu de rflchir
une architecture dcisionnelle dveloppe Laurent Monnet. La Croix-Rouge franaise faisait face un cloisonne-
ment des systmes dinformation, sans vision transversale, avec une remonte dinformations irrgulires.
Nous souhaitions en complment de notre outil de reporting un outil convivial, intuitif pour les utilisateurs, qui
permette des reprsentations graphiques dynamiques, des rsultats en temps rel prcise Marie-Ange Tnani,
Ple Applications et Dveloppement et Chef de Projet Systme dInformation Dcisionnel. Aide par Altic, intgra-
teur de solutions Open Source pour le Dcisionnel, le traitement des flux de donnes et les outils collaboratifs, la
Direction des Systmes dInformation a fait le choix de Tableau Software.
Spcialiste dans son domaine, Altic a su comprendre nos besoins, dans une vraie logique daccompagnement,
en nous orientant vers une architecture complte, performante et volutive se satisfait Marie-Ange Tnani, La

Retours dexpriences Big Data en entreprise

ncessit tait forte dun outil qui permette une grande autonomie des utilisateurs, donc avec une ergonomie
soigne, une grande facilit dusage. Les premiers rsultats probants nont pas tards. En lespace de 2 mois et
demi, un datawarehouse complet a t construit sur les EHPAD (tablissements dHbergement pour Personnes
ges Dpendantes). Cet entrept de donnes comprend 43 indicateurs et 6 sources de donnes diffrentes
(comptabilit, ressources humaines, budget, mtier, trsorerie, organisation).

En 3 semaines, avec Tableau, la Croix-Rouge franaise disposait de son premier tableau de bord. Par expri-
ence, il aurait fallu 6 mois pour un tel rsultat insiste Marc Sallires, fondateur dAltic. Tableau joue un rle
majeur dacclrateur et catalyseur en tant un outil de data visualisation majeur dans une chaine de Business
Intelligence, qui apporte agilit, souplesse et rapidit dans la restitution de linformation.
Tableau nous a permis de donner aux managers des indicateurs pour piloter leur organisation. Les utilisateurs
dcouvrent et sapproprient les donnes dtaille Marie-Ange Tnani.
Les rsultats tangibles sont immdiats : en cassant les silos, on cre un langage commun autour de la donne.
Les utilisateurs se retrouvent autour de dfinitions. Cela cr un cercle vertueux damlioration continue de la
qualit des donnes, en mettant en relief les incohrences existantes.

Tableau Software offre une reprsentation gographique

Les premires restitutions graphiques ont confort la Direction des Systmes dInformation dans son choix. Tableau
offre une vue transverse qui intgre des indicateurs de diffrentes sources, avec une reprsentation gographique
de certains de ces indicateurs souligne ainsi Marie-Ange Tnani. A terme, la Direction des Systmes dInformation
de la Croix-Rouge franaise vise la fourniture de tableaux de bord pour ses 570 tablissements, consultables via le
reader de Tableau. Le cout global de la solution, maitrise, nous autorise cette ambition conclut Laurent Monnet.




o Partner : IsCool
o Contact person : Galle Periat (IsCool) et Edouard Beaucourt (Tableau Software)

Des revenus issus du jeu qui ont quadrupl en cinq ans. Plusieurs teraoctets de Big Data concernant les joueurs ont
t exploits, afin de permettre une prise de dcision agile et efficace. Des analyses visuelles ont t ralises
en quelques minutes, contrairement aux semaines dattente qui taient parfois ncessaires avec une prcdente
solution dinformatique dcisionnelle. Il ne sagit que de quelques uns des principaux aspects de lutilisation que

Retours dexpriences Big Data en entreprise

fait IsCool de la solution danalyse par virtualisation en temps rel de Tableau Software. En comprenant mieux les
prfrences, les comportements et les besoins des joueurs, cette importante socit de jeu europenne fait crotre
en taille et en nombre ses communauts mondiales de joueurs, pour un cot de possession remarquablement bas.


Chef de file europen dans le secteur du jeu en ligne, IsCool Entertainment runit 2,8 millions dutilisateurs sur
Facebook et dautres mdias, au sein de jeux interactifs comme IsCool, Star Connect et Temple Of Mahjong. Lun
des catalyseurs du succs de cette socit est son utilisation extrmement prcise des outils dinformatique dci-
sionnelle, cest--dire une approche rigoureuse de lanalyse des profils des clients, de ladoption par les utilisateurs
et des modes de jeu.
Trois ans auparavant, alors quIsCool disposait dune base de 400 000 utilisateurs et annonait des bnfices
de 3 millions de dollars, cette socit parisienne se basait sur une approche simple de lintgration des don-
nes et de linformatique dcisionnelle pour guider ses choix. Celle-ci tait compose doutils dintgration open
source et dune solution logicielle commerciale de visualisation dcisionnelle. Cependant, les 18 millions dactions
aujourdhui gnres quotidiennement par les utilisateurs ainsi que des revenus quadrupls par rapport 2009
imposent cette socit de saxer sur une analyse agile des Big Data.
Les donnes de jeu croissent exponentiellement et voluent en temps rel , explique Galle Periat, analyste
numrique chez IsCool. Nous collectons des donnes issues des journaux des applications, des publications
Facebook et des repres analytiques. Il est impratif que ces donnes soient fournies sans dlai aux dcideurs
commerciaux afin quils puissent, en temps opportun, proposer de nouvelles offres aux joueurs, prendre des dci-
sions en matire de dveloppement des jeux et confrer aux campagnes publicitaires un impact maximal.
IsCool avait galement besoin dune approche flexible concernant la visualisation et la prsentation des donnes.
Les concepteurs de jeux, par exemple, souhaitaient bnficier de graphiques visuels et intuitifs, afin de pouvoir
ajouter de nouvelles fonctionnalits leurs ralisations actuelles les plus populaires. Les dveloppeurs prfraient
consulter des rapports gnrs partir des fichiers journaux techniques. Les cadres suprieurs dIsCool nces-
sitaient quant eux une vision instantane des prvisions de revenus, des pipelines et des dpenses publicitaires.


Encore rcemment, IsCool tait quipe dun outil QlikView. Selon Galle Periat, la nature ferme de cette technol-
ogie impliquait la prsence permanente dun analyste qui devait participer lintgration des donnes. Chaque
fois quun cadre suprieur exigeait un rapport, nous devions mettre en place certains scripts, ce qui retardait invi-
tablement la fourniture des rsultats , explique-t-elle.
Afin de pallier cette situation, IsCool a adopt en standard une solution danalyse visuelle en temps rel propo-
se par Tableau. la pointe de sa catgorie, cette solution dinformatique dcisionnelle efficace, rentable et col-
laborative est utilise par 20 quipes au sein de la socit, afin de permettre des prises de dcisions ponctuelles
et fiables. IsCool peut connatre instantanment le nombre dutilisateurs de ses jeux (trafic), les fonctionnalits
les plus couramment utilises, la dure des sessions de jeu, les tlchargements les plus populaires, et bien plus


En exploitant les Big Data, lquipe peut galement tudier la corrlation entre la taille dune communaut de
joueurs et son niveau dinteraction. Une fois lune de ces communauts identifie (quil sagisse dun simple
binme de joueurs ou dun regroupement de moyenne ou grande envergure), lquipe peut interagir avec elle de
faon plus efficace, la fidliser et la faire crotre de faon spectaculaire.
Des jeux spcifiques passent eux aussi sous le microscope que constitue la gnration de rapports. Tableau
permet de rpondre des questions telles que : Un jeu est-il trop riche en fonctionnalits ? , Quelles sont
les fonctionnalits utilises par telle catgorie de joueurs ? , et Comment optimiser laccs aux fonctionnali-
ts ? De plus, IsCool peut dsormais tablir de faon fiable et rapide les diffrentes catgories dutilisateurs,
caractrises par leur profil dinteraction et leur utilisation des fonctionnalits. Cette meilleure comprhension de
linteraction des utilisateurs avec les jeux IsCool a men une augmentation incrmentielle de 23 % de celle-ci,
pour certaines catgories dutilisateurs cibls.
Dans le mme temps, les cadres autoriss dIsCool reoivent un rapport quotidien et essentiel de veille commer-
ciale, qui comprend les revenus gnrs la veille classs par catgories, le nombre dutilisateurs simultans du
jour et le nombre de joueurs actifs. Alors quil nous fallait jusqu une semaine pour prparer nos rapports dans
QlikView, nous pouvons maintenant laborer et partager de nouvelles ides en quelques minutes avec Tableau.


Galle Periat a t convaincue ds le dbut. Lorsque jai intgr lquipe dIsCool, celle-ci mavait dit : voici
Tableau, il sera ton meilleur ami. Sur le coup, je navais pas pris cette dclaration au srieux. Mais en quelques
minutes, jtais productive. Je pouvais dvelopper de nouveaux rapports en temps rel et mettre en vidence des
rsultats concernant lexprience de jeu. Je naurais jamais pu faire cela auparavant.
En transformant IsCool en une organisation de jeu agile et axe sur les donnes, Tableau a aid cette socit
quadrupler ses revenus en cinq ans. Tableau a permis IsCool de prendre le contrle des Big Data et a rendu
notre processus de prise de dcision plus rapide, plus simple et plus efficace. Je doute quIsCool aurait pu passer
de 3 millions de dollars de revenus en 2009 13,2 millions de dollars aujourdhui, sans la visualisation interactive
des donnes que nous procure Tableau , ajoute Galle Periat.
Une autre composante essentielle de ce succs a t linnovante base de donnes analytique Actian Vector-
wise. En remplaant une plate-forme open source, Vectorwise fournit IsCool des performances ultra rapides et
rentables en matire de bases de donnes et dinformatique dcisionnelle. Installe sur des serveurs virtuels pour
un traitement extrmement efficace des Big Data, cette solution stocke jusqu un teraoctet de donnes de jeu.
Vectorwise permet Galle Periat et ses collaborateurs danalyser un volume de donnes plus grand que jamais,

Retours dexpriences Big Data en entreprise

pour une fraction du cot du traitement classique de celles-ci. Elle prcise : En utilisant Vectorwise, IsCool peut
traiter et exploiter dnormes quantits de Big Data sur des machines bien plus faiblement dimensionnes. Cette
rationnalisation permet notre socit dconomiser chaque anne plus de 10 000 dollars de matriel. Pour une
petite entreprise dynamique comme IsCool, il sagit dune conomie significative.
Pour Galle Periat, il nexiste quune seule faon de rsumer la valeur de Tableau. Chez IsCool, nous pensons
que Tableau est trs cool , conclut-elle.



o Partner : Nokia
o Contact person : Ravi Bandaru (Nokia) et Edouard Beaucourt (Tableau Software)

Lauteur Robin Bloor est analyste principal chez Bloor Group, une socit danalyse en conseil, recherche et
technologie ciblant la recherche libre et lutilisation des mdias modernes pour regrouper des informations et
les redistribuer aux utilisateurs. Pour plus dinformations, consultez les sites www.TheBloorGroup.com et www.
Cet entretien de Bloor Group sinscrit dans le cadre dun projet de recherche.

Avant Tableau, Nokia confiait ses rapports et ses analyses de donnes des intermdiaires informatiques. Dsor-
mais, ce sont les utilisateurs qui tiennent les rnes. Lanalyste ralise prsent lanalyse lui-mme dans une plus
grande mesure, sans que le service informatique nintervienne entre lui et les donnes.
Ravi Bandaru, responsable produit pour la visualisation et lanalyse des donnes chez Nokia, utilise Tableau depu-
is juillet 2010. Il affirme quau sein de cette socit, 350 400 personnes utilisent Tableau (sous forme bureautique
ou interactive). Une vritable communaut sest ainsi forme.
Avant, les utilisateurs taient effrays lide dutiliser les outils de solution dcisionnelle existants. Ils se reposa-
ient alors sur des intermdiaires, comme le personnel informatique, pour soccuper de leurs donnes, dclare-t-il.


Selon lui, les capacits de mmoire interne de Tableau offrent deux avantages : une interface personnalisable et
une augmentation de la vitesse des performances des requtes.
Lanalyste ralise prsent lanalyse lui-mme dans une plus grande mesure, sans que le service informatique
nintervienne entre lui et les donnes, dclare-t-il. Ces capacits de mmoire interne me permettent dexplorer
des ensembles de donnes plus complexes et plus vastes, qui mtaient auparavant inaccessibles.
Nokia utilise Tableau dans le cadre danalyses marketing et la install sur sa propre base de donnes. Bandaru
dclare que les requtes en direct normalement excutes dans leur base de donnes ne donnent pas les temps
de rponse escompts, la diffrence de celles excutes dans le moteur de donnes Tableau, qui apportent une
rponse instantane partir de laquelle il peut travailler. Il ajoute que Tableau est utile dans le cadre des analyses
ad hoc et que la plupart des analystes actualisent leurs donnes de faon hebdomadaire.
Bandaru poursuit en disant quil lui arrive de recommander Tableau certains types dutilisateurs. Parfois, ce sont
les utilisateurs eux-mmes qui viennent lui pour pouvoir lutiliser. Toutefois, lutilisateur final standard auquel il est
confront nest pas intress par les analyses, les statistiques ou le langage SQL.


Bandaru dclare : Si lutilisateur final est passionn de donnes ou danalyses, il adorera utiliser Tableau car ce
logiciel lui permet daccder dsormais de nombreuses sources de donnes. Un utilisateur moins expriment
peut lutiliser simplement comme outil de solution dcisionnelle. Il revient ensuite la direction de proposer des
formations et dexpliquer que cet outil permet de gnrer des travaux complexes, impossibles raliser avec
dautres outils.
Nokia utilise actuellement Tableau Version 6/6.1. Bandaru explique quil attend des
amliorations dans la version 7.0, telles que le partage dextraits dans les classeurs, permettant ainsi un extrait
de faire office de source de donnes, ou encore le partage dextraits entre plusieurs utilisateurs du monde entier.

Retours dexpriences Big Data en entreprise

Il dclare que ce type de collaboration rationalise serait particulirement utile pour un nouvel employ non famil-
iaris avec le fonctionnement de lentreprise. De nos jours, affirme-t-il, nous devons encore accder la source de
donnes dorigine. Mais il serait bnfique lavenir que ce mme employ soit capable dextraire et dutiliser les
donnes cres par nimporte quel service, et ce nimporte o.
Bandaru essaie de faire en sorte que le produit soit adopt dans une plus grande mesure en proposant des outils
de collaboration internes, tels que des wikis, des sessions des formations, des documents et des meilleures pra-


Comme lillustre cette exprience utilisateur de Tableau version 6, Tableau passe du statut doutil dcisionnel dans
le sens traditionnel du terme un statut de plate-forme dcisionnelle capable de prendre en charge une grande
partie des besoins de solution dcisionnelle dune entreprise. Dun point de vue technique, la diffrence se situe au
niveau de larchitecture. La connexion directe tire profit de sources de donnes existantes trs performantes. De
plus, le moteur de donnes de mmoire interne gnre dinnombrables possibilits. Grce aux fonctions de mise
en mmoire cache et de traitement, les ensembles de donnes ne doivent pas tre ncessairement chargs en
totalit dans la mmoire pour que lanalyse puisse dbuter.
Mais il est probable que lutilisateur ne le sache pas ou ne sen soucie gure. Seules la vitesse et la porte sont
importantes leurs yeux. Lanalyse peut seffectuer la vitesse de la pense. Il est ainsi possible dexploiter da-
vantage de donnes sur un matriel plus restreint. On peut parler de vritable analyse ad hoc lorsque lutilisateur
nest pas oblig de dterminer lavance les mesures agrger ou interroger. Lutilisateur peut explorer les
donnes sous toutes ses formes, y entrer dans le dtail ou les rsumer en catgories. Quasiment tous les types
de visualisation de donnes sont regroups dans cette solution, et capables de traiter des ensembles de donnes
volumineux la vitesse de la pense.




o Partner : PharmaSecure
o Contact person : Abhijit Acharya (PharmaSecure) et Edouard Beaucourt (Tableau Software)

PharmaSecure, a technology provider for the healthcare industry, recognised that the companys success was
underpinned by its ability to understand patient data, derive critical insight and share it with customers regularly.
Today, Tableau is helping PharmaSecure adopt an insight-driven customer service strategy that has helped the
Cut reporting time by weeks
Instill a culture of data-driven decision making in the organisation
Add value to stakeholder ecosystemhelping customers understand patient consumption behaviour and ena-
bling patients to better depend on medicine


PharmaSecure is a US-based software and technology company working towards improving global public health.
Its offerings encapsulate a range of solutions that work towards eliminating counterfeit drugs, connecting patients
with safe medicines, and impacting patient adherence.
The company works with pharmaceutical companies to print unique, randomly generated codes on medicine pack-
ages. These identification codes serve two purposes: First, they allow manufacturers to track each strip or blister
pack and shipping carton they produce. Second, patients can verify the authenticity of their medicine through SMS,
mobile app or by feeding it on the company website.
As part of this verification process, PharmaSecure enables access to a mobile health platform, allowing users
to opt in to customized mobile heath programs. These programs have applications such as reminders to refill
medicines, dosage checks, providing health tips etc. By creating this valuable ecosystem, PharmaSecure acts a
facilitating link adding immense value to healthcare users and drug manufacturers.

Retours dexpriences Big Data en entreprise

With the industry-wide transformation in the way healthcare is obtained, delivered and paid for, pharmaceutical
companies are scouting for tools that can help them decode patients behaviour and consumption patterns.
In the context of this trend, PharmaSecure wanted to gain insights from its growing data repository to help strength-
en their partnerships with pharmaceutical customers while helping patients manage their diseases better.
Data is at the corner stone of our business and we needed to make that our differentiating element. As a company,
our data volumes, client portfolio and maturity had undergone an evolutionary curve and it was time for us to use
an effective solution that could generate definable, powerful and intuitive analytics, says Samit YADAV, Senior
Director, Technology and Operations, PharmaSecure.
At first, the team analysed its data through a cumbersome and inefficient process. Team members would dedicate
time every week to extracting information from different sources, populating Excel sheets with the data and finally,
deriving graphs to visually represent the findings. To address this challenge, the company wanted an analysis solu-
tion that would offer a faster, interactive experience.


After a careful evaluation of the players in the visual analytics marketscape, in 2013 PharmaSecure chose Tableau
software due to its polished and comprehensive offering.
Today Tableau software is used by most members of PharmaSecures Operations team. Typically, PharmaSe-
cures MySQL and Excel data sources generate transactional databases of 200-500 rows a day, slated to reach
1000-2000 rows over the next six months.
Throughout the span of 18 months that the company has used Tableau, they are gaining value by drawing insights
from an ever increasing quantum of data. Today all internal reports are generated on Tableau with insights extract-
ed from data every week and every month. This move to a prescriptive style of analytics triggers faster decision
making for the company.


Using Tableau, the company has been able to maximise the value from their growing data without having to invest
any additional resources.
Tableaus power lies in its simplicity and intuitiveness. Putting Tableau over our data integration layer, has given
us substantially greater insight across the business operations- supply chain, time to market, program enrollment,
distribution, sales force effectiveness among other aspects, Abhijit elaborates.
Going forward, PharmaSecure will also start Tableau deployment with its customers whereby they will be able to
not only access but build Tableau data charts on their own.
The biggest highlight of using Tableau has been that our entire team now truly believes in the power of insightful
data. Thanks to Tableau, we as an organisation have become a lot more excited about using data in impactful and
interesting ways for our customers.




o Partner : Skyrock.com
o Contact person : Loc Cadiot, chef de projet chez Skyrock et Edouard Beaucourt (Tableau Software)

Uniformiser les outils dcisionnels. En effet, jusqu rcemment, la rponse de Skyrock consistait autoriser
chaque service utiliser son propre outil dcisionnel, au dtriment de lefficacit, de la productivit et de la convivi-
alit. Par exemple, les utilisateurs Marketing pour la partie diteur (construisent le site) utilisaient un systme,
tandis que ceux de la rgie publicitaire (montisent le site), en utilisaient un autre pour prsenter les impressions
de page, les visiteurs uniques, le CA gnr etc. Skyrock sest rendu compte que le choix dune solution dci-
sionnelle standardise, unique et ultraperformante transformait la capacit de ses utilisateurs analyser et com-
prendre les donnes. Cela sexplique par le fait que naturellement, on voit et on comprend plus efficacement les
donnes avec des visualisations interactives. Au final, le nouveau systme de Skyrock a apport des rponses aux
questions, permettant ainsi de faire progresser les audiences web et les revenus publicitaires.

Skyrock.com est le premier rseau social de blogs franais et europen, avec plus de 34 millions de blogs dans
le monde. Skyrock doit analyser de grandes quantits de donnes, et Tableau est une solution ultraperformante
Retours dexpriences Big Data en entreprise

qui facilite grandement le reporting. La production de rapports devient plus ludique et efficace , explique Loc
Cadiot, chef de projet chez Skyrock. tant donn que nous gagnons du temps sur la collecte et la prsentation
des donnes, nous pouvons consacrer plus de temps lessentiel : lanalyse des donnes et la prise de dcisions
qui favorisent la progression des audiences et les revenus publicitaires.
Le problme : des systmes informatiques htrognes. Comment bnficier dun outil dcisionnel (business
intelligence) ultrarapide et facile utiliser, portant sur les usages des utilisateurs sur les blogs et lefficacit des
campagnes publicitaires ?

Les solutions faciles utiliser font gagner du temps et amliorent lanalyse. Skyrock utilise une version complte
de la technologie Tableau afin danalyser rapidement les usages web et les revenus publicitaires gnrs par ses
annonceurs. Les salaris se sont servis de Tableau pour crer des tableaux de bord intuitifs, publier les donnes
dans un navigateur et les incorporer dans des e-mails afin quelles puissent tre partages par les autres utilisa-
teurs de la socit. La majorit des employs accde Tableau partir dun navigateur et est capable dobtenir
les rponses ses questions en quelques clics.
Lun des facteurs cls de la russite de Tableau est son extrme rapidit et sa facilit dutilisation. Le dploiement
de Tableau au sein de Skyrock a t gr en interne, sans soutien dexperts en technologie de linformation, et
aucune formation formelle na t ncessaire. Le personnel sest form principalement laide de courtes vidos
en ligne. Et les rsultats parlent deux-mmes : les rapports sur ltude des usages web, qui autrefois ncessi-
taient une demi-journe, sont dsormais crs en moins de 30 minutes. Par ailleurs, Tableau permet galement la
production de rapports sous diffrents systmes dexploitations, rconciliant les plateformes Windows et Mac un
problme auquel la socit avait dj t confronte auparavant.

Retours dexpriences Big Data en entreprise





Talend, le leader mondial des logiciels dintgration des Big Data, annonce aujourdhui que Lenovo a slectionn
Talend Enterprise Big Data afin de mieux connatre ses clients en analysant des donnes issus dun grand nombre
de points de contact tiers, API et flux de rseaux sociaux et en dgageant de ces donnes une image trs
prcise de ses clients.

N1 mondial des fabricants de PC et n4 des constructeurs de smartphones, Lenovo cherchait rationaliser ses
processus dintgration ainsi que le dveloppement de rapports quutilise son dpartement marketing pour analys-
er lefficacit de ses campagnes. Larchitecture open source de Talend et son modle de licence prdictible bas
sur lutilisation lui a offert la flexibilit ncessaire pour rpondre ses besoins, tout en garantissant lvolutivit du
systme dintgration.
Grce Talend Enterprise Big Data, Lenovo assure lintgration de ses Big Data laide de prs de 300 processus
exploits simultanment chiffre qui est vou crotre dans les prochaines annes. Parmi les nombreux bnfices
obtenus par Lenovo depuis la mise en uvre de Talend, les rductions de cots enregistres reprsentent environ
140 000 $ pour les seuls cots de migration. En outre, Talend a aid Lenovo amliorer les performances de son
reporting, tout en raccourcissant les dlais de traitement de plusieurs heures.
Nous devons amliorer continuellement les dlais dacquisition des donnes et la facilit dutilisation de la plate-
forme de Talend nous permet dy parvenir dclare Marc Gallman, Manager of Data Architecture chez Lenovo.
Ces gains defficacit se traduisent au final par lamlioration et lacclration des prises de dcision, ce qui a un
impact positif sur les stratgies marketing du constructeur la fois localement et mondialement. Avec un accs
plus frquent et plus rapide aux donnes, Lenovo est en mesure dajuster rapidement ses campagnes.
Si les entreprises exploitent de plus en plus de donnes, elles continuent prouver des difficults pour les
analyser, notamment du fait de leur incapacit intgrer des donnes issues de systmes traditionnels, des
rseaux sociaux et des nombreux systmes dploys dans le Cloud commente Mike Sheridan, Executive Vice
President of Sales, chez Talend. Nous sommes fiers de voir Lenovo choisir les solutions de Talend et sommes
impatients de les aider accder plus rapidement et plus frquemment leurs donnes pour amliorer les prises
de dcision.



Buffalo Studios, une filiale de Caesars Interactive Entertainment (CIE) base Santa Monica en Californie, cre
des jeux de casino en ligne conviviaux et accessibles permettant aux utilisateurs de trouver de nouveaux amis
grce au divertissement interactif. Le projet le plus considrable de Buffalo Studios est Bingo Blitz, le jeu de bingo
en ligne gratuit le plus diffus dans le monde.

Retours dexpriences Big Data en entreprise

Des millions dutilisateurs actifs propulsent chaque mois Buffalo Studios au sommet des classements sur Face-
book, iOS, Android et Kindle. Barry Sohl, le directeur technique chez Buffalo Studios, est bien conscient des im-
menses opportunits daffaires que gnre la notorit de leurs jeux. Encore faudrait-il savoir comment exploiter
les donnes efficacement
De manire gnrale, le secteur dans lequel nous voluons fonde sa croissance sur les informations, com-
mente Sohl. En effet, les informations que nous rcoltons dterminent toutes nos dcisions au niveau du market-
ing et du dveloppement des produits. Cest grce cela que nous sommes toujours en avance sur nos concur-
Dans le cas de Bingo Blitz, Buffalo recueille des donnes permettant de savoir quelles cartes ont t joues
lors de chaque partie, si le joueur fait bingo ou pas, combien de crdits sont gagns et dpenss, etc. Chaque
mouvement des donnes rcupres est vital. Et nous avons des centaines de points de collecte dinformations
dans chaque jeu, remarque Sohl, en ajoutant que lentreprise traite plus de 100GB de donnes tous les jours, un
volume qui devrait augmenter rapidement.
Mais, bien sr, il y a un obstacle. Selon Sohl : Avant que ces donnes ne deviennent vraiment intressantes
pour nous, nous devons les exploiter. Alors seulement pourront-elles se transformer en levier de croissance et en
avantage concurrentiel. Voil pourquoi il est indispensable que les informations soient fiables et quelles puissent
tre intgres lintrieur de notre Data Warehouse.
limination des blocages coteux
Lintgration de donnes lintrieur du Data Warehouse a toujours reprsent un dfi Buffalo, qui utilisait un
ensemble dsordonn de code personnalis et de scripts Python. Le rsultat tait bien en-dessous des attentes.
Chaque semaine, nous dlivrons de nouvelles fonctionnalits pour nos jeux, surtout pour Bingo Blitz. Nous avons
besoin doutils spcifiques afin danalyser leur comportement et identifier les plus performantes dentre elles,
explique Sohl. Nous voulons savoir qui les utilise et mesurer leur incidence sur lenvironnement du jeu.
Pourtant, le systme dintgration de donnes tel quil tait paramtr chez Buffalo rendait lajout de ces nouveaux
points de mesure extrmement fastidieux. Comme Sohl lindique : Il sagissait dune opration manuelle trs
pnible, au point que tout se bloquait au niveau de lquipe charge du traitement des donnes. Des informations
nouvelles et importantes se retrouvaient coinces dans linfrastructure et souvent ne passaient mme pas la
phase de lextraction partir des fichiers logs bruts. Ces ralentissements ont hlas conduit lquipe BI penser
que les donnes nexistaient pas. Pourtant, nous les rcuprions. Simplement, elles narrivaient jamais au Data
Warehouse cause de la lourdeur du flux, et les vnements sur les donnes ne pouvaient y tre ajouts, r-
sume Sohl.
Le directeur technique et ses collaborateurs savaient pertinemment quils devaient trouver une solution capable
dapporter une plus grande flexibilit au niveau de lintgration des donnes, ce qui leur permettrait dajouter de
nouveaux points de mesure, et de reprer les informations cruciales pour une prise de dcisions claire.


Aprs avoir pris en considration la possibilit de dvelopper en interne en Java pur, Sohl et le service technique
ont dcid de sadresser au meilleur diteur sur le march capable de rpondre leurs besoins. Talend est ressorti
de leurs recherches. En effet, prcise Sohl, Nous nous sommes aperus immdiatement que Talend proposait
un environnement de dveloppement plus complet et abouti que toutes les solutions faisant lobjet de nos valu-
ations. Buffalo Studios a alors dcid deffectuer des essais oprationnels de validation avec Talend et dautres
diteurs. Talend a donn les rsultats les plus convaincants.
Et Sohl de poursuivre : La solution dintgration de donnes de Talend tait base sur Java, et nous avons beau-
coup apprci, parce que cela nous permettait de nous appuyer sur les comptences avres de notre quipe.
Sans compter quelle offrait davantage de flexibilit et quelle pouvait tre utilise immdiatement telle quelle, sans
modifications, conjointement avec notre code Java personnalis.
Aprs rflexion, Buffalo Studios a donc choisi la solution dintgration de donnes Talend, y incorporant quelques
composants spcifiques en Java, compatibles avec Talend.

Buffalo Studios a fait preuve de toute la diligence ncessaire afin de dterminer lutilisation la plus efficace de
la solution Talend pour lintgration des donnes, et limplmentation de la version de production sest faite de
manire rapide et indolore.
Avec laide dArtha Data Solutions, un partenaire intgrateur de Talend, Buffalo Studios est pass de la conception
limplmentation du projet en quelques mois peine. Et, puisquaucun de ses collaborateurs navait dexprience
avec les solutions Talend, lentreprise a adopt le systme de formation en ligne, ce qui a permis ses ingnieurs
dacqurir en trs peu de temps toutes les connaissances ncessaires.
Leads plus faciles exploiter : analyse des informations plus rapide et plus grande productivit
Aujourdhui Buffalo Studios utilise la solution dintgration Big Data de Talend, et a obtenu la flexibilit qui lui
manquait auparavant. Quand nous avons des besoins danalyse spcifiques, nous pouvons maintenant crire
nos propres composants Java et les incorporer la solution Talend, explique Sohl. Et quand il sagit dajouter
de nouveaux points de mesure des donnes, nous ne bloquons plus le processus notre niveau, car nos dvel-
oppeurs travaillent simplement avec les outils sans avoir effectuer manuellement de laborieuses modifications.
Ce type de gestion allge, son tour, permet Buffalo Studios dajouter de nouveaux points de donnes chaque
semaine. Daprs Sohl, le problme des blocages au niveau des fichiers logs bruts devrait maintenant tre totale-
ment rsolu.
Cet avantage revt une importance capitale pour Buffalo Studios. En effet, si le service technique de Sohl narrive
pas livrer les informations cruciales la direction, les dcisionnaires restent dans lincertitude. Nous avons
besoin de mesurer la performance de nos fonctionnalits, quelle soit bonne ou mauvaise, presque en temps rel.
Plus lexploitation des donnes sera simple pour nous, plus lquipe BI pourra en tirer parti. Talend nous aide

Retours dexpriences Big Data en entreprise

optimiser les processus, amliorer la rapidit et accrotre la valeur que nous pouvons tirer de nos donnes,
prcise Sohl. De plus, les ingnieurs de lquipe technique gagnent en productivit, puisquils nont plus de prob-
lmes dintgration rsoudre et peuvent de nouveau se concentrer sur la construction de technologie innovante.
Cest ce qui assure la croissance et la fidlisation des clients.

Globalement, Buffalo Studios est extrmement satisfait de sa collaboration avec Talend.
Nous portons beaucoup dintrt lexploration des nombreuses possibilits offertes par Talend en termes de
qualit des donnes. Je pense quil y aura un vrai potentiel exploiter en largissant le savoir-faire de Talend
dautres applications, et que nous pourrons alors bnficier de nombreux avantages au fur et mesure que nous
progresserons, dclare Sohl.

Retours dexpriences Big Data en entreprise




Dans le cadre de sa stratgie de dveloppement et de diversification de son offre, un acteur majeur de la chane du
paiement a t accompagn par Velvet pour concevoir des offres de montisation de son capital data, valorisant
les volumes considrables de transactions gres.
Le projet a consist dans un premier temps valuer lopportunit doffres : analyse et diagnostic des data ex-
istantes, interview de potentiels futurs clients pour valuer le niveau de demande du march, benchmark des
acteurs de lcosystme de la donne et SWOT, pour in fine dfinir 7 offres de services.
Dans un second temps, il sest agi de dfinir un Go To Market : priorisation de 5 offres en fonction de leur complex-
it et revenu, analyse juridique dtaille des offres, design dtaill des offres satisfaisant aux contraintes juridiques
avec description, pricing, gains totaux (financier et non financier), complexit de mise en march et illustrations, et
enfin identification des partenaires potentiels pour leur lancement commercial.
Cette mission a permis de valider lintrt du march pour plusieurs offres de montisation de la Big Data transac-
tionnelle de cet acteur, avec une valorisation estime de 5% 10% de chiffre daffaires additionnel.


Cet oprateur global des Tlcoms a investi dans une architecture Big Data, convaincu du levier de performance
apport par cette dmarche pour lensemble de lorganisation, notamment dans un march ultra concurrentiel. Afin
daccompagner sa transformation Big Data, ce dernier a confi Velvet la ralisation dune mission de 4 mois de
formation, coaching et aide la ralisation de traitements et projets dans le nouvel environnement.
Cette mission vise deux principaux objectifs :
- Rendre autonome lquipe en place dans son activit au quotidien dans lenvironnement Big Data
- Profiter de cette transformation pour optimiser lefficacit du ple en retravaillant les modes de fonctionnement
et pratiques de lquipe.
Aprs une phase de diagnostic de lexistant (sur les plans de lorganisation, des comptences, des relations avec
les entits Marketing, Commerciale, Relation client, et CRM), lquipe est monte en comptence grce un plan
de formation constitu des modules suivants : Mise niveau Java, Concept Big Data et langage, Map Reduce par
lexemple, Machine Learning et Scala, Interrogation de donnes (Hive, Impala, Pig, ), Diverses technologies Big
Data (Scoope, Flume, ) et Outils de visualisation.
Afin de mettre en pratique les acquis de ces formations et de valider lefficacit de lexploitation de lenvironnement
Big Data, lquipe a t coache dans le cadre de la ralisation de projets concrets nourrissant des analyses et
rflexions autour des problmatiques Foyer et Exprience Client.
Cette quipe est aujourdhui autonome sur les principales pratiques de traitements Big Data et des premiers gains
defficacit se sont dj fait ressentir.
Pour en savoir plus propos de Velvet
Velvet est un cabinet spcialis en Marketing, Digital, Ventes et Relation Client situ Paris et Lyon. Il intervient
sur lensemble de la chane de valeur client, de la dfinition de la stratgie sa mise en uvre oprationnelle et
technique, grce au levier de la Data.
Velvet propose une approche globale du Big Data, rsolument oriente Valeur (IT, Mtier, Analytique et Organisation).

Retours dexpriences Big Data en entreprise



Arkena, commercialise une plateforme permettant de distribuer des contenus audio et vido sur tous les crans
(Streaming Web, Mobile, Box, B2B, etc.)
Ces contenus sont transmis via plusieurs technologies, en particulier un CDN internet qui repose sur de nombreux
serveurs travers le monde. Ces serveurs gnrent de trs grande quantit de logs, actuellement utiliss pour
monitorer le CDN, mais aussi pour dterminer la facturation client selon lusage.
Avec laugmentation du nombre des clients et de la volumtrie diffuse, larchitecture en place de collecte et traite-
ment de ces logs (Rsyslog, Postgresql, Java), ne permettait plus dassurer les services attendues (Supervision,
Alerting, Analyse et facturation).
Arkena souhaitait donc remplacer ce systme par une architecture hautement scalable, facile maintenir et dis-
posant dun faible TCO.

Collecte et stockage des logs en temps rel (+ de 60 000 logs par seconde)
Archivage des logs sur au moins 3 ans
Calcul au fil de leau de plus de 300 KPI (Mise jour toutes les minutes)
Mise disposition de ces indicateurs via des appels API REST
Garantir que chaque ligne de log sera intgre une et une seule fois
Remplacer Rsyslog par une solution plus fiable pour la collecte et la centralisation des logs depuis 30 datacent-
ers et en garantissant lacquittement de rception de chaque log.
Offrir un trs haut niveau de disponibilit, des mcanismes de reprises sur erreur et une forte capacit de monte
en charge

Larchitecture mise en place par Ysance est de type Lambda et repose sur trois stacks techniques :
Spark pour les traitements temps rel, MapReduce pour les traitements Batch et Elasticsearch pour la couche
Vitesse : La couche temps rels reposent sur Apache Spark, et calculent les KPI sur une fentre de temps dune
minute (agrgation de 3,6M de logs / mn). Lobjectif est dalimenter au plus vite la couche de restitution avec des
indicateurs qui ne ncessitent pas de retraiter lensemble de lhistorique des donnes.
Batch : La couche Batch vise crer une vision dfinitive, et si ncessaire corrige des donnes traites par la
couche de vitesse (en cas darrive trop tardive, de redmarrage du process temps-rel, ), ainsi qu calculer les
KPI ncessitant de traiter un historique de donnes plus long. (dans le cas de la dimension temps, les aggrgats
lheure, journe, semaine, mois, ) Elle repose sur le moteur MapReduce, au travers de Hive ou de dveloppe-
ment spcifiques Java.
Prsentation : La couche de prsentation rconcilie les donnes traites par la couche vitesse et la couche
batch, et permet ainsi danalyser et daggrger dans un mme dashboard des donnes issues de Spark et de
Hive. Cette couche repose sur Elasticsearch, qui offre la possibilit dappliquer des aggrgats au requtage, et
permet ainsi de sommer, de compter distinctement, etc sur lensemble des donnes, avec des temps de rponse
infrieurs la seconde.
Transport : La couche transport repose sur Apache Flume. Lobjectif est de collecter en streaming lensemble
des lignes de logs vers la plateforme Hadoop, sans provoquer de blocage applicatif. La communication entre les
agents Flume prsents sur les edge et ceux qui crivent sur le cluster Hadoop est effectue par appel RPC / Avro.

Retours dexpriences Big Data en entreprise

Cette architecture Lambda permet de traiter un mme flux de donnes de manire synchrone et asynchrone :
Calcul temps-rel de certains indicateurs sur une fentre temporelle rduite (1 min) avec un dbit jusqu 60 000
messages / sec
Recalcul batch de lensemble des indicateurs J+1
Indicateurs sur une fentre plus longue (5mn)
Prise en compte des arrives tardives et consolidation des rsultats
Maintient dun jeu de rsultats unique et accessible

2 mois pour la mise en place du projet
Plateforme Big Data moderne (Fast Data) et hautement scalable
Enrichissement du primtre fonctionnel actuel avec de nouveaux KPI dsormais envisageables avec cette architecture
Cot projet rduit notamment grce lusage systmatique de solutions Open Source


ANOVO, leader au niveau europen en prestation de services techniques et logistiques pour les oprateurs tl-
coms et multimdia, est un des principaux acteurs de la gestion durable du cycle de vie des produits lectroniques.
Chaque anne, il donne une seconde vie plus de 20 millions de produits dans le monde entier.
Elle collabore avec des fabricants, des distributeurs et des oprateurs pour proposer leurs clients des solutions
de rparation, de logistique, de rgnration et dextension de garantie. Parmi les produits lectroniques quelle
traite, figurent les dcodeurs, les set top boxes, les tlphones portables, les modems et les quipements rseaux
des entreprises.

Retours dexpriences Big Data en entreprise

Dans le cadre de ses activits, Anovo produit et diffuse un ensemble de tableaux de bord et reporting permettant
ses clients de suivre et analyser les travaux et services rendus par la socit. A cause dun ensemble de solu-
tions BI dveloppes en internes et spcifiques une usine, un pays ou un service, Anovo souffrait des problmes
suivants : 1/ Dveloppements et dploiements sans cadre IT structur 2/ Absence de mutualisation des besoins et
donc multiplications des dveloppements spcifiques. En consquence, la plateforme dcisionnelle dAnovo souf-
frait de rigidit, dobsolescences et de surcots notamment pour faire voluer et maintenir les rapports existants.
Pour y remdier, la DSI dAnovo a sollicit Ysance pour concevoir une nouvelle architecture dcisionnelle de type
Big Data et limplmenter en sappuyant sur les solutions de Amazon Web Services et Tableau Software. Les deux
solutions ont t choisis pour les bnfices suivants : Rapidit de mise en uvre, simplicit de dploiement sur un
ensemble des pays / usines, mutualisation des usages et autonomie des utilisateurs, rduction des cots de run
et enfin volutivit et prennit.

Aprs un POC ralis en dbut 2014, larchitecture technique qui a t retenue est la suivante :
Extraction quotidienne des donnes utiles directement depuis les systmes oprationnelles des sites Anovo
prsents dans diffrents pays
Stockage et archivage de ces donnes dans Amazon S3
Contrles qualits au fil des remontes des donnes sources (alerting)
Chargement en delta des donnes collectes dans un DWH Redshift
Mise disposition des donnes dans Tableau Software
Cration, pour les utilisateurs mtiers, des rapports et tableaux de bord ncessaires aux pilotages de leurs activits
Diffusion des KPI de suivi de la production, leurs clients, via Tableau Online

Retours dexpriences Big Data en entreprise


Le nombre de tables sources devant tre charges dans le DWH Redshift tant trs importants, une procdure
automatise crite en Python permet de convertir automatiquement les DDL source (SQL Server) en DDL RedShift
Angleterre: 1300 tables en production
France : 750 tables en production
Prochains pays : Chili, Prou, Espagne
40 60 JH de dveloppement par pays

Avec sa nouvelle plateforme BI mixant Cloud et Big Data, Anovo dispose dun environnement dcisionnel unique,
volutif, peu couteux et trs scalable, consolidant les donnes de toutes ses entits travers le monde et garan-
tissant agilit et rapidit pour intgrer de nouvelles sources et permettre aux mtiers de produire simplement de
nouveaux rapports et tableaux de bord pour leurs besoins et ceux de leurs clients.

Document ralis par la Socit Corp Events - Janvier 2015