Synthèse BigDataParis 2016

Sommaire
Discours d’ouverture 1
Mounir MAHJOUBI
Président du Conseil national du numérique
Machine Learning, Deep Learning, Intelligence Artificielle : les prochaines

applications 3
Prédire avec la data science responsable 5

Jeremy Harroch
Directeur général Quantmetry
Data Scientists, Data Managers, Architectes et Chefs de projet Big Data :

recruter les compétences clés de vos projets 6
Leveraging Predictive Analytics to compete and to win 8

Jean-Paul ISSON
MONSTER Worldwide
Remise des trophées du Big Data 2016 9
Marketing et BtoC 10
Elias BALTASSIS
Director Europe, Data & Analytics THE BOSTON CONSULTING GROUP
Développer et piloter les gares avec le Digital 11

Arnaud KREKOUNIAN
Responsable Digital, SNCF GARES & CONNEXIONS
Argus de la presse : améliorer l’expérience « utilisateurs », réduire le churn et

conquérir de nouveaux clients grâce au Big data agile 13
Georges SAWAYA
CIO, ARGUS DE LA PRESSE
Cas Rexel : la Data Visualisation, maillon clé de l’analyse prédictive 14

Angelica REYES
Directrice Marketing, QLIK FRANCE
Claudio BORLO
DSI REXEL
Groupe Seb et objets connectés : comment proposer des contenus et services
crosscanaux personnalisés 15
Nicolas VALANCE
Pilote du projet d'innovation Open Food System, GROUPE SEB
TF1 Publicité : optimiser l’efficacité publicitaire et renforcer la pertinence des

contenus 16
Fabrice MOLLIER
DGA en charge de la stratégie et du marketing, TF1 PUBLICITE
Machine Learning au sein d’Orange : les clés pour améliorer la proactivité dans
sa relation clients 17
Sébastien BOUTIN
Direction de la Stratégie Client et Data ORANGE France
Bludata : retour d’expérience sur la création d’un Data Lab chez Auchan 18
Olivier GIRARD
Directeur Marketing Client et Data, AUCHAN RETAIL INTERNATIONAL
Effrontech : la mobilité en mode offline portée par le Cloud 19

Lisa NEDDAM
Cloud Data Services WW Sales Executive, IBM
Julien DELOUVEE
Directeur Associé, EFRONTECH
Eclairage juridique sur le domaine des données collectées 20

Alain BERRY
Directeur de la Communication ORANGE CLOUD FOR BUSINESS
Maître Olivier ITEANU
Avocat à la Cour et vice-président CLOUD CONFIDENCE
PARCOURS EXPERTS 21
SESSION ANIMEE PAR JOSE DIZ, JOURNALISTE INFORMATIQUE
Le développement d’applications analytiques en environnement Hadoop : Faut-il

oublier Map/Reduce ? 21
Mike OLSON
CSO et Chairman of the Board, CLOUDERA
La plateforme Big Data de Mappy pour le suivi d’audience et la BI 23

Nicolas KORCHIA
Responsable Business Intelligence, MAPPY
Le temps réel débarque en force sous Hadoop : Streams, Kafka, Spark, Storm,
etc. du Big Data au « Fast Data » 24
Tugdual GRALL
EMEA Chief Technical Evangelist, MAPR
Powering modern web, mobile and IOT applications with Apache Cassandra 25
Patrick McFADIN
Chief Evangelist, DATASTAX
Le Big Data va-t-il tuer le Datawarehouse ? 26
Jean-Marc BONNET
Directeur de l’architecture et des solutions analytiques, TERADATA FRANCE
Franck POULAIN
Technology Presales Director, ORACLE France
Sébastien POUSSART
Expert Architect Big Data, SAS France
Olivier RENAULT 26
Solution Engineer, HORTONWORKS
Comment la DSI Groupe de Saint-Gobain accélère les initiatives Big Data des
activités métiers 28
Eric MERLATEAU
IT Infrastructure Services Design, SAINT-GOBAIN
Stéphane SARETTA
Responsable Architecture Nouveaux services, SAINT-GOBAIN
Du prédictif au prescriptif en mode Big Data 29

Jean-David BENASSOULI
Directeur exécutif ACCENTURE DIGITAL, DATA ET ANALYTICS
AMPHITHEATRE : REGLEMENTATION ET SECURITE 30

SESSION ANIMEE PAR ENGUERAND RENAULT, JOURNALISTE ECONOMIQUE 30
Discours d’ouverture 30
Márta NAGY-ROTHENGASS
Head of Unit "Data Value Chain" in DG CONNECT, EUROPEAN COMMISSION
Souveraineté des données : la fin de la naïveté ? 32

Gilles BABINET, Digital Champion, COMMISSION EUROPEENNE
Elias BALTASSIS, Director Europe, Data & Analytics, THE BOSTON CONSULTING
GROUP
Sophie NERBONNE, Directrice de la conformité́ , CNIL
Vincent STRUBEL, Sous-Directeur Expertise ANSSI
Edouard PERRIN, Directeur Marketing et Digital, Membre du Comité exécutif, MACSF
Innovation responsable et sécurité de la data 34

Laurent MASSOULIE
Directeur du Laboratoire Commun Microsoft Recherche, INRIA
Marc MOSSÉ
Directeur des Affaires Publiques et Juridiques, MICROSOFT FRANCE
Not Only Data 35

Fabrice HACCOUN
Directeur général ADVANCED SCHEMA
Relever les grands défis de l’Open innovation et de l’Open data 36

Thierry BONHOMME
Directeur général adjoint, ORANGE
Vincent CHAMPAIN
General Manager, GENERAL ELECTRIC DIGITAL FOUNDRY PARIS
Stéphane QUERE
Jérôme TOUCHEBOEUF
Président Mediapost Communication et Directeur du Laboratoire de l’Innovation de la
Branche Numérique, GROUPE LA POSTE
Henri VERDIER 36
Directeur interministériel du numérique et du système d’information et de communication
de l’Etat (DINSIC), Adjoint à la Secrétaire générale pour la modernisation de l’action
publique (SGMAP)
PARCOURS RETOURS D’EXPERIENCE – METIERS 38

SESSION ANIMEE PAR ENGUERAND RENAULT, JOURNALISTE ECONOMIQUE 38
Analyse des trafics réseaux pour la finance en temps réel 38

Stéphane TYC
Fondateur, MCKAY BROTHERS
Maintenance prédictive dans l’industrie : le cas SNCF 39

Philippe de LAHARPE
Chef de projet Télédiagnostic, Direction du Matériel, SNCF
Héloïse NONNE
Manager – Senior Data Scientist, QUANTMETRY
Airbus relève le challenge de sa transformation digitale et travaille sur une

stratégie Big Data unifiée 41
Vincent GALINIER
Architecte IT, Leader Big Data, AIRBUS
Emmeline ANTERRIEU
Marketing manager, HPE France
Allianz révolutionne l’assurance avec la voiture connectée 42

Delphine ASSERAF
Head of Digital - Brand and Communication, ALLIANZ FRANCE
Randstad fluidifie le marché du travail à l’heure du Big Data 43

Franck CHARASSON
Directeur Systèmes & Opérations, RANDSTAD France
Christophe MONTAGNON
DOSI, RANDSTAD FRANCE
Carrefour : retour d’expérience Big Data & Grande Distribution 44

Jean-Christophe BRUN
Directeur du Centre de Solutions BI & Big Data, CARREFOUR
AstraZeneca : one company – many use cases on one Big Data search and
analytics platform 45
Nick BROWN
Technology Incubation Director, CTO Office, ASTRAZENECA
Laurent FANICHET
VP Marketing, SINEQUA
Dépister les maladies de la rétine à l’aide des technologies de Deep Learning 46

Ekaterina BESSE
COO de DreamQuark, Fondateur et CEO, DREAMUP VISION
SGCIB : piloter les liquidités avec le Big Data dans le secteur bancaire 47
Sabeur KHACHLOUF
Senior IT Team leader and project manager, SOCIETE GENERALE CORPORATE &
INVESTMENT BANKING
Retour sur la construction et le déploiement de la Gouvernance de la donnée au

sein d’ERDF 48
François BLANC
Directeur national du programme numérique, ERDF
SALLE MAILLOT – 8 MARS 49
Libérer la puissance de l’IOT avec le Big data 49

Pierre GILOT
Amazon Web Services
Air Liquide : tirer parti du Big data pour détecter de nouveaux usages et
conquérir de nouveaux marchés 50
Athanasios KONTOPOULOS
Air Liquide
François-Régis CHAUMARTIN
Directeur général de Proxem
Big data et sécurité 50

Nicolas MAILLARD
Hortonworks
Accélérer la valorisation de vos investissements Big data 51

Hayden SCHULTZ
Tibco Software
Sadaq BOUTRIF
Tibco Software
Hadoop et son data lake peuvent-ils jouer le rôle de base de données primaire
en production ? 52
From Big data to small apps : la Dataviz, dernier kilomètre de votre stratégie de
données 53
Charles MIGLIETTI
Toucan Toco
Big Data Paris 2016 1
Discours d’ouverture
Mounir MAHJOUBI
Président du Conseil national du numérique
Les experts du Big data ont toutes les difficultés du monde à faire comprendre à leur
entourage proche la nature exacte de leur métier. Ils se réfugient ainsi souvent derrière
une dénomination beaucoup plus générique, en affirmant qu’ils travaillent dans
l’informatique, car la simple mention du terme « data » intrigue, voire inquiète.
Dans le monde de l’entreprise, le Big data suscite plutôt admiration et respect, mais
cela ne signifie pas, pour autant, que les personnes comprennent mieux de quoi il
retourne.
Si la collecte de données, tout comme le traitement et l’analyse de ces dernières, font
partie, depuis la nuit des temps, de l’environnement économique et des préoccupations de
l’Etat, tout a changé avec l’arrivée du Big data.
Le volume de données collectées a en effet sensiblement augmenté, tout comme la
capacité de traitement de celles-ci. La méthode d’analyse de ces data
« nouvelle génération » a également beaucoup évolué. Les données ne sont plus
seulement utiliser pour tester la validité d’une hypothèse mais peuvent permettre de
découvrir des structures causales cachées, que l’on n’avait pas envisagées au départ. Le
Big data ne sert donc pas simplement à améliorer la performance des process, au sein
d’une entreprise, ou la connaissance du business d’un client donné mais modifie en
profondeur la manière de concevoir une organisation, qu’il s’agisse d’une entreprise ou de
l’Etat lui-même.
Il s’agit donc d’une véritable révolution, qui a vocation à contribuer à l’amélioration des
organisations internes des entités y recourant, tout en reconfigurant en profondeur les
industries et en transformant les services publics.
Pour que le Big data fonctionne, il faut que les informations circulent au-delà des silos
existants. Le Big data oblige donc à penser l’entreprise, au-delà de son organisation
existante, et la mise en œuvre d’une démarche data driven doit nécessairement mobiliser
toutes les intelligences de l’entreprise pour une efficacité maximale.
Le Big data transforme les industries. Il est en effet porteur d’innovation et permet aux
acteurs qui y recourent d’acquérir une véritable indépendance, dont ils seraient
progressivement privés s’ils laissaient aux autres le monopole de l’utilisation de ce
nouveau système de traitement des données. À cet égard, l’accent doit être mis sur
l’intermédiation, faute de quoi les acteurs traditionnels sont voués à disparaître, au profit de
plates-formes créées ex-nihilo ou de géants du web, tels que Facebook, Google Now ou
Linkedin, contre lesquels ils ne pourront lutter. Seule une parfaite connaissance des
comportements et des besoins des consommateurs permet d’offrir à ces derniers des
services adaptés. Partant de là, si les acteurs économiques traditionnels abandonnent
cette nécessaire connaissance de leurs consommateurs aux réseaux sociaux, ils perdront
en retour leur capacité à innover.
Le secteur public reste à l’heure actuelle le plus grand producteur de données en
France. L’utilisation de ces data est pourtant loin d’être optimale, car les administrations
ont bien souvent encore du mal à partager les données dont elles disposent. La mise en
œuvre d’une démarche Open Data permettrait, à n’en pas douter, de maximiser l’intérêt
général des acteurs en présence.
Paris, les 7 et 8 mars 2016

L’exploitation à plein du set de data dont dispose notamment la Sécurité sociale

permettrait par exemple de mettre en œuvre des innovations majeures en matière
d’analyse des comportements médicaux, à condition, toutefois, de respecter la vie privée
des personnes.
La France a, depuis toujours, la culture de la statistique. Néanmoins, si les indicateurs
établis grâce à l’exploitation des statistiques collectées par les grandes administrations
servent de base à l’élaboration de politiques publiques, ces indicateurs ne participent pas
encore à la construction des services publics eux-mêmes.
Dans le domaine de l’enseignement supérieur, de nombreuses données sont
collectées mais restent insuffisamment collectées par les acteurs publics. Il conviendrait
par conséquent de remédier rapidement à cet immobilisme, faute de quoi des acteurs
privés prendront la relève faisant perdre au service public, du même coup, de sa
pertinence et de sa superbe.
Au vu de tous ces défis à relever, dans les prochaines années, les experts du Big data
auront un rôle d’avant-garde à jouer, lequel pourra s’apparenter, selon les cas, à un rôle de
pèlerin, de pédagogue ou de vigie. Avec le Big data, et contrairement à ce que l’on pourrait
penser de prime abord, l’humain n’aura jamais été aussi important. Il faudra en effet
toujours plus d’experts pour comprendre les données connectées et pour faire en sorte
que celles-ci constituent une véritable aide à la décision.
Les experts auront en outre la responsabilité de prévenir les débordements autour du
Big data. En tout état de cause, il ne faudrait pas mettre en place un gouvernement
algorithmique, où les sentences judiciaires, notamment, seraient rendues de manière
automatique, comme dans un bon roman d’anticipation. Il conviendrait également de se
prémunir contre les risques de profilage.
Pour éviter tous ces écueils, le Conseil national du Numérique (CNU) vise à remettre
l’individu au centre de ses préoccupations, dans le cadre de la prochaine promulgation de
la loi sur la république numérique (laquelle prévoit notamment d’améliorer la portabilité des
données et la loyauté de plates-formes).
Dans un tel contexte, le Big data présente, à n’en pas douter, un potentiel de
découvertes énorme susceptible d’être générateur de progrès importants. Encore faut-il
que les acteurs en présence se saisissent de cette opportunité pour en tirer le meilleur
parti, plutôt que de subir cette révolution sans y prendre une part active.

Machine Learning, Deep Learning,

Intelligence Artificielle : les prochaines
applications
Participaient à cette table ronde :
Yann LECHELLE, Chief Operating Officer SNIPS
Florent PERRONNIN, Directeur FACEBOOK AI RESEARCH (FAIR) PARIS
Dominique CARDON, Sociologue au laboratoire SENSE (Orange Labs), Professeur
associé à l'Université de Marne-la-vallée (LATTS).
Les débats étaient animés par Enguérand RENAULT, journaliste au Figaro.
Florent PERRONNIN indique que le Big data n’a pas de sens sans l’intelligence
artificielle, et réciproquement. Les données n’ont en effet aucune utilité en elles-mêmes si
l’on ne dispose pas des moyens adaptés pour les utiliser et les exploiter. En retour, tous
les algorithmes d’intelligence artificielle ne pourront gagner en efficacité sans un apport
continu de nouvelles données. Il existe donc une interdépendance forte entre ces deux
concepts.
Le deep learning permet d’apprendre à partir de grandes quantités de données.
L’apprentissage non supervisé est très complexe et il n’est pas évident d’en saisir tous
les mécanismes.
L’apprentissage par renforcement, qui s’effectue également avec très peu de
supervision, offrent aux apprenants la possibilité d’expérimenter par eux-mêmes et de
recevoir une récompense lorsqu’ils auront trouvé la bonne réponse.
En tout état de cause, il conviendrait d’unifier, à terme, toutes ces théories
d’apprentissage, tout en créant des machines réellement intelligentes. A noter toutefois
que les chercheurs prédisent qu’il faudra encore au moins cinquante ans, au bas mot, pour
mettre au point des machines aussi intelligentes que les humains.
Yann LECHELLE indique que SNIPS emploie 30 personnes qui développent des outils
ayant vocation à faire disparaître, à terme, les frictions entre les technologies au quotidien.
L’objectif poursuivi consistera à mettre au point, à terme, des systèmes d’intelligence
artificielle « context awareness », qui ne viendraient pas troubler l’utilisateur alors qu’il est
occupé.
Enguérand RENAULT sollicite des précisions sur les bienfaits que pourrait avoir
l’intégration d’une couche applicative dans les téléphones mobiles.
Yann LECHELLE explique que chaque application correspond à un usage bien
particulier. Il souligne en outre que ce ne sont pas les smartphones qui sont intelligents
mais les services auxquels ceux-ci donnent accès. Partant de là, il conviendrait de créer
une couche algorithmique qui soit smart en soi, via le recours à un
personal knowledge graph.
Enguérand RENAULT demande si les smartphones réfléchiront à la place des
utilisateurs, à terme.
Yann LECHELLE répond par la négative. Il souligne en outre que toutes les
innovations à venir viseront essentiellement à simplifier les choix pour les consommateurs.
Enguérand RENAULT note que Facebook ou Google réalisent des investissements
dans des codes-sources ouverts, dans un contexte de dialogue permanent avec la
communauté scientifique dans son ensemble.
Florent PERRONNIN confirme ce point, soulignant que la transparence et la
collaboration entre les acteurs en présence améliorent toujours la qualité du travail rendu.

Partant de là, il semble primordial de favoriser la coopération entre les laboratoires publics
et leurs homologues privés, en vue de garantir le meilleur niveau de résultats possible
dans le domaine de la recherche.
Yann LECHELLE indique que les open-sources permettent à l’écosystème constitué
par les ingénieurs et les chercheurs d’innover en dialoguant en permanence, les uns avec
les autres.
Enguérand RENAULT demande si la France jouit d’un avantage compétitif dans la
recherche, puisque Facebook vient d’investir à Paris dans un laboratoire et que SNIPS
emploie aujourd'hui 30 personnes.
Florent PERRONNIN confirme l’appétence de Facebook pour l’intelligence artificielle.
Le laboratoire situé en Ile-de-France, qui employait au départ 6 personnes, devrait
prochainement doubler ses effectifs. A noter que les experts recrutés au sein de ce type de
structures doivent disposer d’un bon bagage en informatique et en mathématiques.
Des acteurs tels que l’INRIA et l’ENS constituent en outre d’excellents partenaires
potentiels pour ce type de laboratoires. Start-up et universités sont également à même de
s’inscrire dans une collaboration « gagnant-gagnant » au sein d’un même écosystème.
Yann LECHELLE indique que les trois fondateurs de SNIPS sont français. Dans les
secteurs d’activité à forte dimension technique, la France est privilégiée pour tout ce qui a
trait à la formation et au montage financier. Les salaires sont en effet plus bas que dans la
Silicon Valley, ce qui peut inciter certaines sociétés à faire le choix d’une implantation sur
le sol français. La BPI et le crédit-impôt-recherche contribuent en outre à faire baisser la
pression fiscale sur ce type de métiers. Enfin, de nombreux talents sont disponibles en
France, à n’en pas douter.
Enguérand RENAULT sollicite le regard du sociologue Dominique Cardon sur toutes
les évolutions à l’œuvre.
Ce dernier, auteur de A quoi rêvent les algorithmes ?, indique que l’intelligence
artificielle ne cesse de naître et de s’essouffler, au fil des ans, ce qui prête à sourire. Ainsi,
après un premier cycle dans les années 1950, suivi d’un second dans les années 1980, la
France et les pays développés en général sont aujourd'hui confrontés à une troisième
vague de développement de l’intelligence artificielle. Celle-ci se révèle éminemment
statistique, alors que celle de la deuxième vague était essentiellement anthropomorphe.
Avec le machine learning et le fonctionnement toujours plus puissant des algorithmes,
les règles deviennent en effet de plus en plus révisables, via l’intégration permanente de
nouveaux éléments de contexte. De telles évolutions conduisent les grands penseurs du
Big data eux-mêmes à rejeter le terme d’intelligence artificielle, jugé trop étriqué, pour
embrasser toutes les subtilités d’une nouvelle forme de traitement statistique par révision
continue, via l’intégration constante de nouvelles données, dans un contexte où l’homme
délèguera de plus en plus de tâches aux machines.
Un journaliste, présent dans la salle, sollicite des précisions de l’impact du
deep learning et du machine learning sur l’emploi en France.
Florent PERRONNIN répond que des emplois pourraient être menacés par le
remplacement de l’humain par des machines, en vue de réduire les coûts de production.
Pour autant, il n’est pas du tout certain qu’un tel scénario se profile effectivement à
l’horizon. En tout état de cause, il conviendra d’accélérer la reconversion des personnes en
poste sur des emplois en voie d’obsolescence vers des métiers plus porteurs, si l’on veut
éviter d’aller dans le mur.
Dominique CARDON confirme la difficulté à prévoir de manière sûre l’impact du Big data
sur l’emploi, à plus ou moins long terme. À cet égard, certains économistes prétendent que
les évolutions à l’œuvre seront créatrices d’emplois, tandis que d’autres, tels que
Daniel Cohen, prédisent la disparition totale de pans entiers d’emplois peu qualifiés.

Prédire avec la data science responsable

Jeremy Harroch
Directeur général Quantmetry
Depuis toujours, prévenir l’avenir s’est apparenté à une véritable quête du Graal. Rien
que pour l’année 2015, Nostradamus avait ainsi prédit, en son temps, l’avènement d’une
crise mondiale, la possibilité pour l’homme de converser avec les animaux et l’abolition des
taxes.
Au vu du faible taux de réalisation de ce type de pronostics, il n’est pas étonnant que la
science ait considéré pendant longtemps les prédictions comme du charlatanisme. Il
semblerait que cette époque soit révolue et que le Big data ait ouvert la voie d’une
réconciliation possible entre ces deux dimensions.
C’est ainsi que Bing a permis de prédire avec justesse les lauréats des Oscars 2016 et
que de nombreux algorithmes sont actuellement à pied d’œuvre pour prédire les résultats
des prochaines élections américaines.
Par le passé, les entreprises étaient toutes positionnées sur un secteur d’activités
clairement identifié. Avec l’avènement du Big data et l’arrivée de nouveaux interlocuteurs
(tels que Google, Amazon, Uber, Airbnb .) qui ont mordu sur les revenus des offreurs
traditionnels, les grands groupes se doivent de réagir s’ils ne veulent pas disparaître, en
tirant parti de leur très bonne connaissance des consommateurs.
Dans le même temps, la révolution data devra gagner en respectabilité, en prônant
l’avènement d’un Big data responsable. Nombre de Français éprouvent en effet un
sentiment de défiance vis-à-vis de ces nouvelles technologies et 9 personnes sur 10
estiment être mal informées de l’usage que les acteurs économiques font de leurs données
personnelles.
Pour autant, force est de constater que dès que l’on prend la peine d’expliquer le
fonctionnement du Big data, le niveau de défiance de la population recule aussitôt de
manière drastique.
Quantmetry souhaite promouvoir un Big data responsable en donnant à ses clients la
capacité de maîtriser eux-mêmes les données les concernant. Quantmetry conduit en
outre des projets permettant d’améliorer la prise en charge médicale des citoyens. Dans le
cadre d’une étude récente, les très bons taux de rémission du cancer du sein obtenus par
les équipes de l’hôpital de Strasbourg ont pu être mis en lumière : cet établissement atteint
en effet un taux de rémission de 93 %, contre 85 % en moyenne à l’échelle nationale.
Grâce au Big data, qui pourrait permettre une généralisation des bonnes pratiques de cet
établissement à l’échelle de la France entière, 40 000 femmes supplémentaires pourraient
être sauvées chaque année.
Le Big data pourrait par ailleurs être utilisé à plein pour accélérer les processus de
recrutement à condition, toutefois, de garantir un respect maximal de la confidentialité des
données.
Dans ce même souci de prôner une utilisation irréprochable de toutes ces nouvelles
technologies, une pétition a été récemment mise en ligne sur le site change.org, afin
d’appeler à la nécessaire mise en œuvre d’une révolution data responsable. Si cet objectif
est effectivement poursuivi, nul doute que des formations à la prédiction verront le jour,
dans les cursus universitaires de demain.
Enguérand RENAULT s’enquiert de la nécessité d’élaborer une charte de déontologie
pour le métier de data scientist.
Jérémy HARROCH répond qu’il serait prématuré d’établir un tel document pour un
métier tout juste naissant.

Data Scientists, Data Managers,

Architectes et Chefs de projet Big Data :
recruter les compétences clés de vos
projets
Stéphan CLEMENÇON, Enseignant-chercheur et responsable du Mastère Spécialisé
Big Data, TELECOM PARISTECH
Pierre DELORT, Auteur, Président de l’Association Nationale des DSI (ANDSI)
Jean-Paul ISSON, Global VP Predictive Analytics & BI, MONSTER WORLDWIDE
Raphaël POUSSET-BOUGERE, Big Data and Analytics Director, IPSEN
Les débats étaient animés par Enguérand RENAULT, journaliste au Figaro.
En guise d’introduction, Pierre DELORT reconnaît qu’il existe un certain nombre de
mythes sur le Big data.
Enguérand RENAULT demande si la France forme actuellement un nombre suffisant
de data scientits.
Tout en précisant préférer le terme de data specialists à celui de data scientists,
Pierre DELORT répond qu’un appel aux jeunes est lancé, sans qu’aucune filière verticale
n’émerge véritablement dans ce domaine.
Enguérand RENAULT s’enquiert des méthodes à utiliser pour recruter les meilleurs
data scientists.
Jean-Paul ISSON explique que l’émergence récente de la dénomination de
data scientists a suscité un véritable engouement au sein de la communauté scientifique,
dont beaucoup de représentants se sont auto-proclamés data scientits. Il existe pourtant,
dans les faits, peu de personnes pouvant se prévaloir de toutes les compétences
nécessaires à l’exercice plein et entier d’un tel métier.
Quelques formations ont vu le jour, au cours de la période récente, mais en nombre
bien trop réduit. Ainsi, avec des promotions annuelles de 25 étudiants seulement, plusieurs
milliers de postes ne seront pas pourvus dans un avenir proche.
Enguérand RENAULT demande quels arguments les entreprises doivent mettre en
avant pour séduire les futurs data scientists qu’elles entendent recruter.
Jean-Paul ISSON répond qu’il convient de favoriser le travail en équipe, dans la
mesure où les data scientists capables de tout prendre en charge sont rares, sur le
marché. Et lorsqu’ils existent, ils sont « trustés » par Facebook ou Google, qui leur
proposent des salaires très attractifs. Partant de là, les acteurs français doivent
nécessairement jouer la carte de la promotion du travail en équipe, tout en s’attachant à
faire du lobbying auprès des étudiants pour recruter les perles rares de demain.
Stéphan CLEMENÇON explique que la recherche est financée, dans son école, via
des partenariats avec les entreprises. Celles-ci sont donc évidemment associées au
programme de formation déployé, sur le terrain. Les data scientists formés au sein de la
chaire dédiée au machine learning qu’il anime, à Télécom Paritech, ne mettent pas plus de
deux mois à décrocher un CDI. Au total, entre les étudiants de cette chaire et les
professionnels suivant un programme de certification via une plate-forme d’e-learning,
Télécom Paritech forme en moyenne un peu plus de 200 data scientists chaque année, ce
qui reste un nombre réduit. Partant de là, s’il fallait former demain un grand nombre de
personnes, seule l’université pourrait intervenir à une aussi grande échelle.

Enguérand RENAULT note que les étudiants formés sont souvent tentés de créer leurs
propres start-up, ce qui limite encore les possibilités de recrutements des entreprises
existantes.
Stéphan CLEMENÇON explique que 60 % des étudiants de l’Ecole trouvent un emploi
rapidement dans des entreprises existantes. Pour autant, certains étudiants en thèse
peuvent effectivement être tentés par la création d’une start-up. Loin d’appréhender ce
type de phénomènes comme une menace, il faut y voir l’opportunité de décloisonner les
carrières académiques et les carrières plus industrielles, tout en redynamisant au passage
les mathématiques appliquées.
Enguérand RENAULT s’enquiert du niveau de rémunération moyen des data scientists
débutants.
Stéphan CLEMENÇON répond que le salaire moyen des data scientists débutants
s’établit à 60 000 euros annuels.
Jean-Paul ISSON précise que les data scientists, y compris débutants, sont plutôt
rémunérés 100 000 euros au moins aux États-Unis.
Raphaël POUSSET-BOUGERE indique que le laboratoire pharmaceutique Ipsen, au
sein duquel une politique de Big data a été initiée il y a deux ans, est persuadé que le
recours à ce type de technologie constituera un avantage compétitif pour les entreprises, à
l’avenir. Partant de là, plus tôt les entreprises s’engageront dans cette voie, en adoptant
une attitude proactive, mieux elles s’en sortiront.
Pierre DELORT souligne que la pénurie de data scientists devrait se doubler, à terme,
d’une pénurie de décideurs à même de comprendre le langage de cette catégorie de
spécialistes, recourant notamment aux mathématiques inductives. Dans un premier temps,
au moins, toutefois, la DSI pourra aider les décideurs à prendre les meilleures décisions
possibles, tout en veillant à garantir une protection maximale aux données manipulées.

Leveraging Predictive Analytics to compete

and to win
Jean-Paul ISSON
MONSTER Worldwide
Créé en 1994, Monster a été le premier système de recherche d’emplois en ligne. Il a

évolué au fil du temps, en s’améliorant grâce aux nouvelles technologies.
Le métier de data scientist présente de nombreux attraits, ce qui lui confère le statut de
« sexiest job of twenty-one century » selon l’intervenant. Le métier de statisticien est
également très attractif, depuis l’avènement du Big data.
Depuis la nuit des temps jusqu’en 2003, l’humanité a généré 7 Zérabites (ZB) de
données. A l’heure actuelle, la même quantité de données est générée chaque année. En
2015, en effet, 7,9 ZB de données ont été générées (soit l’équivalent de ce que l’on peut
stocker sur 250 milliards de DVD). Et si l’évolution se poursuit au même rythme, on devrait
en être à 35 ZB à l’horizon 2020.
90 % des données qui sont disponibles, à l’heure actuelle, ont été créées au cours des
deux dernières années. Dans les prochaines années, il conviendra de garantir la parfaite
sécurisation de la gestion de ces données tout en remédiant, autant que faire se peut, à la
pénurie de data scientists.
L’analyse prédictive permet de réaliser des prédictions en répondant à trois questions
clés :
que s’est-il passé ?
que se passe-t-il ?
que va-t-il se passer ?
Grâce à la mise en œuvre d’une politique d’analyse prédictive au sein de Monster, le
taux de rétention s’est accru de 15 % en une année seulement. Le recours au Big data ou
au Little data offre en effet des possibilités inestimées. Certains modèles permettent ainsi
de prédire le jour de l’accouchement d’une femme, le succès d’un film ou les infections
chez les bébés prématurés. Ces modèles prédictifs peuvent en outre être utilisés dans le
recrutement des joueurs de foot ou dans le choix de l’implantation des futurs locaux, pour
une entreprise. Ces mêmes modèles ont également été utilisés lors de la dernière
campagne présidentielle, aux États-Unis, et ont permis de lever des fonds en faisant
miroiter par exemple aux internautes la possibilité d’un dîner avec Georges Clooney et
Barak Obama.

Remise des trophées du Big Data 2016

Dans le cadre de l’édition 2016 des trophées du Big data 2016, 53 dossiers de
candidature ont été reçus, lesquels émanaient d’un nombre important de secteurs
d’activités, allant de la santé au transport, en passant par le marketing ou le CRM.
Le niveau des dossiers s’est sensiblement amélioré, en regard de ceux qui avaient été
présentés en 2015. Le jury en a sélectionné 13, parmi les 53 présentés.
Après délibération du jury :
Altares reçoit le premier Prix de l’Innovation Big data 2016 (pour leur plate-forme
Powerlink, permettant de sélectionner les meilleurs partenaires pour se lancer à l’étranger).
Treck Sense reçoit le deuxième Prix de l’Innovation Big data 2016 (pour leur dispositif
de suivi du transport de containers à travers le monde).
Data HQ et Bio Serenity reçoivent le troisième Prix de l’Innovation Big data 2016
(pour leur dispositif d’aide au diagnostic de l’épilepsie).
Fullsix reçoit le Prix spécial Grand public de l’Innovation Big data 2016 (pour leur
projet visant à digitaliser le parcours des skieurs du domaine Paradis Ski)

Marketing et BtoC
Elias BALTASSIS
Director Europe, Data & Analytics THE BOSTON CONSULTING GROUP
Les entreprises doivent décider où elles veulent aller avec le Big data. Il convient en
outre de s’intéresser aux modalités de génération des nouvelles idées, aux plates-formes
de données et à la gouvernance analytique. À cet égard, un modèle de maturité en cinq
étapes a été mis au point par le Data & Analytics du Boston consulting group afin de
statuer sur l’état d’avancement des projets.
Une étude portant sur les sociétés BtoC dans six pays a permis de mettre en lumière
un certain nombre de points saillants. La maturité moyenne des projets n’est pas très
élevée. Elle s’établit à 2,7. Le paramètre de la « vision » semble être celui qui est le plus
avancé. Les deux paramètres les moins avancés sont « la gestion des écosystèmes », ce
qui n’est pas étonnant, et « les plates-formes technologiques », ce qui l’est plus.
Le secteur de l’assurance (très dichotomique), d’une part, la banque et la grande
distribution (qui sont plus homogènes), d’autre part, occupent les trois premières positions
concernant l’état d’avancement du recours au Big data.
En termes de tailles, les moyennes entreprises sont bien plus performantes que les
très grandes ou les très petites.
La France est en retard (en regard de l’Europe qui affiche un taux de maturité à 2,56 et
des États-Unis dont le taux de maturité atteint 2,86). La situation en France est toutefois
très contrastée selon les secteurs d’activité et les zones géographiques.
Contrairement à ce que l’on pourrait croire, les jeunes générations se préoccupent au
moins autant que leurs aînés de la préservation de la confidentialité de leurs données.
L’enquête démontre en outre que les individus surestiment les dangers que
représentent les entreprises. Ceci s’explique notamment par le fait que les sociétés font
montre d’une certaine passivité quand il s’agit de communiquer sur leurs pratiques. Ainsi,
presqu’une société sur deux ne dispose d’aucun moyen dédié pour expliquer à ses clients
la nature des données qu’elle détient. Et 55 % des personnes sondées n’ont aucune
confiance dans la capacité des sociétés à garantir la préservation de leurs données.
La perception du besoin de confidentialité est en train d’évoluer. Ainsi, certaines
données que l’on considérait par le passé comme excessivement confidentielles semblent
l’être un peu moins, tandis que d’autres, qui semblaient par le passé relativement
anodines, deviennent aujourd'hui plus précieuses. Dans un tel contexte, il convient de
mettre en place une vraie politique de confidentialité dans les sociétés, tout en faisant en
sorte de la faire connaître, auprès du grand public. A n’en pas douter, l’avantage
concurrentiel ultime reposera en effet, à l’avenir, sur la confiance que les consommateurs
auront dans la capacité de tel ou tel acteur à préserver leurs données.
Enguérand RENAULT s’enquiert de la part des investissements prévus pour
augmenter la transparence des données et la confiance des consommateurs.
Elias BALTASSIS répond qu’il y aura bien des investissements visant à améliorer la
transparence des données et la confiance des individus. Ceux-ci ne seront toutefois pas
nécessairement colossaux.

Développer et piloter les gares avec le

Digital
Arnaud KREKOUNIAN
Responsable Digital, SNCF GARES & CONNEXIONS
Gares et Connexion est une branche de la SNCF créée en 2009. En charge de la

gestion de 3 000 gares au niveau national, cette société assure un rôle patrimonial
d’entretien des équipements ; elle a également vocation à développer les services à
destination des utilisateurs fréquentant les gares, tout en prenant en charge l’exploitation
du trafic. Ces 3000 gares accueillent 10 millions de visiteurs par jour, dont 20 % ne sont
pas des voyageurs. Il convient par conséquent de faire en sorte de gérer au mieux ces
flux, en recourant au Big data.
Dans un tel contexte, plusieurs défis s’offrent à Gares et Connexion dans les
prochaines années. Il s’agira notamment de :
opérer et développer les systèmes d’informations en gare ;
proposer de nouveaux services pour accompagner le voyageur ou le visiteur en gare ;
créer des bornes interactives ;
proposer systématiquement un accès wi-fi dans les gares ;
développer la connaissance des flux piétons, afin de pouvoir les modéliser.
Plus généralement, la stratégie mise en œuvre consiste à mieux positionner les gares
au sein des villes et à mieux comprendre l’écosystème que celles-ci représentent, dans
l’espace urbain. Pour ce faire, il incombe à la DSI de constituer un socle de données, qui
sont ensuite exploitées par la Direction digitale (laquelle les « re-dispatche » ensuite vers
d’autres entités du Groupe).
Le Big data permettra notamment d’identifier – essentiellement grâce aux traces wifi
laissées par les visiteurs – les zones très passantes au sein des gares, en vue d’afficher
les informations pertinentes aux endroits stratégiques, où leur utilité sera maximisée.
Il sera également possible, grâce au Big data, de déterminer les taux de panne et de
prévoir des tournées des équipes de maintenance permettant de limiter les désagréments
pour les voyageurs.
Une analyse pointue des traces wifi permettra en outre d’analyser le parcours des
visiteurs dans les gares et de voir s’ils fréquentent ou non les magasins en sortant de leurs
trains. Des actions pourront ainsi être mise en œuvre pour inciter les individus à passer par
les zones de chalandise avant de regagner leurs domiciles.


Argus de la presse : améliorer l’expérience

« utilisateurs », réduire le churn et
conquérir de nouveaux clients grâce au Big
data agile
Georges SAWAYA
CIO, ARGUS DE LA PRESSE
L’argus de la presse est une entreprise familiale spécialisée dans l’intelligence

économique, qui vise à collecter les informations, à les traiter et à les diffuser lorsque cela
semble nécessaire. Les entreprises clientes peuvent ainsi mieux contrôler leur image et
leur réputation et piloter plus aisément leur stratégie de développement.
L’argus de la presse intervient sur les trois pôles suivants :
Médias et Intelligence ;
Médias et public insights pour l’aide à la décision ;
Market intelligence (pour le compte des directions marketing et stratégique).
L’argus de la presse peut se prévaloir de 10 000 clients, représentant 30 000 marques.
Créée il y a 137 ans, cette entreprise emploie aujourd'hui 400 salariés. Elle est en capacité
de surveiller 150 millions de sources sur les réseaux sociaux, ainsi que 1,2 million de
blogs. L’argus de la presse est en outre en capacité de traiter un grand volume de
données, en continu, 24 heures sur 24. Cinq téraoctets supplémentaires de données
doivent en effet être prises en charge chaque jour.
Avec l’arrivée des réseaux sociaux, qui a modifié en profondeur la relation des
entreprises avec le public et a rendu obsolètes les pratiques de veille traditionnelle, l’argus
de la presse a mis au point la plate-forme LuQi, visant à faire de l’arrivée des réseaux
sociaux une véritable opportunité, au-delà de la menace que ceux-ci peuvent représenter
par certains aspects.

Cas Rexel : la Data Visualisation, maillon

clé de l’analyse prédictive
Angelica REYES
Directrice Marketing, QLIK FRANCE
Créée en 1993, Qlik est une entreprise d’origine suédoise qui emploie aujourd'hui plus
de 1400 employés à l’échelle mondiale. En regard des acteurs traditionnels de ce marché,
Qlik ne se cantonne pas à ce qui a déjà été prédéfini en amont pour prendre une décision
mais permet d’explorer de nouvelles corrélations, qui n’avaient pas été envisagées au
départ. Qlik répond aux besoins des métiers, sans sacrifier la gouvernance. Qlik s’attache
en outre à concilier les métiers existants et l’IT. Enfin, Qlik propose des innovations
permettant notamment de contextualiser les données collectées, en recourant à des
données externes. Qlik est leader sur son marché pour la sixième année consécutive.
Claudio BORLO
DSI REXEL
Créé en 1967, la société Rexel est devenue, grâce à une croissance par acquisitions,
le leader mondial de la distribution des produits et des services dans le domaine de
l’énergie (après avoir été spécialisée dans le secteur de l’électricité jusqu’en 2010). Cette
société propose une offre intégrée à ses clients et livre ses produits à J+1 partout dans le
monde. Présente dans 35 pays, Rexel peut se prévaloir d’un chiffre d'affaires de
13,5 milliards d’euros et de plus d’un million de références produits.
En recourant à Qlik Sense, Rexel a pu mettre en place une approche segmentée,
multicanal et digitale, dans le cadre d’un modèle de Business Intelligence (BI) Agile. Elle
recourt ainsi à l’analyse prédictive des KPI et des dashboards et développe pour ce faire
une approche pragmatique. Ces nouvelles fonctionnalités permettent en outre d’optimiser
la gestion des stocks. Une majorité d’utilisateurs, au sein de Rexel, s’accorde à reconnaître
la valeur ajoutée apportée par les solutions mises en œuvre par Qlik.

Groupe Seb et objets connectés : comment

proposer des contenus et services
crosscanaux personnalisés
Nicolas VALANCE
Pilote du projet d'innovation Open Food System, GROUPE SEB
Le groupe Seb, qui commercialise chaque seconde sept nouveaux articles dans le
monde – est le leader mondial du petit équipement domestique. Le Groupe possède six
marques internationales et certaines marques locales dont la marque Seb, présente
uniquement en France et Belgique.
Seb a pour mission de faciliter et d’embellir le quotidien des utilisateurs, en anticipant
les difficultés de ces derniers. Pour ce faire, le Groupe doit innover en permanence.
Pour le lancement de la cocotte-minute, Seb avait ainsi fait le choix de proposer aux
utilisateurs un livre de recettes associé, ce qui lui a assuré un succès indéfectible. Pour
Cookéo, le Groupe a adopté la même stratégie en proposant un livre de recettes en ligne
aux utilisateurs de ce produit.
Seb travaille d’ores et déjà sur la deuxième génération de Cookéo, afin de proposer un
panel de recettes élargi et de personnaliser les services délivrés aux utilisateurs. Grâce à
la construction d’un format de recettes élargi et intelligent, Seb entend ainsi proposer des
services innovants et interconnectés à ses utilisateurs.
Pour ce faire, le groupe a mis au point un consortium de recherches, le programme
Open Food Système qui vise à répondre aux questions du quotidien du type « que va-t-on
manger ce soir ? ». Ce projet développe des solutions de cuisine numérique en mettant à
la disposition des utilisateurs des contenus et services numériques innovants, liés à des
appareils connectés, qui vont faciliter le quotidien de ces derniers.
Grâce au moteur de recommandation temps réel auto-apprenant conçu par Coheris,
toutes les données de profil, d’usage web, toutes les caractéristiques des objets
connectés, ainsi que des données de contexte, sont collectées et exploitées.
Avec l’ensemble de ses partenaires et à l’aide d’experts reconnus au niveau mondial,
le groupe Seb apporte ainsi des solutions aux besoins que les consommateurs ont de se
nourrir plus sainement, tout en diminuant le temps de préparation des repas.
OFS prévoit en outre de mettre à disposition des professionnels et du grand public de
nouveaux appareils de cuisson intelligents et connectés. A noter que la version
« connect » du Cookéo représente d’ores et déjà 20 % des ventes environ.

TF1 Publicité : optimiser l’efficacité

publicitaire et renforcer la pertinence des
contenus
Fabrice MOLLIER
DGA en charge de la stratégie et du marketing, TF1 PUBLICITE
La data constitue une véritable révolution dans le monde de l’industrie, même si six
Français sur dix n’ont encore pas entendu parler de ce concept à l’heure actuelle. Le
Big data est entrée chez TF1 (qui est notamment l’un des leaders de la TV catch-up) via le
Digital.
TF1 a lancé la plate-forme one data il y a de cela quelques mois, en vue de saisir les
opportunités disponibles en termes d’achat d’espaces publicitaires. Cette plate-forme
emploie 8 personnes.
TF1 accompagne les clients dans le ciblage de leurs campagnes et s’attache à prouver
l’efficacité desdites campagnes. Pour ce faire, le Groupe s’appuie sur des données ayant
trait à la GRP (c'est-à-dire la capacité à toucher une cible).
Grâce aux nouvelles technologies du Big data, TF1 a réussi à déterminer un indice de
GRP correspond à différents types de produits – lessive, shampoing, café, chocolat, etc. –
et à déverser ces données « nouvelle génération » dans les outils habituels de
médiaplanning.
Partant de là, sur la base de ces nouvelles modèles, il est désormais possible de
connaître très précisément la typologie des publics regardant tels ou tels programmes.
Ainsi, non seulement on connaît l’âge moyen du public de The Voice, mais on sait quels
biscuits ces personnes mangent et quelle voiture elles souhaitent conduire.
TF1 a conçu avec une filiale de Bouygues un moteur permettant de mieux allouer les
espaces publicitaires. TF1 s’attache en outre à renforcer la preuve de l’efficacité des
campagnes publicitaires à la télévision, en recourant à la data. Il a en effet été démontré
que la télévision limitait l’effet de l’évolution des prix sur les ventes. L’élasticité des prix est
en effet réduite de moitié, pour les clients investissant dans des espaces publicitaires
télévisuels. La télévision protège en outre de la concurrence. Quand un client investit
1 euro dans la publicité télévisuelle, il réalise 1,20 euro de chiffre d'affaires supplémentaire.
Par ailleurs, TF1 s’attache à utiliser toutes les opportunités que la data peut offrir, en
s’associant à des partenaires prestigieux dans le domaine de la R&D. TF1 s’est ainsi
associé à une chaire créée par Orange et l’ESSEC. Il convient en effet d’optimiser la
pression publicitaire sur les consommateurs, et ce quel que soit le device utilisé. Pour ce
faire, le recours aux GRP « produits » (qui sont utilisables sur les 15 principales chaînes de
la TNT) est essentiel car il permet d’améliorer sensiblement le ciblage des campagnes
publicitaires.

Machine Learning au sein d’Orange : les

clés pour améliorer la proactivité dans sa
relation clients
Sébastien BOUTIN
Direction de la Stratégie Client et Data ORANGE France
Orange estime qu’il est possible d’utiliser la data au service de ses clients, tout en
assurant un respect de la vie privée de ces derniers. Pour ce faire, Orange a lancé des
projets visant à améliorer la proactivité dans la relation client.
Un film est diffusé sur le système d’alerte mis en place à destination des clients
Orange, dans le cadre du programme « sauvons les Livebox ». Ce dispositif a vocation à
prévenir les abonnés Orange des risques d’orages dans leurs régions, grâce à la collecte
de données provenant de Météo France, afin d’éviter, autant que possible, le foudroiement
des Livebox présentes dans les zones touchées.
Ce type de campagne est très bien perçu par les abonnés, dont le taux de satisfaction
s’établit à 98 %. Le nombre de Livebox sauvés grâce à ce dispositif a été important. Cette
campagne a en outre permis de réduire le nombre d’appels au call center et le nombre de
déplacements inutiles de techniciens Orange. Au total, les économies réalisées par ce
biais se sont chiffrées à 2,8 millions d'euros.
Dans le cadre de la mise en œuvre d’une deuxième génération de ce programme de
prévention, Orange a affiné les données portant sur le type d’orages (pluies ou grêles) et le
type de Livebox à protéger. Ce nouveau dispositif a ainsi permis de sauver un nombre plus
élevé de Livebox et de réaliser des économies s’élevant à 3,6 millions d'euros, en
augmentation par rapport à 2014.
Le recours à la Big data a également permis d’améliorer les modalités d’intervention
chez les clients, afin de limiter le nombre d’interventions inutiles, faute d’informations
suffisamment précises collectées en amont par les services en charge de la relation client.
A n’en pas douter, en effet, un technicien qui se déplacera chez un client sans nacelle
adaptée pour atteindre sa zone d’intervention fera perdre du temps inutilement à
l’utilisateur et génèrera de l’insatisfaction chez ce dernier.

Bludata : retour d’expérience sur la

création d’un Data Lab chez Auchan
Olivier GIRARD
Directeur Marketing Client et Data, AUCHAN RETAIL INTERNATIONAL
2,5 milliards de tickets de caisse sont édités chaque année par le groupe Auchan. La
Direction a donc souhaité mettre en place un système permettant d’exploiter au mieux
toutes ces données, dans une perspective de création de valeur ajoutée et de mise en
œuvre d’initiatives time-to-market.
Pour ce faire, une entité juridique spécialisée, ayant vocation à intervenir sur
l’ensemble des pays du Groupe, a été mise en place, sachant que chacune de ces zones
d’implantation a développé son propre business model, ainsi qu’une méthode spécifique
de collecte des données.
BluData est donc l’entité Data de Auchan Retail International, en charge de collecter et
activer les données du Groupe, on et off-line, pour les enseignes (Hyper, Super, E-
commerce). Elle a vocation à valoriser les données on et offline pour construire des
services à destination des enseignes et des sites web du Groupe
C’est dans ce cadre que BluData a mis en place une plate-forme permettant de
centraliser toutes les données provenant de nombreuses sources et de réaliser des
analyses, scores et algorithmes lui permettant de construire des études et des services à
destination des enseignes et des sites web. Dans ce cadre, BluData a incontestablement
bénéficié du fait qu’Auchan a toujours favorisé le test and learn, dans le cadre de la mise
en œuvre de sess projets.
La connaissance du métier originelle, à savoir le retail pour le groupe Auchan, est
essentielle pour permettre au Big data de progresser efficacement, tout en créant de la
valeur. Grâce à cette nouvelle technologie, Auchan s’attache notamment à prédire ses
ventes, en vue de mieux satisfaire ses clients. Le Groupe peut également adresser à ses
clients des messages promotionnels adaptés, grâce à toutes les données collectées via le
recours au Big data.

Effrontech : la mobilité en mode offline

portée par le Cloud
Lisa NEDDAM
Cloud Data Services WW Sales Executive, IBM
Le Cloud chez IBM est une offre nouvelle, qui a vocation à offrir une gamme complète
de services « opened for data ».
IBM prend ainsi en charge des cas d’usage opérationnels, permettant aux utilisateurs
de se dédouaner de la gestion de toutes les bases de données, dans le cadre d’une plate-
forme dont la fiabilité est incontestable.
Le recours aux services d’IBM et, plus généralement, l'utilisation des bases de
données as-a-Service, permettent ainsi aux entreprises de se concentrer sur leur cœur
métier, tout en bénéficiant de l'expertise, de la sécurité et de la « scalabilité » du Cloud.
Julien DELOUVEE
Directeur Associé, EFRONTECH
Pour améliorer l’efficacité des commerciaux en situation de mobilité, eFrontech – un

intégrateur de solutions BI créé en 2000 – a conçu l'application mobile Aero qui permet
une gestion complète des actions commerciales en mode déconnecté.
La réplication et la synchronisation des données entre équipements mobiles et CRM
sont au cœur de ce projet de développement qui repose sur l’utilisation des services de
données dans le Cloud d’IBM (Cloud Data Services).
Ce dispositif a été mis en place afin de répondre à l’évolution sensible et constante des
manières de travailler, au sein des entreprises. Le monde est en effet devenu un réseau de
communications gigantesque, au sein duquel les règles du jeu ont sensiblement évolué.
Les acteurs économiques doivent donc s’adapter à cette nouvelle donne, en recourant à
des outils adaptés.
eFrontech a conçu son application en mode « Mobile first », sachant que les
connexions s’opèrent de plus en plus souvent via les téléphone portables.
Dans le même temps, l’approche « off-line first » vise à créer une application pour des
utilisateurs qui sont majoritairement déconnectés ou qui disposent d’une connexion
réduite.
Contrairement à ce que l’on pourrait penser, la connectivité quasi-omniprésente, dans
le monde actuel, augmente le besoin de gestion de l’off-line. Les utilisateurs veulent en
effet une application qui fonctionne en permanence, et ce quel que soit l’endroit.
Cette approche « off-line first » est donc la seule qui permette d’atteindre un niveau de
satisfaction optimale des utilisateurs. Cette approche permet en outre d’économiser de la
batterie et de la bande passante.
L’application est disponible sur tous les terminaux – mobiles, tablettes, etc. eFrontech
a fait le choix de nouer un partenariat avec IBM afin de déporter sur cet acteur de poids un
certain nombre de tâches annexes

Eclairage juridique sur le domaine des

données collectées
Alain BERRY
Directeur de la Communication ORANGE CLOUD FOR BUSINESS
Maître Olivier ITEANU

Avocat à la Cour et vice-président CLOUD CONFIDENCE
Alain BERRY explique, en préambule, qu’il convient de chercher à comprendre les

enjeux juridiques ainsi que les exigences en matière de réglementation sur le Big data. À
cet égard, il demande à Maître Olivier Iteanu s’il existe un secteur plus particulièrement
concerné par la sécurité sur le Big data.
Après avoir indiqué que Cloud Confidence est une association regroupant trois
collèges distincts (parmi lesquels les clients et les prestataires cloud), qui vise à créer des
certifications référentielles, Maître Olivier ITEANU indique que le Big data concerne
l’ensemble des secteurs d’activité et pas un secteur en particulier.
Alain BERRY demande jusqu’où les entreprises doivent aller dans la protection de
leurs données personnelles.
Maître Olivier ITEANU répond qu’il convient, avant toute chose, de bien choisir son
prestataire ; en outre, même si les certifications ISO ne sont pas obligatoires, les clients
peuvent exiger de les rendre contractuelles, sachant que ceux-ci sont responsables des
données qu’ils collectent.
Dans le nouveau règlement européen en cours d’élaboration, de nouvelles dispositions
relatives au droit à l’oubli, d’une part, à la portabilité des données, d’autre part, devraient
être rajoutées. Les utilisateurs ne doivent en effet plus être captifs d’un prestataire en
particulier et doivent pouvoir changer de prestataire en conservant leurs données
antérieures.
Alain BERRY demande si les acteurs en présence ont le droit de monétiser leurs
données.
Maître Olivier ITEANU répond par l’affirmative. Pour autant, la CNIL a récemment émis
une mise en demeure à l’attention de Facebook, reprochant à cet acteur économique de
combiner les données sans avoir préalablement reçu le consentement des personnes dont
celles-ci émanaient.

Le développement d’applications
analytiques en environnement Hadoop :
Faut-il oublier Map/Reduce ?
Mike OLSON
CSO et Chairman of the Board, CLOUDERA
Certaines entreprises qui sont actuellement parmi les plus performantes au monde
changent totalement les règles de leur industrie. Ainsi, Uber n’est propriétaire d’aucune
automobile, Airbnb ne dispose d’aucune chambre et Alibaba n’a aucun stock. Ces sociétés
n’utilisent pas les données. Les données sont leur activité.
Grâce aux données, les entreprises apprennent à mieux connaître leurs clients finaux
et leurs fournisseurs. Elles peuvent s’en servir pour créer des produits et des services
adaptés. Cette transformation profonde entraîne toutefois de nouveaux risques en matière
de sécurité et de conformité.
La création de plateformes Hadoop permet de traiter des volumes considérables de
données, de les maîtriser et de faire évoluer l’expérience client. Beaucoup d’entreprises se
sont engagées dans cette démarche, comme SFR, Marks & Spencer, etc. Les systèmes
actuels permettent de prendre en compte toutes les interactions pour mieux connaître les
comportements et accroître l’efficacité.
Dans l’industrie de l’assurance, cette nouvelle approche peut également être
importante, en apportant davantage de précisions dans le calcul des primes. Markerstudy
a développé des modèles très performants dans ce domaine. Ils contribuent également à
réduire la fraude.
Depuis sept ou huit ans, il est devenu extrêmement facile d’obtenir des données. Le
trafic généré est considérable. Par ailleurs, il n’existe plus vraiment de limite en matière de
stockage. Celui-ci n’a toutefois de sens que si les informations peuvent être utilisées. Or
les outils désormais disponibles permettent de gérer de tels volumes.
La plateforme Hadoop a été inventée par Google en 2004. Elle permet de gérer
l’explosion des volumes de données et de créer des entreprises capables de les utiliser
pour effectuer des prévisions ou concevoir des produits et des services basés sur leurs
interactions.
La construction de bases de données relationnelles a déjà donné lieu à une très
longue expérience. Toutefois, jusqu’à une période récente, la chaîne allant de la collecte à
l’exploitation des données fonctionnait avec des systèmes séparés. Ce n’est plus le cas
avec Hadoop.
Cette plateforme peut être utilisée par toutes les entreprises dans le monde. La
technologie sur laquelle elle repose est néanmoins complexe. Cloudera propose donc des

solutions pour l’appréhender plus facilement. Ses équipes ont l’habitude des difficultés
qu’elle peut poser et savent comment les résoudre.
Le Big Data est clairement devenu une cible. Par conséquent, il est indispensable de
prévoir des dispositifs pour protéger les données mises sur la plateforme.
Au début, tous les clients construisaient leur data center avec leurs serveurs mais ils
privilégient de plus en plus le cloud. Beaucoup de modes de fonctionnement sont
également hybrides, avec la coexistence des deux systèmes.
Evidemment, la plateforme ne fonctionne que si elle est accompagnée d’applications.
Cloudera a ainsi conclu plus de 2 000 partenariats pour disposer d’une offre la plus
complète possible et encourager les innovations.
Il est nécessaire de disposer d’une bonne architecture mais la technologie ne suffit
pas. Les équipes jouent également un rôle essentiel. Les entreprises qui réussissent le
mieux s’appuient généralement sur trois piliers, que sont l’IT, l’analyse et le business.
L’approche doit être agile, avec des expérimentations. Sous ces conditions, le système
recèle énormément de potentialités.
Hadoop est une plateforme unique. Son émergence constitue un événement majeur et
ses perspectives de développement apparaissent incroyables. Les données vont
probablement transformer toutes les activités.

La plateforme Big Data de Mappy pour le

suivi d’audience et la BI
Nicolas KORCHIA
Responsable Business Intelligence, MAPPY
Mappy est une entreprise française de taille modeste, puisqu’elle emploie une centaine
de personnes. Son activité consiste à dessiner des cartes, établir des itinéraires et
identifier des points d’intérêt. Son site reçoit environ 10 millions de visiteurs uniques
chaque mois.
La BI repose sur une plateforme Hadoop et sur l’outil Indexima, qui a été développé en
interne.
Pour Mappy, l’enjeu était de répondre à des questions de plus en plus pointues de la
part des analystes. La situation était devenue problématique, car l’explosion des requêtes
avait considérablement allongé les temps de réponse. Les volumes de données à parcourir
étaient colossaux. Les serveurs n’étaient plus suffisants et il n’est pas possible de les
multiplier dans les proportions qui auraient été nécessaires.
L’outil Indexima a permis d’ajouter une couche d’indexation et de réduire les temps de
réponse de manière très significative. Par le passé, les difficultés commençaient au-delà
de 100 millions de lignes. Aujourd’hui, le système peut traiter jusqu’à 2,7 milliards de lignes
mais, en réalité, n’a plus de limites.
Indexima combine des indexes multidimensionnels, des pré-agrégations et du

stockage sur disque orienté-colonne. La somme de ces trois éléments explique que l’outil
soit beaucoup plus performant. Cette solution permet aux analystes de ne jamais se rendre
compte qu’ils naviguent dans de tels volumes de lignes.
Pour le moment, Indexima est une solution propriétaire mais le moteur en lui-même
pourrait devenir open source. Il est en production chez Mappy depuis six mois, en
utilisation quotidienne.

Le temps réel débarque en force sous

Hadoop : Streams, Kafka, Spark, Storm,
etc. du Big Data au « Fast Data »
Tugdual GRALL
EMEA Chief Technical Evangelist, MAPR
Les volumes d’informations sont de plus en plus importants mais les utilisateurs
attendent désormais du temps réel, celui-ci pouvant éventuellement aller jusqu’à quelques
secondes.
Dans ce contexte, l’enjeu est de capturer les flux de données le plus tôt possible et de
les mettre à disposition sur la plateforme. L’outil MapR Stream permet de le faire en
s’appuyant globalement sur l’architecture Kafka.
Toutes les industries sont concernées par le développement du temps réel. Les
données représentent des volumes de plus en plus importants mais les réponses sont
attendues immédiatement.
En ce qui concerne le pétrole par exemple, il est possible d’analyser la qualité du
produit à partir de la pompe. Une multitude de petits messages sont envoyés vers des
applications. Leur accumulation permet de détecter d’éventuelles anomalies et de lancer
des processus d’alerte, de reconfiguration du système, etc. Kafka avait été créé pour le
monitoring des applications informatiques elles-mêmes. Il peut aussi être utilisé pour la
gestion de bandeaux publicitaires. Les possibilités sont infinies.

Powering modern web, mobile and IOT

applications with Apache Cassandra
Patrick McFADIN
Chief Evangelist, DATASTAX
Il est nécessaire de répondre à de grands défis. La situation a commencé à devenir

problématique en 2007, avec l’arrivée de l’iPod. Ce petit objet a tout fait changer, car ses
propriétaires l’utilisent en permanence. Or il crée énormément de données.
Avec le développement des applications, les bases de données traditionnelles n’étaient
plus adaptées. Il n’était pas envisageable de multiplier à l’infini les data centers. Le cloud
offre une alternative, sans toutefois être infaillible.
Apache Cassandra permet de régler beaucoup de problèmes et de faciliter le
fonctionnement des applications. Cette solution est conçue pour le cloud mais part du
principe que celui-ci va finir par rencontrer des difficultés. Par conséquent, chaque serveur
duplique les données des autres serveurs. Cette opération est réalisée automatiquement.
Ainsi, les coupures n’entraînent aucune perte d’informations et les utilisateurs ne se
rendent compte de rien. Tout reste en ligne.
Evidemment, le fait de multiplier les réplications doit s’accompagner de garanties en
matière de protection des données. En Europe, beaucoup d’utilisateurs refusent que
celles-ci soient transférées aux Etats-Unis. Apache Cassandra le permet, car sa
configuration peut être maîtrisée et donc répondre aux exigences juridiques des différents
pays.

Le Big Data va-t-il tuer le Datawarehouse ?

Jean-Marc BONNET
Directeur de l’architecture et des solutions analytiques, TERADATA FRANCE
Franck POULAIN
Technology Presales Director, ORACLE France
Sébastien POUSSART
Expert Architect Big Data, SAS France
Olivier RENAULT
Solution Engineer, HORTONWORKS
La logique du Datawarehouse consiste à stocker différentes sources de données dans

un entrepôt pour ensuite les exploiter par des requêtes. Le Big Data permettrait d’atteindre
globalement le même résultat mais de manière plus rapide et plus performante. Par
conséquent, l’avenir du Datawarehouse pourrait être remis en cause.
Jean-Marc BONNET souligne que le Datawarehouse est avant tout une approche
fonctionnelle. Il doit évoluer mais ses fonctions premières en termes de pilotage ne vont
pas disparaître. Les clients n’envisagent d’ailleurs pas de le remettre en cause.
Franck POULAIN explique que l’une des caractéristiques fondamentales du
Datawarehouse est d’apporter de la modélisation. Les données sont en sécurité,
disponibles et structurées. Il existe de fortes complémentarités avec le monde du Big Data.
Olivier RENAULT confirme que les plateformes Hadoop et le Big Data ne sont pas
encore en mesure de reprendre toutes les fonctionnalités du Datawarehouse. Les
technologies évoluent rapidement dans les deux univers et apparaissent plutôt
complémentaires.
Franck POULAIN indique que la volonté d’Oracle est de laisser la donnée là où elle est
efficacement gérée. Il est toutefois important que tous les systèmes coopèrent pour avoir
une vision complète de ce qui est disponible. Les volumes actuels sont difficilement
gérables dans les bases relationnelles traditionnelles.
Jean-Marc BONNET estime que toutes les technologies sont capables de faire face
aux volumes. En réalité, tout dépend de la densité des données. La solution la plus
performante repose généralement sur un écosystème hybride, combinant une fonction
dataware solide et un data lake ou un data hub pour gérer les données de faible densité et
parfois peu structurées. La situation sera toutefois évolutive.
Sébastien POUSSART insiste sur l’intérêt de mettre l’accent sur l’analyse des données
plutôt que sur leur stockage. Dans la construction de projets de refonte d’infrastructures à
l’international, cette approche permet de surmonter les difficultés liées à la disparité des
données. Une approche en data lake permet d’avancer sans attendre d’être en mesure de
mettre en place le modèle final de Datawarehouse.
Olivier RENAULT souligne qu’Hadoop excelle dans le non structuré mais que cette
solution fonctionne aussi pour du structuré. Sa principale limite repose sur la concurrence
entre les utilisateurs.

Franck POULAIN rappelle que le Datawarehouse est construit sur la base d’une
modélisation. Il s’accompagne donc forcément de contraintes. La mise en œuvre de
complémentarités avec Hadoop à partir de la même source est très intéressante, car
permet de s’affranchir de ces rigidités et d’introduire plus de souplesse. Oracle propose
désormais des points d’accès uniques, qui sont neutres pour l’utilisateur final.
Jean-Marc BONNET explique que la stratégie est finalement la même que dans
l’automobile avec le développement des moteurs hybrides. Il est souhaitable de combiner
les deux technologies et de les orchestrer de la manière la plus transparente pour les
utilisateurs. Aujourd’hui, ce qui détermine l’endroit où placer le cursus dépend de la densité
des données. Cette situation évoluera certainement dans les prochaines années.
Sébastien POUSSART confirme l’intérêt des solutions mixtes, notamment pour
répondre aux besoins de projets spécifiques. Elles permettent d’éviter des problèmes
organisationnels, qui sont très consommateurs de temps dans les grands groupes, et
donnent de l’agilité.
Ces évolutions ne sont pas forcément préjudiciables pour les opérateurs traditionnels.
Franck POULAIN indique qu’Oracle propose aussi des solutions sur Hadoop, grâce à des
partenariats. Jean-Marc BONNET assure qu’il en est de même pour Teradata.
Franck POULAIN note que les migrations totales vers le Big Data sont très rares. Les
systèmes mis en place cherchent le plus souvent à tirer parti des avantages offerts par les
deux mondes. De ce point de vue, l’expérience de Randstad est très intéressante, car elle
montre comment il est possible de mettre en corrélation les données de l’entreprise et
l’ensemble des données externes, issues notamment des réseaux sociaux.
Olivier RENAULT explique que les entreprises qui utilisent uniquement Hadoop ne
disposaient généralement pas de Datawarehouse au préalable. Il cite notamment
l’exemple de Spotify. L’existence d’un très gros cluster est toutefois indispensable pour
atteindre des niveaux de performance satisfaisants.

Comment la DSI Groupe de Saint-Gobain

accélère les initiatives Big Data des
activités métiers
Eric MERLATEAU
IT Infrastructure Services Design, SAINT-GOBAIN
Stéphane SARETTA
Responsable Architecture Nouveaux services, SAINT-GOBAIN
Saint-Gobain s’est historiquement construit dans le domaine du verre mais le groupe a

largement diversifié ses activités au cours des dernières décennies. Il compte désormais
190 000 salariés dans le monde, avec l’ambition de se positionner comme le leader
mondial de l’habitat durable. Il s’est également engagé dans un processus de
transformation autour du digital.
La DSI a souhaité s’impliquer pleinement dans ce processus, en apportant une réelle
plus-value. L’objectif était de répondre aux besoins d’explications autour de la démarche,
d’offrir de l’agilité et d’améliorer l’efficacité financière en optimisant les coûts.
Une plateforme sur Hadoop a été développée avec Cloudera. Celle-ci est intégrée
dans le réseau Saint-Gobain et a été construite de façon mutualisée pour l’ensemble des
entités, qui peuvent parfois être en concurrence.
Le dimensionnement du cluster a posé un certain nombre de difficultés, car il devait
répondre à des situations très variées. Les choix se sont appuyés sur les best practices. Ils
correspondent aux besoins actuels. Des capacités d’extension ont également été prévues.
Plusieurs offres de services sont proposées autour de la plateforme. Une formation
interne de deux jours a été mise en place autour du Big Data. Les échanges permettent
également de capitaliser sur les premières expériences. Les enseignes ont pu s’inspirer de
ce qu’avaient déjà fait les autres. Cette approche facilite la concrétisation des projets.
La rapidité avec laquelle le dispositif a pu se mettre en place est impressionnante.
Depuis le mois de septembre, une dizaine de projets ont déjà tourné sur la plateforme. La
DSI a fait preuve d’une totale transparence avec les métiers sur le fait qu’il faudrait avancer
et apprendre ensemble. Les enseignes ont apprécié de trouver une véritable écoute.
Il s’agit d’une phase de transformation. Il faudra ensuite gérer la mise en production et
manager dans le temps les nouvelles applications. L’intégration au réseau a fait gagner
beaucoup de temps, car la plupart des données étaient internes. Se posent toutefois des
problèmes de sécurité. Beaucoup de questions restent à régler mais l’important est de se
placer dans une dynamique d’évolution.

Du prédictif au prescriptif en mode Big

Data
Jean-David BENASSOULI
Directeur exécutif ACCENTURE DIGITAL, DATA ET ANALYTICS
L’usage de la donnée nécessite une transformation des organisations. Il existe une

volonté de renforcer les analyses mais les budgets sont souvent constants.
Pour optimiser la création de valeur, beaucoup d’entreprises travaillent en mode Data
Lab, comme Saint-Gobain. Ce mode de fonctionnement leur permet de travailler
étroitement avec les métiers, d’expérimenter et d’apprendre. Le Data scientist est au cœur
du dispositif mais avoir des interactions avec l’ensemble des équipes, avec des experts en
architecture, en sécurité, en droit, etc.
Il s’agit d’une étape nécessaire avant d’envisager une industrialisation, qui pose
souvent des difficultés. Les deux démarches étant généralement menées en parallèle, il
convient de préserver au maximum les mécanismes de synchronisation avec le Data Lab
et d’encourager les échanges.
Les modèles prescriptifs peuvent aller au-delà de la prévision et s’intégrer directement
dans les processus. Ainsi, des paiements importants peuvent être bloqués ou générer un
appel s’ils ne correspondent au comportement habituel du client. Dans les télécoms, les
opérateurs peuvent, en fonction des profils, laisser des appels se poursuivre au-delà du
crédit prépayé. Il existe beaucoup d’exemples de ce type.

Discours d’ouverture
Márta NAGY-ROTHENGASS
Head of Unit "Data Value Chain" in DG CONNECT, EUROPEAN COMMISSION
Le marché des Big Data connaît une forte croissance. En 2015, il représentait environ
50 milliards d’euros, avec une croissance d’environ 6 % en Europe.
Environ 250 000 entreprises européens travaillent directement dans le domaine des
Big Data mais ces dernières se trouvent désormais au cœur de beaucoup de métiers,
même les plus traditionnels.
La France a su créer un écosystème performant et innover, notamment avec son projet
de loi numérique, qui constitue une première en Europe.
Les données offrent beaucoup opportunités. Elles permettent d’envisager de nouveaux
modèles économiques mais s’accompagnent également de nouvelles externalités,
positives ou négatives. Des défis importants sont à relever. La digitalisation de la société
européenne apparaît toutefois indispensable.
La Commission a développé des plans d’action permettant de soutenir cette
dynamique, tout en préservant les valeurs européennes, en particulier la confidentialité des
données personnelles.
Il est important de renforcer le travail collaboratif et de créer des communautés, en
encourageant les initiatives transfrontalières ou transsectorielles. Il est également
nécessaire de répondre aux besoins en termes d’infrastructures. De ce point de vue,
l’interopérabilité entre les pays doit être préservée.
En matière de recherche, les défis à relever et les freins doivent être identifiés. Le
cadre mis en place doit à la fois préserver la sécurité des données sans freiner la
croissance et l’innovation.
La Commission souhaite favoriser un marché orienté vers les data, qui sont sources de
croissance économique et de création d’emplois. Des clarifications sont toutefois
nécessaires, notamment sur la propriété des données. Des consultations ont débuté sur le
sujet et les travaux devraient déboucher à l’automne.
Une stratégie pour l’innovation numérique a été élaborée. Elle met l’accent sur une
plus grande standardisation. L’interopérabilité est essentielle mais doit se mettre en œuvre
dans le dialogue.

Un forum européen réunissant des politiques, des représentants de l’industrie et

d’autres activités économiques se tiendra les 29 et 30 juin prochain. L’objectif est de
développer les collaborations et la participation aux différents programmes. Les Big Data
sont une opportunité. Il ne faut pas chercher à minimiser les difficultés mais chercher à les
surmonter.
En réaction à une question de la salle, Márta NAGY-ROTHENGASS reconnaît que les
évolutions en cours pourront avoir des conséquences sur les emplois. Dans ce contexte,
l’enjeu est de miser sur la formation. Améliorer la qualification des salariés et soutenir le
développement des compétences est un moyen de permettre à tous de suivre cette
transformation de la société.

Souveraineté des données : la fin de la

naïveté ?
Gilles BABINET, Digital Champion, COMMISSION EUROPEENNE
Elias BALTASSIS, Director Europe, Data & Analytics, THE BOSTON
CONSULTING GROUP
Sophie NERBONNE, Directrice de la conformité́ , CNIL
Vincent STRUBEL, Sous-Directeur Expertise ANSSI
Edouard PERRIN, Directeur Marketing et Digital, Membre du Comité exécutif,
MACSF
Gilles BABINET constate que le contexte a profondément évolué, avec le réveil de la

société civile dans un certain nombre de pays. Une méfiance nouvelle se manifeste à
l’égard des Etats. Les citoyens ne croient plus que ceux-ci soient les uniques garants de la
régulation. Avec l’affaire qui oppose actuellement Apple et le FBI apparaît l’idée que le
cryptage est souverain. Cette idée est totalement nouvelle.
Il est indispensable de trouver un équilibre entre protection des données et
confidentialité et croissance économique. Les Etats membres ont pris des mesures en
matière de sécurité mais l’Europe pourrait s’emparer du sujet. Gilles BABINET insiste sur
la nécessité de définir des normes communes. De ce point de vue, la situation actuelle ne
lui semble pas satisfaisante, voire un peu préoccupante.
Sophie NERBONNE explique que des distorsions de concurrence existaient entre les
entreprises européennes et les acteurs étrangers qui n’étaient pas soumis aux mêmes
règles. Le nouveau règlement européen, qui entrera en vigueur dans deux ans, prévoit
qu’ils devront respecter les règles en vigueur au sein de l’Union, dès lors qu’ils cibleront
des résidents européens pour la souscription de contrats ou de services.
La CJCE a récemment invalidé le Safe Harbour, qui essayait d’apporter une première
réponse à cette problématique. Un nouveau texte, le Privacy Shield, est en cours d’analyse
par l’ensemble des CNIL européennes.
Sophie NERBONNE reconnaît que la protection des données est souvent considérée
comme un frein à l’innovation. Or l’éducation au numérique fait évoluer les lignes et
renforce la demande des citoyens en matière de sécurité. Ce mouvement commence à se
développer et traduit une réelle volonté de maîtrise et de contrôle des données. La CNIL a
un rôle fondamental à jouer pour accompagner cette transition, en s’appuyant sur des
principes structurants dont la matérialisation peut néanmoins être assez souple.
Elias BALTASSIS souligne que les enjeux ne sont plus nationaux mais au moins
continentaux. Les Etats-Unis ne vivent pas dans un monde non régulé. L’environnement
réglementaire est même plus compliqué qu’en Europe. Pourtant, il laisse davantage
d’espaces de liberté. En matière de données, ces derniers permettent aux entreprises
américaines de prendre une avance considérable. Dans le contexte actuel, il ne serait pas
possible de disposer d’un Facebook européen.
Gilles BABINET confirme que les Etats-Unis laissent de la place aux expérimentations.
Il existe pourtant une régulation. Des amendes considérables peuvent d’ailleurs être
appliquées mais le cadre se construit progressivement. En France, le cadre posé depuis
1978 repose sur le principe de précaution. Or l’innovation nécessite une part de risque. Il
faut l’accepter, comme il faut accepter de transférer une partie du pouvoir aux générations

montantes. Le consensus implicite qui existe entre les consommateurs et grandes les
plateformes, qu’ils continuent à utiliser, est un signal fort. Celui-ci doit être pris en compte.
Sophie NERBONNE rappelle que les autorités de régulation ne jouent qu’un rôle
modeste. Le dispositif doit être intelligent et ne pas freiner la capacité d’innover. Les
acteurs économiques doivent être en mesure de proposer les services voulus par les
consommateurs mais ces derniers ne perçoivent pas forcément les conséquences de
certaines pratiques.
Vincent STRUBEL reconnaît qu’il existe des besoins très forts en matière de sécurité.
Outre les données personnelles, il s’agit également de protéger la compétitivité des
entreprises. Un pillage de leurs données, qui constituent le « nouvel or noir », est en effet
en cours. Les Etats ne sont pas les seuls à essayer de récupérer des informations. Se
multiplient également des attaques discrètes, avec une revente au plus offrant. Un
équilibre est évidemment nécessaire mais il revient au politique de le définir. Il faut
expliquer la menace, définir de bonnes pratiques et éventuellement proposer une
labellisation aux entreprises. Commercialement, celle-ci peut constituer un atout pour les
acteurs européens.
La sécurité et la croissance sont trop facilement opposées. Or l’une ne va pas sans
l’autre. La labellisation ne vise pas à renforcer le protectionnisme. Le processus serait
ouvert à tous dès lors que les critères sont respectés. Le marché péricliterait s’il se
refermait sur lui-même.
Edouard PERRIN souligne que la MACSF se trouve tout au bout de la chaîne.
Beaucoup de contraintes pèsent sur les données dans l’assurance. Elles représentent un
actif stratégique, notamment parce qu’elles permettent d’affiner la tarification. Elles seront
de plus en plus nombreuses avec le développement des objets connectés. Le respect de
l’éthique est toutefois indispensable dans l’utilisation qui en est faite. Un équilibre est
indispensable. Il serait forcément dangereux de tomber dans les extrêmes.
La salle évoque la possibilité pour les lobbies d’interagir plus facilement avec les
régulateurs et de réussir à travailler ensemble.
Sophie NERBONNE insiste sur la nécessité d’abandonner la culture du silo, pour
promouvoir une innovation responsable et renforcer les collaborations. La CNIL a déjà
travaillé selon cette logique pour les compteurs énergétiques communicants par exemple.
Il est important d’entreprendre un travail de co-régulation, en s’appuyant sur l’expertise des
professionnels et en prenant en compte leurs besoins.
La CNIL a aussi des progrès à faire pour réduire ses délais de réponse et mieux cibler
ses contrôles. Même si celle-ci est nécessaire, la régulation ne peut toutefois pas reposer
que sur la sanction.

Innovation responsable et sécurité de la

data
Laurent MASSOULIE
Directeur du Laboratoire Commun Microsoft Recherche, INRIA
Marc MOSSÉ
Directeur des Affaires Publiques et Juridiques, MICROSOFT FRANCE
Marc MOSSE explique que l’objectif est de préserver l’innovation tout en respectant la
protection des données. Pour l’atteindre, les questions de sécurité doivent être prises en
compte dès la conception des outils.
Cette recherche d’équilibre passe par une régulation innovante et une innovation
responsable.
L’existence d’un cadre juridique harmonisé est importante. Le projet de règlement
européen pour la protection des données personnelles va dans ce sens. Ces clarifications
apportent de la transparence et sont essentielles.
A la suite de l’annulation du Safe Harbor par la CJCE, la Commission européenne a
récemment rendu publics les premiers éléments du Privacy Shield. Ce texte permettra
également de préciser le cadre juridique.
La protection des données des clients est essentielle. Microsoft est en contentieux
avec le gouvernement américain dans ce domaine. L’entreprise a été saisie pour donner
accès à des données stockées en Europe. Elle s’y est opposée, car elle a considéré que
l’opération devait être menée dans le cadre d’une coopération internationale.
Le problème dépasse le numérique. La position qui a été adoptée est une position de
principe, pour la protection des données et la souveraineté des Etats. L’objectif n’est pas
d’empêcher des investigations, qui peuvent par ailleurs être légitimes, mais de s’assurer
qu’elles sont menées dans le respect des droits fondamentaux.
Les normes ISO sont des outils très utiles, car elles sont établies en consensus. Marc
MOSSE cite notamment la norme 27-018 sur la privacy dans le cloud ou la norme 33-500
sur la gouvernance des données.
Laurent MASSOULIE indique que des solutions existent pour sécuriser les données.
La cryptographie permet beaucoup de scénarios. Seulement une partie des informations
peuvent être rendues publiques. Par exemple, dans le cadre d’un compteur intelligent,
peuvent n’être transmis à EDF que les éléments permettant d’établir la facturation.
L’approche de « differential privacy » permet par ailleurs un floutage des données
rendues publiques pour rendre impossible leur désanonymisation. Cette méthode est
notamment utilisée dans le cadre de la géolocalisation. Il s’agit d’un domaine de recherche
très actif.

Not Only Data

Fabrice HACCOUN
Directeur général ADVANCED SCHEMA
Les changements en cours sont majeurs. Jusqu’à très récemment, des moyens
relativement restreints suffisaient pour exploiter les données. L’explosion des volumes a
entraîné celle des moyens nécessaires pour les traiter, d’autant que les exigences se sont
accrues en termes de rapidité de réponses.
La valeur ne progressant pas au même rythme, l’équation est devenue de moins en
moins tenable, surtout dans un contexte de restriction des ressources. Le modèle est donc
arrivé à un point de rupture.
La rupture constitue toutefois un facteur d’innovation. Les acteurs traditionnels ont plus
de difficultés à y faire face mais de nouveaux acteurs ont émergé. Technologiquement,
pratiquement tout est possible. De la valeur peut désormais être générée à partir de
données qui n’en avaient pas ou très peu précédemment.
Tous les grands groupes veulent se positionner sur ce marché mais leurs modes de
fonctionnement traditionnels sont peu adaptés. L’innovation doit vraiment être au cœur de
l’entreprise et bénéficier à tous, dans le cadre de réseaux au sein desquels tout le monde
peut interagir.
L’un des projets réalisés par Fabrice HACCOUN a consisté à récupérer toutes les
données fournies par les laboratoires dans leurs échanges avec les médecins et à les
rendre accessibles sur un portail. Cette démarche a permis à la loi sur la transparence de
devenir efficiente. Jusqu’à présent, les informations étaient regroupées dans des listes
totalement inexploitables. Les industriels eux-mêmes se sont servis de ces ressources
nouvelles pour se benchmarker.
Dans le secteur de la banque de détail, un acteur important a décidé de mettre à
disposition de ses clients tous les documents échangés avec eux. Ce service était inédit
mais technologiquement compliqué à assurer compte tenu de la volumétrie. Un projet a
donc été développé pour tester la solution et vérifier sa fiabilité.
Toujours dans le domaine bancaire, les régulateurs ont demandé une visibilité sur
l’exposition quotidienne au risque sur l’ensemble des métiers. Cette exigence ne semblait
pas réalisable. Finalement, de nouvelles technologies ont permis de déployer une solution
conforme à la norme BCBS 239.
L’écosystème du Big Data est très épars, avec des start-ups qui présentent peu de
garanties de pérennité. Cet environnement est en contradiction avec la stabilité recherchée
par les grands groupes. La suite NODATA apporte une structuration. Elle couvre l’essentiel
des besoins, avec des adaptations possibles. Elle permet une grande modularité et a la
capacité de s’intégrer aux systèmes existants.

Relever les grands défis de l’Open

innovation et de l’Open data
Thierry BONHOMME
Directeur général adjoint, ORANGE
Vincent CHAMPAIN
General Manager, GENERAL ELECTRIC DIGITAL FOUNDRY PARIS
Stéphane QUERE
Directeur Innovation, ENGIE
Jérôme TOUCHEBOEUF
Président Mediapost Communication et Directeur du Laboratoire de l’Innovation de la
Branche Numérique, GROUPE LA POSTE
Henri VERDIER
Directeur interministériel du numérique et du système d’information et de communication
de l’Etat (DINSIC), Adjoint à la Secrétaire générale pour la modernisation de l’action
publique (SGMAP)
Henri VERDIER rappelle que les données n’ont de valeur que si quelqu’un s’en sert.
Elles ont d’ailleurs d’autant plus de valeur qu’elles sont utilisées. De ce point de vue, les
comparer au pétrole est une métaphore pernicieuse. Loin de s’épuiser, elles gagnent à
être exploitées. Cette situation renforce évidemment l’intérêt de l’Open Data. Sa mise en
œuvre est toutefois compliquée, surtout dans le secteur public où il ne correspond pas du
tout à la culture traditionnelle.
Des efforts sont cependant mis en œuvre pour améliorer la transparence de l’action
publique. Ils visent également à stimuler l’économie et à renforcer l’efficacité des
organisations. Des freins perdurent, car les systèmes n’ont pas été conçus pour permettre
la circulation de la donnée au sein de l’administration.
Il est possible d’obtenir des résultats sans s’appuyer sur d’énormes clusters Hadoop.
Le plus dur est de faire comprendre que beaucoup de problèmes peuvent se résoudre
avec les données et de s’en servir pour engager à des politiques très concrètes.
Se posent toutefois des questions d’éthique. Plus l’action publique serait guidée par
des algorithmes, moins le peuple serait réellement souverain. Il faut donc préserver des
voies de recours démocratiques.
Le projet de loi numérique, qui a été précédé par un large débat public, a proposé des
solutions. Ainsi, l’administration pourrait être tenue d’expliquer l’algorithme sur lequel elle a
fondé une décision, comme l’affectation post baccalauréat par exemple. Il faudrait que
cette disposition reste dans le texte qui sera voté par le Parlement.
Thierry BONHOMME constate que les données sont au centre d’énormément de
projets dans les entreprises comme Orange (optimisation des tournées des techniciens,
détection de la fraude, etc.). Ils introduisent une vraie révolution mais il faut prendre des
risques et ne pas avoir peur de s’ouvrir vers l’extérieur, en développant par exemple les
croisements de données météorologiques avec des données techniques.

Vis-à-vis des données des clients, des engagements extrêmement forts doivent
garantir la confiance et la sécurité. L’ouverture est également possible, à condition de ne
pas pouvoir remonter à l’identification des utilisateurs. Il existe probablement des
perspectives pour des plateformes générant des collaborations et des connexions avec
d’autres univers. Orange s’est déjà engagé dans cette voie avec Datavenue.
Stéphane QUERE indique que le monde de l’énergie connaît également une
transformation totale. Les consommateurs ne veulent plus seulement maîtriser leur facture
mais aussi la production. Les grandes entreprises ne peuvent qu’innover pour s’adapter
aux changements. Engie investit dans des start-ups, notamment au travers d’un fonds de
100 millions d’euros, et essaye de mobiliser le maximum d’énergie en interne et en
externe. Les collaborateurs peuvent faire des propositions à partir d’une plateforme, qui
reçoit d’une à deux idées par jour. Un programme d’incubation a été constitué avec des
partenaires. Une grande partie des projets sont liés au Big Data, comme la possibilité de
réaliser des audits énergétiques à distance.
Vincent CHAMPAIN explique que GE a investi massivement, environ un milliard de
dollars, dans la plateforme Prédix pour concentrer les développeurs sur les applications
apportant de la performance. Cet outil va être mis à disposition de clients, de concurrents,
etc. L’objectif est de leur donner accès à un écosystème mondial et de réduire les coûts,
afin de maximiser la valeur pour l’ensemble des acteurs. Le pari est de créer ensemble,
avec les start-ups, les grandes entreprises, etc.
Les grands groupes ne se tournent pas vers les start-ups pour leur confisquer des
idées mais parce qu’il est important de travailler ensemble. Les partenariats ne passent
pas forcément par des rachats.
Au cours des dernières années, Vincent CHAMPAIN explique que GE s’est
européanisé et s’est recentré sur l’industriel. Il se dit convaincu que le logiciel sera le
moteur de la productivité de demain, surtout dans les pays développés.
La Poste est également entrée dans une nouvelle dynamique. Jérôme
TOUCHEBOEUF indique qu’il est impossible d’ignorer la nécessité de mixer des données
d’origines diverses afin de générer une valeur nouvelle. Le champ des possibles est
désormais ouvert, comme au début d’internet. Compte tenu de la diversité des métiers de
la Poste, les opportunités sont extrêmement nombreuses. La logique n’est pas de résister
mais, au contraire, d’être à l’écoute et en interaction avec le marché.
Les dirigeants des grandes entreprises ont compris les enjeux et se sont mis en
mouvement. Evidemment, la transformation des organisations prend du temps et nécessite
un accompagnement.
Stéphane QUERE rappelle cependant que l’innovation est un sujet extrêmement positif
et porteur d’avenir. Il n’est donc pas si compliqué de motiver les équipes autour de cette
thématique. Chez Engie, des appels à compétences ont été lancés en interne pour porter
les projets. Les candidatures ont été beaucoup plus nombreuses qu’attendu.
Il peut exister des déficits de compétences dans certains domaines, ce qui nécessite
d’attirer de nouveaux profils mais également de mettre en place d’importants programmes
de formation. Thierry BONHOMME signale que chez Orange, la responsabilité du projet de
transformation digitale a d’ailleurs été confiée au DRH.

Analyse des trafics réseaux pour la finance

en temps réel
Stéphane TYC
Fondateur, MCKAY BROTHERS
McKay Brothers a mis en place un réseau basé sur des ondes radio, qui relie les
bourses entre elles. Extrêmement rapide, il a une latence très faible. Cette technologie est
très ancienne mais a évidemment été perfectionnée.
Le réseau le plus important est entre Chicago et New York, les deux principales
bourses du monde. L’offre est proposée sur les Etats-Unis et l’Europe.
L’enjeu est de mesurer en temps réel, environ une seconde, la qualité du réseau pour
s’assurer que le service rendu est de qualité et éventuellement effectuer des
remboursements de l’abonnement souscrit.
Le dispositif est en production et fonctionne de manière très satisfaisante. La solution
utilisée, Cityzen Data, a été mise en Open Source récemment. Cette évolution a permis
d’étendre les services. Des analyses étaient proposées de manière assez classique mais
elles n’étaient pas réalisées tous les jours car elles demandaient trop de temps. Avec la
plateforme, elles pourront être disponibles en temps réel.
Le modèle pourrait être adaptable à d’autres métiers. Différentes pistes sont à l’étude,
comme les enchères en ligne et les réseaux de transport d’énergie. L’univers des jeux
pourrait également offrir des perspectives mais Stéphane TYC reconnaît qu’il en est moins
convaincu.

Maintenance prédictive dans l’industrie : le

cas SNCF
Philippe de LAHARPE
Chef de projet Télédiagnostic, Direction du Matériel, SNCF
Héloïse NONNE
Manager – Senior Data Scientist, QUANTMETRY
Héloïse NONNE explique que la maintenance doit permettre aux trains de rouler tous
les jours, d’être sécurisés et disponibles.
Les actuels Transilien construits par Bombardier dans les années 2000 sont digital
native et génèrent des données. Ces dernières sont transmises toutes les 30 minutes avec
un processus de télédiagnostic.
Philippe de LAHARPE indique que les données permettent d’effectuer un diagnostic à
distance pour préserver une disponibilité maximale des trains. Pour optimiser la
maintenance, il convient donc de les utiliser au mieux.
Les trains sont de plus en plus complexes, ce qui multiplie les sources de pannes
possibles.
Etant donné la quantité de données, il n’est pas possible de réaliser l’analyse de façon
humaine. Des systèmes automatisés sont indispensables.
La SNCF est passée d’une maintenance corrective classique à une maintenance
corrective en temps réel et s’engage désormais dans la maintenance proactive. L’enjeu est
de prendre en charge des pannes n’ayant pas encore d’impact sur l’exploitation, par
exemple lorsqu’il existe des systèmes en redondance. Il est également possible
d’intervenir sur des signaux faibles identifiés par les capteurs. Anticiper un incident, même
de 30 minutes, permet d’optimiser le service et d’avoir le minimum d’impact pour les
voyageurs.
Les retours d’expérience sont désormais pris en compte sur les nouvelles séries de
matériel.
Une preuve de concept a été réalisée, puis suivie d’un pilote dans la perspective d’une
industrialisation. La SNCF s’est fait accompagner par Quantmetry.
Héloïse NONNE indique que cette collaboration a été extrêmement importante. Pour
construire un modèle prédictif, il est nécessaire de mettre toutes les données dans un data
lake et d’appliquer un algorithme. Le système doit toutefois être surveillé et amélioré de
manière continue.
Les techniciens chargés des réparations ont besoin de preuves tangibles. Ils doivent
être en mesure de rechercher des causalités et de mettre en œuvre des actions
correctrices.
Les résultats des phases expérimentales sont satisfaisants. Une période de test et
d’observation est en cours et se déroulera pendant environ six mois, pour voir comment le
modèle se comporte en conditions réelles.
Philippe de LAHARPE reconnaît que le dispositif aura un impact organisationnel. Il
faudra changer les processus de maintenance et se prémunir contre une sophistication du
système, qui conduirait à le rendre ingérable à cause du nombre de « faux positifs ».

La salle s’étonne que la SNCF ait développé sa propre solution, alors qu’il en existe
déjà sur le marché et que le constructeur Bombardier propose certainement ce service.
Philippe de LAHARPE indique que la SNCF a travaillé avec Bombardier mais qu’il
existait une volonté forte d’acquérir des compétences en exploitation des données et de
faire le lien avec les autres données issues des voies, de l’exploitation, etc. Beaucoup de
croisements envisageables. L’objectif est d’aller beaucoup plus loin que la vision du
constructeur et de privilégier une approche globale.

Airbus relève le challenge de sa

transformation digitale et travaille sur une
stratégie Big Data unifiée
Vincent GALINIER
Architecte IT, Leader Big Data, AIRBUS
Emmeline ANTERRIEU
Marketing manager, HPE France
Airbus a lancé une expérience il y a un an et demi pour valider l’intérêt du Big Data et
de la valeur ajoutée qu’il pouvait apporter à l’entreprise.
Les données sont extrêmement nombreuses chez Airbus mais elles sont issues de
départements historiquement très séparés et n’ayant pas l’habitude de travailler ensemble.
Or il existe évidemment un intérêt à les partager, de la conception des avions au support
aux clients.
Une équipe transverse a été constituée pour mener le projet. Celui-ci a donné lieu à la
création d’un Data Lab. L’objectif était de fonctionner dans un environnement ouvert pour
franchir toutes les limites de l’organisation. Tous les tests ont été réalisés dans la
perspective de répondre à des besoins et d’entrer en production. La démarche avait
vocation à jouer un rôle d’accélérateur.
Il est apparu que les idées à la mode, comme la mise en place d’un lake unique, ne
convenaient pas. Trois environnements de travail différents ont donc été créés, pour offrir
un espace permettant d’apprendre les technologies, d’explorer et de produire. Il faut en
effet acquérir une maturité suffisante sur les tests avant d’aller jusqu’à la production.
De nombreux outils ont été envisagés. L’offre disponible sur le marché est très vaste.
Au départ, seules quelques briques assez simples ont été utilisées, afin de faire
l’apprentissage de nouvelles manières de travailler et de valider ou d’invalider les choix.
Cette approche a permis de faire évoluer les standards sans tout réinventer.
Airbus a, comme la SNCF, choisi de travailler sur la maintenance préventive et la non-
qualité en production. Le projet qui a été développé dans ce domaine est une réussite et
passe actuellement en production. Il intéresse également d’autres usines.

Allianz révolutionne l’assurance avec la

voiture connectée
Delphine ASSERAF
Head of Digital - Brand and Communication, ALLIANZ FRANCE
Dès 2014, Allianz a constitué des groupes d’experts, autour de la direction technique et
de la direction digitale, avec la volonté d’identifier de grandes thématiques et des cas
concrets d’application.
Les objets connectés offrent de nouvelles opportunités. Ils permettent de disposer
d’une somme d’informations importantes et d’enrichir la connaissance des clients. Ce point
est essentiel, car le secteur de l’assurance souffre d’un déficit de relations clients.
Avec les objets connectés, il sera possible de proposer de nouveaux modèles tarifaires
et de nouveaux services. Allianz a commencé à s’engager dans cette voie, avec le
dispositif « Allianz conduite connectée ». Celui-ci est additionnel et peut être souscrit à
l’occasion d’un nouveau contrat ou en complément d’un contrat existant. Cette approche
permet de fidéliser les clients.
Un boîtier, conçu avec le partenaire TomTom, se branche sur le port OBD. Ce dernier
est assez répandu depuis une dizaine d’années dans les véhicules.
Le risque de ce type de démarche est de se retrouver avec une masse d’informations
inutiles. Il a donc été décidé de privilégier un boîtier relativement simple. Il n’intègre pas de
puce GPS par exemple.
L’installation du boîtier est évidemment une démarche volontaire de la part des clients.
Il ressemble à une petite boîte noire mais toutes les données collectées sont accessibles à
partir d’une application mobile. Allianz a délibérément fait le choix de la transparence.
Les informations récupérées portent sur l’intensité et le nombre de virages, de
freinages et d’accélérations.
Le projet a duré six mois et a été mené en mode agile, avec des représentants de
nombreux métiers.
L’offre est axée sur la prévention et vise à réduire la sinistralité. Le fait d’installer le
boîtier dans le véhicule est déjà une démarche vertueuse, car celui-ci permet aux clients
de comprendre comment ils conduisent et de s’améliorer.
Le boîtier constitue aussi une alternative pour les véhicules qui ne sont pas connectés
et qui ne disposent pas d’un dispositif d’appel d’urgence en cas d’accident. La transmission
de certaines données déclenche en effet une alerte.
L’offre a été lancée en juin 2014. Depuis octobre dernier, Allianz propose à ses clients
une réduction de leur prime après une évaluation de leur comportement sur plusieurs mois.
L’objectif n’est pas de pénaliser mais d’inciter au développement d’une conduite
responsable. L’impact tarifaire peut atteindre 30 %.
A ce jour, un peu moins de 8 000 personnes ont souscrit cette option. La proportion
d’hommes est de 64 %, alors que les équipes pensaient que le dispositif attirerait plutôt les
femmes, notamment à cause de l’assistance. La moitié des clients a entre 30 et 50 ans, ce
qui montre que les objets connectés commencent à s’ancrer dans toutes les tranches
d’âges et pas seulement chez les jeunes.

Au total, 15 millions de kilomètres ont déjà été analysés. Les données ne sont pas
transmises à des tiers. Des engagements clairs ont été pris sur le sujet. Celui-ci est au
cœur des préoccupations des clients.
Randstad fluidifie le marché du travail à

l’heure du Big Data
Franck CHARASSON
Directeur Systèmes & Opérations, RANDSTAD France
Christophe MONTAGNON
DOSI, RANDSTAD FRANCE
Christophe MONTAGNON explique que le métier de Randstad est de rapprocher l’offre

et la demande en matière d’emploi. L’outil qui a été mis en place repose à la fois sur des
données internes et des données externes. Il a consisté à cartographier l’ensemble des
compétences et leur répartition sur les territoires, avec une granularité fine. Il permet
également d’identifier les entreprises qui recrutent et avec quels types de contrats.
Cet outil a une utilité évidente en interne mais donne également de la visibilité en
externe. Les candidats identifient plus facilement les entreprises qui recrutent. Les
entreprises peuvent également savoir avec qui elles sont en concurrence pour attirer les
profils les moins répandus.
Les passerelles possibles entre les métiers ont aussi été cartographiées. Elles
permettent d’évaluer les besoins de formation et d’intégration pour des candidats qui ne
seraient pas très éloignés des profils initialement recherchés.
Deux dimensions, autour de la géographie et des compétences, sont donc combinées.
Une approche BI avait été envisagée mais elle était compliquée à mettre en œuvre, car
les données ne sont pas structurées et que les volumes atteignent des milliers de lignes.
Le monde des bases de données relationnelles était rassurant, parce qu’il est maîtrisé.
Technologiquement, il n’était toutefois pas adapté. Une plateforme Hadoop a donc été
mise en place. Aujourd’hui, les deux environnements communiquent. Ils sont
complémentaires.
Le prochain challenge est d’élargir encore le périmètre de l’outil et de le mettre à
disposition des autres pays d’Europe.

Carrefour : retour d’expérience Big Data &

Grande Distribution
Jean-Christophe BRUN
Directeur du Centre de Solutions BI & Big Data, CARREFOUR
Pour Carrefour, l’enjeu était de moderniser le système d’information et d’accompagner

la transformation digitale de l’entreprise, y compris en proposant de nouveaux services.
Le système d’information était le résultat d’un empilement de couches. Beaucoup
d’applications étaient traitées par des batchs. Il était donc très difficile d’avoir une vision en
temps réel des stocks. Jusqu’à très récemment, cette situation n’était pas très gênante.
Elle est, en revanche, devenue problématique avec le développement du e-commerce. Il
est désormais nécessaire d’harmoniser les mises à jour et de tout décloisonner.
Les données collectées sont à la fois très nombreuses et très variées. Par définition, la
grande distribution est une industrie décentralisée. Carrefour compte plus de 5 600
magasins en France et près d’un million de références. Il faut apporter de la cohérence et
mieux exploiter les informations. Un certain nombre d’entre elles sont disponibles mais
inutilisées, en particulier lorsqu’elles sont sous forme de textes.
Les objets connectés se sont également multipliés et doivent être intégrés dans le
système global. Ainsi, Carrefour propose une « scanette » qui permet aux clients d’établir
leur liste de courses à domicile.
Une nouvelle architecture a été mise en place. Celle-ci est articulée autour des
données et vise à leur permettre de se diffuser en temps réel dans le système
d’information, ou au moins en temps commercial, c’est-à-dire quelques secondes. Un
cluster de données partagées les stocke ensuite de manière historisée. Cette approche
repose sur une nouvelle vision de la chaîne de valeur de la data.
L’industrialisation a débuté mais la transition progressive sera progressive. Le système
existant est maintenu mais de nouvelles fonctionnalités sont proposées en parallèle.
Carrefour a choisi de se faire accompagner par Sentelis pour l’intégration de
l’architecture. Celle-ci est hybride et a la capacité de gérer à la fois du temps réel et du
batch. Le projet était complexe, car il entraîne des changements en matière d’organisation
et de modes de fonctionnement.
Après un peu plus d’un an, il reste nécessaire de faire évoluer les manières de
travailler, de se doter de certaines compétences rares et de former les équipes internes.

AstraZeneca : one company – many use

cases on one Big Data search and
analytics platform
Nick BROWN
Technology Incubation Director, CTO Office, ASTRAZENECA
Laurent FANICHET
VP Marketing, SINEQUA
Utiliser les données et investir dans ce domaine est très important pour l’avenir des
entreprises. Au sein d’AstraZeneca, ce mouvement a été engagé depuis une dizaine
d’années. Beaucoup de projets sont en développement. Ils ne reposent pas sur un modèle
unique. Il est donc nécessaire de passer par de l’expérimentation.
Beaucoup de données ne sont pas structurées. Cette situation n’était pas forcément
reconnue au sein de l’entreprise. Il a fallu beaucoup de temps pour appréhender le
contexte, indexer les informations et les rendre disponibles à partir d’un moteur de
recherche. Initialement, celui-ci était centré sur la R&D mais le périmètre s’est un peu
élargi. Une somme colossale de documents a été numérisée.
La nouvelle plateforme et ses nombreuses applications permettent un large partage de
l’information. Sinequa offrait beaucoup de possibilités, avec notamment des
caractéristiques de mobilité.
Le projet a utilisé le cloud. Celui-ci offre davantage de puissance, ce qui est important
dans un groupe dédié à l’innovation.

Dépister les maladies de la rétine à l’aide

des technologies de Deep Learning
Ekaterina BESSE
COO de DreamQuark, Fondateur et CEO, DREAMUP VISION
L’intelligence artificielle constitue une révolution. Les machines ont appris à faire des
tâches humaines. Elles peuvent décrire des scènes à partir d’une photographie, conduire
une voiture, reconnaître les émotions par la voix, etc. Certaines applications peuvent
répondre aux questions, comme Siri.
En matière de santé, les technologies peuvent être des outils de diagnostic et aider les
médecins et les biologistes. Cette évolution est rendue possible grâce à l’accumulation des
données, à la puissance des calculateurs et à la mise en œuvre d’algorithmes de dernière
génération.
Le Deep Learning est extrêmement puissant. DreamQuark a développé des
plateformes pour les assureurs et les acteurs de la santé. Cette technologie permet
également de faire des diagnostics. Dreamup Vision a été constitué pour les maladies de
la rétine et travaille très étroitement avec les hôpitaux.
Dans le monde, 414 millions de personnes sont atteintes de diabète et leur nombre
augmente régulièrement. Cette maladie touchera un adulte sur 10 dans 25 ans. Or le
risque est de développer une rétinopathie, cause principale de cécité chez les moins de 60
ans.
La détection précoce permet de prévenir la cécité, car cette maladie est réversible si
elle est prise à temps. Malheureusement, les diabétiques ne disposent pas d’un suivi
ophtalmologique suffisant, par manque de rigueur de la part des malades mais aussi par
manque de professionnels. La technologie peut apporter des solutions.
Tous les médecins mais également d’autres professionnels de santé (infirmiers,
pharmaciens, etc.) selon les législations pourraient effectuer le diagnostic, même sans
avoir de connaissances particulières sur cette pathologie.
Le résultat est immédiat, ce qui évite du stress pour les patients.
Le dispositif optimise le fonctionnement du système de santé, en permettant aux
ophtalmologistes de se concentrer sur les patients qui en ont réellement besoin.
Demain, cette technologie pourra être élargie à d’autres pathologies.

SGCIB : piloter les liquidités avec le Big

Data dans le secteur bancaire
Sabeur KHACHLOUF
Senior IT Team leader and project manager, SOCIETE GENERALE CORPORATE &
INVESTMENT BANKING
Les liquidités sont la capacité d’une entreprise à mobiliser ses actifs pour faire face à
ses engagements. Pour une banque, il s’agit du cash et des titres pouvant être convertis
immédiatement auprès de la banque centrale ou sur le marché.
Il existe différents scénarios, sur la base de modèles qui permettent de prédire
l’évolution des liquidités jusqu’à 11 ans.
Les sources de données sont très hétérogènes. La technologie utilisée permet de les
enrichir et de les agréger dans des cubes multidimensionnels. Il est ensuite possible de
procéder à des analyses et d’assurer le pilotage, à la fois en interne et vis-à-vis du
régulateur.
La plateforme actuelle est mensuelle et hebdomadaire. La mise en place d’une
plateforme journalière est en cours.
Les utilisateurs disposent d’une seule interface pour réaliser leurs analyses et piloter
les liquidités. Il en résulte un gain de temps et une productivité accrue. Désormais, 95 %
des requêtes sont exécutées en moins d’une seconde. Les rapports peuvent être réutilisés
ou partagés.
Les analyses peuvent déjà descendre à des niveaux extrêmement fins mais des pistes
d’amélioration sont à l’étude, notamment pour intégrer la gestion des limites.
L’outil a déjà été déployé à New York et le sera prochainement à Tokyo pour le
pilotage vis-à-vis des régulateurs. Il va également équiper toutes les autres entités du
groupe Société Générale. Il a recueilli l’adhésion des utilisateurs, ce qui n’était pas acquis
au départ.

Retour sur la construction et le

déploiement de la Gouvernance de la
donnée au sein d’ERDF
François BLANC
Directeur national du programme numérique, ERDF
Avec l’apparition des compteurs intelligents et le développement des objets connectés,

il devient indispensable de renforcer les capacités de traitement des données en masse.
La réglementation devient également très exigeante. La loi de transition énergétique
conduit les opérateurs à ouvrir un certain nombre de données de consommation agrégées.
Le projet de loi numérique introduit également le principe d’open data par défaut.
ERDF manipule des données personnelles et doit donc s’entourer de garanties
importantes. Il n’est pas possible de faire ce que l’on veut dans ce domaine, notamment en
termes de croisements. En interne, ont donc été identifiés des propriétaires de domaines
de données, qui sont garants de la stratégie définie. Des référentiels et des règles ont par
ailleurs été mis en place.
Avec l’arrivée de l’open data, les équipes se sont concentrées sur les urgences. Il a été
nécessaire d’identifier des données à mettre en avant, parce qu’elles étaient bénéfiques en
termes d’image et qu’elles apportaient de la valeur à l’ensemble de l’écosystème. A
l’inverse, les données stratégiques pour l’activité doivent être protégées. Il existe
également un enjeu en termes de sécurité, car elles pourraient être utilisées par des
personnes mal intentionnées.
Le déploiement des compteurs intelligents est en cours. Une grande attention est
portée à la prise en compte des inquiétudes qu’ils peuvent générer. ERDF n’aura pas de
visibilité sur toutes les informations dont les clients disposeront, en particulier dans le cadre
des services de maîtrise de la consommation.
Des efforts importants ont dû être engagés en interne, à la fois d’un point de vue
culturel et technique. Les métiers se sont néanmoins mobilisés. Un comité de gouvernance
des données a été constitué. La plateforme d’open data a été lancée. L’entreprise souhaite
adopter une démarche volontaire vis-à-vis des nouvelles exigences réglementaires.
Une soixantaine de demandes d’accès aux données ont déjà été recensées. Elles
portent souvent sur des courbes de charges de clients anonymisées afin de réaliser des
hackathons. Des dossiers émanent également des pompiers ou des métropoles.

Libérer la puissance de l’IOT avec le Big

data
Pierre GILOT
Amazon Web Services
Le rôle des architectes « solutions » est d’accompagner les clients tout au long de la
vie de leurs projets. L’optimisation des plates-formes est ainsi notamment au centre des
préoccupations de ces professionnels.
Le Big data est à même de libérer la puissance de l’IOT (correspondant à l’internet des
objets), qui génère une masse de données très importante qu’il convient de gérer en
parallèle.
Un objet connecté est un objet contraint, sur au moins un axe informatique. Les objets
connectés, tels que les compteurs d’eau intelligents, par exemple, sont souvent déployés à
des milliers d’exemplaires. Enfin, ces objets connectés – qui doivent être suffisamment
robustes – peuvent jouer un rôle de critique ou de prescripteur, sans intervention humaine.
Les téléphones portables ne sont pas des objets connectés, contrairement aux plates-
formes Arduino, aux panneaux photovoltaïques ou aux voitures électriques.
L’interface d’un objet connecté est « intermédiée », simulée et directe.
D’ici 2020, les objets connectés représenteront 26 milliards d’unités connectées.
20 trillions de dollars devraient être générés autour de la technologie de l’IOT.
L’IOT touche tous les domaines d’activités – la santé, les sciences, les smart cities, le
commerce de détail, la logistique, l’agriculture, l’éducation ou l’automobile.
Le Big data peut aider à libérer la puissance de l’IOT, en lui donnant ses lettres de
noblesse. Le Big data est en effet à même d’exploiter au mieux les données générées par
l’IOT, lesquelles auront été préalablement stockées dans une base de données.
La volumétrie des informations générées par l’IOT et la variabilité des structures de
celles-ci sont problématiques. L’une des solutions visant à surmonter ce problème consiste
à mettre en place un data lake (qui consiste à centraliser les données au format natif et à
stocker à plat les données sans structure ni arborescence). Au-delà de ce volet stockage, il
convient de songer à la gouvernance de ces données, afin de déterminer l’identité de ceux
qui pourront accéder à celles-ci.
30 % de la bande passante des États-Unis sont consommés par Netflix, les soirs de
diffusion du premier épisode d’une nouvelle série. C’est dire si un tel acteur – qui travaille
régulièrement avec Amazon – a vocation à gérer un volume important de données au
quotidien. Le data lake de Netflix représente 200 milliards d’événements et 10 pentaoctets
de données, stockées sur Amazon S3, dont 1,2 sont relus quotidiennement.

Air Liquide : tirer parti du Big data pour

détecter de nouveaux usages et conquérir
de nouveaux marchés
Athanasios KONTOPOULOS
Air Liquide
Air Liquide maîtrise parfaitement les différentes méthodes de distillation de l’air, parmi
lesquelles la technique de séparation par membranes.
Au-delà de son cœur de métier, Air Liquide entend s’ouvrir vers de nouvelles
communautés en collectant des informations disponibles sur le web. Pour ce faire, il
convient de se munir d’outils adaptés, particulièrement performants, en recourant au Big
data.
François-Régis CHAUMARTIN
Directeur général de Proxem
Proxem met à la disposition de ses utilisateurs des outils de web mining et de

text mining, afin de permettre à ces derniers de s’y retrouver dans les milliards de pages
publiées chaque jour sur le net.
Les outils de text mining permettent de lever les ambiguïtés dans un texte et de
détecter – par la mise en exergue de clusters de mots – les concepts qui y sont
mentionnés. Le data mining permet en outre de surmonter l’obstacle que peut représenter
une information délivrée dans une langue étrangère.
Big data et sécurité

Nicolas MAILLARD
Hortonworks
Le data lake permet de relever le défi de la sécurisation des données stockées sur un
tel réceptacle. À cet égard, il convient de se demander s’il est nécessaire d’encrypter
lesdites données, après avoir fait en sorte d’en limiter l’accès aux utilisateurs autorisés.
L’outil « Ranger » permet de contextualiser les règles et de stocker les méta-données.
L’outil « Atlas » offre aux utilisateurs d’autres fonctionnalités. A noter que tous les outils,
produits par Hortonworks, n’ont pas de licences et sont disponibles en open-source.

Accélérer la valorisation de vos

investissements Big data
Hayden SCHULTZ
Tibco Software
Sadaq BOUTRIF
Tibco Software
L’outil Fast data, mis au point par Tibco, vise à accélérer les initiatives Big data des
clients qui y ont recours. Pour ce faire, il conviendra de canaliser le déluge de données à
disposition, afin d’en tirer un maximum d’enseignements. Il s’agira également de faire
montre de proactivité, en vue de saisir les opportunités offertes par lesdites données.
A l’heure actuelle, 13 % seulement des projets Big data sont déployés en production,
d’après une étude du Gartner Group publiée en 2015.
Le nouvel outil mis au point par Tibco ou « Tibco Big data Accelerator », qui sera
prochainement lancé sur le marché, aura vocation à aider les utilisateurs à exploiter la
puissance du Big data, en simplifiant les modalités de développement. Cet outil permettra
en outre d’implémenter un canevas de projet complet dans Streambase, Spotfire ou
Live Datamart. Il offrira une documentation complète des artefacts et interfaces, une haute
disponibilité et « scalabilité », une installation simplifiée, un environnement de simulation
intégré et un support de Tibco et de Tibco Community.
Tibco offrira en outre à ses clients une quarantaine de patterns d’implémentation,
permettant de simplifier l’accès aux phases de datas.
Plus généralement, cet outil devrait permettre de :
simplifier fortement le développement et l’exploitabilité d’applications Big et Fast Data ;
apporter de l’agilité dans l’élaboration de l’exécution de modèles prédictifs ;
accélérer le déploiement des projets.

Hadoop et son data lake peuvent-ils jouer

le rôle de base de données primaire en
production ?
Olivia FAUCHEUX, Oracle France
Olivier RENAULT, Hortonworks
Tugdual GRALL, MAPR.
Les débats étaient animés par José DIZ, journaliste informatique.
Tugdual GRALL indique que le data lake consiste à récupérer des flux de données,
pour permettre à des applications d’avoir des vues enrichies de plusieurs métiers.
Olivia FAUCHEUX explique que les data lakes sont des réservoirs permettant de
stocker une grande quantité de données sous format natif.
Tugdual GRALL précise que les data lakes permettent en outre de faciliter la
« scalabilité » des données, ainsi que la gestion de données très hétérogènes.
Olivier RENAULT indique que Hortonworks effectue ses 360°views en recourant à un
data lake. Ce type de technologie permet également de détecter les tentatives de fraude
sur les sites bancaires.
Olivia FAUCHEUX précise que le système de stationnement de la ville de
San Francisco est lui aussi géré par ce type de technologies.
Olivier RENAULT explique que ses clients stockent leurs données confidentielles dans
leur cluster Hadoop. La sécurisation des données dans ce type d’outils est donc désormais
totale.
Olivia FAUCHEUX explique qu’Oracle s’efforce d’étendre à d’autres types de contextes
les savoir-faire développés par ses soins sur les bases de données relationnelles. Elle
souligne en outre la nécessité d’utiliser la bonne technologie, pour le bon besoin. Partant
de là, utre le stockage des données dans les data lakes, il conviendra de pouvoir visualiser
celles-ci, le cas échéant, pour en tirer le meilleur parti.

From Big data to small apps : la Dataviz,

dernier kilomètre de votre stratégie de
données
Charles MIGLIETTI
Toucan Toco
La stratégie Big data – qui doit nécessairement s’inscrire dans une logique applicative
décisionnelle dans les entreprises qui y ont recours – a révolutionné les modalités de
stockage des données.
Il convient de partir de l’usage, afin de mettre au point une stratégie data adaptée aux
besoins des utilisateurs, pour aider ces derniers à prendre la bonne décision. L’approche
centrée sur la valeur permet en outre de faciliter la vie des utilisateurs en garantissant à
ces derniers le meilleur retour sur investissement possible.
Le data storytelling permet aux utilisateurs de piloter leurs résultats et de raconter des
histoires à partir desdites données.
Enfin, les small apps facilitent quant à elles la compréhension de ces données en un
clin d’œil, en proposant un mode de visualisation particulièrement didactique.
Document rédigé par la société Ubiqus – Tél : 01.44.14.15.16 – http://www.ubiqus.fr – infofrance@ubiqus.com

Synthèse BigDataParis 2016

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Synthèse BigDataParis 2016

Transféré par

Droits d'auteur :

Formats disponibles

Sommaire

Machine Learning, Deep Learning, Intelligence Artificielle : les prochaines

Prédire avec la data science responsable 5

Data Scientists, Data Managers, Architectes et Chefs de projet Big Data :

Leveraging Predictive Analytics to compete and to win 8

Remise des trophées du Big Data 2016 9

Développer et piloter les gares avec le Digital 11

Argus de la presse : améliorer l’expérience « utilisateurs », réduire le churn et

Cas Rexel : la Data Visualisation, maillon clé de l’analyse prédictive 14

TF1 Publicité : optimiser l’efficacité publicitaire et renforcer la pertinence des

Effrontech : la mobilité en mode offline portée par le Cloud 19

Eclairage juridique sur le domaine des données collectées 20

Le développement d’applications analytiques en environnement Hadoop : Faut-il

La plateforme Big Data de Mappy pour le suivi d’audience et la BI 23

Du prédictif au prescriptif en mode Big Data 29

AMPHITHEATRE : REGLEMENTATION ET SECURITE 30

Souveraineté des données : la fin de la naïveté ? 32

Innovation responsable et sécurité de la data 34

Not Only Data 35

Relever les grands défis de l’Open innovation et de l’Open data 36

PARCOURS RETOURS D’EXPERIENCE – METIERS 38

Analyse des trafics réseaux pour la finance en temps réel 38

Maintenance prédictive dans l’industrie : le cas SNCF 39

Airbus relève le challenge de sa transformation digitale et travaille sur une

Allianz révolutionne l’assurance avec la voiture connectée 42

Randstad fluidifie le marché du travail à l’heure du Big Data 43

Carrefour : retour d’expérience Big Data & Grande Distribution 44

Dépister les maladies de la rétine à l’aide des technologies de Deep Learning 46

Retour sur la construction et le déploiement de la Gouvernance de la donnée au

SALLE MAILLOT – 8 MARS 49

Libérer la puissance de l’IOT avec le Big data 49

Big data et sécurité 50

Accélérer la valorisation de vos investissements Big data 51

Paris, les 7 et 8 mars 2016

L’exploitation à plein du set de data dont dispose notamment la Sécurité sociale

Paris, les 7 et 8 mars 2016

Machine Learning, Deep Learning,

Paris, les 7 et 8 mars 2016

Paris, les 7 et 8 mars 2016

Prédire avec la data science responsable

Paris, les 7 et 8 mars 2016

Data Scientists, Data Managers,

Paris, les 7 et 8 mars 2016

Paris, les 7 et 8 mars 2016

Leveraging Predictive Analytics to compete

Créé en 1994, Monster a été le premier système de recherche d’emplois en ligne. Il a

Paris, les 7 et 8 mars 2016

Remise des trophées du Big Data 2016

Paris, les 7 et 8 mars 2016

Paris, les 7 et 8 mars 2016

Développer et piloter les gares avec le

Gares et Connexion est une branche de la SNCF créée en 2009. En charge de la

Paris, les 7 et 8 mars 2016

Paris, les 7 et 8 mars 2016

Argus de la presse : améliorer l’expérience

L’argus de la presse est une entreprise familiale spécialisée dans l’intelligence

Paris, les 7 et 8 mars 2016

Cas Rexel : la Data Visualisation, maillon

Paris, les 7 et 8 mars 2016

Groupe Seb et objets connectés : comment

Paris, les 7 et 8 mars 2016

TF1 Publicité : optimiser l’efficacité

Paris, les 7 et 8 mars 2016