Académique Documents
Professionnel Documents
Culture Documents
Discours d’ouverture 1
Mounir MAHJOUBI
Président du Conseil national du numérique
Marketing et BtoC 10
Elias BALTASSIS
Director Europe, Data & Analytics THE BOSTON CONSULTING GROUP
Machine Learning au sein d’Orange : les clés pour améliorer la proactivité dans
sa relation clients 17
Sébastien BOUTIN
Direction de la Stratégie Client et Data ORANGE France
Bludata : retour d’expérience sur la création d’un Data Lab chez Auchan 18
Olivier GIRARD
Directeur Marketing Client et Data, AUCHAN RETAIL INTERNATIONAL
PARCOURS EXPERTS 21
SESSION ANIMEE PAR JOSE DIZ, JOURNALISTE INFORMATIQUE
Le temps réel débarque en force sous Hadoop : Streams, Kafka, Spark, Storm,
etc. du Big Data au « Fast Data » 24
Tugdual GRALL
EMEA Chief Technical Evangelist, MAPR
Powering modern web, mobile and IOT applications with Apache Cassandra 25
Patrick McFADIN
Chief Evangelist, DATASTAX
Le Big Data va-t-il tuer le Datawarehouse ? 26
Jean-Marc BONNET
Directeur de l’architecture et des solutions analytiques, TERADATA FRANCE
Franck POULAIN
Technology Presales Director, ORACLE France
Sébastien POUSSART
Expert Architect Big Data, SAS France
Olivier RENAULT 26
Solution Engineer, HORTONWORKS
Comment la DSI Groupe de Saint-Gobain accélère les initiatives Big Data des
activités métiers 28
Eric MERLATEAU
IT Infrastructure Services Design, SAINT-GOBAIN
Stéphane SARETTA
Responsable Architecture Nouveaux services, SAINT-GOBAIN
Discours d’ouverture 30
Márta NAGY-ROTHENGASS
Head of Unit "Data Value Chain" in DG CONNECT, EUROPEAN COMMISSION
AstraZeneca : one company – many use cases on one Big Data search and
analytics platform 45
Nick BROWN
Technology Incubation Director, CTO Office, ASTRAZENECA
Laurent FANICHET
VP Marketing, SINEQUA
Air Liquide : tirer parti du Big data pour détecter de nouveaux usages et
conquérir de nouveaux marchés 50
Athanasios KONTOPOULOS
Air Liquide
François-Régis CHAUMARTIN
Directeur général de Proxem
Hadoop et son data lake peuvent-ils jouer le rôle de base de données primaire
en production ? 52
From Big data to small apps : la Dataviz, dernier kilomètre de votre stratégie de
données 53
Charles MIGLIETTI
Toucan Toco
Big Data Paris 2016 1
Discours d’ouverture
Mounir MAHJOUBI
Président du Conseil national du numérique
Les experts du Big data ont toutes les difficultés du monde à faire comprendre à leur
entourage proche la nature exacte de leur métier. Ils se réfugient ainsi souvent derrière
une dénomination beaucoup plus générique, en affirmant qu’ils travaillent dans
l’informatique, car la simple mention du terme « data » intrigue, voire inquiète.
Dans le monde de l’entreprise, le Big data suscite plutôt admiration et respect, mais
cela ne signifie pas, pour autant, que les personnes comprennent mieux de quoi il
retourne.
Si la collecte de données, tout comme le traitement et l’analyse de ces dernières, font
partie, depuis la nuit des temps, de l’environnement économique et des préoccupations de
l’Etat, tout a changé avec l’arrivée du Big data.
Le volume de données collectées a en effet sensiblement augmenté, tout comme la
capacité de traitement de celles-ci. La méthode d’analyse de ces data
« nouvelle génération » a également beaucoup évolué. Les données ne sont plus
seulement utiliser pour tester la validité d’une hypothèse mais peuvent permettre de
découvrir des structures causales cachées, que l’on n’avait pas envisagées au départ. Le
Big data ne sert donc pas simplement à améliorer la performance des process, au sein
d’une entreprise, ou la connaissance du business d’un client donné mais modifie en
profondeur la manière de concevoir une organisation, qu’il s’agisse d’une entreprise ou de
l’Etat lui-même.
Il s’agit donc d’une véritable révolution, qui a vocation à contribuer à l’amélioration des
organisations internes des entités y recourant, tout en reconfigurant en profondeur les
industries et en transformant les services publics.
Pour que le Big data fonctionne, il faut que les informations circulent au-delà des silos
existants. Le Big data oblige donc à penser l’entreprise, au-delà de son organisation
existante, et la mise en œuvre d’une démarche data driven doit nécessairement mobiliser
toutes les intelligences de l’entreprise pour une efficacité maximale.
Le Big data transforme les industries. Il est en effet porteur d’innovation et permet aux
acteurs qui y recourent d’acquérir une véritable indépendance, dont ils seraient
progressivement privés s’ils laissaient aux autres le monopole de l’utilisation de ce
nouveau système de traitement des données. À cet égard, l’accent doit être mis sur
l’intermédiation, faute de quoi les acteurs traditionnels sont voués à disparaître, au profit de
plates-formes créées ex-nihilo ou de géants du web, tels que Facebook, Google Now ou
Linkedin, contre lesquels ils ne pourront lutter. Seule une parfaite connaissance des
comportements et des besoins des consommateurs permet d’offrir à ces derniers des
services adaptés. Partant de là, si les acteurs économiques traditionnels abandonnent
cette nécessaire connaissance de leurs consommateurs aux réseaux sociaux, ils perdront
en retour leur capacité à innover.
Le secteur public reste à l’heure actuelle le plus grand producteur de données en
France. L’utilisation de ces data est pourtant loin d’être optimale, car les administrations
ont bien souvent encore du mal à partager les données dont elles disposent. La mise en
œuvre d’une démarche Open Data permettrait, à n’en pas douter, de maximiser l’intérêt
général des acteurs en présence.
Partant de là, il semble primordial de favoriser la coopération entre les laboratoires publics
et leurs homologues privés, en vue de garantir le meilleur niveau de résultats possible
dans le domaine de la recherche.
Yann LECHELLE indique que les open-sources permettent à l’écosystème constitué
par les ingénieurs et les chercheurs d’innover en dialoguant en permanence, les uns avec
les autres.
Enguérand RENAULT demande si la France jouit d’un avantage compétitif dans la
recherche, puisque Facebook vient d’investir à Paris dans un laboratoire et que SNIPS
emploie aujourd'hui 30 personnes.
Florent PERRONNIN confirme l’appétence de Facebook pour l’intelligence artificielle.
Le laboratoire situé en Ile-de-France, qui employait au départ 6 personnes, devrait
prochainement doubler ses effectifs. A noter que les experts recrutés au sein de ce type de
structures doivent disposer d’un bon bagage en informatique et en mathématiques.
Des acteurs tels que l’INRIA et l’ENS constituent en outre d’excellents partenaires
potentiels pour ce type de laboratoires. Start-up et universités sont également à même de
s’inscrire dans une collaboration « gagnant-gagnant » au sein d’un même écosystème.
Yann LECHELLE indique que les trois fondateurs de SNIPS sont français. Dans les
secteurs d’activité à forte dimension technique, la France est privilégiée pour tout ce qui a
trait à la formation et au montage financier. Les salaires sont en effet plus bas que dans la
Silicon Valley, ce qui peut inciter certaines sociétés à faire le choix d’une implantation sur
le sol français. La BPI et le crédit-impôt-recherche contribuent en outre à faire baisser la
pression fiscale sur ce type de métiers. Enfin, de nombreux talents sont disponibles en
France, à n’en pas douter.
Enguérand RENAULT sollicite le regard du sociologue Dominique Cardon sur toutes
les évolutions à l’œuvre.
Ce dernier, auteur de A quoi rêvent les algorithmes ?, indique que l’intelligence
artificielle ne cesse de naître et de s’essouffler, au fil des ans, ce qui prête à sourire. Ainsi,
après un premier cycle dans les années 1950, suivi d’un second dans les années 1980, la
France et les pays développés en général sont aujourd'hui confrontés à une troisième
vague de développement de l’intelligence artificielle. Celle-ci se révèle éminemment
statistique, alors que celle de la deuxième vague était essentiellement anthropomorphe.
Avec le machine learning et le fonctionnement toujours plus puissant des algorithmes,
les règles deviennent en effet de plus en plus révisables, via l’intégration permanente de
nouveaux éléments de contexte. De telles évolutions conduisent les grands penseurs du
Big data eux-mêmes à rejeter le terme d’intelligence artificielle, jugé trop étriqué, pour
embrasser toutes les subtilités d’une nouvelle forme de traitement statistique par révision
continue, via l’intégration constante de nouvelles données, dans un contexte où l’homme
délèguera de plus en plus de tâches aux machines.
Un journaliste, présent dans la salle, sollicite des précisions de l’impact du
deep learning et du machine learning sur l’emploi en France.
Florent PERRONNIN répond que des emplois pourraient être menacés par le
remplacement de l’humain par des machines, en vue de réduire les coûts de production.
Pour autant, il n’est pas du tout certain qu’un tel scénario se profile effectivement à
l’horizon. En tout état de cause, il conviendra d’accélérer la reconversion des personnes en
poste sur des emplois en voie d’obsolescence vers des métiers plus porteurs, si l’on veut
éviter d’aller dans le mur.
Dominique CARDON confirme la difficulté à prévoir de manière sûre l’impact du Big data
sur l’emploi, à plus ou moins long terme. À cet égard, certains économistes prétendent que
les évolutions à l’œuvre seront créatrices d’emplois, tandis que d’autres, tels que
Daniel Cohen, prédisent la disparition totale de pans entiers d’emplois peu qualifiés.
Depuis toujours, prévenir l’avenir s’est apparenté à une véritable quête du Graal. Rien
que pour l’année 2015, Nostradamus avait ainsi prédit, en son temps, l’avènement d’une
crise mondiale, la possibilité pour l’homme de converser avec les animaux et l’abolition des
taxes.
Au vu du faible taux de réalisation de ce type de pronostics, il n’est pas étonnant que la
science ait considéré pendant longtemps les prédictions comme du charlatanisme. Il
semblerait que cette époque soit révolue et que le Big data ait ouvert la voie d’une
réconciliation possible entre ces deux dimensions.
C’est ainsi que Bing a permis de prédire avec justesse les lauréats des Oscars 2016 et
que de nombreux algorithmes sont actuellement à pied d’œuvre pour prédire les résultats
des prochaines élections américaines.
Par le passé, les entreprises étaient toutes positionnées sur un secteur d’activités
clairement identifié. Avec l’avènement du Big data et l’arrivée de nouveaux interlocuteurs
(tels que Google, Amazon, Uber, Airbnb .) qui ont mordu sur les revenus des offreurs
traditionnels, les grands groupes se doivent de réagir s’ils ne veulent pas disparaître, en
tirant parti de leur très bonne connaissance des consommateurs.
Dans le même temps, la révolution data devra gagner en respectabilité, en prônant
l’avènement d’un Big data responsable. Nombre de Français éprouvent en effet un
sentiment de défiance vis-à-vis de ces nouvelles technologies et 9 personnes sur 10
estiment être mal informées de l’usage que les acteurs économiques font de leurs données
personnelles.
Pour autant, force est de constater que dès que l’on prend la peine d’expliquer le
fonctionnement du Big data, le niveau de défiance de la population recule aussitôt de
manière drastique.
Quantmetry souhaite promouvoir un Big data responsable en donnant à ses clients la
capacité de maîtriser eux-mêmes les données les concernant. Quantmetry conduit en
outre des projets permettant d’améliorer la prise en charge médicale des citoyens. Dans le
cadre d’une étude récente, les très bons taux de rémission du cancer du sein obtenus par
les équipes de l’hôpital de Strasbourg ont pu être mis en lumière : cet établissement atteint
en effet un taux de rémission de 93 %, contre 85 % en moyenne à l’échelle nationale.
Grâce au Big data, qui pourrait permettre une généralisation des bonnes pratiques de cet
établissement à l’échelle de la France entière, 40 000 femmes supplémentaires pourraient
être sauvées chaque année.
Le Big data pourrait par ailleurs être utilisé à plein pour accélérer les processus de
recrutement à condition, toutefois, de garantir un respect maximal de la confidentialité des
données.
Dans ce même souci de prôner une utilisation irréprochable de toutes ces nouvelles
technologies, une pétition a été récemment mise en ligne sur le site change.org, afin
d’appeler à la nécessaire mise en œuvre d’une révolution data responsable. Si cet objectif
est effectivement poursuivi, nul doute que des formations à la prédiction verront le jour,
dans les cursus universitaires de demain.
Enguérand RENAULT s’enquiert de la nécessité d’élaborer une charte de déontologie
pour le métier de data scientist.
Jérémy HARROCH répond qu’il serait prématuré d’établir un tel document pour un
métier tout juste naissant.
Enguérand RENAULT note que les étudiants formés sont souvent tentés de créer leurs
propres start-up, ce qui limite encore les possibilités de recrutements des entreprises
existantes.
Stéphan CLEMENÇON explique que 60 % des étudiants de l’Ecole trouvent un emploi
rapidement dans des entreprises existantes. Pour autant, certains étudiants en thèse
peuvent effectivement être tentés par la création d’une start-up. Loin d’appréhender ce
type de phénomènes comme une menace, il faut y voir l’opportunité de décloisonner les
carrières académiques et les carrières plus industrielles, tout en redynamisant au passage
les mathématiques appliquées.
Enguérand RENAULT s’enquiert du niveau de rémunération moyen des data scientists
débutants.
Stéphan CLEMENÇON répond que le salaire moyen des data scientists débutants
s’établit à 60 000 euros annuels.
Jean-Paul ISSON précise que les data scientists, y compris débutants, sont plutôt
rémunérés 100 000 euros au moins aux États-Unis.
Raphaël POUSSET-BOUGERE indique que le laboratoire pharmaceutique Ipsen, au
sein duquel une politique de Big data a été initiée il y a deux ans, est persuadé que le
recours à ce type de technologie constituera un avantage compétitif pour les entreprises, à
l’avenir. Partant de là, plus tôt les entreprises s’engageront dans cette voie, en adoptant
une attitude proactive, mieux elles s’en sortiront.
Pierre DELORT souligne que la pénurie de data scientists devrait se doubler, à terme,
d’une pénurie de décideurs à même de comprendre le langage de cette catégorie de
spécialistes, recourant notamment aux mathématiques inductives. Dans un premier temps,
au moins, toutefois, la DSI pourra aider les décideurs à prendre les meilleures décisions
possibles, tout en veillant à garantir une protection maximale aux données manipulées.
Marketing et BtoC
Elias BALTASSIS
Director Europe, Data & Analytics THE BOSTON CONSULTING GROUP
Les entreprises doivent décider où elles veulent aller avec le Big data. Il convient en
outre de s’intéresser aux modalités de génération des nouvelles idées, aux plates-formes
de données et à la gouvernance analytique. À cet égard, un modèle de maturité en cinq
étapes a été mis au point par le Data & Analytics du Boston consulting group afin de
statuer sur l’état d’avancement des projets.
Une étude portant sur les sociétés BtoC dans six pays a permis de mettre en lumière
un certain nombre de points saillants. La maturité moyenne des projets n’est pas très
élevée. Elle s’établit à 2,7. Le paramètre de la « vision » semble être celui qui est le plus
avancé. Les deux paramètres les moins avancés sont « la gestion des écosystèmes », ce
qui n’est pas étonnant, et « les plates-formes technologiques », ce qui l’est plus.
Le secteur de l’assurance (très dichotomique), d’une part, la banque et la grande
distribution (qui sont plus homogènes), d’autre part, occupent les trois premières positions
concernant l’état d’avancement du recours au Big data.
En termes de tailles, les moyennes entreprises sont bien plus performantes que les
très grandes ou les très petites.
La France est en retard (en regard de l’Europe qui affiche un taux de maturité à 2,56 et
des États-Unis dont le taux de maturité atteint 2,86). La situation en France est toutefois
très contrastée selon les secteurs d’activité et les zones géographiques.
Contrairement à ce que l’on pourrait croire, les jeunes générations se préoccupent au
moins autant que leurs aînés de la préservation de la confidentialité de leurs données.
L’enquête démontre en outre que les individus surestiment les dangers que
représentent les entreprises. Ceci s’explique notamment par le fait que les sociétés font
montre d’une certaine passivité quand il s’agit de communiquer sur leurs pratiques. Ainsi,
presqu’une société sur deux ne dispose d’aucun moyen dédié pour expliquer à ses clients
la nature des données qu’elle détient. Et 55 % des personnes sondées n’ont aucune
confiance dans la capacité des sociétés à garantir la préservation de leurs données.
La perception du besoin de confidentialité est en train d’évoluer. Ainsi, certaines
données que l’on considérait par le passé comme excessivement confidentielles semblent
l’être un peu moins, tandis que d’autres, qui semblaient par le passé relativement
anodines, deviennent aujourd'hui plus précieuses. Dans un tel contexte, il convient de
mettre en place une vraie politique de confidentialité dans les sociétés, tout en faisant en
sorte de la faire connaître, auprès du grand public. A n’en pas douter, l’avantage
concurrentiel ultime reposera en effet, à l’avenir, sur la confiance que les consommateurs
auront dans la capacité de tel ou tel acteur à préserver leurs données.
Enguérand RENAULT s’enquiert de la part des investissements prévus pour
augmenter la transparence des données et la confiance des consommateurs.
Elias BALTASSIS répond qu’il y aura bien des investissements visant à améliorer la
transparence des données et la confiance des individus. Ceux-ci ne seront toutefois pas
nécessairement colossaux.
Créée en 1993, Qlik est une entreprise d’origine suédoise qui emploie aujourd'hui plus
de 1400 employés à l’échelle mondiale. En regard des acteurs traditionnels de ce marché,
Qlik ne se cantonne pas à ce qui a déjà été prédéfini en amont pour prendre une décision
mais permet d’explorer de nouvelles corrélations, qui n’avaient pas été envisagées au
départ. Qlik répond aux besoins des métiers, sans sacrifier la gouvernance. Qlik s’attache
en outre à concilier les métiers existants et l’IT. Enfin, Qlik propose des innovations
permettant notamment de contextualiser les données collectées, en recourant à des
données externes. Qlik est leader sur son marché pour la sixième année consécutive.
Claudio BORLO
DSI REXEL
Créé en 1967, la société Rexel est devenue, grâce à une croissance par acquisitions,
le leader mondial de la distribution des produits et des services dans le domaine de
l’énergie (après avoir été spécialisée dans le secteur de l’électricité jusqu’en 2010). Cette
société propose une offre intégrée à ses clients et livre ses produits à J+1 partout dans le
monde. Présente dans 35 pays, Rexel peut se prévaloir d’un chiffre d'affaires de
13,5 milliards d’euros et de plus d’un million de références produits.
En recourant à Qlik Sense, Rexel a pu mettre en place une approche segmentée,
multicanal et digitale, dans le cadre d’un modèle de Business Intelligence (BI) Agile. Elle
recourt ainsi à l’analyse prédictive des KPI et des dashboards et développe pour ce faire
une approche pragmatique. Ces nouvelles fonctionnalités permettent en outre d’optimiser
la gestion des stocks. Une majorité d’utilisateurs, au sein de Rexel, s’accorde à reconnaître
la valeur ajoutée apportée par les solutions mises en œuvre par Qlik.
Le groupe Seb, qui commercialise chaque seconde sept nouveaux articles dans le
monde – est le leader mondial du petit équipement domestique. Le Groupe possède six
marques internationales et certaines marques locales dont la marque Seb, présente
uniquement en France et Belgique.
Seb a pour mission de faciliter et d’embellir le quotidien des utilisateurs, en anticipant
les difficultés de ces derniers. Pour ce faire, le Groupe doit innover en permanence.
Pour le lancement de la cocotte-minute, Seb avait ainsi fait le choix de proposer aux
utilisateurs un livre de recettes associé, ce qui lui a assuré un succès indéfectible. Pour
Cookéo, le Groupe a adopté la même stratégie en proposant un livre de recettes en ligne
aux utilisateurs de ce produit.
Seb travaille d’ores et déjà sur la deuxième génération de Cookéo, afin de proposer un
panel de recettes élargi et de personnaliser les services délivrés aux utilisateurs. Grâce à
la construction d’un format de recettes élargi et intelligent, Seb entend ainsi proposer des
services innovants et interconnectés à ses utilisateurs.
Pour ce faire, le groupe a mis au point un consortium de recherches, le programme
Open Food Système qui vise à répondre aux questions du quotidien du type « que va-t-on
manger ce soir ? ». Ce projet développe des solutions de cuisine numérique en mettant à
la disposition des utilisateurs des contenus et services numériques innovants, liés à des
appareils connectés, qui vont faciliter le quotidien de ces derniers.
Grâce au moteur de recommandation temps réel auto-apprenant conçu par Coheris,
toutes les données de profil, d’usage web, toutes les caractéristiques des objets
connectés, ainsi que des données de contexte, sont collectées et exploitées.
Avec l’ensemble de ses partenaires et à l’aide d’experts reconnus au niveau mondial,
le groupe Seb apporte ainsi des solutions aux besoins que les consommateurs ont de se
nourrir plus sainement, tout en diminuant le temps de préparation des repas.
OFS prévoit en outre de mettre à disposition des professionnels et du grand public de
nouveaux appareils de cuisson intelligents et connectés. A noter que la version
« connect » du Cookéo représente d’ores et déjà 20 % des ventes environ.
La data constitue une véritable révolution dans le monde de l’industrie, même si six
Français sur dix n’ont encore pas entendu parler de ce concept à l’heure actuelle. Le
Big data est entrée chez TF1 (qui est notamment l’un des leaders de la TV catch-up) via le
Digital.
TF1 a lancé la plate-forme one data il y a de cela quelques mois, en vue de saisir les
opportunités disponibles en termes d’achat d’espaces publicitaires. Cette plate-forme
emploie 8 personnes.
TF1 accompagne les clients dans le ciblage de leurs campagnes et s’attache à prouver
l’efficacité desdites campagnes. Pour ce faire, le Groupe s’appuie sur des données ayant
trait à la GRP (c'est-à-dire la capacité à toucher une cible).
Grâce aux nouvelles technologies du Big data, TF1 a réussi à déterminer un indice de
GRP correspond à différents types de produits – lessive, shampoing, café, chocolat, etc. –
et à déverser ces données « nouvelle génération » dans les outils habituels de
médiaplanning.
Partant de là, sur la base de ces nouvelles modèles, il est désormais possible de
connaître très précisément la typologie des publics regardant tels ou tels programmes.
Ainsi, non seulement on connaît l’âge moyen du public de The Voice, mais on sait quels
biscuits ces personnes mangent et quelle voiture elles souhaitent conduire.
TF1 a conçu avec une filiale de Bouygues un moteur permettant de mieux allouer les
espaces publicitaires. TF1 s’attache en outre à renforcer la preuve de l’efficacité des
campagnes publicitaires à la télévision, en recourant à la data. Il a en effet été démontré
que la télévision limitait l’effet de l’évolution des prix sur les ventes. L’élasticité des prix est
en effet réduite de moitié, pour les clients investissant dans des espaces publicitaires
télévisuels. La télévision protège en outre de la concurrence. Quand un client investit
1 euro dans la publicité télévisuelle, il réalise 1,20 euro de chiffre d'affaires supplémentaire.
Par ailleurs, TF1 s’attache à utiliser toutes les opportunités que la data peut offrir, en
s’associant à des partenaires prestigieux dans le domaine de la R&D. TF1 s’est ainsi
associé à une chaire créée par Orange et l’ESSEC. Il convient en effet d’optimiser la
pression publicitaire sur les consommateurs, et ce quel que soit le device utilisé. Pour ce
faire, le recours aux GRP « produits » (qui sont utilisables sur les 15 principales chaînes de
la TNT) est essentiel car il permet d’améliorer sensiblement le ciblage des campagnes
publicitaires.
Orange estime qu’il est possible d’utiliser la data au service de ses clients, tout en
assurant un respect de la vie privée de ces derniers. Pour ce faire, Orange a lancé des
projets visant à améliorer la proactivité dans la relation client.
Un film est diffusé sur le système d’alerte mis en place à destination des clients
Orange, dans le cadre du programme « sauvons les Livebox ». Ce dispositif a vocation à
prévenir les abonnés Orange des risques d’orages dans leurs régions, grâce à la collecte
de données provenant de Météo France, afin d’éviter, autant que possible, le foudroiement
des Livebox présentes dans les zones touchées.
Ce type de campagne est très bien perçu par les abonnés, dont le taux de satisfaction
s’établit à 98 %. Le nombre de Livebox sauvés grâce à ce dispositif a été important. Cette
campagne a en outre permis de réduire le nombre d’appels au call center et le nombre de
déplacements inutiles de techniciens Orange. Au total, les économies réalisées par ce
biais se sont chiffrées à 2,8 millions d'euros.
Dans le cadre de la mise en œuvre d’une deuxième génération de ce programme de
prévention, Orange a affiné les données portant sur le type d’orages (pluies ou grêles) et le
type de Livebox à protéger. Ce nouveau dispositif a ainsi permis de sauver un nombre plus
élevé de Livebox et de réaliser des économies s’élevant à 3,6 millions d'euros, en
augmentation par rapport à 2014.
Le recours à la Big data a également permis d’améliorer les modalités d’intervention
chez les clients, afin de limiter le nombre d’interventions inutiles, faute d’informations
suffisamment précises collectées en amont par les services en charge de la relation client.
A n’en pas douter, en effet, un technicien qui se déplacera chez un client sans nacelle
adaptée pour atteindre sa zone d’intervention fera perdre du temps inutilement à
l’utilisateur et génèrera de l’insatisfaction chez ce dernier.
2,5 milliards de tickets de caisse sont édités chaque année par le groupe Auchan. La
Direction a donc souhaité mettre en place un système permettant d’exploiter au mieux
toutes ces données, dans une perspective de création de valeur ajoutée et de mise en
œuvre d’initiatives time-to-market.
Pour ce faire, une entité juridique spécialisée, ayant vocation à intervenir sur
l’ensemble des pays du Groupe, a été mise en place, sachant que chacune de ces zones
d’implantation a développé son propre business model, ainsi qu’une méthode spécifique
de collecte des données.
BluData est donc l’entité Data de Auchan Retail International, en charge de collecter et
activer les données du Groupe, on et off-line, pour les enseignes (Hyper, Super, E-
commerce). Elle a vocation à valoriser les données on et offline pour construire des
services à destination des enseignes et des sites web du Groupe
C’est dans ce cadre que BluData a mis en place une plate-forme permettant de
centraliser toutes les données provenant de nombreuses sources et de réaliser des
analyses, scores et algorithmes lui permettant de construire des études et des services à
destination des enseignes et des sites web. Dans ce cadre, BluData a incontestablement
bénéficié du fait qu’Auchan a toujours favorisé le test and learn, dans le cadre de la mise
en œuvre de sess projets.
La connaissance du métier originelle, à savoir le retail pour le groupe Auchan, est
essentielle pour permettre au Big data de progresser efficacement, tout en créant de la
valeur. Grâce à cette nouvelle technologie, Auchan s’attache notamment à prédire ses
ventes, en vue de mieux satisfaire ses clients. Le Groupe peut également adresser à ses
clients des messages promotionnels adaptés, grâce à toutes les données collectées via le
recours au Big data.
Le Cloud chez IBM est une offre nouvelle, qui a vocation à offrir une gamme complète
de services « opened for data ».
IBM prend ainsi en charge des cas d’usage opérationnels, permettant aux utilisateurs
de se dédouaner de la gestion de toutes les bases de données, dans le cadre d’une plate-
forme dont la fiabilité est incontestable.
Le recours aux services d’IBM et, plus généralement, l'utilisation des bases de
données as-a-Service, permettent ainsi aux entreprises de se concentrer sur leur cœur
métier, tout en bénéficiant de l'expertise, de la sécurité et de la « scalabilité » du Cloud.
Julien DELOUVEE
Directeur Associé, EFRONTECH
Le développement d’applications
analytiques en environnement Hadoop :
Faut-il oublier Map/Reduce ?
Mike OLSON
CSO et Chairman of the Board, CLOUDERA
Certaines entreprises qui sont actuellement parmi les plus performantes au monde
changent totalement les règles de leur industrie. Ainsi, Uber n’est propriétaire d’aucune
automobile, Airbnb ne dispose d’aucune chambre et Alibaba n’a aucun stock. Ces sociétés
n’utilisent pas les données. Les données sont leur activité.
Grâce aux données, les entreprises apprennent à mieux connaître leurs clients finaux
et leurs fournisseurs. Elles peuvent s’en servir pour créer des produits et des services
adaptés. Cette transformation profonde entraîne toutefois de nouveaux risques en matière
de sécurité et de conformité.
La création de plateformes Hadoop permet de traiter des volumes considérables de
données, de les maîtriser et de faire évoluer l’expérience client. Beaucoup d’entreprises se
sont engagées dans cette démarche, comme SFR, Marks & Spencer, etc. Les systèmes
actuels permettent de prendre en compte toutes les interactions pour mieux connaître les
comportements et accroître l’efficacité.
Dans l’industrie de l’assurance, cette nouvelle approche peut également être
importante, en apportant davantage de précisions dans le calcul des primes. Markerstudy
a développé des modèles très performants dans ce domaine. Ils contribuent également à
réduire la fraude.
Depuis sept ou huit ans, il est devenu extrêmement facile d’obtenir des données. Le
trafic généré est considérable. Par ailleurs, il n’existe plus vraiment de limite en matière de
stockage. Celui-ci n’a toutefois de sens que si les informations peuvent être utilisées. Or
les outils désormais disponibles permettent de gérer de tels volumes.
La plateforme Hadoop a été inventée par Google en 2004. Elle permet de gérer
l’explosion des volumes de données et de créer des entreprises capables de les utiliser
pour effectuer des prévisions ou concevoir des produits et des services basés sur leurs
interactions.
La construction de bases de données relationnelles a déjà donné lieu à une très
longue expérience. Toutefois, jusqu’à une période récente, la chaîne allant de la collecte à
l’exploitation des données fonctionnait avec des systèmes séparés. Ce n’est plus le cas
avec Hadoop.
Cette plateforme peut être utilisée par toutes les entreprises dans le monde. La
technologie sur laquelle elle repose est néanmoins complexe. Cloudera propose donc des
solutions pour l’appréhender plus facilement. Ses équipes ont l’habitude des difficultés
qu’elle peut poser et savent comment les résoudre.
Le Big Data est clairement devenu une cible. Par conséquent, il est indispensable de
prévoir des dispositifs pour protéger les données mises sur la plateforme.
Au début, tous les clients construisaient leur data center avec leurs serveurs mais ils
privilégient de plus en plus le cloud. Beaucoup de modes de fonctionnement sont
également hybrides, avec la coexistence des deux systèmes.
Evidemment, la plateforme ne fonctionne que si elle est accompagnée d’applications.
Cloudera a ainsi conclu plus de 2 000 partenariats pour disposer d’une offre la plus
complète possible et encourager les innovations.
Il est nécessaire de disposer d’une bonne architecture mais la technologie ne suffit
pas. Les équipes jouent également un rôle essentiel. Les entreprises qui réussissent le
mieux s’appuient généralement sur trois piliers, que sont l’IT, l’analyse et le business.
L’approche doit être agile, avec des expérimentations. Sous ces conditions, le système
recèle énormément de potentialités.
Hadoop est une plateforme unique. Son émergence constitue un événement majeur et
ses perspectives de développement apparaissent incroyables. Les données vont
probablement transformer toutes les activités.
Mappy est une entreprise française de taille modeste, puisqu’elle emploie une centaine
de personnes. Son activité consiste à dessiner des cartes, établir des itinéraires et
identifier des points d’intérêt. Son site reçoit environ 10 millions de visiteurs uniques
chaque mois.
La BI repose sur une plateforme Hadoop et sur l’outil Indexima, qui a été développé en
interne.
Pour Mappy, l’enjeu était de répondre à des questions de plus en plus pointues de la
part des analystes. La situation était devenue problématique, car l’explosion des requêtes
avait considérablement allongé les temps de réponse. Les volumes de données à parcourir
étaient colossaux. Les serveurs n’étaient plus suffisants et il n’est pas possible de les
multiplier dans les proportions qui auraient été nécessaires.
L’outil Indexima a permis d’ajouter une couche d’indexation et de réduire les temps de
réponse de manière très significative. Par le passé, les difficultés commençaient au-delà
de 100 millions de lignes. Aujourd’hui, le système peut traiter jusqu’à 2,7 milliards de lignes
mais, en réalité, n’a plus de limites.
Pour le moment, Indexima est une solution propriétaire mais le moteur en lui-même
pourrait devenir open source. Il est en production chez Mappy depuis six mois, en
utilisation quotidienne.
Les volumes d’informations sont de plus en plus importants mais les utilisateurs
attendent désormais du temps réel, celui-ci pouvant éventuellement aller jusqu’à quelques
secondes.
Dans ce contexte, l’enjeu est de capturer les flux de données le plus tôt possible et de
les mettre à disposition sur la plateforme. L’outil MapR Stream permet de le faire en
s’appuyant globalement sur l’architecture Kafka.
Toutes les industries sont concernées par le développement du temps réel. Les
données représentent des volumes de plus en plus importants mais les réponses sont
attendues immédiatement.
En ce qui concerne le pétrole par exemple, il est possible d’analyser la qualité du
produit à partir de la pompe. Une multitude de petits messages sont envoyés vers des
applications. Leur accumulation permet de détecter d’éventuelles anomalies et de lancer
des processus d’alerte, de reconfiguration du système, etc. Kafka avait été créé pour le
monitoring des applications informatiques elles-mêmes. Il peut aussi être utilisé pour la
gestion de bandeaux publicitaires. Les possibilités sont infinies.
Franck POULAIN
Technology Presales Director, ORACLE France
Sébastien POUSSART
Expert Architect Big Data, SAS France
Olivier RENAULT
Solution Engineer, HORTONWORKS
Franck POULAIN rappelle que le Datawarehouse est construit sur la base d’une
modélisation. Il s’accompagne donc forcément de contraintes. La mise en œuvre de
complémentarités avec Hadoop à partir de la même source est très intéressante, car
permet de s’affranchir de ces rigidités et d’introduire plus de souplesse. Oracle propose
désormais des points d’accès uniques, qui sont neutres pour l’utilisateur final.
Jean-Marc BONNET explique que la stratégie est finalement la même que dans
l’automobile avec le développement des moteurs hybrides. Il est souhaitable de combiner
les deux technologies et de les orchestrer de la manière la plus transparente pour les
utilisateurs. Aujourd’hui, ce qui détermine l’endroit où placer le cursus dépend de la densité
des données. Cette situation évoluera certainement dans les prochaines années.
Sébastien POUSSART confirme l’intérêt des solutions mixtes, notamment pour
répondre aux besoins de projets spécifiques. Elles permettent d’éviter des problèmes
organisationnels, qui sont très consommateurs de temps dans les grands groupes, et
donnent de l’agilité.
Ces évolutions ne sont pas forcément préjudiciables pour les opérateurs traditionnels.
Franck POULAIN indique qu’Oracle propose aussi des solutions sur Hadoop, grâce à des
partenariats. Jean-Marc BONNET assure qu’il en est de même pour Teradata.
Franck POULAIN note que les migrations totales vers le Big Data sont très rares. Les
systèmes mis en place cherchent le plus souvent à tirer parti des avantages offerts par les
deux mondes. De ce point de vue, l’expérience de Randstad est très intéressante, car elle
montre comment il est possible de mettre en corrélation les données de l’entreprise et
l’ensemble des données externes, issues notamment des réseaux sociaux.
Olivier RENAULT explique que les entreprises qui utilisent uniquement Hadoop ne
disposaient généralement pas de Datawarehouse au préalable. Il cite notamment
l’exemple de Spotify. L’existence d’un très gros cluster est toutefois indispensable pour
atteindre des niveaux de performance satisfaisants.
Stéphane SARETTA
Responsable Architecture Nouveaux services, SAINT-GOBAIN
Discours d’ouverture
Márta NAGY-ROTHENGASS
Head of Unit "Data Value Chain" in DG CONNECT, EUROPEAN COMMISSION
Le marché des Big Data connaît une forte croissance. En 2015, il représentait environ
50 milliards d’euros, avec une croissance d’environ 6 % en Europe.
Environ 250 000 entreprises européens travaillent directement dans le domaine des
Big Data mais ces dernières se trouvent désormais au cœur de beaucoup de métiers,
même les plus traditionnels.
La France a su créer un écosystème performant et innover, notamment avec son projet
de loi numérique, qui constitue une première en Europe.
Les données offrent beaucoup opportunités. Elles permettent d’envisager de nouveaux
modèles économiques mais s’accompagnent également de nouvelles externalités,
positives ou négatives. Des défis importants sont à relever. La digitalisation de la société
européenne apparaît toutefois indispensable.
La Commission a développé des plans d’action permettant de soutenir cette
dynamique, tout en préservant les valeurs européennes, en particulier la confidentialité des
données personnelles.
Il est important de renforcer le travail collaboratif et de créer des communautés, en
encourageant les initiatives transfrontalières ou transsectorielles. Il est également
nécessaire de répondre aux besoins en termes d’infrastructures. De ce point de vue,
l’interopérabilité entre les pays doit être préservée.
En matière de recherche, les défis à relever et les freins doivent être identifiés. Le
cadre mis en place doit à la fois préserver la sécurité des données sans freiner la
croissance et l’innovation.
La Commission souhaite favoriser un marché orienté vers les data, qui sont sources de
croissance économique et de création d’emplois. Des clarifications sont toutefois
nécessaires, notamment sur la propriété des données. Des consultations ont débuté sur le
sujet et les travaux devraient déboucher à l’automne.
Une stratégie pour l’innovation numérique a été élaborée. Elle met l’accent sur une
plus grande standardisation. L’interopérabilité est essentielle mais doit se mettre en œuvre
dans le dialogue.
montantes. Le consensus implicite qui existe entre les consommateurs et grandes les
plateformes, qu’ils continuent à utiliser, est un signal fort. Celui-ci doit être pris en compte.
Sophie NERBONNE rappelle que les autorités de régulation ne jouent qu’un rôle
modeste. Le dispositif doit être intelligent et ne pas freiner la capacité d’innover. Les
acteurs économiques doivent être en mesure de proposer les services voulus par les
consommateurs mais ces derniers ne perçoivent pas forcément les conséquences de
certaines pratiques.
Vincent STRUBEL reconnaît qu’il existe des besoins très forts en matière de sécurité.
Outre les données personnelles, il s’agit également de protéger la compétitivité des
entreprises. Un pillage de leurs données, qui constituent le « nouvel or noir », est en effet
en cours. Les Etats ne sont pas les seuls à essayer de récupérer des informations. Se
multiplient également des attaques discrètes, avec une revente au plus offrant. Un
équilibre est évidemment nécessaire mais il revient au politique de le définir. Il faut
expliquer la menace, définir de bonnes pratiques et éventuellement proposer une
labellisation aux entreprises. Commercialement, celle-ci peut constituer un atout pour les
acteurs européens.
La sécurité et la croissance sont trop facilement opposées. Or l’une ne va pas sans
l’autre. La labellisation ne vise pas à renforcer le protectionnisme. Le processus serait
ouvert à tous dès lors que les critères sont respectés. Le marché péricliterait s’il se
refermait sur lui-même.
Edouard PERRIN souligne que la MACSF se trouve tout au bout de la chaîne.
Beaucoup de contraintes pèsent sur les données dans l’assurance. Elles représentent un
actif stratégique, notamment parce qu’elles permettent d’affiner la tarification. Elles seront
de plus en plus nombreuses avec le développement des objets connectés. Le respect de
l’éthique est toutefois indispensable dans l’utilisation qui en est faite. Un équilibre est
indispensable. Il serait forcément dangereux de tomber dans les extrêmes.
La salle évoque la possibilité pour les lobbies d’interagir plus facilement avec les
régulateurs et de réussir à travailler ensemble.
Sophie NERBONNE insiste sur la nécessité d’abandonner la culture du silo, pour
promouvoir une innovation responsable et renforcer les collaborations. La CNIL a déjà
travaillé selon cette logique pour les compteurs énergétiques communicants par exemple.
Il est important d’entreprendre un travail de co-régulation, en s’appuyant sur l’expertise des
professionnels et en prenant en compte leurs besoins.
La CNIL a aussi des progrès à faire pour réduire ses délais de réponse et mieux cibler
ses contrôles. Même si celle-ci est nécessaire, la régulation ne peut toutefois pas reposer
que sur la sanction.
Marc MOSSÉ
Directeur des Affaires Publiques et Juridiques, MICROSOFT FRANCE
Marc MOSSE explique que l’objectif est de préserver l’innovation tout en respectant la
protection des données. Pour l’atteindre, les questions de sécurité doivent être prises en
compte dès la conception des outils.
Cette recherche d’équilibre passe par une régulation innovante et une innovation
responsable.
L’existence d’un cadre juridique harmonisé est importante. Le projet de règlement
européen pour la protection des données personnelles va dans ce sens. Ces clarifications
apportent de la transparence et sont essentielles.
A la suite de l’annulation du Safe Harbor par la CJCE, la Commission européenne a
récemment rendu publics les premiers éléments du Privacy Shield. Ce texte permettra
également de préciser le cadre juridique.
La protection des données des clients est essentielle. Microsoft est en contentieux
avec le gouvernement américain dans ce domaine. L’entreprise a été saisie pour donner
accès à des données stockées en Europe. Elle s’y est opposée, car elle a considéré que
l’opération devait être menée dans le cadre d’une coopération internationale.
Le problème dépasse le numérique. La position qui a été adoptée est une position de
principe, pour la protection des données et la souveraineté des Etats. L’objectif n’est pas
d’empêcher des investigations, qui peuvent par ailleurs être légitimes, mais de s’assurer
qu’elles sont menées dans le respect des droits fondamentaux.
Les normes ISO sont des outils très utiles, car elles sont établies en consensus. Marc
MOSSE cite notamment la norme 27-018 sur la privacy dans le cloud ou la norme 33-500
sur la gouvernance des données.
Laurent MASSOULIE indique que des solutions existent pour sécuriser les données.
La cryptographie permet beaucoup de scénarios. Seulement une partie des informations
peuvent être rendues publiques. Par exemple, dans le cadre d’un compteur intelligent,
peuvent n’être transmis à EDF que les éléments permettant d’établir la facturation.
L’approche de « differential privacy » permet par ailleurs un floutage des données
rendues publiques pour rendre impossible leur désanonymisation. Cette méthode est
notamment utilisée dans le cadre de la géolocalisation. Il s’agit d’un domaine de recherche
très actif.
Les changements en cours sont majeurs. Jusqu’à très récemment, des moyens
relativement restreints suffisaient pour exploiter les données. L’explosion des volumes a
entraîné celle des moyens nécessaires pour les traiter, d’autant que les exigences se sont
accrues en termes de rapidité de réponses.
La valeur ne progressant pas au même rythme, l’équation est devenue de moins en
moins tenable, surtout dans un contexte de restriction des ressources. Le modèle est donc
arrivé à un point de rupture.
La rupture constitue toutefois un facteur d’innovation. Les acteurs traditionnels ont plus
de difficultés à y faire face mais de nouveaux acteurs ont émergé. Technologiquement,
pratiquement tout est possible. De la valeur peut désormais être générée à partir de
données qui n’en avaient pas ou très peu précédemment.
Tous les grands groupes veulent se positionner sur ce marché mais leurs modes de
fonctionnement traditionnels sont peu adaptés. L’innovation doit vraiment être au cœur de
l’entreprise et bénéficier à tous, dans le cadre de réseaux au sein desquels tout le monde
peut interagir.
L’un des projets réalisés par Fabrice HACCOUN a consisté à récupérer toutes les
données fournies par les laboratoires dans leurs échanges avec les médecins et à les
rendre accessibles sur un portail. Cette démarche a permis à la loi sur la transparence de
devenir efficiente. Jusqu’à présent, les informations étaient regroupées dans des listes
totalement inexploitables. Les industriels eux-mêmes se sont servis de ces ressources
nouvelles pour se benchmarker.
Dans le secteur de la banque de détail, un acteur important a décidé de mettre à
disposition de ses clients tous les documents échangés avec eux. Ce service était inédit
mais technologiquement compliqué à assurer compte tenu de la volumétrie. Un projet a
donc été développé pour tester la solution et vérifier sa fiabilité.
Toujours dans le domaine bancaire, les régulateurs ont demandé une visibilité sur
l’exposition quotidienne au risque sur l’ensemble des métiers. Cette exigence ne semblait
pas réalisable. Finalement, de nouvelles technologies ont permis de déployer une solution
conforme à la norme BCBS 239.
L’écosystème du Big Data est très épars, avec des start-ups qui présentent peu de
garanties de pérennité. Cet environnement est en contradiction avec la stabilité recherchée
par les grands groupes. La suite NODATA apporte une structuration. Elle couvre l’essentiel
des besoins, avec des adaptations possibles. Elle permet une grande modularité et a la
capacité de s’intégrer aux systèmes existants.
Vincent CHAMPAIN
General Manager, GENERAL ELECTRIC DIGITAL FOUNDRY PARIS
Stéphane QUERE
Directeur Innovation, ENGIE
Jérôme TOUCHEBOEUF
Président Mediapost Communication et Directeur du Laboratoire de l’Innovation de la
Branche Numérique, GROUPE LA POSTE
Henri VERDIER
Directeur interministériel du numérique et du système d’information et de communication
de l’Etat (DINSIC), Adjoint à la Secrétaire générale pour la modernisation de l’action
publique (SGMAP)
Henri VERDIER rappelle que les données n’ont de valeur que si quelqu’un s’en sert.
Elles ont d’ailleurs d’autant plus de valeur qu’elles sont utilisées. De ce point de vue, les
comparer au pétrole est une métaphore pernicieuse. Loin de s’épuiser, elles gagnent à
être exploitées. Cette situation renforce évidemment l’intérêt de l’Open Data. Sa mise en
œuvre est toutefois compliquée, surtout dans le secteur public où il ne correspond pas du
tout à la culture traditionnelle.
Des efforts sont cependant mis en œuvre pour améliorer la transparence de l’action
publique. Ils visent également à stimuler l’économie et à renforcer l’efficacité des
organisations. Des freins perdurent, car les systèmes n’ont pas été conçus pour permettre
la circulation de la donnée au sein de l’administration.
Il est possible d’obtenir des résultats sans s’appuyer sur d’énormes clusters Hadoop.
Le plus dur est de faire comprendre que beaucoup de problèmes peuvent se résoudre
avec les données et de s’en servir pour engager à des politiques très concrètes.
Se posent toutefois des questions d’éthique. Plus l’action publique serait guidée par
des algorithmes, moins le peuple serait réellement souverain. Il faut donc préserver des
voies de recours démocratiques.
Le projet de loi numérique, qui a été précédé par un large débat public, a proposé des
solutions. Ainsi, l’administration pourrait être tenue d’expliquer l’algorithme sur lequel elle a
fondé une décision, comme l’affectation post baccalauréat par exemple. Il faudrait que
cette disposition reste dans le texte qui sera voté par le Parlement.
Thierry BONHOMME constate que les données sont au centre d’énormément de
projets dans les entreprises comme Orange (optimisation des tournées des techniciens,
détection de la fraude, etc.). Ils introduisent une vraie révolution mais il faut prendre des
risques et ne pas avoir peur de s’ouvrir vers l’extérieur, en développant par exemple les
croisements de données météorologiques avec des données techniques.
Vis-à-vis des données des clients, des engagements extrêmement forts doivent
garantir la confiance et la sécurité. L’ouverture est également possible, à condition de ne
pas pouvoir remonter à l’identification des utilisateurs. Il existe probablement des
perspectives pour des plateformes générant des collaborations et des connexions avec
d’autres univers. Orange s’est déjà engagé dans cette voie avec Datavenue.
Stéphane QUERE indique que le monde de l’énergie connaît également une
transformation totale. Les consommateurs ne veulent plus seulement maîtriser leur facture
mais aussi la production. Les grandes entreprises ne peuvent qu’innover pour s’adapter
aux changements. Engie investit dans des start-ups, notamment au travers d’un fonds de
100 millions d’euros, et essaye de mobiliser le maximum d’énergie en interne et en
externe. Les collaborateurs peuvent faire des propositions à partir d’une plateforme, qui
reçoit d’une à deux idées par jour. Un programme d’incubation a été constitué avec des
partenaires. Une grande partie des projets sont liés au Big Data, comme la possibilité de
réaliser des audits énergétiques à distance.
Vincent CHAMPAIN explique que GE a investi massivement, environ un milliard de
dollars, dans la plateforme Prédix pour concentrer les développeurs sur les applications
apportant de la performance. Cet outil va être mis à disposition de clients, de concurrents,
etc. L’objectif est de leur donner accès à un écosystème mondial et de réduire les coûts,
afin de maximiser la valeur pour l’ensemble des acteurs. Le pari est de créer ensemble,
avec les start-ups, les grandes entreprises, etc.
Les grands groupes ne se tournent pas vers les start-ups pour leur confisquer des
idées mais parce qu’il est important de travailler ensemble. Les partenariats ne passent
pas forcément par des rachats.
Au cours des dernières années, Vincent CHAMPAIN explique que GE s’est
européanisé et s’est recentré sur l’industriel. Il se dit convaincu que le logiciel sera le
moteur de la productivité de demain, surtout dans les pays développés.
La Poste est également entrée dans une nouvelle dynamique. Jérôme
TOUCHEBOEUF indique qu’il est impossible d’ignorer la nécessité de mixer des données
d’origines diverses afin de générer une valeur nouvelle. Le champ des possibles est
désormais ouvert, comme au début d’internet. Compte tenu de la diversité des métiers de
la Poste, les opportunités sont extrêmement nombreuses. La logique n’est pas de résister
mais, au contraire, d’être à l’écoute et en interaction avec le marché.
Les dirigeants des grandes entreprises ont compris les enjeux et se sont mis en
mouvement. Evidemment, la transformation des organisations prend du temps et nécessite
un accompagnement.
Stéphane QUERE rappelle cependant que l’innovation est un sujet extrêmement positif
et porteur d’avenir. Il n’est donc pas si compliqué de motiver les équipes autour de cette
thématique. Chez Engie, des appels à compétences ont été lancés en interne pour porter
les projets. Les candidatures ont été beaucoup plus nombreuses qu’attendu.
Il peut exister des déficits de compétences dans certains domaines, ce qui nécessite
d’attirer de nouveaux profils mais également de mettre en place d’importants programmes
de formation. Thierry BONHOMME signale que chez Orange, la responsabilité du projet de
transformation digitale a d’ailleurs été confiée au DRH.
McKay Brothers a mis en place un réseau basé sur des ondes radio, qui relie les
bourses entre elles. Extrêmement rapide, il a une latence très faible. Cette technologie est
très ancienne mais a évidemment été perfectionnée.
Le réseau le plus important est entre Chicago et New York, les deux principales
bourses du monde. L’offre est proposée sur les Etats-Unis et l’Europe.
L’enjeu est de mesurer en temps réel, environ une seconde, la qualité du réseau pour
s’assurer que le service rendu est de qualité et éventuellement effectuer des
remboursements de l’abonnement souscrit.
Le dispositif est en production et fonctionne de manière très satisfaisante. La solution
utilisée, Cityzen Data, a été mise en Open Source récemment. Cette évolution a permis
d’étendre les services. Des analyses étaient proposées de manière assez classique mais
elles n’étaient pas réalisées tous les jours car elles demandaient trop de temps. Avec la
plateforme, elles pourront être disponibles en temps réel.
Le modèle pourrait être adaptable à d’autres métiers. Différentes pistes sont à l’étude,
comme les enchères en ligne et les réseaux de transport d’énergie. L’univers des jeux
pourrait également offrir des perspectives mais Stéphane TYC reconnaît qu’il en est moins
convaincu.
Héloïse NONNE
Manager – Senior Data Scientist, QUANTMETRY
Héloïse NONNE explique que la maintenance doit permettre aux trains de rouler tous
les jours, d’être sécurisés et disponibles.
Les actuels Transilien construits par Bombardier dans les années 2000 sont digital
native et génèrent des données. Ces dernières sont transmises toutes les 30 minutes avec
un processus de télédiagnostic.
Philippe de LAHARPE indique que les données permettent d’effectuer un diagnostic à
distance pour préserver une disponibilité maximale des trains. Pour optimiser la
maintenance, il convient donc de les utiliser au mieux.
Les trains sont de plus en plus complexes, ce qui multiplie les sources de pannes
possibles.
Etant donné la quantité de données, il n’est pas possible de réaliser l’analyse de façon
humaine. Des systèmes automatisés sont indispensables.
La SNCF est passée d’une maintenance corrective classique à une maintenance
corrective en temps réel et s’engage désormais dans la maintenance proactive. L’enjeu est
de prendre en charge des pannes n’ayant pas encore d’impact sur l’exploitation, par
exemple lorsqu’il existe des systèmes en redondance. Il est également possible
d’intervenir sur des signaux faibles identifiés par les capteurs. Anticiper un incident, même
de 30 minutes, permet d’optimiser le service et d’avoir le minimum d’impact pour les
voyageurs.
Les retours d’expérience sont désormais pris en compte sur les nouvelles séries de
matériel.
Une preuve de concept a été réalisée, puis suivie d’un pilote dans la perspective d’une
industrialisation. La SNCF s’est fait accompagner par Quantmetry.
Héloïse NONNE indique que cette collaboration a été extrêmement importante. Pour
construire un modèle prédictif, il est nécessaire de mettre toutes les données dans un data
lake et d’appliquer un algorithme. Le système doit toutefois être surveillé et amélioré de
manière continue.
Les techniciens chargés des réparations ont besoin de preuves tangibles. Ils doivent
être en mesure de rechercher des causalités et de mettre en œuvre des actions
correctrices.
Les résultats des phases expérimentales sont satisfaisants. Une période de test et
d’observation est en cours et se déroulera pendant environ six mois, pour voir comment le
modèle se comporte en conditions réelles.
Philippe de LAHARPE reconnaît que le dispositif aura un impact organisationnel. Il
faudra changer les processus de maintenance et se prémunir contre une sophistication du
système, qui conduirait à le rendre ingérable à cause du nombre de « faux positifs ».
La salle s’étonne que la SNCF ait développé sa propre solution, alors qu’il en existe
déjà sur le marché et que le constructeur Bombardier propose certainement ce service.
Philippe de LAHARPE indique que la SNCF a travaillé avec Bombardier mais qu’il
existait une volonté forte d’acquérir des compétences en exploitation des données et de
faire le lien avec les autres données issues des voies, de l’exploitation, etc. Beaucoup de
croisements envisageables. L’objectif est d’aller beaucoup plus loin que la vision du
constructeur et de privilégier une approche globale.
Emmeline ANTERRIEU
Marketing manager, HPE France
Airbus a lancé une expérience il y a un an et demi pour valider l’intérêt du Big Data et
de la valeur ajoutée qu’il pouvait apporter à l’entreprise.
Les données sont extrêmement nombreuses chez Airbus mais elles sont issues de
départements historiquement très séparés et n’ayant pas l’habitude de travailler ensemble.
Or il existe évidemment un intérêt à les partager, de la conception des avions au support
aux clients.
Une équipe transverse a été constituée pour mener le projet. Celui-ci a donné lieu à la
création d’un Data Lab. L’objectif était de fonctionner dans un environnement ouvert pour
franchir toutes les limites de l’organisation. Tous les tests ont été réalisés dans la
perspective de répondre à des besoins et d’entrer en production. La démarche avait
vocation à jouer un rôle d’accélérateur.
Il est apparu que les idées à la mode, comme la mise en place d’un lake unique, ne
convenaient pas. Trois environnements de travail différents ont donc été créés, pour offrir
un espace permettant d’apprendre les technologies, d’explorer et de produire. Il faut en
effet acquérir une maturité suffisante sur les tests avant d’aller jusqu’à la production.
De nombreux outils ont été envisagés. L’offre disponible sur le marché est très vaste.
Au départ, seules quelques briques assez simples ont été utilisées, afin de faire
l’apprentissage de nouvelles manières de travailler et de valider ou d’invalider les choix.
Cette approche a permis de faire évoluer les standards sans tout réinventer.
Airbus a, comme la SNCF, choisi de travailler sur la maintenance préventive et la non-
qualité en production. Le projet qui a été développé dans ce domaine est une réussite et
passe actuellement en production. Il intéresse également d’autres usines.
Dès 2014, Allianz a constitué des groupes d’experts, autour de la direction technique et
de la direction digitale, avec la volonté d’identifier de grandes thématiques et des cas
concrets d’application.
Les objets connectés offrent de nouvelles opportunités. Ils permettent de disposer
d’une somme d’informations importantes et d’enrichir la connaissance des clients. Ce point
est essentiel, car le secteur de l’assurance souffre d’un déficit de relations clients.
Avec les objets connectés, il sera possible de proposer de nouveaux modèles tarifaires
et de nouveaux services. Allianz a commencé à s’engager dans cette voie, avec le
dispositif « Allianz conduite connectée ». Celui-ci est additionnel et peut être souscrit à
l’occasion d’un nouveau contrat ou en complément d’un contrat existant. Cette approche
permet de fidéliser les clients.
Un boîtier, conçu avec le partenaire TomTom, se branche sur le port OBD. Ce dernier
est assez répandu depuis une dizaine d’années dans les véhicules.
Le risque de ce type de démarche est de se retrouver avec une masse d’informations
inutiles. Il a donc été décidé de privilégier un boîtier relativement simple. Il n’intègre pas de
puce GPS par exemple.
L’installation du boîtier est évidemment une démarche volontaire de la part des clients.
Il ressemble à une petite boîte noire mais toutes les données collectées sont accessibles à
partir d’une application mobile. Allianz a délibérément fait le choix de la transparence.
Les informations récupérées portent sur l’intensité et le nombre de virages, de
freinages et d’accélérations.
Le projet a duré six mois et a été mené en mode agile, avec des représentants de
nombreux métiers.
L’offre est axée sur la prévention et vise à réduire la sinistralité. Le fait d’installer le
boîtier dans le véhicule est déjà une démarche vertueuse, car celui-ci permet aux clients
de comprendre comment ils conduisent et de s’améliorer.
Le boîtier constitue aussi une alternative pour les véhicules qui ne sont pas connectés
et qui ne disposent pas d’un dispositif d’appel d’urgence en cas d’accident. La transmission
de certaines données déclenche en effet une alerte.
L’offre a été lancée en juin 2014. Depuis octobre dernier, Allianz propose à ses clients
une réduction de leur prime après une évaluation de leur comportement sur plusieurs mois.
L’objectif n’est pas de pénaliser mais d’inciter au développement d’une conduite
responsable. L’impact tarifaire peut atteindre 30 %.
A ce jour, un peu moins de 8 000 personnes ont souscrit cette option. La proportion
d’hommes est de 64 %, alors que les équipes pensaient que le dispositif attirerait plutôt les
femmes, notamment à cause de l’assistance. La moitié des clients a entre 30 et 50 ans, ce
qui montre que les objets connectés commencent à s’ancrer dans toutes les tranches
d’âges et pas seulement chez les jeunes.
Au total, 15 millions de kilomètres ont déjà été analysés. Les données ne sont pas
transmises à des tiers. Des engagements clairs ont été pris sur le sujet. Celui-ci est au
cœur des préoccupations des clients.
Christophe MONTAGNON
DOSI, RANDSTAD FRANCE
Laurent FANICHET
VP Marketing, SINEQUA
Utiliser les données et investir dans ce domaine est très important pour l’avenir des
entreprises. Au sein d’AstraZeneca, ce mouvement a été engagé depuis une dizaine
d’années. Beaucoup de projets sont en développement. Ils ne reposent pas sur un modèle
unique. Il est donc nécessaire de passer par de l’expérimentation.
Beaucoup de données ne sont pas structurées. Cette situation n’était pas forcément
reconnue au sein de l’entreprise. Il a fallu beaucoup de temps pour appréhender le
contexte, indexer les informations et les rendre disponibles à partir d’un moteur de
recherche. Initialement, celui-ci était centré sur la R&D mais le périmètre s’est un peu
élargi. Une somme colossale de documents a été numérisée.
La nouvelle plateforme et ses nombreuses applications permettent un large partage de
l’information. Sinequa offrait beaucoup de possibilités, avec notamment des
caractéristiques de mobilité.
Le projet a utilisé le cloud. Celui-ci offre davantage de puissance, ce qui est important
dans un groupe dédié à l’innovation.
L’intelligence artificielle constitue une révolution. Les machines ont appris à faire des
tâches humaines. Elles peuvent décrire des scènes à partir d’une photographie, conduire
une voiture, reconnaître les émotions par la voix, etc. Certaines applications peuvent
répondre aux questions, comme Siri.
En matière de santé, les technologies peuvent être des outils de diagnostic et aider les
médecins et les biologistes. Cette évolution est rendue possible grâce à l’accumulation des
données, à la puissance des calculateurs et à la mise en œuvre d’algorithmes de dernière
génération.
Le Deep Learning est extrêmement puissant. DreamQuark a développé des
plateformes pour les assureurs et les acteurs de la santé. Cette technologie permet
également de faire des diagnostics. Dreamup Vision a été constitué pour les maladies de
la rétine et travaille très étroitement avec les hôpitaux.
Dans le monde, 414 millions de personnes sont atteintes de diabète et leur nombre
augmente régulièrement. Cette maladie touchera un adulte sur 10 dans 25 ans. Or le
risque est de développer une rétinopathie, cause principale de cécité chez les moins de 60
ans.
La détection précoce permet de prévenir la cécité, car cette maladie est réversible si
elle est prise à temps. Malheureusement, les diabétiques ne disposent pas d’un suivi
ophtalmologique suffisant, par manque de rigueur de la part des malades mais aussi par
manque de professionnels. La technologie peut apporter des solutions.
Tous les médecins mais également d’autres professionnels de santé (infirmiers,
pharmaciens, etc.) selon les législations pourraient effectuer le diagnostic, même sans
avoir de connaissances particulières sur cette pathologie.
Le résultat est immédiat, ce qui évite du stress pour les patients.
Le dispositif optimise le fonctionnement du système de santé, en permettant aux
ophtalmologistes de se concentrer sur les patients qui en ont réellement besoin.
Demain, cette technologie pourra être élargie à d’autres pathologies.
Les liquidités sont la capacité d’une entreprise à mobiliser ses actifs pour faire face à
ses engagements. Pour une banque, il s’agit du cash et des titres pouvant être convertis
immédiatement auprès de la banque centrale ou sur le marché.
Il existe différents scénarios, sur la base de modèles qui permettent de prédire
l’évolution des liquidités jusqu’à 11 ans.
Les sources de données sont très hétérogènes. La technologie utilisée permet de les
enrichir et de les agréger dans des cubes multidimensionnels. Il est ensuite possible de
procéder à des analyses et d’assurer le pilotage, à la fois en interne et vis-à-vis du
régulateur.
La plateforme actuelle est mensuelle et hebdomadaire. La mise en place d’une
plateforme journalière est en cours.
Les utilisateurs disposent d’une seule interface pour réaliser leurs analyses et piloter
les liquidités. Il en résulte un gain de temps et une productivité accrue. Désormais, 95 %
des requêtes sont exécutées en moins d’une seconde. Les rapports peuvent être réutilisés
ou partagés.
Les analyses peuvent déjà descendre à des niveaux extrêmement fins mais des pistes
d’amélioration sont à l’étude, notamment pour intégrer la gestion des limites.
L’outil a déjà été déployé à New York et le sera prochainement à Tokyo pour le
pilotage vis-à-vis des régulateurs. Il va également équiper toutes les autres entités du
groupe Société Générale. Il a recueilli l’adhésion des utilisateurs, ce qui n’était pas acquis
au départ.
Le rôle des architectes « solutions » est d’accompagner les clients tout au long de la
vie de leurs projets. L’optimisation des plates-formes est ainsi notamment au centre des
préoccupations de ces professionnels.
Le Big data est à même de libérer la puissance de l’IOT (correspondant à l’internet des
objets), qui génère une masse de données très importante qu’il convient de gérer en
parallèle.
Un objet connecté est un objet contraint, sur au moins un axe informatique. Les objets
connectés, tels que les compteurs d’eau intelligents, par exemple, sont souvent déployés à
des milliers d’exemplaires. Enfin, ces objets connectés – qui doivent être suffisamment
robustes – peuvent jouer un rôle de critique ou de prescripteur, sans intervention humaine.
Les téléphones portables ne sont pas des objets connectés, contrairement aux plates-
formes Arduino, aux panneaux photovoltaïques ou aux voitures électriques.
L’interface d’un objet connecté est « intermédiée », simulée et directe.
D’ici 2020, les objets connectés représenteront 26 milliards d’unités connectées.
20 trillions de dollars devraient être générés autour de la technologie de l’IOT.
L’IOT touche tous les domaines d’activités – la santé, les sciences, les smart cities, le
commerce de détail, la logistique, l’agriculture, l’éducation ou l’automobile.
Le Big data peut aider à libérer la puissance de l’IOT, en lui donnant ses lettres de
noblesse. Le Big data est en effet à même d’exploiter au mieux les données générées par
l’IOT, lesquelles auront été préalablement stockées dans une base de données.
La volumétrie des informations générées par l’IOT et la variabilité des structures de
celles-ci sont problématiques. L’une des solutions visant à surmonter ce problème consiste
à mettre en place un data lake (qui consiste à centraliser les données au format natif et à
stocker à plat les données sans structure ni arborescence). Au-delà de ce volet stockage, il
convient de songer à la gouvernance de ces données, afin de déterminer l’identité de ceux
qui pourront accéder à celles-ci.
30 % de la bande passante des États-Unis sont consommés par Netflix, les soirs de
diffusion du premier épisode d’une nouvelle série. C’est dire si un tel acteur – qui travaille
régulièrement avec Amazon – a vocation à gérer un volume important de données au
quotidien. Le data lake de Netflix représente 200 milliards d’événements et 10 pentaoctets
de données, stockées sur Amazon S3, dont 1,2 sont relus quotidiennement.
Air Liquide maîtrise parfaitement les différentes méthodes de distillation de l’air, parmi
lesquelles la technique de séparation par membranes.
Au-delà de son cœur de métier, Air Liquide entend s’ouvrir vers de nouvelles
communautés en collectant des informations disponibles sur le web. Pour ce faire, il
convient de se munir d’outils adaptés, particulièrement performants, en recourant au Big
data.
François-Régis CHAUMARTIN
Directeur général de Proxem
Le data lake permet de relever le défi de la sécurisation des données stockées sur un
tel réceptacle. À cet égard, il convient de se demander s’il est nécessaire d’encrypter
lesdites données, après avoir fait en sorte d’en limiter l’accès aux utilisateurs autorisés.
L’outil « Ranger » permet de contextualiser les règles et de stocker les méta-données.
L’outil « Atlas » offre aux utilisateurs d’autres fonctionnalités. A noter que tous les outils,
produits par Hortonworks, n’ont pas de licences et sont disponibles en open-source.
Sadaq BOUTRIF
Tibco Software
L’outil Fast data, mis au point par Tibco, vise à accélérer les initiatives Big data des
clients qui y ont recours. Pour ce faire, il conviendra de canaliser le déluge de données à
disposition, afin d’en tirer un maximum d’enseignements. Il s’agira également de faire
montre de proactivité, en vue de saisir les opportunités offertes par lesdites données.
A l’heure actuelle, 13 % seulement des projets Big data sont déployés en production,
d’après une étude du Gartner Group publiée en 2015.
Le nouvel outil mis au point par Tibco ou « Tibco Big data Accelerator », qui sera
prochainement lancé sur le marché, aura vocation à aider les utilisateurs à exploiter la
puissance du Big data, en simplifiant les modalités de développement. Cet outil permettra
en outre d’implémenter un canevas de projet complet dans Streambase, Spotfire ou
Live Datamart. Il offrira une documentation complète des artefacts et interfaces, une haute
disponibilité et « scalabilité », une installation simplifiée, un environnement de simulation
intégré et un support de Tibco et de Tibco Community.
Tibco offrira en outre à ses clients une quarantaine de patterns d’implémentation,
permettant de simplifier l’accès aux phases de datas.
Plus généralement, cet outil devrait permettre de :
simplifier fortement le développement et l’exploitabilité d’applications Big et Fast Data ;
apporter de l’agilité dans l’élaboration de l’exécution de modèles prédictifs ;
accélérer le déploiement des projets.
La stratégie Big data – qui doit nécessairement s’inscrire dans une logique applicative
décisionnelle dans les entreprises qui y ont recours – a révolutionné les modalités de
stockage des données.
Il convient de partir de l’usage, afin de mettre au point une stratégie data adaptée aux
besoins des utilisateurs, pour aider ces derniers à prendre la bonne décision. L’approche
centrée sur la valeur permet en outre de faciliter la vie des utilisateurs en garantissant à
ces derniers le meilleur retour sur investissement possible.
Le data storytelling permet aux utilisateurs de piloter leurs résultats et de raconter des
histoires à partir desdites données.
Enfin, les small apps facilitent quant à elles la compréhension de ces données en un
clin d’œil, en proposant un mode de visualisation particulièrement didactique.