Vous êtes sur la page 1sur 8

Club des Responsables

Fiche Pratique d’Infrastructures et de Production

BIG DATA

Big Data : transformer


les données en valeur business
pour l’entreprise

Synthèse
Si l’objectif ultime de l’informatique a toujours été de traiter des données, pourquoi le Big Data est-il
maintenant tellement à la mode ? La transformation numérique de la société et de l’économie provoque
un déferlement exponentiel de données (4,4 zettaoctets en 2013, dont 34% créés par les entreprises et
66% par les particuliers).

Pour conquérir, satisfaire, fidéliser ses clients,


l’entreprise doit analyser, traiter, donner du sens
aux données pour pouvoir prendre plus rapidement
les bonnes décisions au bon moment. Pour être
encore plus « customer-centric », l’entreprise
numérique doit se transformer en entreprise
« data-centric ». Mais cet enjeu n’est pas
seulement technique. Le Big Data, ce n’est pas «
traiter un peu plus de données », c’est interpréter
des données de sources multiples, hétérogènes,
volatiles, pour comprendre, modéliser, prédire.

Aller vers le Big Data, c’est donc lancer une


démarche d’entreprise, plutôt qu’installer un
outil. Cette fiche pratique se veut pédagogique
et veut apporter quelques clés de décryptage
du phénomène Big Data, de ses typologies
d’acteurs et de solutions, et des marchés qu’il
adresse.
Mai
2014 1
Définitions
Il n’existe pas encore de définition officielle ou juridique du Big Data. Alors, quelle(s)
définition(s) en donner ? Une première définition nous est donnée par le Pr Cybenko
(auteur du théorème éponyme sur les réseaux neuronaux) qui explique que :
« Big Data maybe means bigger than I know how to handle ».
Mais les exégètes du Big Data convergent désormais plus ou
moins vers la même définition à base des 3, 4 ou 5 « V ». Pour être
« Big Data », une solution doit permettre de réaliser un traitement :
• sur un très grand Volume de données,
• sur une très grande Variété de données,
• avec une très grande Vélocité (voire en temps réel).
Ce sont les 3 « V » de base auxquels il est bon de rajouter le
4ème « V » de Véracité (pouvoir traiter des données fiables), le
tout afin de pouvoir en dégager de la Valeur pour l’entreprise,
soit le 5ème « V ».
Ces 5 « V » constituent les fondements du Big Data, à savoir l’apparition de technologies innovantes
capables de traiter en un temps limité de grands volumes de données multiformes et multisources afin
de valoriser l’information jusqu’à présent mal ou non exploitée par l’entreprise et d’ouvrir de nouvelles
perspectives business et sociétales.
Pour qu’un traitement soit considéré comme relevant du Big Data, il suffit qu’il prenne en compte une
rupture d’échelle sur un seul des 3 premiers « V » tout en dégageant de la Valeur pour l’entreprise.
Réaliser un traitement en 2 heures alors qu’avoir le résultat le lendemain suffit … n’est pas du Big Data,
c’est du « compute ». Stocker d’énormes quantités de données sans traitement particulier n’est non
plus du Big Data, c’est juste du « Big Storage ».

2
Le marché du Big Data
A la base du concept Big Data, on trouve les données dont le volume croît de façon exponentielle.
On estime que tous les deux ans, il se crée autant de données que depuis le début de l’humanité. La
prolifération d’outils numériques (ordinateurs, tablettes, smartphones, …) génère chaque seconde des
déluges de données, à 80% non structurées. Chaque minute, près de 280.000 tweets sont publiés,
Google Search répond à 2 millions de requêtes, et 100 heures de nouvelles vidéos sont uploadées sur
YouTube. L’arrivée progressive de l’Internet des objets va doper encore un peu plus la production de
données, et on estime qu’en 2020, le volume de données créé atteindra 44.000 milliards de gigaoctets,
soit 10 fois plus qu’en 2013.
Si le marché du Big Data est estimé à 16,9 milliards de dollars en 2015 dans le monde (27% pour le
logiciel, 38% pour le matériel et 35% pour les services), en France, il n’aurait représenté en France que
387 millions d’euros en 2013, mais bénéficie d’une forte croissance (40%). L’AFDEL estime que le Big
Data en France pourrait à terme générer 2,8 milliards d’euros et 10.000 emplois directs.
Signe que le Big Data n’est pas qu’un phénomène de mode, les investisseurs en capital-risque (par
exemple, Next World Capital et Index Ventures) se sont lancés dans la bataille et ont bien compris
qu’investir plusieurs centaines de milliers de dollars dans des start-ups était à terme une garantie
statistique de jackpot.
La recomposition du marché des offreurs et notamment l’émergence d’un écosystème tiré par deux
vagues technologiques disruptives (ajoutons la Mobilité au Big Data) conduit les investisseurs en capital-
risque à adopter des stratégies d’investissement largement diversifiées, au profit de nouveaux acteurs
émergents et au détriment d’acteurs historiques dominants.

3
Qui sont les acteurs du Big Data en entreprise ?
Une démarche Big Data ne se résume pas à installer un nouveau matériel ou un nouveau logiciel. Même
si la DSI déclare être forcément impliquée par un projet Big Data, la Valeur (le 5ème « V ») dégagée par
le projet concerne en priorité les Directions Métier. La réussite du projet repose donc en partie sur la
collaboration entre la DSI et les Métiers, ces derniers ayant parfois la latitude de jouer en solo avec des
solutions SaaS.
Dans le Benchmark CRiP « Big Data : où en sommes-nous ? » de décembre 2013, 67% des DSI
expliquent être partie prenante dans les réflexions ou les projets Big Data de leur entreprise. S’il est
difficile de se positionner sur l’aspect rassurant (ou pas) de ce pourcentage, le fait que seulement 20%
des DSI soient organisées, via une équipe dédiée ou via des rôles supplémentaires ajoutés à des postes
existants, est plutôt inquiétant.
Le Big Data fait apparaître de nouveaux métiers :
•u
 ne fonction plutôt technique, scientifique, appelée « data scientist » qui s’occupe de récupérer les
données, de les structurer et de les produire,
•u
 ne fonction davantage business appelée « data analyst » qui exploite ces données afin d’en extraire
l’information attendue par les Métiers.
Outre l’avènement de ces nouveaux métiers, se pose la question de l’évolution des métiers existants.
La montée en compétences de nos architectes, experts, ou la création de ces nouveaux postes n’est
pas un « nice to have » mais un « must have ».
Enfin, apparaît la fonction de Chief Digital Officer ou CDO (il en existe une vingtaine en France) dont
la responsabilité est de définir et mettre en œuvre la stratégie numérique au sein de l’entreprise.
Les (r)évolutions autour du Big Data seront probablement à l’intersection des périmètres de responsabilité
du CDO et du DSI.
Il est primordial que ces fonctions se complètent. La convergence de la stratégie digitale, d’un côté,
(CDO) et de la fourniture du service et des solutions, de l’autre (DSI), sera la clé de la réussite.

Le Big Data pour quels usages ?


Les cas d’usage actuels ne représentent probablement qu’une faible partie de l’apport du Big Data dans
un avenir proche. Si tous les secteurs d’activité sont concernés, quatre secteurs ont été précurseurs : la
distribution, les télécoms, la santé et les secteurs de la finance et de l’assurance.
• Dans la distribution et les télécoms, le Big Data permet de connaître les clients à 360°, à la fois
par leur comportement en boutique, mais aussi en analysant leur activité sur internet, y compris sur
les réseaux sociaux. Anticiper leurs besoins pour cibler des offres personnalisées est devenu le «
must do » du marketing tiré par les données.
• Dans le secteur de la santé, les perspectives de la recherche fondamentale et du ciblage des
médicaments sont importantes. Les données sont essentielles à l’analyse des médicaments avant
leur mise sur le marché, en phase de tests, ou pour mesurer leur efficacité une fois sur le marché.
Les nouveaux appareils connectés qui mesurent en permanence notre rythme cardiaque, notre
niveau de glycémie, les calories brulées, etc., génèrent des flux d’information qui vont améliorer la
prévention et réduire les coûts d’hospitalisation, en effectuant les mesures en ligne.
• Le secteur banque et finance est consommateur de modèles mathématiques permettant de
mieux cibler les produits financiers et surtout de suivre l’analyse du risque. Une banque de détail
pourra affiner par exemple le scoring des clients pour les conditions d’octroi de prêt, optimiser
ses actions commerciales ciblées, mais surtout mieux lutter contre la fraude. Les assureurs vont
également tenter de réduire la fraude en détectant des signaux faibles, mais aussi par exemple
optimiser leurs tarifs auto « pay-as-you-drive » en utilisant des données de capteurs situés dans le
véhicule.

4
Les acteurs du marché du Big Data
Le secteur concentre divers profils :
• Des fournisseurs historiques de solutions IT (ex : HP, IBM, Microsoft, Oracle, SAP…),
•D
 es éditeurs de logiciels de bases de données et de business intelligence (ex : MicroStrategy,
QlikTech, SAS, …),
• Des fournisseurs de solutions analytiques (ex : Datameer, Zettaset, …),
•D
 es spécialistes de solutions data, data warehouse et Big Data (ex : EMC, Hortonworks, MapR,
Teradata, …),
• Des intégrateurs (ex : Atos, Accenture, Capgemini, Sopra, …)
• Des acteurs du Cloud et du web (ex : Amazon, Facebook, Google, Rackspace, ...).
Ces technologies ont fait naître des PME, notamment en France, qui développent et commercialisent
des solutions (ex : BIME, Criteo, Dataiku, Exalead, Pentaho, Semsoft, ...) ou des prestations de
services (ex : Data&Data Consulting, Keyrus, Sentelis, Ysance, ...).

Les principales solutions techniques


•H
 ADOOP : créé par la fondation Apache, c’est un framework Open Source qui reprend le principe
des grilles de calcul, répartissant l’exécution d’un traitement et les données sur plusieurs nœuds,
ou grappes de serveurs. Dans une logique d’architecture Hadoop, les données sont découpées en
plusieurs parties, chaque partie étant stockée sur une grappe de serveurs différente. Ce découpage
favorise un traitement massivement parallèle, et la redondance permet de pallier de façon logicielle
une éventuelle panne matérielle sur un nœud. L’architecture de stockage des données est organisée
sur un mode non-relationnel, les données ne sont pas triées en fonction de leurs relations entre elles.
L’architecture est très évolutive, l’ajout de nœuds supplémentaires se fait à chaud.
•M
 APREDUCE : c’est un mode de partitionnement des tâches permettant de les distribuer et de les
exécuter sur un grand nombre de serveurs. La fonction Map décompose le traitement et les données
associées sur plusieurs clusters parallèles où les calculs intermédiaires seront effectués. La fonction
Reduce collecte les résultats des nœuds d’exécution et les remonte au nœud parent qui les avait
sollicités et calcule un résultat. À la fin du processus, le nœud d’origine peut recomposer une réponse
au problème qui lui avait été soumis.
•N
 oSQL (littéralement Not Only SQL) : s’applique à tous les systèmes de gestion de données et
aux bases de données qui ne reposent pas sur la notion relationnelle propre aux SGBDR. NoSQL
permet de traiter des données structurées et non structurées (des images, du son, du texte libre, …).
Les environnements NoSQL sont généralement ‘clusterisés’, dépourvus de schémas et non-
relationnels par essence. Simplicité et performance sont deux avantages principaux de NoSQL, même
si la simplicité gagnée d’un côté se traduit désormais de l’autre par le code applicatif qui doit se
charger d’assurer un minimum de cohérence des données.
• I N-MEMORY, comme son nom l’indique, propose d’accélérer le traitement en montant les données
en mémoire vive (RAM, disques SSD ou mémoire flash), avec un temps d’accès environ 1.000
fois plus rapide que pour un accès disque. Initialement ciblées pour pour les environnements de
DataWarehousing et de Business Intelligence, les solutions In-Memory adressent désormais le
transactionnel. Les éditeurs (Microsoft, Oracle, SAP, ...) valident des architectures de référence ou
certifient les plateformes matérielles des constructeurs.

5
Schéma fonctionnel de MapReduce

Quels modèles d’organisation « Big Data » dans l’entreprise ?


Un peu comme pour le Cloud, la vitesse d’adoption et l’impact organisationnel de ces nouvelles
technologies sont à régler au cas par cas. On imagine bien qu’on ne peut pas décréter le Big Data dans
l’entreprise en faisant table rase du passé, mais plutôt introduire ces technologies par le biais d’applications
(nouvelles) qui en tireront rapidement les plus grands avantages. Et puisque le Big Data n’est pas qu’une
approche technologique, il nécessite l’assemblage de ressources multiples au sein de différents pôles de
compétences.
Trois modes d’organisation sont envisageables :
• Une option « centralisée » dans laquelle toutes les compétences sont regroupées au sein d’une entité
transverse, sorte de Centre de Services Big Data au service des Métiers. En centralisant les ressources,
on mutualise les coûts et on évite a priori la duplication des efforts, des données, et des budgets ;
• Une vision « décentralisée » où ce sont les Métiers qui gardent la main en gérant leurs projets, leurs
compétences, pour satisfaire au plus près leurs objectifs. Cette option moins « Big Bang », plus
progressive au niveau des implémentations et des coûts, peut se révéler dispendieuse lorsque trop de
projets Big Data multiplient infrastructures, licences logicielles et compétences humaines ;
• Une vision « externalisée », dans laquelle l’entreprise confie à un prestataire spécialisé la gestion des
données et des traitements associés. Comme pour tout type d’outsourcing, cette option évite l’acquisition
d’infrastructures et de compétences en interne, mais peut poser la question de l’externalisation des
données sensibles de l’entreprise et la perte de compétences potentiellement critiques pour la stratégie
business de celle-ci.
La prise de conscience d’une organisation qui devient « data-centric » conduit à la création du poste de
Chief Data Officer, reportant au Comité de Direction. Le CDO est un responsable exécutif, mettant en
relation les décisions du CODIR avec les données internes ou externes à l’entreprise.

Dimension juridique du Big Data


L’objet premier du Big Data est de manipuler des données de tous ordres. Mais jusqu’où peut-on traiter
des données sensibles, confidentielles, personnelles ? La législation se met en place, mais quelques points
de vigilance méritent d’être soulevés. Le Groupe de Travail Big Data du CRIP a reçu le 15 janvier 2014
Me Gérard Haas, avocat au barreau de Paris, qui a apporté quelques éclairages sur le sujet.

6
Comment caractériser la gestion de données propre aux applications de type Big Data ?
Dès lors que les applications du Big Data se limitent à la collecte de données et ne remettent pas en
cause la sécurité des personnes, ces données peuvent être utilisées à des fins statistiques. Là encore, il
convient de veiller à ce que ces données soient stockées chez un hébergeur agréé et que l’exploitation des
informations soit bien dédiée à la création de produits et de services.
Par ailleurs, à très court terme, les particuliers vont se trouver confrontés à des situations nouvelles avec les
objets connectés. Le développement de ces derniers pose la question du respect de la vie privée ainsi
que des données personnelles.
Sensibilité et confidentialité des données
Dans la loi Informatique et Libertés, certaines données sont classées comme sensibles, par exemple celles
inhérentes à la santé, aux mœurs, aux opinions politiques et religieuses. Cette loi ne s’applique qu’aux
données personnelles qui sont ainsi légalement protégées. Encore faut-il que les solutions de collecte
et d’analyse de données à caractère personnel aient été mises en place dans le respect des principes
juridiques applicables (formalités CNIL, respect de l’opt-in/opt-out, mentions d’information spécifique,
existence de dispositifs de sécurité et de confidentialité, etc.).
Lors d’achats en ligne ou de simples visites, nombre de sites internet déposent à votre insu des cookies sur
votre terminal. Même si une directive européenne de 2009, transposée dans le droit français en 2011, exige
des sites le consentement préalable des internautes à l’insertion de cookies, très peu de sites prennent la
précaution de le faire.
Certaines données personnelles sont par ailleurs librement fournies par les intéressés dans les réseaux
sociaux. Qu’il s’agisse de simples « like » sur Facebook, de téléchargement d’applications mobiles, chacun
d’entre nous laisse ses empreintes digitales sur la toile, sans soupçonner l’utilisation que peuvent en faire
des organisations bien ou mal intentionnées.
La santé est un cas à part. Les établissements de santé disposent d’importantes bases de données à
caractère personnel issues de divers capteurs connectés aux patients, d’images médicales désormais
dématérialisées, de suivi thérapeutique. Pour garantir la protection et la sécurité des données, celles-ci sont
hébergées à l’extérieur par un hébergeur agréé par le Ministre chargé de la Santé qui se prononce après
avis de la CNIL et d’un comité d’agrément placé auprès de lui.
Croisement des données
Le fait de croiser des données stockées dans des bases différentes s’appelle de l’interconnexion. Celle-ci
est soumise à autorisation car les différentes bases ont des finalités différentes. Tant que les données sont
utilisées entre professionnels (par exemple, entre un assureur ou ses agents et un expert) et qu’il y a eu
consentement tacite de l’assuré, il n’y a pas de difficultés dès lors que la procédure de sécurisation des
données personnelles est appliquée. Il est fondamental que le responsable du traitement de l’information
puisse apporter la preuve du consentement de la personne intéressée. L’élément de preuve le plus facile
à recueillir est soit le double-clickage si l’on est sur un formulaire en ligne, soit un email de confirmation,
ou encore la signature de l’intéressé. Si l’on se place du côté du particulier, la CNIL doit avoir des pouvoirs
renforcés pour veiller à la protection des données personnelles. Inversement, si l’on se place du côté des
prestataires de services, ils attendent davantage de souplesse. Mais dans une économie mondialisée, la
question du rôle de la CNIL (qui a une compétence territoriale) est posée, voire remise en question.

7
Responsabilités croisées du DSI et du Directeur Marketing
Le potentiel énorme d’informations que les applications du Big Data mettent à la disposition des utilisateurs
va conduire les DSI à vouloir conserver ces dernières dans leur périmètre de responsabilité. Or, en parallèle,
les Directeurs Marketing vont également souhaiter disposer de ces données à des fins d’exploitation
commerciale et de développement. Les données peuvent être considérées comme des biens immatériels
de l’entreprise.
On observe deux approches différentes :
- d’une part celle des DSI qui vont estimer le coût généré par la collecte des données,
- d’autre part celle du Marketing qui va évaluer les gains potentiels que peuvent dégager ces informations,
perçues comme un centre de profit potentiel.
En résumé, la valorisation de la donnée oppose la DSI qui s’interroge sur combien lui coûte la donnée, au
Marketing qui s’interroge sur combien elle va lui rapporter. Ce type de débat confirme la nécessité d’un
arbitrage du Big Data au niveau managérial de l’entreprise, même si la DSI en reste le dépositaire au plan

Source : Groupe de travail Big Data. Contribution éditoriale : Philippe Roux, assisté de Pierre-Yves Henry. CRIP. - Création Fred.lameche - www.anousdejouer.fr
technologique.

Conclusion
Le périmètre du Big Data est désormais mieux cerné, même si sa définition reste plurielle. Les CTO comme
les DSI en saisissent mieux les enjeux. Ce n’est plus un concept marketing vendu par des fournisseurs
en mal de nouvel Eldorado. C’est devenu partie intégrante d’une démarche d’entreprise engageant
collégialement l’IT, les Directions Métiers, le Marketing - à partir d’orientations stratégiques définies par le
top-management.
La dimension juridique du Big D ata constitue un véritable dossier ‘technique’ vue la nécessaire conformité
avec les dispositions légales et réglementaires. Le traitement de données sensibles et de données
personnelles, pouvant être croisées avec des données ‘publiques’, doit notamment répondre à une finalité
unique, explicitement exposée.

Club des Responsables d’Infrastructures et de Production


24 rue Erlanger 75016 Paris - contact@crip-asso.fr www.crip-asso.fr
En application de la loi du 11 mars 1957, il est interdit de reproduire ; sous forme de copie, photocopie, reproduction, traduction ou conversion, le
présent ouvrage que ce soit mécanique ou électronique, intégralement ou partiellement, sur quelque support que ce soit, sans autorisation du CRiP.
8