Encadré par :
Travail réalisé par :
Mme. JEBRAOUI Siham
BOUDI Imane
EL ALAOUI Yousra
HAFDAN Hamza
HISTANE Imane
KARTAF Hajar
KORTITO Imane
KODIANE Hajar
Groupe : GFC 2
MAJOUG Khaoula
RIZKI Hajar
1
Année universitaire : 2015/2016
PLAN
INTRODUCTION ................................................................................................................................. 3
I. BIG DATA ..................................................................................................................................... 5
Définition des Big Data ............................................................................................................... 5
Historique ....................................................................................................................................... 5
II. FONCTIONNEMENT OPERATIONNEL ET MISE EN PLACE DU BIG DATA ............. 10
Fonctionnement opérationnel et mise en place ............................................................. 10
Business Intelligence versus Big Data ............................................................................... 14
Big Data : évolution des cas d’usage ................................................................................... 16
III. CARACTERISTIQUES DU BIG DATA .............................................................................. 19
o Volume : ................................................................................................................................. 20
o Vitesse : .................................................................................................................................. 20
o Variété : ................................................................................................................................. 21
IV. ENJEUX ET APPORTS ........................................................................................................ 22
V. LIMITES DU BIG DATA .......................................................................................................... 24
VI. LES RISQUES ........................................................................................................................ 26
VII. CONTRES MESURES ........................................................................................................... 27
VIII. ETUDE DE CAS ..................................................................................................................... 29
CONCLUSION .................................................................................................................................... 35
BIBLIOGRAPHIE ............................................................................................................................. 36
2
INTRODUCTION
Cependant, le terme est vaste et la définition que l’on a des data est souvent floue.
Mais alors, de quoi parle-t-on exactement ? Quelles sont les données à disposition des
entreprises et quelle est leur maturité par rapport au marché de la data ? De grands
acteurs du numérique comme IBM ont, par le passé, apporté bon nombre de solutions
technologiques qui permettent aujourd’hui aux entreprises d’exploiter des données.
Nous pensons notamment aux outils d’informatique décisionnelle, tels que la Business
Intelligence qui permet aux entreprises de connaître et de comprendre les ressorts de
leurs activités (logistique, commerciale, management de la qualité, etc.).
Or des outils comme la Business Intelligence montrent actuellement leurs limites quant
à l’exploitation de ces nouvelles données (commentaires, avis sur les forums, etc.),
comment les entreprises vont-elles opérer cette transition qui s’annonce de toute
évidence complexe ? Ces changements imposent aux entreprises de trouver de
nouvelles solutions pour faire face à cette prolifération des donnés. Lesquelles ?
Dans cette perspective le Big Data est supposé répondre à l’intégralité des enjeux du
marché de la donnée, à savoir, la volumétrie, le temps réel, la variété ou encore la
véracité des données. Le Big Data est un univers qui recouvre trois composantes se
complétant les unes les autres: les données collectées, aujourd’hui massives, liées
notamment à la multiplication des objets connectés; les nouvelles technologies qui
permettent de les traiter, de les stocker, de les analyser de façon toujours plus précise
et à des coûts de stockage et de traitement réduits; des processus et techniques
d’analyse de plus en plus performants permettant de passer de l’ère de l’observation à
celle de la prévision et de l’anticipation.
Le potentiel du Big Data pour les entreprises est considérable. La masse de données
disponibles croît de façon exponentielle. Ces données constituent un gisement de
3
valeur inépuisable et précieux, pourvu que l’on se dote des bons outils pour les
exploiter et les analyser. Grâce à la numérisation croissante des transactions
économiques et des interactions sociales, les données produites embrassent un univers
beaucoup plus large que dans le passé. Elles sont aussi plus précises et plus
personnelles. À côté des outils de transaction traditionnels (cartes de paiement ou de
fidélité, achats en ligne, appels aux services clients, demandes d’informations…),
apparaissent de nouvelles données issues des réseaux sociaux, de l’étude fine des
navigations sur Internet, des objets connectés, qui apportent un éclairage nouveau sur
les goûts, les habitudes de consommation et les centres d’intérêt des consommateurs.
Ces nouvelles sources d’information rendent progressivement obsolètes les méthodes
traditionnelles d’études des consommateurs, comme les panels ou les sondages. La
valeur du Big Data tient dans la richesse, la qualité et la granularité des données
traitées. C’est de cette masse de données, des analyses dont elles font l’objet, des
algorithmes qui permettent de dessiner des profils de consommation personnalisés, que
l’on peut tirer une appréciation très fine, en temps réel, des évolutions des habitudes de
consommation et des comportements. Dotée des meilleurs outils technologiques et
d’analyse, l’entreprise est alors en mesure de prévoir, voire d’anticiper, les décisions
d’achat et les comportements de ses clients.
4
I. BIG DATA
Définition des Big Data
Chaque jour, nous générons 2,5 trillions d’octets de données. A tel point que
90% des données dans le monde ont été créées au cours des deux dernières
années seulement. Ces données proviennent de partout : de capteurs utilisés pour
collecter les informations climatiques, de messages sur les sites de médias sociaux,
d'images numériques et de vidéos publiées en ligne, d'enregistrements
transactionnels d'achats en ligne et de signaux GPS de téléphones mobiles, pour ne
citer que quelques sources. Ces données sont appelées Big Data ou volumes
massifs de données.
Littéralement : Les Big Data sont de grosse données ou volume massif de données
structurées ou non. On parle aussi de Data masse par similitude avec la biomasse.
Ils désignent des ensembles de données qui deviennent tellement volumineux qu'ils
en deviennent difficiles à travailler avec des outils classiques de gestion de base de
données ou de gestion de l'information.
Historique
Mai 2011. McKinsey & Company publiait un rapport intitulé Big data : The new
frontier for innovation, competition, and productivity . Depuis, pas un jour ne passe
où l’on ne voit sur le Web, un article, l’annonce d’une conférence, la sortie d’un livre
sur la Big data. Toutes les industries se penchent sur le phénomène. La Big data est
devenu le Graal de la technologie, celle qui va tout bouleverser, tout chambouler,
tout révolutionner. De nouveaux métiers (Data Scientist), de nouvelles formations
(Data Science) sont annoncés. Des start-ups ont vu le jour avec des offres
spécialisées, non seulement en Californie, mais à travers le monde. Les acteurs
traditionnels ont ajouté la Big data dans leur offre, du moins sur leurs sites. Les
gouvernements y voient une sortie de la crise qui tétanise le monde depuis la crise
systémique de la planète commerciale.
Ou bien la Big data est-il juste la dernière mode amenée par les éditeurs et sociétés
de logiciel comme le fut l’ERP, le CRM, le e-business pour ne citer qu'elles ? Qu’est-
5
ce qui différencie la Big data de la Data dont nous avons l’habitude pour nos études,
sondages et mesures d’audience ? Quels sont les impacts sur notre métier, nos
savoirs, nos process, nos méthodes et nos systèmes IT ?
Le Big Data a pris naissance dans un contexte particulier. Avec l’explosion des
usages digitaux, des objets connectés, les internautes-consommateurs partagent de
plus en plus d’informations et laissent sur la toile de plus en plus de traces. David
Reinstel et John Grants avaient déjà constaté ce phénomène en 2011 dans une
étude où ils affirmaient que le nombre de « data » collecté dans le monde double
tous les deux ans. Mais les outils traditionnels de gestion de données ont vite été
débordés par cet afflux de données différentes.
Initialement, le phénomène Big Data a été exploité et développé par des sociétés
comme Yahoo!, Google, Amazon, Facebook, qui offrent à leurs internautes, la
possibilité de bénéficier de services gratuits en échange d’informations personnelles.
Pour Amazon, sans moyen de traiter rapidement ces données, la survie de sa
plateforme était engagée. Désormais, la démarche Big Data se développe dans des
secteurs différents : e-commerce, grande distribution ou encore dans la médecine.
Le big data a une histoire récente et pour partie cachée, en tant qu'outil
des technologies de l'information et comme espace virtuel prenant une importance
volumique croissante dans le cyberespace.
L'expression « Big data » serait apparue en octobre 1997 selon les archives de la
bibliothèque numérique de l’ACM (Association for Computing Machinery), dans des
articles scientifiques sur les défis technologiques à relever pourvisualiser les
« grands ensembles de données ».
Selon V. Tréguier (2014) et selon la « très courte histoire du big data » publiés par
Gil Press en 2013 pour la période 1944-2012, sa naissance est liée aux progrès des
systèmes de stockage, de fouille et d'analyse de l'information numérisée, qui ont
permis une sorte de big bang de l'information stockée puis une croissance
inflationniste de l'univers de la donnée numérisée. Mais ses prémisses sont à trouver
dans le croisement de lacybernétique et de courants de pensée nés durant
la Seconde Guerre mondiale, selon lesquels l’homme et le monde peuvent être
représentés comme « des ensembles informationnels, dont la seule différence avec
la machine est leur niveau de complexité. La vie deviendrait alors une suite de 0 et
de 1, programmable et prédictible » ajoute V. Tréguier.
Les évolutions qui caractérisent le big data et ses algorithmes, ainsi que celles de
la science des données sont en partie cachées (au sein des services de
renseignement des grands États) et si rapides et potentiellement profondes que peu
de prospectivistes se risquent à pronostiquer son devenir à moyen ou long termes,
mais la plupart des observateurs y voient des enjeux majeurs pour l'avenir, tant en
termes d'opportunités commerciales que de bouleversements sociopolitiques et
militaires, avec en particulier le risque de voir émerger des systèmes ubiquistes,
6
orwelliens et totalitaires capables de fortement contrôler, surveiller et/ou influencer
les individus et groupes.
Les risques de dérives de la part de gouvernements ou d'entreprises ont surtout
d'abord été décrits par Orwell à la fin de la dernière guerre mondiale, puis souvent
par la science fiction. Avec l'apparition de grandes banques de données dans
les années 1970 (et durant toute la période de la guerre froide) de nombreux auteurs
s'inquiètent des risques pris concernant la protection de la vie privée, en particulier le
Pr. A. Miller qui cite la croissance des données stockées relatives à la santé
physique et psychique des individus.
En 2000, Froomkin dans un article paru dans la revue Stanford Law Review se
demande si la vie privée n'est pas déjà morte, mais ce sont surtout les révélations
d'Edward Snowden (2013) qui ont suscité une nouvelle prise de conscience et
d'importants mouvements de protestation citoyenne.
Les quatre droits et « états de base de la vie privée » tels qu'énoncés par Westin en
1962 (droit à la solitude, à l'intimité, à l'anonymat dans la foule et à laréserve) sont
menacés dans un nombre croissant de situations de même que la protection du
contenu des courriers électroniques qui fait partie du droit à la vie privée.
Croissance de la capacité mondiale de stockage de données et informations
7
-Redue, Hadoop, et autres approches NoSQL. Ces approches,
appelées collectivement "NoSQL" ou "Not Only SQL" permettent d'accéder aux
données via des langages de programmation sans utiliser les interfaces basées sur
SQL et permettent de répartir les données sur plusieurs machines distinctes.
données (SGBD) qui n'est plus fondée sur l'architecture classique des bases
relationnelles. L'unité logique n'y est plus la table, et les données ne sont en général
pas manipulées avec SQL.
d’utiliser Hadoop.
Au XIXe siècle régnait déjà le monde de la Big data où l’on recensait des
informations sur tous les individus. Où les résultats arrivaient des années plus tard.
C’était l’âge de la collecte manuelle, du papier et du crayon, du calcul manuel. Mais
c’était déjà la Big data de l’époque. La différence par rapport à la Big data du xxie
siècle est l’automatisation et la fréquence de collectes et de traitement des données.
On récupérait les données tous les ans au mieux, on les récupère en continu
désormais. Au XXe siècle est venu le règne de l’échantillonnage. Une véritable
innovation à cette époque. Avec seulement une partie de la population, on pouvait
obtenir les résultats sur l’ensemble de la population et en un temps record comparé à
l’approche exhaustive.
Une grande chaine de distribution fait de la Big data en France depuis l’ouverture du
premier hypermarché il y a plus de 50 ans. Cette chaine dispose de plus de 10
millions de porteurs de carte de fidélité qui représentent plus des trois quarts de son
CA. Chaque achat est mémorisé 24 mois. Le détail de l’historique va jusqu’à la
référence Produit. L’exemple de cette chaine est la preuve que la Big data n’est pas
née, comme on le pense souvent, il y a trois ans.
Il est aussi la preuve que la Big data ne passe pas uniquement par le Web. Si on
totalise toutes les transactions sur tous les points de vente physiques, on arrive à un
chiffre gigantesque de presque un milliard de transactions par an, soit presque 3
8
millions de transactions par jour. L’exemple de cette chaine montre aussi que la Big
data n’est pas uniquement Hadoop et ses technologies dérivées qui sont censées
faciliter la création d’applications. La chaine utilise des technologies SQL issues des
années 90 pour collecter, traiter et analyser ses données massives à travers les
points de vente physiques auxquels il faut ajouter ses sites Web totalisant plus de 5
millions de visiteurs uniques par mois.
Le mouvement Big data vient avec des challenges d’un autre ordre que techniques
ou business. Ils sont d’ordre réglementaire, juridique et sécuritaire. Nous citons ici les
obligations déclaratives sur les données et leur usage auprès de la CNIL, l’obligation
de donner aux personnes accès à leurs données pour pouvoir les corriger voire
9
supprimer, l’interdiction de principe de transférer des données sur des personnes de
l’Union européenne en dehors de l’Europe, etc. Ajouter à ces contraintes de
protection de données personnelles des contraintes de propriété intellectuelle et de
protection d’auteur qui rendent difficiles l’exploitation, la diffusion et la monétisation
de ces données récupérées notamment sur des réseaux sociaux et/ou des
plateformes de diffusion de contenu.
Un projet Big data n’est pas uniquement un projet IT, mais un projet plus global se
devant d’intégrer entre autres ces aspects législatifs qui peuvent ralentir le
déploiement ou augmenter le coût du projet initial. Désormais, nous devons
considérer tout projet Big data, surtout s’il est centré consommateurs, comme un
projet business, technique et légal.
La Big data n’est pas une nouvelle technologie bien qu’elle soit apparue avec Google
et Yahoo et leurs développements Hadoop, MapReduce, BigTable, etc. Les
technologies des années 1990 sont utilisées et continueront à l'être avec grand
succès. La Big data ne remplacera pas les ERP, les CRM et les sites e-Business
déjà opérationnels dans les exemples cités précédemment. Il sera une évolution et
une sédimentation des systèmes et des technologies opérationnelles pour la
conduite interne et externe des entreprises et des administrations.
Comme toute innovation technologique, la Big data a été initiée par quelques
pionniers pour leurs besoins internes : pouvoir paralléliser le stockage et le
traitement de données massives à très haute vélocité, mais à un moindre coût. Sont
venus ensuite les expérimentateurs avec des projets pilotes. Progressivement, leur
nombre va augmenter. Certains vont donner naissance à des projets de plus grande
envergure.
Dans quelques années, la Big data deviendra une innovation ordinaire, rattrapée à
son tour par une nouvelle innovation cherchant à l’améliorer voire à la remplacer. La
force de destruction créatrice (définie par Joseph Schumpeter en 1942 ,
redécouverte une première fois par Everett Rogers en 1962 , une seconde fois par
Norbert Alter en 1985 , une troisième fois par Geoffrey Moore en 1991 et une
quatrième fois par Clayton Christensen en 1995) continue son œuvre jusqu’à la
prochaine innovation…
10
II. FONCTIONNEMENT OPERATIONNEL ET MISE EN PLACE DU BIG
DATA
L’intérêt autour du Big data ne faiblit pas, comme le démontrent les nombreuses
publications que l’on peut trouver sur le sujet. Souvent abordé sous l’angle business
pour vanter les nouveaux apports métiers (optimisation de la relation client, des
ventes…), ou au contraire focalisé uniquement sur une nouvelle technologie, il n’est
pas facile de se forger une vision d’ensemble de l’architecture sous-jacente.
Démystifions ici cette complexité apparente, en reposant les principes de
fonctionnement des architectures Big data et les bonnes pratiques pour construire le
socle technologique optimal.
D’un point de vue fonctionnel, nous pouvons découper les architectures Big data en
cinq grands modules :
2. Transformation : il s’agit ici d’extraire les informations utiles des données peu ou
non structurées. En les interprétant pour les rendre exploitables et cohérentes,
notamment via la constitution d’un catalogue de métadonnées. Cette étape n’est pas
obligatoire pour les données déjà structurées.
11
Les modules fonctionnels de l’architecture étant posés, quelle stratégie adopter pour
bâtir le socle sous-jacent ? Le Big data invite justement à l’adoption d’un triptyque
gagnant pour bien choisir les outils :
Travailler avec Big Data c’est un tout nouveau défi pour les entreprises. Ce n’est
pas seulement une question de mise en œuvre de la technologie, mais nécessite
une analyse approfondie de l’entreprise. La Manipulation de larges volumes de
données n'est pas une nouveauté pour les départements informatiques, mais
derrière le battage fait sur la question, les big data diffèrent vraiment du
datawarehouse, du datamining et de l'analyse décisionnelle qui les ont précédées.
L'informatique aujourd’hui se trouve à l'avant-garde de cette révolution. Les
responsables IT (Information technology) devraient commencer à préparer leur
entreprise pour cette transformation, pour faciliter le bon fonctionnement de ce genre
de projet, voici cinq actions à entreprendre pour en poser les fondations.
Toutes les entreprises, ou à peu près, ont accès à un flux régulier de données non
structurées, que celles-ci proviennent des médias sociaux, ou de capteurs surveillant
une usine, par exemple. Cela ne signifie pas qu'elles doivent toutes les sauvegarder
et les exploiter. Cet afflux soudain a suscité un besoin artificiel d'essayer de
comprendre toutes ces données, Ce souci a pu être provoqué par des consultants ou
fournisseurs soucieux de promouvoir leurs solutions Il y a une certaine pression de la
part de ceux qui commercialisent la technologie. Sans urgence, une première étape
pourrait consister à inventorier quelles données sont créées en interne et déterminer
quelles sont les sources externes, s'il y en a, qui pourraient apporter des informations
complémentaires sur l'activité de l'entreprise.
Une fois cet état des lieux engagé, les équipes informatiques devraient entreprendre
des projets très ciblés qui pourraient être utilisés pour montrer quels résultats on peut
obtenir, plutôt que d'opter pour des projets en mode big-bang. Mieux vaut éviter de
12
dépenser plusieurs millions de dollars pour déterminer si un projet vaut la peine
d'être mené ou pas.
Aligner l'IT avec les métiers est indispensable dans le cas d'un chantier aussi
important que peut l'être le traitement des big data. Les premières occasions de
traiter ces volumes se sont trouvées hors du périmètre de la IT. Par exemple dans
des départements marketing qui ont décidé de récolter les flux des médias sociaux
pour gagner en visibilité sur les besoins des clients et les tendances en matière
d'achats. Si c'est effectivement du côté business que l'on devrait identifier l'intérêt de
ces analyses, c'est à la IT que revient de prendre en charge la fédération et le
partage des données et de mettre en oeuvre la stratégie big data. Cela affirme que
ce n'est pas une démarche que la IT peut faire seule de son côté. « Il sera difficile
d'en faire une success story si le projet n'est pas aligné sur les objectifs business ».
3 - Réévaluer l'infrastructure
Dans la plupart des entreprises, les projets big data vont demander des
changements importants. D'une part sur les infrastructures serveurs et de stockage,
d'autre part sur la gestion des données. Les responsables informatiques doivent se
préparer à étendre leurs systèmes pour qu'ils supportent des bases en perpétuelle
expansion, recevant données structurées et non structurées. Cela signifie qu'il faut
trouver la meilleure approche pour rendre les systèmes à la fois extensibles et
évolutifs et qu'il faut élaborer une feuille de route pour intégrer tous les systèmes
disparates qui vont alimenter l'effort d'analyse des big data.
« Actuellement, les entreprises ont souvent des systèmes disparates et séparés pour
gérer la paie, les relations clients, le marketing », indique Anjul Bhambhri, vice-
président, responsable des produits big data chez IBM. Les CIO ont besoin de mettre
en place une stratégie pour les faire converger. « Il faut pouvoir poser des questions
qui traversent tous ces systèmes pour obtenir des réponses », précise le VP d'IBM.
13
données, les bases exploitant le stockage en colonnes et les appliances de
datawarehouse. Les équipes IT vont devoir comprendre ces nouveaux outils pour
pouvoir faire des choix avertis en matière de big data.
Pour quelques entreprises, particulièrement celles qui se trouvent dans les zones les
moins peuplées, trouver des compétences sera l'un des aspects les plus délicats des
projets de big data. Pour une structure de taille moyenne, ce sera un défi de
constituer une équipe et de faire en sorte qu'elle suive le rythme en constante
évolution de cet environnement.
Les directions des départements IT vont devoir elles-mêmes se transformer pour
exceller dans ce nouveau monde. Les managers IT du futur combineront des
compétences sur l'analyse de données et les processus métiers, estime Mark Beyer,
de Gartner. « Les CIO ont eu l'habitude de gérer des infrastructures à partir des
prescriptions des métiers, par opposition à un CIO qui serait capable d'identifier une
opportunité et par conséquent de pousser vers une utilisation innovante de
l'information », explique-t-il. C'est la transformation qui devra se produire.
Avant d’entrer dans le cœur du sujet de ce billet qui traite du choix entre l’utilisation
des technologies de Business Intelligence ou de Big data, commençons par un
rappel des fondamentaux de la Business Intelligence. La BI consiste en un ensemble
d’outils et de techniques permettant de collecter, de nettoyer et d’enrichir des
données structurées ou semi structurées pour les stocker dans différentes formes de
base de données de type SQL, multidimensionnel. Les données vont être gérées
dans des formats normalisés pour faciliter l’accès à l’information et les vitesses de
traitement. L’objectif de la BI est de produire des indicateurs de performance
permettant de comprendre le passé, d’analyser le présent afin d’extrapoler une vision
à long terme pour et définir les avantages compétitifs futurs de l’entreprise. La BI est
utilisée par un grand nombre d’utilisateurs internes ou externes pour supporter les
activités opérationnelles de l’entreprise jusqu’au suivi stratégique.
14
suivantes : nom, prénom, genre, âge, métier, statut, etc. L’ensemble de ces
informations est stocké dans un entrepôt de données traditionnel. Si l’on applique la
définition des 4V pour décider si cette application doit migrer vers une infrastructure
de Big Data, la réponse serait négative. Le volume de données n’est plus un
problème en soi, on peut aujourd’hui parler de large Data Warehouse. La variété des
sources est prise en compte avec les nouvelles technologies et un coût faible
d’intégration de sources supplémentaires. La vélocité est gérée par les bus de
données applicatifs permettant une augmentation du volume de données par unité
de temps. La véracité de la donnée, enfin, est un théorème immuable dans l’analyse
de données quelle que soit l’infrastructure.
Ces deux cas nous montrent la nécessité de comprendre les événements ainsi que
la séquence. Même si dans ces deux exemples le client a acheté le même produit,
les analyses de l’expérience client et de son parcours sont radicalement différentes.
Prenons maintenant le cas d’un client qui s’adresse à un conseiller d’un service
après-vente.
1er cas : il visite le site web deux fois dans la journée et en fin de journée il
appelle un conseiller.
2e cas : Il visite deux fois le site web dans la journée et trouve la réponse à sa
question sans entrer en contact.
L’interprétation des informations sera différente même si dans les deux cas le client a
obtenu la bonne réponse à sa question.
15
en appliquant des traitements distincts et des séries d’algorithmes différenciées et
ceci pour traiter plusieurs problématiques simultanément (NoSql et autres
technologies adaptées, graphes, etc.). On peut également lancer des opérations
d’apprentissage sur les données sans avoir d’idées préconçues ainsi que des
phases d’observation pour détecter les fameux signaux faibles (information partielle
ou fragmentaire fournit par l’environnement). L’ensemble de l’information, les degrés
de personnalisation ou les types de recommandation collectés devront pouvoir être
reproduits pour être modélisés, donc industrialisés, à grande échelle. La
connaissance obtenue inférera la stratégie, les organisations, les hommes et les
processus de l’entreprise.
On en conclut, qu’il n’y a pas de lien direct à établir entre BI et Big Data. Les
techniques d’analyse sont radicalement différentes, pratiquées avec des savoir-faire
et des technologies nouvelles. Le nouveau paradigme est en rupture avec les modes
de pensée en cours et tend à révolutionner l’approche même de l’analyse de
données. La question se situe bien au-delà du débat technologique autour des bases
de données SQL, no SQL, en colonne, en mémoire et toute autre variante. L’intérêt
du Big Data réside moins dans les sujets traités que dans la façon d’appréhender et
de résoudre les problèmes dans des domaines transverses (marketing, logistique,
gestion du risque…) ou dans des domaines spécialisés (santé, énergie,
distribution…). C’est le cœur du challenge du Big Data : connaître l’activité humaine,
comprendre son contexte, établir les relations entre les données d’activité pour
fournir, à un instant donné, un service en temps réel individualisé et personnalisé.
Le Big Data est un phénomène émergent. Pourtant, des cas d’usage courants sont
déjà connus et apportent dès à présent une valeur significative. En voici quelques
exemples :
Moteur de recommandation
Depuis des années, des entreprises telles qu’Amazon, Facebook et Google utilisent
des moteurs de recommandation pour filtrer et suggérer aux utilisateurs des produits,
personnes et annonces, en fonction de l’analyse de leurs profils et des
renseignements sur leur comportement en ligne. Les problèmes liés à l’analyse de
ces volumes importants d’informations ont été parmi les premiers abordés par le Big
Data et leur résolution a contribué à développer la technologie telle que nous la
connaissons à l’heure actuelle.
16
public cible et associer les produits et services appropriés à un individu précis.
Grâce au Big Data, ils étudient d’importants volumes d’informations à partir de
nouvelles sources, comme le parcours de navigation ou les enregistrements des
détails des appels, ce qui leur permet de mieux comprendre les tendances et les
comportements d’achat des consommateurs.
Analyse prédictive
17
Afin de prévoir les changements économiques, les experts dans le domaine des
marchés des capitaux confrontent d’un côté les algorithmes de corrélation avancés
et calculs des probabilités, et, de l’autre, les données historiques et actuelles. Le
volume important des archives d’informations sur les marchés ainsi que la vitesse
exigée pour l’évaluation des nouveaux renseignements (par exemple : valorisations
complexes d’instruments dérivés) font de l’analyse prédictive un problème majeur
que le Big Data contribue à résoudre. En effet, grâce à la capacité à effectuer ce type
de calculs plus rapidement, et avec du matériel informatique courant, le Big Data
remplace de manière fiable l’approche relativement lente et coûteuse fondée sur les
systèmes traditionnels.
«Rogue trading »
Une analyse approfondie reliant les données comptables aux systèmes de repérage
et de gestion des commandes peut fournir des informations stratégiques précieuses
qui ne seraient pas disponibles avec les outils classiques. Afin de les identifier, une
masse importante de données doit être traitée presque en temps réel à partir de
sources multiples et hétérogènes. Cette fonction permettant de puissants calculs
peut maintenant être effectuée par le biais des technologies Big Data.
Mettre en rapport des données à partir de sources multiples et non reliées augmente
la possibilité d’identifier des activités frauduleuses. Si, dans le cadre du Big Data, l’on
relie par exemple des mouvements bancaires effectués en ligne, aux distributeurs
automatiques, via smartphone, par carte de paiement, à l’analyse du comportement
web retracé sur le site de la banque où ailleurs, la détection des fraudes en est
améliorée.
18
primordial dans la décision d’attribuer (ou de refuser) à un client certaines
prestations. Comprendre correctement la situation protège non seulement la banque,
mais satisfait aussi le client. Un accès à des informations exhaustives sur la clientèle
permet aux banques de bénéficier de garanties et de visibilité afin de mieux cibler les
offres de services. Il est aussi possible de prévoir les événements significatifs dans la
vie du client, tel un mariage, la naissance d’un enfant, l’achat d’une maison, ce qui
est un atout pour appuyer les activités de vente croisée et de montée en gamme.
Surveillance du réseau
Recherche et développement
Ce volume vertigineux de données ne peut plus être collecté, stocké, géré et exploité
par les solutions informatiques traditionnelles combinant infrastructures matérielles et
bases de données relationnelles. En vue de trouver les solutions technologiques
adéquates, une première phase de clarification conceptuelle du Big Data s’est
19
imposée. Ainsi, des cabinets d’étude et d’analyse ont proposé la règle des 3V :
Volume, Vélocité, Variété.
En fait, les Big Data désignent des méthodes et des technologies (pas seulement
des outils) pour des environnements évolutifs (augmentation du volume de données,
augmentation du nombre d'utilisateurs, augmentation de la complexité des analyses,
disponibilité rapide des données) pour l'intégration, le stockage et l'analyse des
données multi-structurées (structurées, semi structurées et non structurées).
Il est donc important de comprendre les 3V du Big Data – Volume, Vitesse et Variété.
o Volume :
Dans les systèmes d’information en place dans les entreprises, les volumes de
données traités se mesurent en téraoctets. Le challenge immédiat de l’IT traditionnel
est d’être en capacité de traiter des Péta octets et bientôt des Exa octets puis des
Zeta octets. S’ensuivent une longue liste de questions auxquelles les spécialistes
doivent apporter une réponse à plus ou moins long terme : quels sont les coûts ?
Quels sont les outils de stockage et de traitement en temps réel ? Quelles sont les
méthodes à adopter pour analyser l’information ? Quels sont les moyens pour
archiver ? Les technologies émergentes proposent quelques débuts de réponse.
20
o Vitesse :
o Variété :
Texte, images, photos, vidéos, quel que soit le format de l’information, les données,
structurées ou non structurées, requièrent un nouveau savoir-faire pour être
assimilées puis analysées. L’exploitation et le traitement de l’information aussi
variée, tant par la forme que par le contenu, sont difficilement réalisables en dehors
du support initial. En conséquence, une approche d’indexation, de recherche
sémantique et de navigation intra- et inter- applications s’impose pour l’exploitation
de ces nouveaux médias, sans oublier la nécessité de modélisation de phénomènes
complexes. C’est précisément pourquoi la gouvernance des données, leur
protection, la gestion de leur qualité constituent les nouveaux enjeux des systèmes
d’information, puisque l’information ne provient pas nécessairement de sources
internes et contrôlées et qu’elle ne correspond pas à priori et nécessairement aux
caractéristiques attendues en termes de format, de qualité et d’intégrité.
Parce que le Big Data aide à obtenir une meilleure représentation de l’interaction des
clients avec l’entreprise. Il permet une meilleure compréhension de ce que les clients
aimeraient réaliser à chaque point de contact. Il minimise ainsi le risque de perdre
21
ces clients lors du passage d’un point de contact vers un autre et garantit la
pertinence de l’information qui leur est délivrée. Ainsi, pour améliorer à la fois la
qualité de service, aspect clé pour les clients, et le taux de transformation de ces
clients, il est important pour l’entreprise de ne pas perdre de vue les 3 V du Big Data.
Enjeux :
Le Big Data apparaît comme le challenge technologique des années 2010-2020.
Dépassant les domaines techniques et informatiques, le Big Data suscite un vif
intérêt auprès des politiciens, des scientifiques et des entreprises. Les enjeux du Big
Data touchent plusieurs secteurs d'activités.
Les enjeux liés à l’utilisation des données dites Big data sont multiples et plus
aucune entreprise en prise directe avec Internet ne peut les ignorer. Ils se situent à 4
niveaux : technique, métier stratégique et économique.
Les enjeux techniques de ces nouvelles sources de données Big Data s'articulent
autour de l'intégration, le stockage, l'analyse, l'archivage, l'organisation et la
protection des données. Ils répondent à la règle dite des 3V, à savoir :
Parmi les autres « V » à mentionner, on trouve : véracité (s’assurer que ces données
sont de qualité), vitalité (mesurer leur taux de mise à jour), visibilité (vérifier qu’on est
autorisé à les voir) etc.
Concernant les enjeux métier des Big Data, on peut citer par exemple :
22
Au niveau opérationnel : analyser plus vite de nouvelles sources de données
clients,
Au niveau tactique : analyser les attentes des clients et délivrer les produits
adaptés, offrir de nouvelles possibilités de segmentation et ciblage marketing,
Au niveau stratégique : accroitre la fidélité client ou gagner de nouvelles parts de
marché.
Les enjeux stratégiques d’entreprise quant à eux, ils couvrent la réduction des
coûts, l’optimisation de la productivité, la conformité aux contraintes réglementaires,
l’augmentation de la marge, le pilotage de la performance, la maitrise des risques,
l’innovation, enfin l’automatisation de certaines décisions, voire la génération de
plans d’action.
Le client est un acteur majeur dans ce contexte. Jusqu'à présent, la vente consistait
à se demander « J'ai un produit, à qui vais-je pouvoir le vendre? ». A l'ère du Big
Data, nous devons changer le paradigme pour dire « J'ai un client, de quoi a-t-il
besoin aujourd'hui ? ». En connaissant mieux son public, à travers ses achats, ses
activités sur Internet, son environnement, les commerçants peuvent améliorer
l'expérience-client, exploiter la recommandation, imaginer le marketing prédictif (le
marketing prédictif regroupe les techniques de traitement et de modélisation des
comportements clients qui permettent d'anticiper leurs actions futures à partir du
comportement présent).
L’enjeu juridique est aussi présent, dans un contexte où les utilisateurs sont souvent
des « produits », l’enjeu juridique des Big Data reste la protection de la vie privée.
Apports :
Surtout utilisé par les professionnels du marketing, le Big Data attire de plus en plus
les entreprises. Elles l'intègrent dans leurs stratégies BtoC ou BtoB.
23
L'utilisation des Big Data pourrait impacter fortement le monde de l'entreprise et ce
de façon méliorative, ainsi les entreprises pourront :
Tout ceci orientera les entreprises vers une économie centrée sur la donnée.
Dans une même entreprise, plusieurs départements peuvent être concernés par la
mise en place et l'utilisation du Big Data : informatique, commercial, marketing... Les
services marketing font le plus appel au Big Data. Ils sont considérés comme
précurseurs dans la mise en place de nouvelles stratégies.
Les points clés qui poussent les entreprises à intégrer un système Big Data sont :
La mise en place de nouveaux processus liés au Big Data peut aussi permettre
l'amélioration de la chaîne logistique, des mécanismes de décision et un avantage
concurrentiel significatif.
La « révolution Big Data » s’annonce comme étant le remède miracle à tous nos
maux. Mais si son potentiel d’exploitation est immense, il faut savoir en reconnaître
les limites.
24
Une Obsession dangereuse :
Nombreuses sont les entreprises qui utilisent des analyses statistiques pour
déterminer leur stratégie. Le Big Data, en ouvrant l’accès à toujours plus de
données, se voudrait donc être un formidable outil décisionnel. Mais s’il offre des
perspectives pour le moins séduisantes, il ne saurait se substituer aux outils de
gestion classiques. Explorer de gros volumes de données pour explorer des
tendances communes c’est bien, mais encore faut-il que ces données soient
fiables lorsqu’il s’agit de traiter les cas individuels, de faire de la gestion… Or la
multitude d’outils nécessaire à leur exploitation laisse présager des confusions sur
les résultats. Et lorsqu’on sait que la qualité des données est un enjeu de taille pour
nombre d’entreprises, notamment dans les secteurs très réglementés comme celui
de l’assurance, on voit pointer les limites des systèmes Big Data.
Si le terrain de jeu du Big Data est loin d’être restreint, il n’est pas sans limites. Elles
tiennent, en premier lieu, à la nature des données et aux traitements envisagés, et
quand il s’agit de données personnelles, la vigilance est nécessaire. En Europe, le
traitement de données à caractère personnel est régi par les dispositions de la
Directive 95/46/CE du Parlement européen et du Conseil du 24 octobre 1995 relative
à la protection des personnes physiques à l'égard du traitement des données à
caractère personnel et à la libre circulation de ces données (transposée dans tous
les états membres). Remarquons que le futur règlement européen s’accompagne de
nouvelles mesures de protection des droits des personnes.
25
Une faille minuscule peut menacer des quantités de données considérables , si les
utilisateurs perdent confiance dans l'utilisation de leurs informations, c'est donc tout
l'édifice du big data qui risque de s'écrouler. Pour éviter cela, la Commission
européenne a présenté, au début 2012, un règlement qui vise à les protéger
davantage. Ce texte, qui devrait être voté en 2014 pour une application en 2016,
obligera les entreprises à demander à l'utilisateur son consentement explicite avant
de collecter ses données personnelles. Il instaure également le droit à l'oubli.
De ce fait, c’est une véritable stratégie juridique de mise en œuvre du Big Data que
les entreprises devront adopter pour conjuguer avec justesse les enjeux
économiques et les libertés individuelles. Mais les limites ne s’arrêtent pas là.
Remarquons que le futur règlement européen s’accompagne de nouvelles mesures
de protection des droits des personnes.
Bien entendu, les risques classiquement liés aux données sont toujours présents et
même amplifiés dans le cas du Big Data : la perte ou le vol de données à cause
d’une mauvaise maîtrise des nouvelles solutions, la dépendance à des fournisseurs,
26
des applications ou des technologies jeunes et mouvantes, l’interception de
données, ou encore la perte des infrastructures informatiques.
Les risques du Big Data se positionnent sur les étapes du cycle de vie de la
donnée :
27
Computing : autant d’éléments qui peuvent rendre la donnée plus difficile à
identifier et à supprimer efficacement
Les contre-mesures sont donc à mettre en œuvre tout au long de son cycle de
vie.
Là aussi, les mesures de protection classiques sont toujours valables dans le cas
du Big Data. Cependant, de nouvelles mesures complémentaires doivent aussi
être envisagées.
Un point essentiel ne doit pas être négligé dans leur mise en œuvre : certaines sont
du ressort de la DSI, d’autres doivent être prises en compte par les métiers
demandeurs, et plusieurs questions nécessiteront l’intervention de juristes
spécialistes du sujet.
Malheureusement, la maturité des solutions de Big Data est très variable ; dans la
plupart des cas, aucun moyen de protection n’est offert nativement. Les produits les
28
plus avancés intègrent des options intéressantes, mais rarement adaptées à l’échelle
d’une grande entreprise.
Le Big Data est de plus en plus utilisé pour fournir des systèmes de sécurité
pertinents, qu’il peut être intéressant d’évaluer. On peut citer l’exemple des solutions
d’antivirus ou de SIEM permettant de corréler ses événements avec ceux d’autres
entreprises afin de détecter une attaque avec plus de fiabilité. A terme, nous verrons
probablement apparaître des systèmes de sécurité « statistiques », permettant par
exemple de décider en temps réel d’ouvrir ou non un chemin réseau, en se basant
sur un nombre immense de critères : position de l’expéditeur dans l’entreprise, nom
et entreprise du destinataire, réputation de ceux-ci, contenu du flux, comportement
des autres flux, attaques connues, date et heure..
29
VIII. ETUDE DE CAS
Historique
30
clients d’IBM en Afrique francophone. Le nouveau Global Delivery Center Maroc
aura pour mission de fournir aux clients de la région des compétences IT locales
pour répondre à leurs besoins spécifiques en termes de développement et de
gestion d'applications ainsi que des services d'intégration de systèmes. Autant de
services qui aideront les clients à s’appuyer sur les nouvelles tendances
technologiques telles que le social business, le mobile ou encore le commerce
intelligent, pour développer leurs affaires.
Faites le diagnostic de santé de vos actifs : Une panne de vos actifs se traduit
par une hausse des coûts. Qu'il s'agisse d’équipements de fabrication, d'actifs sur le
terrain ou de produits, vous devez réduire au minimum les temps d’indisponibilité et
les pannes. La prévision des risques d'indisponibilité des actifs vous permet
d'adopter une approche proactive pour empêcher ou réduire les pannes coûteuses.
Détectez et empêchez la fraude pour réduire les coûts : Les entreprises sont
confrontées quotidiennement à de nombreuses menaces, parfois externes, parfois
provenant de leurs propres employés ou systèmes. Pour réduire les coûts et les
dommages résultant de la fraude et des autres menaces, vous devez les détecter
plus précocement et les empêcher d’affecter votre activité.
Les trois quarts des entreprises interrogées par l'IBM Institute for Business Value
utilisent l'analyse de Big Data pour détecter les connaissances cachées au
sein de leurs données. Ces connaissances les aident à détecter et empêcher la
fraude et garantissent un fonctionnement harmonieux des opérations. Le
regroupement des analyses descriptives, prédictive et prescriptives au sein d'un
système capable d'identifier les anomalies et de recommander des actions permet
aux décideurs de se procurer les réponses dont ils ont besoin, et au bon moment.
31
Rôle du Big Data dans les risques financiers d’IBM
Une gestion imprécise du risque peut se traduire par des décisions erronées, des
coûts élevés et vous attirer des tracas de la part des organismes de réglementation.
Face à un tel volume de données à analyser, on a besoin d'une approche
systémique pour identifier et évaluer efficacement toutes les vulnérabilités
connues et inconnues auxquelles votre entreprise est exposée.
Dans une étude de 2010, plus des deux tiers de répondants déclaraient avoir subi au
moins un risque important l'année précédente. Sur ces répondants, 20 % seulement
avaient à la fois anticipé et estimé raisonnablement l'impact de cet événement.
Les entreprises doivent identifier chaque risque, quelle que soit sa nature : atteinte à
la réputation, vols de données, risque de non-conformité aux réglementations, et les
pondérer par rapport aux opportunités métier. L'analyse des Big Data permet
d'équilibrer le risque et l'opportunité.
L'impact en cascade des chocs qui ont ébranlé le système financier fait qu'il est vital
de pouvoir effectuer un suivi global des risques en temps réel, et d'éviter une gestion
compartimentée en silos. Une approche intégrée de la compréhension du risque,
caractérisée par une plus grande transparence, inspire plus de confiance au
management, aux actionnaires et aux clients.
32
Les fournisseurs de services de communications (CSP) doivent créer des produits et
des services toujours plus innovants et tenants compte des données pour satisfaire
une clientèle désormais sophistiquée. A l'aide de l'analyse du Big Data, ils peuvent
analyser les données géographiques de plusieurs millions de périphériques mobiles
afin de toucher davantage de clients en leur proposant des produits, des services et
un marketing ciblés et personnalisés, et ainsi créer de nouvelles opportunités de
revenus.
IBM Watson Foundations est une plateforme de Big Data & Analytics aux
fonctionnalités innovantes qui aide les entreprises à faire mieux que la concurrence.
IBM Watson Foundations est un ensemble complet de fonctions Big Data &
Analytics qui vous permet d’analyser toutes les données pertinentes pour obtenir des
connaissances originales en temps réel, et agir en conséquence en toute confiance.
Les services IBM vont de conseils aux entreprises en stratégie et transformation aux
services informatique autour de la technologie cloud.
33
Les logiciels couvrent tous les aspects à partir du stockage et analyse de données
aux outils de collaboration, conception des produits, gestion des centres de données
et développement de logiciels. Leur support est possible grâce aux serveurs et
systèmes de stockage conçus pour répondre à vos besoins actuels en infrastructures
et pour votre croissance à venir.
Cloudera : c'est le leader, ce qui lui donne une légitimité avec un nombre de clients
supérieur à celui de ses concurrents. Le fait de disposer du créateur du framework
Hadoop dans ces rangs est un grand avantage.
Map R : cette distribution offre une solution un peu éloignée d'Apache Hadoop car
elle intègre sa propre vision de Map Reduce et HDFS. Elle vient juste après
Cloudera.
34
CONCLUSION
Le Big Data est en mesure de constituer pour les entreprises un vaste champ de
développement et de création de valeur. La croissance exponentielle des données dont
disposent les entreprises crée des opportunités nouvelles et peut leur permettre de
réinventer leur business model. Par la connaissance très fine des comportements et
habitudes de consommation des clients, les entreprises sont en mesure de créer de
nouvelles offres et de nouveaux produits, améliorer celles et ceux qui existent déjà,
tisser des liens plus forts avec leurs clients, améliorer leurs résultats commerciaux.
Mais le Big Data traite une matière sensible: les données personnelles. La protection de
ces données est assurée par un cadre juridique étoffé, complexe, en évolution
constante et présentant des différences notables, notamment entre les États-Unis où
l’approche réglementaire est sectorielle, et la France et l’Union européenne qui ont
imposé leur propre cadre réglementaire. Exploiter ces données peut donc exposer
l’entreprise à des risques, souvent sous-estimés ou méconnus. Les premiers sont
d’ordre juridique, liés à la non-observation des règles en vigueur. Les autres risques
concernent la réputation de l’entreprise auprès de ses clients si ces derniers ne sont
pas convaincus qu’ils gardent un contrôle sur leurs données personnelles et que
l’entreprise les utilise de façon loyale. Or, la confiance est la clé de la relation entre une
entreprise et son client. Il est donc nécessaire de percevoir avec clarté les enjeux
juridiques du Big Data afin que ce lien de confiance ne soit pas menacé.
Finalement Les technologies de Big Data sont aujourd’hui en plein essor. Dans les
prochaines années, ces technologies seront de plus en plus utilisées pour répondre à
de nouvelles problématiques pour la gestion de données. C’est est un socle aujourd’hui
nécessaire et utile à la plupart des innovations industrielles ou dans le domaine de la
recherche (Etudes sociales par exemple), néanmoins, son utilisation pose la question
de la protection des données privées des utilisateurs : sans freiner la liberté d’innover
des entreprises et de la recherche, dans quelle mesure peut-on et doit-on protéger la
vie privée des utilisateurs?
35
BIBLIOGRAPHIE
https://fr.wikipedia.org/wiki/Big_data
http://www-01.ibm.com/software/ma/security/bigdata/
http://www.ibm.com/big-data/ma/fr/big-data-and-analytics/marketing.html
Guide Share France : Présentation générale des Big Data ; Olivier
JOUANNOT
Mémoire de fin d’étude : Big Data, Big Business ? Hugo VIGNAUX et
Pierre FAUDEMER/ 5 MC2 ; 2012/2013
http://www.winshuttle.fr/chronologie-big-data/
http://www.histoire-cigref.org/blog/histoire-de-data-big-smart-voire-quantique/
https://www.solucominsight.fr/2013/08/auw-origines-du-big-data/
36