Vous êtes sur la page 1sur 54

Rapport d’étude sur le Big Data

SRS Day 2012

Ce document a été réalisé dans le cadre de la SRS Day 2012. La SRS Day est un
événement annuel organisé par les étudiants de la majeure SRS, de l’EPITA. Il
s’agit d’un travail de réflexions sur des sujets émergents ou d’actualité, réalisé par
les étudiants et suivi par une entreprise.

Coach

Ali FAWAZ
Etienne CAPGRAS

Auteurs

Mickaël CORINUS
Thomas DEREY
Jérémie MARGUERIE
William TÉCHER
Nicolas VIC

05 octobre 2012
Remerciements

Nous tenons à remercier dans un premier temps notre coach, Ali FAWAZ, pour sa
disponibilité, son coaching et ses conseils avisés.

Nous remercions aussi Etienne CAPGRAS, notre second coach qui aura pris
efficacement le relai durant le mois de septembre.

Nous remercions également Luc MANIGOT, Directeur des opérations chez Sinequa,
pour l'aide et les réponses qu'il aura su nous apporter lors de notre entretien.

Nous souhaitons remercier tout particulièrement Microstrategy et l'équipe avec laquelle


nous avons été mis en relation ; nous remercions Idris BOUCHEHAIT, Marketing Manager,
Laurent LEE A SIOE, Manager Avant-Vente, et Henri-François CHADEISSON, Ingénieur
Avant-Vente, qui auront pris le temps de nous éclairer longuement et avec pertinence
sur l'univers du Big Data et les risques qui l'entourent.

Enfin, nous voulons remercier Gérôme BILLOIS, Sébastien BOMBAL, Solucom et EPITA
pour nous avoir permis de réaliser cette étude sur ce sujet émergent qu'est le Big Data.

Page II
Sommaire
Remerciements ............................................................................................................. II

1 Executive Summary ............................................................................................... 1

2 Présentation du Big Data ....................................................................................... 3


2.1 Big Data, qu’est-ce que c’est ? ................................................................................ 3
2.1.1 Volume ..................................................................................................................... 4
2.1.2 Vitesse ...................................................................................................................... 4
2.1.3 Variété...................................................................................................................... 5
2.2 L’analyse : le point clé du Big Data.......................................................................... 5
2.3 De nouveaux enjeux, mais aussi des risques.......................................................... 6

3 État des lieux ........................................................................................................... 8


3.1 Panorama des cas d’usage ..................................................................................... 8
3.1.1 Quels secteurs d’activités s’intéressent au Big Data ? ...................................... 8
3.1.2 De nombreux exemples de cas d’usage ........................................................... 9
3.2 Un secteur qui intéresse du monde et des premiers déploiements .................... 11
3.3 Les solutions et technologies existantes ................................................................ 13
3.3.1 Hadoop : une histoire vieille de dix ans ............................................................. 13
3.3.2 NoSQL ou les bases de données non relationnelles........................................ 17
3.3.3 De nombreuses technologies émergentes ...................................................... 20
3.3.4 Les systèmes distribués et leurs problématiques .............................................. 21
3.4 Comment approcher le Big Data côté métier ...................................................... 22

4 Analyse de risques ............................................................................................... 24


4.1 Méthodologie .......................................................................................................... 24
4.2 Légende ................................................................................................................... 25
4.3 Analyse différentielle............................................................................................... 26
4.3.1 Risques de non-conformité ................................................................................. 26
4.3.2 Risques de non disponibilité ................................................................................ 31
4.3.3 Risques de perte de confidentialité................................................................... 33
4.3.4 Risque de perte d’intégrité ................................................................................. 36
4.3.5 Risques opérationnels .......................................................................................... 36

Page III
4.3.6 Risques liés aux modes d’intégration................................................................. 38
4.4 Proposition d’un plan d’action global ................................................................... 41
4.4.1 Obligations légales ............................................................................................... 41
4.4.2 Sécurité des données .......................................................................................... 41
4.4.3 Problèmes opérationnels ..................................................................................... 41
4.5 Synthèse de l’analyse de risques ........................................................................... 42

5 Bibliographie ......................................................................................................... 43

6 Glossaire................................................................................................................ 46

7 Annexes ................................................................................................................ 50
7.1 Solucom ................................................................................................................... 50
7.2 Epita .......................................................................................................................... 50

Page IV
1 Executive Summary

Big Data est un terme que l’on entend partout depuis quelques années, derrière ce
terme marketing se cache en réalité une myriade de technologies (certaines vieilles de
plus de dix ans) et dont le but est la manipulation de gros volumes de données.

La raison pour laquelle le Big Data est aujourd’hui à la mode est l’augmentation
drastique de la quantité de données, due entre autres à l’augmentation des sources
de données (blogs, médias sociaux, recherches sur internet, réseaux de capteurs, etc.),
qui permet de nouvelles utilisation des données.

En effet, lorsque l’on parle de manipulation de gros volume de données, on pense


traditionnellement à des problématiques sur le volume des données et sur la rapidité de
traitement de ces données. Mais aujourd’hui, il est aussi question de manipuler des
données venants de sources diverses ; des données qui n’ont pas forcément
beaucoup de valeur en elles-mêmes, mais qui, croisées les unes avec les autres, offrent
une mine d’informations clés pour l’entreprise (marketing personnalisé, moteurs de
recherches, surveillance, etc.).

Les grandes caractéristiques qui englobent les problématiques auxquelles le Big Data
répond sont le Volume des données, la Vitesse d'acquisition et de traitement des
données et la Variété des types de données : plus simplement, on parle des trois « V »
du Big Data.

Les premiers secteurs intéressés par le Big Data l’ont été pour tenter de résoudre leurs
problématiques de Volume et de Vitesse, des secteurs comme les banques, le milieu
des télécommunications ou les marchés financiers. D’autres s’y sont ensuite intéressés
pour la capacité à donner de la valeur à des données variées, comme les services
publics, le marketing ou la santé. Le fait est que le Big Data représente aujourd’hui un

05 octobre 2012
marché important, de plusieurs centaines de millions d’euros, où de nombreux
fournisseurs de solutions Big Data existent.

Le Big Data intéresse déjà beaucoup de secteurs, mais comment une entreprise (de
ces secteurs ou non) peut-elle savoir si le Big Data est fait pour elle ? D’un point de vue
métier, il y a quatre questions à se poser :
 De quelles informations avons-nous besoin pour innover et être compétitif ?
 Quelles sont les données sous- et inexploitées à notre disposition ?
 Sommes-nous prêts à « extraire » l’information utile de nos données ?
 Sommes-nous capable de gérer les nouveaux risques de sécurité ?

Les trois premières questions sont introspectives et les réponses varieront d’une
entreprise à une autre. Mais pour la question de la sécurité, une analyse de risque sur le
Big Data est nécessaire et nous nous sommes intéressés tout particulièrement à cette
question.

D’après notre analyse, la plupart des risques du Big Data sont de même type que ceux
issus des solutions dites « classiques » de base de données. Toutefois, certains de ces
risques auront des impacts différents, qu’ils soient amoindris ou exacerbés.

Pourtant, il existe de nouveaux risques propres au Big Data, mais pour ceux-ci, des
contre-mesures efficaces existent, les risques sont donc faibles.

Enfin, l’externalisation partielle ou entière de la solution Big Data et sa mauvaise


utilisation sont, en fait, les plus gros risques que l’on peut lier au Big Data, car celui-ci
nécessite des compétences particulières pour arriver à donner de la valeur aux
données traitées et le meilleur moyen de contrôler la confidentialité et la sécurité de
ses données est encore de les posséder entièrement.

Page 2
2 Présentation du Big Data

2.1 Big Data, qu’est-ce que c’est ?

Le Big Data est avant tout un terme marketing. À dire vrai, il recouvre un ensemble de
concepts et d'idées pas clairement définis. En se tenant à l'étymologie du terme,
Big Data voudrait dire « grosses données ». Or, la problématique des « grosses
données », ou données ayant un volume important, n'est pas nouvelle.

Depuis plus de 30 ans, nous sommes confrontés à des volumes importants de données.
Bien sûr, cela est difficilement comparable à la déferlante dont nous sommes témoins
aujourd'hui. Néanmoins, à y regarder de plus près, les capacités de stockage de
l'époque étaient bien différentes et une base de données de plusieurs dizaines de
giga-octets pouvait paraître énorme. À court terme, nous nous dirigeons vers des bases
de stockage de plusieurs péta-octets de données.

Le gros problème réside plutôt dans la gestion de la donnée et une fois encore, ce n'est
pas nouveau. En fait, cela fait presque dix ans que la problématique de gestion des
gros volumes de données se pose dans les métiers de la finance, de l’indexation web
et de la recherche scientifique. Pour y répondre, l’approche historique a été celle des
offres de Data Warehouse (TeraData, Oracle, IBM, EMC ou HP). Ces dernières ont
évoluées pour supporter de plus grandes quantités de données et faire porter par le
« stockage » une capacité de traitement étendue.

En somme, le Big Data, ce serait plutôt des besoins et des envies nouvelles émanant de
l'idée de mieux utiliser ces données qui commencent à s'entasser dans nos Data
Warehouse. Et là, les réseaux sociaux et les moteurs de recherches sont parmi les
nombreux facteurs qui ont mis à jour ces besoins. La quantité d'information que l'on
peut obtenir directement grâce aux utilisateurs, que ce soit par des statistiques

Page 3
d'utilisation ou de recherches ou encore par des données mises directement à
disposition des entreprises est phénoménale.

Fondamentalement, le Big Data s'approche beaucoup du Data Mining dans sa


transformation de l'information stockée en information clé pour une utilisation future. Là
où le Big Data marque une grosse différence, c'est dans le besoin émanant de ces
données clés. Souvent, les entreprises ont une idée de ce qu'elles peuvent tirer de leurs
informations, mais ne savent pas les rendre utile. Dans d'autres cas, la question est de
savoir si on ne révèle pas de nouvelles informations en établissant des corrélations entre
ces ensembles de données.

Le concept de Big Data se caractérise par bien des aspects. De nombreux


responsables informatiques et autorités du secteur tendent à définir le Big Data selon
trois grandes caractéristiques : Volume, Vitesse et Variété, soit les trois « V ».

2.1.1 Volume

Le Big Data est associé à un volume de données vertigineux, se situant actuellement


entre quelques dizaines de téraoctets et plusieurs péta-octets en un seul jeu de
données. Les entreprises, tous secteurs d’activité confondus, devront trouver des
moyens pour gérer le volume de données en constante augmentation qui est créé
quotidiennement. Les catalogues de plus de 10 millions de produits sont devenus la
règle plutôt que l’exception.

2.1.2 Vitesse

La vitesse décrit la fréquence à laquelle les données sont générées, capturées et


partagées. Les entreprises doivent appréhender la vitesse non seulement en termes de
création de données, mais aussi sur le plan de leur traitement, de leur analyse et de leur
restitution à l'utilisateur en respectant les exigences des applications en temps réel.

Page 4
2.1.3 Variété

La croissance de la variété des données est très largement la conséquence des


nouvelles données multi structurelles et de l'expansion des types de données.
Aujourd’hui, on trouve des capteurs d'informations aussi bien dans les trains, les
automobiles ou les avions, ajoutant à cette variété.

Ces trois caractéristiques, ces trois « V », sont les piliers définissant le Big Data. Avant tout,
il s'agit d'un changement d'orientation sur l'utilisation de la donnée. En somme, le point
clé du Big Data est de donner un sens à ces grosses données et pour cela, il faut les
analyser.

2.2 L’analyse : le point clé du Big Data

Le Big Data répond à de nombreux objectifs précis parmi lesquels on trouve l’extraction
d’informations utiles des données stockées, l’analyse de ces données, la restitution
efficace des résultats d’analyse ou encore, l’accroissement de l’interactivité entre
utilisateurs et données.

La combinaison de ce déluge d'informations et d'algorithmes logiciels intelligents ouvre


la voie à de nouvelles opportunités de business. Prenons, par exemple, Google et
Facebook qui sont des « entreprises Big Data », mais aussi Sinequa, IBM ou JDA Software.

Après analyse des trois caractéristiques du Big Data et de l'utilisation qu’en font les
acteurs du marché, ce qui en ressort et qui semble avoir le plus d'importance dans le
Big Data est ce qui se fait de l'information.

L'analyse est le point clé de l’utilisation du Big Data. Elle permet de mieux connaître sa
clientèle, d'optimiser son marketing, de détecter et prévenir des fraudes, d'analyser son

Page 5
image sur les réseaux sociaux et la valoriser, ou encore, d’optimiser ses processus
métiers.

Toutefois, il ne suffit pas de prolonger ce que nous faisons avec les données aujourd'hui
pour anticiper ce que sera l'exploitation des données dans un futur plus ou moins
proche. Déjà, de nouvelles manières d’utiliser le Big Data apparaissent, des utilisations
qui peuvent être clés pour les entreprises.

2.3 De nouveaux enjeux, mais aussi des risques

Pour beaucoup d’entreprises, le Big Data représente de nouveaux enjeux qu’il faut
envisager, mais il faut aussi étudier les risques induits.

Avec le Big Data, il est possible de traiter de gros volumes en temps réel, ce qui permet
aussi bien de surveiller le trafic réseau d’une entreprise que d’analyser la qualité de
service.

Anticiper des changements peut être une des clés du futur, que ce soit aux travers de
multiples capteurs sur un système pour détecter une défaillance ou en étudiant les
attentes des consommateurs.

De manière plus générale, le Big Data permet de donner de la valeur aux données qui,
jusque-là, ne pouvaient pas être utilisées telles quelles, en faisant des statistiques sur des
périodes prolongées ou en les croisant entre elles.

Ne pas s’intéresser au Big Data aujourd’hui, c’est peut-être risquer demain de perdre en
compétitivité et d’être en retard sur son marché… mais se précipiter sur le Big Data
porte aussi son lot de risques, les technologies sont nouvelles et pas forcément
maîtrisées, pas forcément fiables. Sur un marché qui a émergé il y a peu de temps, les
fournisseurs de solutions aujourd’hui auront peut-être disparus demain, à qui faire

Page 6
confiance ? Le Big Data soulève des problèmes éthiques, une réglementation
particulière sera probablement définie pour limiter les abus. Les technologies qui
servent au Big Data sont classiques (serveurs, stockage, communications réseau), et
portent donc les mêmes risques, mais l’impact de ces risques est peut-être plus
important, et doit être surveillé.

Le premier risque lié au Big Data est sûrement de mal l’utiliser, il faut savoir quoi en faire
et s’assurer d’en avoir les compétences nécessaires, cela nécessite un travail de fond
sur le sujet, et probablement le recrutement de personnel qualifié, dans les domaines
des statistiques ou de la « data analyse ».

Page 7
3 État des lieux

Le Big Data est plus qu’un simple terme aujourd’hui, c’est une réalité. Nous allons
maintenant nous attacher à voir où l’on trouve du Big Data, et mieux prendre
conscience du phénomène Big Data.

3.1 Panorama des cas d’usage

3.1.1 Quels secteurs d’activités s’intéressent au Big Data ?

Le Big Data, bien que récent, a rapidement attiré l’attention de nombreuses personnes
et représente déjà un marché important, cette évolution rapide a été poussée par
certains secteurs d’activité qui attendent beaucoup du Big Data.

Ces secteurs d’activité, qui ont été les premiers à s’intéresser au Big Data, peuvent être
séparés en deux groupes : ceux pour qui le Big Data répond à des besoins historiques
de leur activité, et ceux pour qui il ouvre de nouvelles opportunités.

Dans la première catégorie, on retrouve des secteurs qui manipulent quotidiennement


des volumes de données très important, avec des problématiques de vitesse associées.
On y trouve :

 Les Banques : la sanctuarisation de données anciennes due à des contraintes


réglementaires ;
 La Télécommunication : l’analyse de l’état du réseau en temps réel ;
 Les Médias Numériques : le ciblage publicitaire et l’analyse de sites web ;
 Les Marchés Financier : l’analyse des transactions pour la gestion des risques et
la gestion des fraudes, ainsi que pour l’analyse des clients.

Page 8
La deuxième catégorie de secteur est plus hétérogène, les besoins, mais aussi
l’utilisation qui est faite du Big Data, peuvent être très différents.
On y trouve :

 Les Services Publics : l’analyse des compteurs (gaz, électricité, etc.) et la gestion
des équipements ;
 Le Marketing : le ciblage publicitaire et l'analyse de tendance ;
 La Santé : l’analyse des dossiers médicaux et l’analyse génomique.

Le Big Data est déjà amplement utilisé par certains secteurs d’activité, mais d’autres
commencent à s’y intéresser, notamment la Recherche, la Police ou encore les
Transports.

Cette liste d’utilisateurs risque de s’agrandir fortement dans les années qui viennent.

3.1.2 De nombreux exemples de cas d’usage

Les possibles utilisations du Big Data sont nombreuses, pour vous donner une idée de ce
qu’il est possible de faire, nous présentons ici plusieurs exemples de cas d’usage.

Bien que le Big Data soit récent, de nombreuses entreprises l’utilisent déjà à des fins
diverses et variées. Voici quelques exemples de sociétés ayant mis en place ou
proposant des solutions de Big Data :

 La police de New York utilise le Big Data afin de rassembler et d’analyser


rapidement toutes les données dont elle dispose. En effet, l’outil développé
conjointement avec Microsoft permet d’utiliser diverses sources et bases de
données, telles que les 3 000 caméras de vidéosurveillance de la ville ou les
lecteurs de plaques minéralogiques ;

Page 9
 Microstrategy propose via son application « Wisdom » la possibilité de regrouper
les utilisateurs Facebook ayant acceptés d’installer cette application. Ces
regroupements permettent de personnaliser des offres de fidélisation, des
campagnes de marketing ou des opérations de réduction en fonction des
affinités des utilisateurs. En pratique, cette application permet de naviguer au
travers de ces utilisateurs et de les filtrer selon divers critères tels que leurs
caractéristiques, région, genre, niveau d’étude, situation maritale, participation à
un évènement.
Principal intérêt : la connaissance de leur goût (culturel ou sectoriel) et de leur
attirance pour d’autres marques ;

 À nouveau dans le marketing, Pega propose un moteur prédictif en temps réel.


Ce moteur permet d’aligner les pratiques de vente sur le profil et le
comportement unitaire de chaque client. Pour bâtir ses modèles, le système
analytique croise un maximum d’évènements liés au client : sa description
objective (âge, localisation, etc.), l’historique de ses transactions et de ses
interactions avec les forces de vente. Outre le marketing, ce principe de
recommandation automatisé pourra servir à la gestion de processus de
Pegasystems, mais aussi dans la détection de fraude, le support client ou la
détection d’incidents ;

 Avec d’autres objectifs, Tibco propose une solution pour effectuer des analyses
de logs. Cette solution structure les logs, les agrège et en tire des corrélations afin,
par exemple, de mesurer le taux de consultation d'une fiche produit. Elle permet
également de faciliter l’identification de menaces ou d’anomalies et ainsi de
lutter contre la fraude ;

 Picviz Labs a développé un outil nommé « Picviz Inspector ». Cet outil permet
d’identifier des anomalies aussi bien que d’analyser des données critiques à
partir de logs. Ces logs, générés automatiquement, peuvent aussi bien provenir
d’applications, que de serveurs, de réseaux ou encore de divers appareils.

Page 10
Ce ne sont que de brefs exemples d’utilisation du Big Data, mais ceux-ci mettent en
exergue la variété d’utilisation qui en découle. De nouveaux outils exploitant les
technologies du Big Data sont apparus et démontrent bien les nouveaux usages qui
apparaissent, ainsi que les nouveaux concepts qui en émergent.

3.2 Un secteur qui intéresse du monde et des premiers déploiements

Comme présenté précédemment, le Big Data est une technologie qui intéresse de
nombreux secteurs d’activité.

Cependant, certaines entreprises comme Yahoo! et Google ont besoin, pour leur
métier, de solutions très particulières afin de répondre à leurs besoins précis. Pour cette
raison, ces entreprises ont développées leurs solutions de Big Data. Ces entreprises sont
donc fournisseurs de solutions et simultanément utilisateurs de ces solutions. Elles sont
des cas particuliers de sociétés à la fois utilisateur et fournisseur de Big Data.

Le Big Data se retrouve dans beaucoup de secteurs, et nombreux sont les géants de
l’informatique à investir dans le phénomène. Les principaux utilisateurs, Google et
Yahoo!, sont aussi ceux à l’origine des technologies du Big Data et qui investissent dans
son évolution.

Afin de répondre à cette demande, de nombreux fournisseurs de technologie de


Big Data sont apparus. Ces entreprises proposant des offres peuvent être divisées en
deux groupes :

 Les grandes entreprises d’informatique comme Microsoft ou IBM qui s’ouvrent à


ce nouveau marché afin de diversifier les secteurs dans l’informatique qu’ils
couvrent ;

Page 11
 En plus de ces entreprises, d’autre sociétés sont spécialisées dans ce domaine
du Big Data et en ont fait leur métier tel que Microstrategy, Hurence ou TeraData.

Mais de nombreuses autres entreprises utilisent des solutions de Big Data proposées par
d’autres sociétés. Parmi elles, on retrouve différents secteurs d’activité tels que :

 les télécoms : SFR ;


 les réseaux sociaux : Facebook ;
 des sociétés de services : Amazon Web Services ;
 des sociétés d’analyses : HPCC Systems, 1010 Data, Quantivo, Opera solutions…

Page 12
3.3 Les solutions et technologies existantes

Arrêtons-nous un instant et revenons aux origines des technologies emblématiques du


Big Data aujourd’hui.

Hadoop et NoSQL sont des technologies phares de l’univers Big Data et, actuellement,
il est impossible de passer à côté d’eux lorsque l’on sillonne les myriades de solutions et
technologies mises à notre disposition.

3.3.1 Hadoop : une histoire vieille de dix ans

Depuis un an, l’engouement du marché pour le Big Data se manifeste principalement


sur une de ses composantes : l’analyse de données. Le phénomène résulte clairement
de la montée en puissance d’Hadoop, un Framework open source réputé pour sa
puissance d’indexation, de transformation, de recherche ou d’élaboration de modèles
sur de très gros volumes de données.

Une des raisons pour lesquelles Hadoop concentre tant l’attention de l’industrie tient à
la légitimité qu’il a acquise tout au long de cette décennie. Le succès de Google lui est
en partie imputable. En 2001, alors qu’il n'en est encore qu'à ses balbutiements sur le
marché des moteurs de recherche, le futur géant développe ce qui inspira les
composants phares d'Hadoop : MapReduce, Google BigTable et Google BigFiles (futur
Google File System).

En 2004, le fondateur du moteur de recherche open source Lucene, Doug Cutting, qui
travaille sur une méthode relativement économique pour indexer en masse des pages
web, s’empare des publications de Google et créé le premier prototype d’Hadoop. En
2006, Yahoo!, l'autre géant du web, embauche Doug Cutting et se lance dans la
promotion active de la technologie et de son écosystème.

Page 13
En 2011, Yahoo! crée Hortonworks, sa filiale dédiée à Hadoop. L'entreprise se concentre
sur le développement et le support d'Apache Hadoop. De la même manière, Cloudera,
créé au début de l'année 2009, se place comme l'un des plus gros contributeurs au
projet Hadoop, au côté de MapR (2009) et Hortonworks.

Hadoop consiste en deux points : Hadoop MapReduce et Hadoop Distributed File


System. Ces deux points forment l’écosystème Hadoop, écosystème fortement
convoité et qui se trouve au centre de l’univers du Big Data.

Initialement pensé comme un clone du MapReduce de Google, Hadoop est :

 évolutif, car pensé pour utiliser plus de ressources physiques, selon les besoins, et
de manière transparente ;
 rentable, car il optimise les coûts via une meilleure utilisation des ressources
présentes ;
 souple, car il répond à la caractéristique de variété des données en étant
capable de traiter différents types de données ;
 et enfin, résilient, car pensé pour ne pas perdre d'information et être capable de
poursuivre le traitement si un nœud du système tombe en panne.

Nous allons détailler le fonctionnement des deux technologies phares de Hadoop :


HDFS et Map/Reduce car les technologies sont très liées aux concepts développés
dans ces deux produits.

Page 14
Hadoop Distributed File System (HDFS)

HDFS permet de distribuer le stockage des données et de faire des analyses très
performantes sur ces données grâce au modèle MapReduce permettant de distribuer
une opération sur plusieurs nœuds dans le but de paralléliser leur exécution.

HDFS est un système de fichiers virtuel qui se décompose en un namenode, le maître, et


plusieurs datanodes, les nœuds de données.

Les nœuds de données regroupent les blocs de données en les répliquant : ci-dessous,
les blocs sont tous répliqués trois fois. Le maître, quant à lui, va orchestrer les données, et
contient les informations concernant l'emplacement des différentes répliques. Le
secondary namenode sert à effectuer des checkpoints réguliers du namenode, afin de
les réutiliser en cas de problème.

Ci-dessous, un schéma expliquant les différents nœuds du HDFS :

Page 15
C’est un système de fichiers distribué où les blocs d’information sont répartis et répliqués
sur les différents nœuds du cluster (regroupement de plusieurs serveurs indépendants).

L'algorithme de Map/Reduce

Le MapReduce est une technique qui décompose le traitement d'une opération


(appelée « job » chez Hadoop) en plusieurs étapes, dont deux élémentaires, afin de
faciliter la parallélisation des traitements sur les données.

Le « Mapping »

Cette étape accomplit une opération spécifique sur chaque élément de la liste en
entrée ; à partir d'une liste sous la forme <clé, valeur>, il génère une liste en sortie sous la
même forme :

Le « Reducing »

L'opération qui se situe entre le Mapping et le Reducing est appelée le Shuffling, et


réarrange les éléments de la liste afin de préparer le Reducing.

Le traitement voulu est alors effectué, donnant la sortie finale suivante :

Page 16
3.3.2 NoSQL ou les bases de données non relationnelles

Le terme NoSQL désigne une catégorie de systèmes de gestion de base de données


destinés à manipuler des bases de données volumineuses pour des sites de grande
audience. Apparu pour la première fois en 1998, NoSQL (Not Only SQL) est un terme
générique pour désigner les bases de données ne suivant pas les principes classiques
des SGBD relationnels. L’idée sous-jacente du mouvement NoSQL est d’avoir des bases
plus adaptées au besoin réel de l’application plutôt que d’utiliser systématiquement
une base relationnelle.

L'offre se développe de façon exponentielle au printemps 2009 avec le Cloud


Computing et le Web 2.0, mais pas seulement. Le meetup NoSQL de San Francisco, le
11 juin 2009, a été particulièrement important pour le développement de cette
tendance. Pas moins de 100 développeurs de logiciels ont assisté à des présentations
de solutions telles que :

 Project Voldemort (LinkedIn) ;


 Cassandra Project (Facebook) ;
 HBase (Facebook) ;

Page 17
 Dynomite (basé sur Dynamo d'Amazon) ;
 CouchDB (Ubuntu One) ;
 ou encore, MongoDB (SourceForge.net).

Très souvent, les bases de données NoSQL sont catégorisées selon la manière dont elles
stockent les données. On retrouve ainsi des catégories comme les bases orientées clé-
valeur, colonne, document ou encore les bases structurant les données en s’appuyant
sur la théorie des graphes.

D’autres catégories existent et beaucoup de sous-catégories peuvent être répertoriées


ou citées ici et là, mais intéressons-nous aussi à la taille que prennent les données dans
ces bases et à la complexité de mise en place et d’exploitation de celles-ci. Emil Eifrem,
PDG de Neo Technology, société qui développe la solution Java, Neo4j (the graph
database), classe ces catégories selon ces deux critères :

Page 18
Il y a peu encore, les développeurs web ont commencé à utiliser le système de cache
mémoire pour stocker de manière temporaire des données en RAM, pour que les
données fréquemment utilisées soient plus rapide à ressortir. Cette méthode nécessitait
d'écrire tous les accès à la base de donnée en usant du paradigme Clé-Valeur. Avec
le temps et l'expérience, les développeurs ont commencé à s'essayer à des bases de
données utilisant cette méthode de stockage en mémoire et en dur.

Il s'agit d'un des exemples rares de suppression d'une couche d'abstraction, l'interface
clé-valeur étant moins expressive et plus bas niveau que les requêtes SQL. De tels
systèmes requièrent plus de travail pour le développeur pour plus de flexibilité et de
contrôle sur l'utilisation de la base de données.

Les bases de données « graphes » ont été pensées selon une approche complètement
différente. Elles répondent à un problème de modélisation des données selon les
méthodes classiques de bases de données relationnelles. De manière assez ironique,
ces dernières éprouvent de grandes difficultés à traiter les relations entre nœuds
(création de table jointe à foison, requête obscure et complexe, etc.). Là où une base
de données « graphe » est pensée pour représenter ce type d'information et les traiter.

Hadoop et NoSQL ont été précurseur dans les concepts qui forment le Big Data, mais
beaucoup d’autres technologies ont vu le jour par la suite. Ces technologies exploitent
de nouvelles idées ou explorent plus encore, des concepts déjà connus. Elles sont le
signe d’un nouveau marché qui s’est ouvert et continu à s’ouvrir.

Page 19
3.3.3 De nombreuses technologies émergentes

Il y a eu une quantité phénoménale d’innovations dans les outils de traitements de la


donnée au cours des dernières années, notamment grâce à certaines tendances clés :
apprendre à partir du monde web, étendre les recherches en informatique à d’autres
problèmes et évidemment, les avancées technologiques qui rendent le matériel
meilleur marché. Ces tendances ont mené à une explosion des nouveaux outils. Nous
sommes donc aujourd’hui confrontés à de très nombreuses technologies émergentes
qui définissent « l’univers Big Data ».

Ces innovations ont aidé à concevoir des outils basés :

 Sur les bases de données NoSQL, avec des solutions qui gagnent chaque jour en
fonctionnalités et en performance sur des points critiques.
On peut citer MongoDB (document), CouchDB (document), Cassandra (clé-
valeur), Redis (structure de données complexe), BigTable (structure particulière),
HBase (structure proche de BigTable), Hypertable (structure proche de BigTable),
Voldemort (clé-valeur), Riak (clé-valeur) et ZooKeeper (clé-valeur).

 Sur l'approche MapReduce, avec des solutions comme Hadoop et de


nombreuses autres qui tendent à s'y greffer et à l'améliorer.
On peut citer Hive, Pig, Cascading, Cascalog, mrjob, Caffeine, S4, MapR, Acunu,
Flume, Kafka, Azkaban, Oozie et Greenplum.

 Sur les processus de stockage, avec des solutions prenant en compte les
différences dues aux traitements des données à grande échelle, traitements que
les systèmes de fichiers traditionnels ne peuvent gérer.
On peut citer S3 d'Amazon, mais aussi et surtout, HDFS.

 Sur les ressources de calcul, avec des solutions Cloud (SaaS) innovantes et
flexibles dans leur utilisation et leur exploitation.

Page 20
On peut citer EC2, Google App Engine, Elastic Beanstalk et Heroku.

 Sur la restitution visuelle de l'information, avec des solutions visant à fournir de la


meilleure manière possible, les résultats de traitement. Cette approche visuelle
permet de discerner des informations parfois bien plus simplement et de manière
plus utile que de simples valeurs brutes.
On peut citer Gephi, GraphViz, Processing, Protovis, Fusion Tables et Tableau.

 Sur l'acquisition de données, avec des solutions visant à pallier au manque de


structure, au bruit et à la complexité initialement présente à la récupération des
données.
On peut citer Google Refine, Needlebase et ScraperWiki.

 Sur la sérialisation des données, afin d'acheminer la donnée d'un point de


traitement à un autre tout en restant capable de la conserver.
On peut citer JSON, BSON, Thrift, Avro et Protocol Buffers.

3.3.4 Les systèmes distribués et leurs problématiques

Les systèmes distribués étaient bien connus avant l’apparition du Big Data et leurs
problématiques sont aujourd’hui bien maitrisées. Parmi les problèmes à résoudre, on
peut citer la gestion d’un grand parc de machines et les problèmes d’intégrité des
données lorsque l’on utilise ce parc pour du stockage.

L’intégrité des données est nécessaire aux entreprises stockant des données
importantes sur un cluster de sauvegarde, par exemple sur HDFS. Il est alors primordial
de pouvoir assurer l’intégrité des données à travers des dizaines, centaines, voire milliers
de machines différentes, stockant plusieurs copies d’une même donnée.

Page 21
Les systèmes de gestion d’intégrité des solutions semblent assez matures et des
exemples basés sur HDFS nous ont poussé à ne pas développer ce risque dans l’analyse
de risques (partie 4), car l’intégrité y est préservée activement avec des vérifications de
somme de contrôle bien plus fréquentes que sur du stockage sur disques durs. On
trouve ainsi des infrastructures avec 99.99999%1 d’intégrité conservée, comptabilisant
environ 21 000 pétaoctets.

Le risque de perte d’intégrité avec ce niveau d’intégrité est alors extrêmement faible.

3.4 Comment approcher le Big Data côté métier

Nous avons défini ce qui se cache derrière le terme Big Data, vu ce que l’on pouvait en
faire et vu les technologies sur lesquels il est construit.

Maintenant, nous allons prendre un point de vue plus métier du Big Data, comment il
faut l’aborder avant même d’envisager de l’intégrer à l’activité de l’entreprise.

Pour les métiers (directions opérationnelles), le Big Data répond à des enjeux majeurs :
accroître la capacité à supporter sa propre activité, gagner en productivité, mais
surtout innover par rapport à la concurrence. Tout cela en s’appuyant sur l’ensemble
des données brutes utiles, de l’entreprise ou publiques, et en exploitant pleinement
celles-ci.

Avant de songer au Big Data, les métiers doivent se poser les bonnes questions afin de
déterminer si le Big Data représente une opportunité et s’ils ont les moyens de la saisir :

 De quelles informations avons-nous besoin pour innover et être compétitif ?

1 19 blocs de 64 Mo en erreurs sur 329 millions

(Source : http://www.hortonworks.com/blog/data-integrity-and-availability-in-apache-hadoop-hdfs/ )

Page 22
o Multiplier les sources des informations n’est plus un problème, mais il faut
identifier les opportunités business que cela peut ouvrir.
o Ne pas hésiter à s’inspirer des initiatives innovantes du marché.
 Quels sont les données sous- et inexploitées à notre disposition ?
o Il est important de connaître les sources de données de l’entreprises, ces
sources ont potentiellement de la valeur. Il faut se concentrer sur les
données pertinentes au risque de devoir sur-dimensionner son
infrastructure (voir analyse de risque : 4.3.5.1).
o Il faut savoir interpréter les données brutes.
 Sommes-nous prêts à « extraire » l’information utile de nos données ?
o Analyser les données requiert des compétences rares, il peut être
nécessaire de recruter des Data Analyst.
o Cadrer les transformations organisationnelles, éthiques et légales
associées.
 Sommes-nous capable de gérer les nouveaux risques de sécurité ?
o Les impacts autour de la donnée augmentent, la sécurité autour peut
avoir besoin d’être augmenté.
o L’utilisation de Cloud peut être une solution autant qu’un problème à la
sécurité.

Le premier risque du Big Data est sûrement de ne pas bien l’utiliser, si les opportunités
business que le Big Data peut apporter ne sont pas claires ou si les compétences
nécessaires pour les atteindre ne sont pas acquises alors il ne vaut mieux pas se lancer
dans un projet Big Data.

Ces questions permettent à l’entreprise de déterminer si elle est prête à tirer des
avantages business du Big Data. Mais ces avantages doivent être relativisés avec les
risques que le Big Data apporte, pour le RSSI une analyse de risque s’impose.

Page 23
4 Analyse de risques

4.1 Méthodologie

Avec le Big Data et ses nouvelles technologies, ses nouveaux concepts, ses nouvelles
idées et envies, de nombreuses problématiques sont soulevées au niveau de la sécurité
des infrastructures à mettre en place et des processus organisationnels qui les
entourent.

Notre démarche d’analyse des risques apportés par le Big Data passe par une analyse
différentielle entre le Big Data et les technologies dites “classiques” de collecte et
d’analyse de données. Nous allons alors explorer les risques apportés en termes de non-
conformité légale, de perte de disponibilité, de non confidentialité, de perte
d’intégrité, des risques opérationnels et les risques liés aux différents modes
d’intégration. Nous n’aborderons pas les risques présents dans les solutions classiques et
qui ne sont pas exacerbés ou changés par l’utilisation du Big Data.

Qui accède à mes données ? Qu’en est-il de sa disponibilité ? Quels risques portent sur
l’intégrité de mes données dans les systèmes distribués ? Comment contrôler ces
données pour rester maître de son SI ? Sommes-nous prêt à accueillir le Big Data sans
danger ?

Nous allons étudier toutes ces questions à travers l’analyse de risques qui suit, en
partant de l’analyse de la chaîne de traitement des données et en dégageant les
risques associés :

Page 24
4.2 Légende

Complexité Réduction de
risques

Faible

Moyenne

Forte

Page 25
4.3 Analyse différentielle

4.3.1 Risques de non-conformité

Dû à la collecte d’informations non déclarées à la CNIL

Origine : La collecte de données à caractère personnel implique une obligation de


déclaration de la collecte et des traitements sur ces données à la CNIL (Article 226-16
du code pénal2).

Scénario : Dû à la nature des données non-structurées du Big Data, des informations


personnelles et supplémentaires se sont mêlées dans les enregistrements.

Impacts : Un contrôle de la CNIL pourrait résulter en une condamnation, avec une


amende, et une perte d’image pour l’entreprise, due à la publication du jugement.

Contre-mesures :
 Filtrage a priori des données collectées : Supprimer dès la collecte, les données
détectée comme personnels via l’utilisation de patterns connus. Cela permet
notamment de supprimer les adresses IPs, numéros de téléphone et numéro de
sécurité social. Il est malheureusement impossible d’être exhaustif dans la
suppression par “liste noire”, ce qui ne fait que réduire le risque.
 Anonymiser les données : Anonymiser les données assez rapidement dans le
processus de collecte et de stockage pour empêcher l’identification d’un
individu à partir de ces données. Le processus est intéressant, il permet de
conserver la relation d’appartenance des données sans en conserver le
caractère personnelle, mais reste complexe et ne peut être généralisé à tous les
types de données personnelles.

2 http://www.legifrance.gouv.fr/affichCodeArticle.do?idArticle=LEGIARTI000006417958&cidTexte=LEGITEXT000006070719

Page 26
Contre-mesure Complexité de mise en Réduction du
œuvre risque

Filtrage a priori des


données collectées

Anonymiser les données

Dû à la durée de conservation des données personnelles

Origine : Les textes de loi, ainsi que les autorisations de la CNIL imposent une limite
temporelle pour la conservation de données personnelles. Il est possible de garder les
données plus longtemps si celles-ci sont anonymisées. (Article 226-20 du code pénal3)

Scénario 1 : Dû à la nature de la base de données NoSQL utilisées, il se peut qu’il


n’existe pas de système permettant d’ajouter des métadonnées pour enregistrer la
date de collecte des données, et donc, pas de moyen de déterminer quand celles-ci
doivent être supprimés.

Scénario 2 : Le système de stockage ne permet pas de rechercher les enregistrements


par leurs métadonnées, et ne permet donc pas de faire des recherches par date
d'insertion pour effacer les enregistrements.

Impacts : Un contrôle de la CNIL pourrait résulter en une condamnation, avec une


amende, et une perte d’image pour l’entreprise, due à la publication du jugement.

Contre-mesures : Annoter les données avec la date de collecte et faire des passes de
« suppression » :
 Problème technique fortement lié au logiciel de stockage.

3 http://www.legifrance.gouv.fr/affichCodeArticle.do?idArticle=LEGIARTI000006417977&cidTexte=LEGITEXT000006070719

Page 27
Contre-mesure Complexité de mise en Réduction du
œuvre risque

Annoter les
données

Dû à l’incapacité de rectifier/modifier les données - dû à l’incapacité d’accéder


directement aux données

Origine : Les lois obligent le possesseur d’une base de donnée à mettre à disposition
des utilisateurs du service la capacité de : connaitre les informations récoltées a son
propos, de les rectifier, et de les faire supprimer (Décret n°2005-1309 du 20 octobre 2005,
Article 110).

Scénario : Dû à la nature des bases de données non structurées, le système ne permet


pas de récupérer les données à partir du nom d’une personne, une recherche
exhaustive est obligatoire. Le problème se pose par exemple avec le traitement des
« logs » non anonymisés. La suppression ou la rectification est alors problématique.

Impacts : Un contrôle de la CNIL pourrait résulter en une condamnation, avec une


amende, et une perte d’image pour l’entreprise, due à la publication du jugement.

Contre-mesures :

 Supprimer un document tout entier si les informations sont contestées.


 Anonymiser les données : Anonymiser les données assez rapidement dans le
processus de collecte et de stockage pour empêcher l’identification d’un
individu à partir de ces données. Le processus est intéressant, il permet de
conserver la relation d’appartenance des données sans en conserver le

Page 28
caractère de données personnelles, mais reste complexe et ne peut être
généralisé à tous les types de données personnelles.

Contre-mesure Complexité de mise en Réduction du


œuvre risque

Supprimer un document
tout entier

Anonymiser les données


récoltées

Dû à un problème d’attribution de responsabilité (incapacité à tracer les actions des


administrateurs)

Origine : Afin de détecter les modifications anormales et de pouvoir attribuer les


modifications d’un système à leur responsable, tracer les actions d’administration est
primordial. En outre, certaines normes ou lois imposent de tracer les actions des
administrateurs du système.

Scénario : Tracer les actions d’un administrateur pour savoir qui a fait des modifications
sur les infrastructures afin d’assurer la conformité avec la norme PCI-DSS.

Impacts : Amendes, Condamnation, Rupture de contrat.

Contre-mesures :
 Tracer les actions des administrateurs : Prendre une base qui produit des logs.
 Stockage des logs sécurisé, inaccessible à un administrateur unique. On peut
choisir de sous-traiter le stockage des logs pour empêcher à un administrateur
de pouvoir modifier ou supprimer ceux-ci suite à une action malveillante. Il est
aussi possible de stocker les logs et empêcher à un administrateur seul
d’accéder aux logs, limitant le risque.

Page 29
Contre-mesure Complexité de mise en Réduction du
œuvre risque

Tracer les actions des


administrateurs

Stockage des logs


sécurisé

Dû à une incapacité à protéger les données conformément aux réglementations et


standards

Origine : Certaines normes imposent le cloisonnement de certaines données : c’est par


exemple le cas de PCI-DSS, avec les numéros de cartes bleues.

Scénario : Les données sensibles à cloisonner sont stockées sur la même infrastructure
de stockage que les données non sensibles. Des traitements utilisant ce stockage
comme source peuvent accéder aux données sensibles.

Impacts : Non-conformité avec la norme ciblée, pouvant entraîner une rupture de


contrat et fuite de données sensibles.

Contre-mesures :
 Authentification et séparation logique : Instaurer une séparation logique des
données avec authentification obligatoire pour l’utilisation des données sensibles,
suivant le système de stockage utilisé.
 Chiffrer les données et les déchiffrer à la volée en cas de traitement sur ces
données.
 Séparer physiquement les systèmes de stockage en infrastructures distincts.

Page 30
Contre-mesure Complexité de mise en Réduction du
œuvre risque

Authentification et
séparation logique

Chiffrement

4.3.2 Risques de non disponibilité

Politique de sauvegarde

Origine : Une attaque, une erreur de manipulation ou un problème technique entraine


une perte de donnée, ce qui peut être un coup fatal pour une entreprise.

Scénario : Suite à une mauvaise manipulation, des données importantes ont été
supprimées.

Impact : Perte de données.

Contre-mesures : Politique de sauvegarde.


La politique de sauvegarde doit intégrer les informations suivantes :
 Technique de sauvegarde :
o Sauvegarde brute des données sur les disques (sauvegarde peu
performante)
o Système intégré et distribué de sauvegarde
o Sauvegarde incrémentale basée sur les métadonnées du système de
fichier distribué
 La fréquence :
o Fréquence des sauvegardes complètes
o Fréquence des sauvegardes différentielles

Page 31
 Les tests de restauration et leur fréquence
 Stockage des sauvegardes :
o Sur quel type de stockage ? (bande, disque)
o Où sont-elles localisées ? (sur site, hors site, dans le Cloud)

Contre-mesure Complexité de mise en œuvre Réduction du risque

Sauvegarde

Pannes matérielles

Origine : Les problèmes de disponibilité suite à des défaillances matérielles sur les
équipements réseaux ou ceux de l’infrastructure sont exacerbés par le Big Data du fait
de sa mise à l’échelle sur de nombreux serveurs.

Scénario 1 : Suite à une panne matérielle sur équipement réseau non ou mal redondé,
une partie des serveurs de stockage est inaccessible.

Scénario 2 : Suite à une panne matérielle sur l’un des serveurs de stockage (mémoire
vive défectueuse, CPU en surchauffe, coupure électrique), les données stockées ne
sont plus accessibles.

Impact : Perte de disponibilité des données.

Contre-mesures :
 Réseau entièrement redondé : il est primordial de redonder le cœur de réseau
et les switchs de distribution ainsi que l’ensemble des composants intermédiaires
(pare-feu, VPN et répartition de charge). Il est préférable, mais pas nécessaire,
de redonder la connexion terminale entre les serveurs et les switchs d’accès.

Page 32
 Failover : les logiciels de stockage et les bases de données NoSQL possèdent des
systèmes automatiques de basculement en cas de détection de perte de
« nœuds » de stockage ou de calcul. Les activer permet de réduire
drastiquement les problèmes de disponibilité car les multiples répliques de la
donnée prennent alors le relai.

Contre-mesure Complexité de mise en Réduction du


œuvre risque

Redondance du
réseau

Failover

4.3.3 Risques de perte de confidentialité

Dû au vol/diffusion/fuite d’informations confidentielles

Origine : Attaque sur le système menant au vol d’information.

Scénario : Un attaquant s’introduit dans le système, et vole des informations, tel que des
N° de Carte bleue.

Impacts : Fuite ou perte d’information, impact sur les clients.

Contre-mesures :
 Sécurisation de l’infrastructure : Il est impératif de réaliser des audits réguliers de
l’infrastructure et de vérifier, notamment, les permissions d’accès aux données et
la configuration des systèmes critiques. Le monitoring constant peut permettre,
en cas d’attaque, de détecter celle-ci rapidement et d’empêcher la fuite
d’information.

Page 33
Contre-mesure Complexité de mise en Réduction du
œuvre risque

Sécurisation de son
architecture

Dû à un accès à des données confidentielles, par une personne illégitime

Origine : Base de stockage mal sécurisée à cause d’une mauvaise gestion des droits.

Scénario : Un employé mécontent s’empare d’information, par un accès à une base


de données, depuis l’intérieur, puis revend ou diffuse des informations stratégiques pour
l’entreprise.

Impact : Fuite d’information.

Contre-mesures :
 Audit régulier de la base des permissions pour détecter les profils laissés actifs par
oublie et les permissions trop larges.
 Limitation des privilèges : Gestion fine des droits d'accès. Ne permettre l'accès à
la base de données qu’aux comptes d’administrateurs et aux applications.

Contre-mesure Complexité de mise en Réduction du


œuvre risque

Audit régulier des


permissions

Limitation des
privilèges

Page 34
Dû à une mauvaise gestion des habilitations d’un nouveau logiciel

Origine : Base de stockage mal sécurisée à cause d’un manque de compétences


techniques.

Scénario : Certaines options de configuration nécessaires n’ont pas été ajoutées car la
technologie n’est pas encore maîtrisée par le SI.

Impact : Fuite d’informations.

Contre-mesures :
 Audit technique : Faire examiner la sécurité de notre infrastructure de stockage
par des spécialistes, sous traitement à une SSII spécialisée dans les tests
d’intrusion.
 Suivi de guide de sécurisation.

Contre-mesure Complexité de mise en Réduction du


œuvre risque

Audit

Suivi de guide de
sécurisation

Page 35
4.3.4 Risque de perte d’intégrité

La problématique d’intégrité dans les systèmes distribués a été mentionnée dans la


partie « 3.3.4 Les systèmes distribués et leurs problématiques » et ne seront donc pas
abordés car ils sont négligeable à la vue des systèmes actifs de préservation d’intégrité.

4.3.5 Risques opérationnels

Dû à la collecte d’informations non pertinente ou inutilisable

La collecte doit être limitée aux seules données utiles et l’organisation ne doit pas se
mettre à « tout enregistrer » en vue d’un possible enrichissement des données par
corrélation ultérieure. Cela entraîne une perte de place considérable, de temps de
collecte et peut saturer inutilement les infrastructures de stockage.

Cet impact ne sera pas plus détaillé, car celui-ci est un souci de choix de collecte de
données plus qu’un risque.

Dû à dépendance technologique de la DSI envers une solution jeune et peu éprouvée

Origine : Les solutions de Big Data sont jeunes et leur maturité n’est pas encore atteinte.
Les problématiques de support et de pérennité des solutions sont en outre à considérer.

Scénario : Disparition de l’entreprise porteuse d’une solution. Perte d’intérêt d’une


communauté open-source envers le développement d’une solution. Support
commercial de faible qualité. Bogue logiciel non corrigé par les équipes de
développement.

Impacts : Le MCO de la solution problématique est plus coûteux (bug bloquant,


manque d’aide du support), disparition de l’entreprise/la communauté supportant la
solution. Manque de compétences sur le marché du travail.

Page 36
Contre-mesures :
 Choisir des solutions supportées par des entreprises dont la santé financière est
bonne et dont la perspective à plusieurs années est le maintien du
développement de la solution.
 Choisir des technologies « standard de fait du marché » pour faciliter le
recrutement.

Contre-mesure Complexité de mise Réduction du


en œuvre risque

Choisir des solutions


supportées par des
entreprises solides

Choisir un « standard de fait


du marché »

Dû à une dépendance des autres applications à une solution technologique unique

Origine : En l’absence d’un langage de requête intermédiaire, comparable au SQL


pour les bases de données, l'hétérogénéité des systèmes Big Data entraîne une
dépendance du SI envers une unique solution.

Scénario : Du fait de la forte singularité des systèmes Big Data (interface non
compatibles), en cas de changement de technologie, il faut modifier toutes les
applications en dépendant.

Impacts : Augmentation importante du coût du changement de technologie. On se


retrouve « prisonnier » d’une seule solution.

Contre-mesures :

Page 37
 Utiliser plusieurs technologies différentes en parallèle (pour différentes données
et traitement).

Contre-mesure Complexité de mise en Réduction du


œuvre risque

Utiliser plusieurs
technologies différentes

4.3.6 Risques liés aux modes d’intégration

L’intégration d’une plateforme Big Data peut se faire de différentes manières :


 Interne : toute la plateforme est contrôlée par l’entreprise.
 Externe / Cloud : l’entreprise utilise une plateforme mutualisée ou un service de
type « Cloud ».

Le cas de l’intégration interne n’apporte pas de risques supplémentaires si ce n’est la


mauvaise gestion de la solution.

A contrario, l’utilisation d’une plateforme hors du contrôle de l’entreprise peut poser des
problèmes juridiques ou des risques de perte de confidentialité. Ces risques ne sont pas
exacerbés par l’utilisation du Big Data, mais sont inhérent aux infrastructures
mutualisées sous le contrôle d’une entreprise tierce, aussi nous allons évoquer les risques
engendrés, mais ceux-ci ne seront pas développés car ils n’entrent pas dans le
périmètre de l’étude.

Confidentialité

 Fuite d’information : la sécurité de mes données dépend de la sécurité de la


solution proposée. Le contrôle sur celle-ci est généralement inexistant et les

Page 38
attaques sur les plateformes de grande envergure sont plus « intéressantes » pour
les pirates qui ne manqueront pas de trouver et exploiter les failles4.

Légal

 Localisation des données : la perte de capacité à localiser l’emplacement


géographique de ses données peut poser des problèmes légaux de transfert de
données. Les données localisées dans un autre pays tombent sous les lois dudit
pays, posant aussi des problèmes de confidentialité.
 Juridiction et gestionnaire de la plateforme : bien que mes données soient
localisées sur des serveurs de mon pays, si l’entreprise qui gère le service est
localisée dans un autre pays, les injonctions émanant de l’état de cet autre pays
peuvent-elles lui permettre d’accéder à mes données ?
 Appartenance des données : certains services possèdent des clauses de
propriété sur les données manipulées sur leurs infrastructures, il y a alors un risque
de perte de propriété intellectuelle autant que juridique car on ne contrôle plus
les données manipulées.

Dépendance au Cloud provider

 Sécurité : la sécurité des données est laissée au gestionnaire de la plateforme et


il est difficile, sinon impossible, de pouvoir auditer la sécurité de celui-ci.
 Dépendance à une technologie : le risque de dépendance forte à un acteur
unique et à sa technologie sous-jacente est exacerbé car celui-ci met à
disposition non seulement le matériel, mais aussi le logiciel (varie suivant le
service).

Tous ces risques doivent alors être pris en considération lors d’une intégration dans le
Cloud ou sur une plateforme gérée par un organisme externe. La contre-mesure

4 En juin 2011, Dropbox a laissé fuiter l’ensemble des données de ses utilisateurs pendant 4h, l’authentification acceptant

n’importe quel mot de passe. (Source : http://www.wired.com/threatlevel/2011/06/dropbox/ )

Page 39
consiste à internaliser les traitements et à posséder sa propre infrastructure, mais cela
demande des capacités techniques de pointe et peut demander des investissements
conséquents.

Contre-mesure Complexité de mise en Réduction du


œuvre risque

Internaliser la
solution

Page 40
4.4 Proposition d’un plan d’action global

En résumé, nous proposons le plan d’action générique suivant pour améliorer la


sécurité autour des technologies Big Data.

4.4.1 Obligations légales

Suivre les obligations de la CNIL relatives aux données personnelles :


 Filtrage a priori des données collectées qui ne sont pas pertinentes pour le
traitement déclaré, ou anonymisation des données si cela n’est pas possible ;
 Annoter les données avec la date de collecte et faire des passes de
« suppression » pour répondre aux dates limites de conservations ;
 Offrir des moyens de rectification et de suppression des informations personnelles
aux personnes fichées, quitte à supprimer un document tout entier si les
informations sont contestées.

4.4.2 Sécurité des données

 Séparation logique du stockage : Instaurer une séparation logique des données


sensibles, par une gestion des droits d'accès ;
 Politique de sauvegarde des données ;
 Utilisation des systèmes de failover automatique ;
 Réseau entièrement redondé pour une disponibilité maximale.

4.4.3 Problèmes opérationnels

 Utiliser des solutions techniques supportées par des entreprises dont la santé
financière est bonne et dont le développement sur plusieurs années parait
probable.

Page 41
4.5 Synthèse de l’analyse de risques

L’analyse de risques nous montre que le Big Data, malgré son apparition récente,
apporte peu de risques nouveaux sur le plan de la sécurité, si ce n’est ceux liées à la
faible maturité des solutions disponibles, quoique éprouvé par les architectures de
grande envergure de certains géants du web qui prouvent la solidité de nombreuses
solutions de Big Data.

Il subsiste néanmoins les risques liés aux problèmes de configuration et les questions de
disponibilité d’un système décentralisé. Il est aussi important de choisir judicieusement
son mode d’intégration (interne ou externe / Cloud) et en accepter les risques
inhérents ; le Big Data n’apporte alors pas de risques supplémentaires aux risques
inhérents à ces modes d’intégration. Enfin, les problèmes de disponibilité et d’intégrité
inhérents aux systèmes répartis sont fortement réduits grâce aux technologies de
basculement automatique et de vérification active d’intégrité.

Partant de ces constats, nous en déduisons que l’implantation du Big Data dans les
entreprises doit venir d’un besoin fort du métier car la complexité de la mise en place
d’une telle solution ne doit pas être sous-estimée. Les risques liés à celui-ci, bien que
devant être clairement assimilés, ne devrait néanmoins pas faire porter de nouveaux
risques majeurs sur le SI.

Page 42
5 Bibliographie

[1] Big Data - Wikipédia

[2] Enterprise Big-data - David Floyer

[3] Big Data... Méfiez-vous : l'appellation est trompeuse! - Philippe Gosseye

[4] Big Data: Making sense at scale - Henri Verdier

[5] Big Data : Opportunités et problèmes de sécurité - études Forrester

[6] Qu’est-ce que le Big Data ? - Lise Gasnier

[7] Quel est le paysage technologique du Big Data ? - Mathieu Millet

[8] Le Big Data : le Nirvana Marketing ou la prochaine bulle sur le point d'éclater ? -
Sinequa

[9] Big Data Meets the Supply Chain - Kelly Thomas

[10] Big Data vs. Strategic S&OP: Opposite Sides of the Spectrum? - Paula Natoli

[11] Big Data : mais qu’est-ce c’est ? - José Diz

[12] Le b.a.-ba du Big data pour tous - Charles-Yves Baudet

[13] Les 3 V du Big Data : Volume, Vitesse et Variété - Gérard Clech

[14] Comment quatre fournisseurs remixent le concept du big data - Vincent Berdot

Page 43
[15] Hadoop : une histoire vieille de dix ans - Vincent Berdot

[16] Big Data: Marketing Nirvana or the Next Big Bubble to Burst? - Hans-Josef Jeanrond

[17] Use the Four V’s to Better Understand the Big Data Ecosystem - Mark Myers

[18] NoSQL : un mouvement qui prend de l’ampleur - Nicolas Martignole

[19] How Big Data Became So Big - Steve Lohr

[20] 10 hot big data startups to watch this year - Benedikt Koehler

[21] Why Do So Many Big Data Companies Have Jungle Animals for Logos? - Mellisa
Tolentino

[22] How Companies Like Amazon Use Big Data To Make You Love Them - Sean
Madden

[23] 6 companies doing big data in the cloud - Derrick Harris

[24] Présentation sur les Big Data - Xavier Dalloz

[25] Big-Data Computing: Creating revolutionary breakthroughs in commerce, science,


and society - Randal E. Bryant, Randy H. Katz & Edward D. Lazowska

[26] What is Hadoop? - Christophe de My Data News

[27] Security in Hadoop - Ravi Phulari

[28] Le phénomène des big data touche toutes les entreprises - Claude Bernard

Page 44
[29] Schneier: government, big data pose bigger 'Net threat than criminals - Dan
Goodin

[30] La nouvelle version d'iWay Software d'Information Builders assure la qualité des Big
Data des entreprises - Information Builder

[31] Big Data et données non structurées : PostgreSQL n’a pas dit son dernier mot ! -
Damien Clochard

[32] Creating Value Through Data Integrity - Guy Gilliland, Sue Kolloru Barger, Vikrant
Bhatia & Ron Nicol

[33] Comprendre Hadoop en 5 min - Arnault Jeanson

[34] Hadoop, première partie : Le système de fichier et le MapReduce au service des


gros volumes de données - Elias Daboussi

[35] Big Data A Big Backup Challenge - George Crump

[36] Hervé Rolland, IBM France : “Le Big data ? c’est un process inversé” - Hervé Rolland

[37] NoSQL & DataGrids from a Developer Perspective - Cyrille Le Clerc & Michaël
Figuière

[38] Top 6 big data issues - Cynthia Karena

[39] Eight Problems With “Big Data” - Jay Stanley

[40] Data Integrity and Availability in Apache Hadoop HDFS - Sanjay Radia

[41] Le Big Data face à la sécurité et au cloud - Guy Chesnot

Page 45
6 Glossaire

Audit : L'audit est une activité de contrôle et de conseil qui consiste en une expertise
par un agent compétent et impartial et un jugement sur l'organisation, la procédure,
ou une opération quelconque de l'entité.

Failover : Le failover, ou basculement, est la capacité d'un équipement ou d'une


infrastructure à basculer automatiquement sur un/une autre en cas de panne partielle
ou totale d'une de ses parties.

Cloud : Le « Cloud Computing » est un concept qui consiste à déporter sur des serveurs
distants des stockages et des traitements informatiques traditionnellement localisés sur
des serveurs locaux ou sur le poste de l'utilisateur.

Cloud Provider : Une entreprise fournissant des services de « Cloud Computing » à ses
utilisateurs.

Cluster : En réseau et système, un cluster est une grappe de serveurs constituée de


deux serveurs au minimum (appelé aussi nœuds) et partageant une baie de disques
commune, pour assurer une continuité de service et/ou repartir la charge de calcul
et/ou la charge réseau.

CNIL : La « Commission Nationale de l'Informatique et des Libertés » est l'autorité de


contrôle française en matière de protection des données personnelles.

Confidentialité : Fait de réserver des informations à un petit nombre de personnes


déterminées.

Data Mining : Le Data Mining, ou exploration de données, a pour objet l’extraction d'un
savoir ou d'une connaissance à partir de grandes quantités de données, par des
méthodes automatiques ou semi-automatiques.

Page 46
Data Warehouse : Le Data Warehouse, ou « Entrepôt de données », désigne une base
de données utilisée pour collecter, ordonner, journaliser et stocker des informations
provenant de base de données opérationnelles et fournir une aide à la décision en
entreprise.

Disponibilité : Propriété d'un système informatique comparant la durée pratique


pendant laquelle ce système est opérationnel à la durée maximale pendant laquelle il
pourrait l'être.

Habilitation : L'habilitation de sécurité est une procédure permettant à une personne


d'avoir accès à des informations protégées.

Hadoop : Hadoop est un Framework Java libre destiné à faciliter la création


d'applications distribuées et scalables. Il permet aux applications de travailler avec des
milliers de nœuds et des pétaoctets de données. Hadoop a été inspiré par les
publications MapReduce, GoogleFS et BigTable de Google.

HDFS : Hadoop Distributed File System est un système de fichiers distribué permettant à
des applications d'accéder aux données avec une grande rapidité.

Intégrité : État d’un tout, d’une chose qui est dans son entier.

IP : « Internet Protocol » est un protocole d'adressage utilisé pour communiquer entre


plusieurs machines sur un même réseau.

Les trois « V » : Volume, Vitesse, Variété.

MapReduce : Un système permettant l'exécution d'algorithme en distribuant la charge


sur plusieurs nœuds de calcul.

Page 47
Mapping : Une opération associant à chaque élément d'un set (d'un domaine), un
élément d'un second domaine, formant un nouveau set.

MCO : Maintien en Conditions Opérationnelles.

NoSQL : Not Only SQL.

Open source : La désignation « Open Source » s’applique aux logiciels dont l'accès au
code source est autorisé par son auteur, permettant ainsi la mise en place de logiciels
dérivés.

PCI DSS : Le « Payment Card Industry Data Security Standard » (PCI DSS) est un standard
de sécurité relatif aux paiements par cartes bancaires utilisé mondialement.

Reducing : Le procédé récursif qui à partir d'un set de données produit une valeur en
traitant récursivement les sous-parties du set.

Réplication : La copie d'une donnée à de multiples endroits en vue de conserver son


intégrité et sa disponibilité.

Sérialisation : Un processus visant à coder l'état d'une information qui est en mémoire
sous la forme d'une suite d'informations plus petites (dites atomiques, voir l'étymologie
de atome) le plus souvent des octets voire des bits.

SGBD : Système de Gestion de Base de Données

SGBDR : Système de Gestion de Base de Données Relationnelles

Système distribué : Un système informatique distribué est une collection de postes ou


calculateurs autonomes qui sont connectés à l'aide d'un réseau de communication.

Page 48
Tests d'intrusion : Un test d'intrusion est une méthode d'évaluation de la sécurité d'un
système ou d'un réseau informatique.

Traçabilité : Ensemble des informations, documents, etc., qui permettent de connaître


tout l’historique de la production et de la distribution d’un produit.

Page 49
7 Annexes

7.1 Solucom

Solucom est un cabinet de conseil en management et système d’information. Les


clients de Solucom sont dans le top 200 des grandes entreprises et administrations. Pour
eux, Solucom est capable de mobiliser et de conjuguer les compétences de près de
1000 collaborateurs. Sa mission ? Porter l’innovation au cœur des métiers, cibler et
piloter les transformations créatrices de valeur, faire du système d’information un
véritable actif au service de la stratégie de l’entreprise.

Solucom est coté sur NYSE Euronext et a obtenu la qualification entreprise innovante
décernée par OSEO innovation.

Pour en savoir plus, venez découvrir http://www.SolucomINSIGHT.fr, le magazine en


ligne de Solucom.

7.2 Epita

Créée il y a 25 ans, l’EPITA est l’école d’ingénieurs qui forme celles et ceux qui
conçoivent, développent et font progresser les technologies de l’information et de la
communication (TIC), au cœur des changements du 21ème siècle.

Page 50