VSST2015

BIG DATA : LE QUOI, LE POURQUOI ET LE COMMENT
Fatima-Zahra Benjelloun (*), Ayoub Aitlahcen (*,**), Samir Belfkih (*)

fatimazara.benjelloun@gmail.com, ayoub.aitlahcen@univ-ibntofail.ac.ma, samir.belfkih@univ-ibntofail.ac.ma
(*) LGS, ENSA, Université Ibn Tofail, Kénitra, Maroc,

(**) LRIT, Unité associée au CNRST URAC 29, Université Mohammed V, Rabat, Maroc,
Mots clefs :
Big Data, les opportunités du Big Data, les applications du Big Data, les technologies du Big Data.
Keywords :
Big Data, Big Data opportunities, Big Data applications, Big Data technologies.
Palabras clave :
Big Data, Las oportunidades de Big Data, las aplicaciones de Big Data, las tecnologias de Big Data.
Résumé
La valeur du Big Data est aujourd’hui reconnue par différents industriels et gouvernements. L’exploitation efficace et efficiente du Big Data permet d’assurer
un avantage concurrentiel et apporte de la valeur pour plusieurs secteurs économiques et sociaux. En effet, nombreux gouvernements ont lancé des
programmes, avec de gros investissements, pour soutenir la recherche et le développement dans ce domaine. Le secteur privé s’est également investi pour
maximiser les profits et optimiser les ressources. Cet article présente de nombreux projets, opportunités, exemples, modèles et démarches autour du Big Data,
notamment dans les secteurs de : santé, recherche, commerce, transport, tourisme, politique et technologie.
1 Introduction
La valeur du Big Data est reconnue aujourd’hui par différents industriels et gouvernements. En effet, plusieurs projets autour du Big Data, avec de gros
investissements, ont été lancés par le gouvernement des Etats-Unis [1] et autres pays afin d’extraire un maximum d’avantages. Les recherches de Gartner [2]
confirment que l’exploitation efficace et efficiente du Big Data permet d’innover en découvrant de nouvelles informations et un savoir précieux pour les
organisations. Un tel savoir permet non seulement de réaliser des économies d’échelles mais aussi de supporter la prise de décision des managers. En effet,
l’analyse en temps réels de plusieurs sources de formats hétérogènes (flux de données collectées en interne, données des tiers, données externes) et d’optimiser
les processus en décelant les failles opérationnelles ou managériales. Ainsi l’analyse des Big Data apporte de la valeur et un avantage concurrentiel pour
plusieurs secteurs économiques et sociaux [3][4].
De nos jours, les données sont générées rapidement par plusieurs sources distribuées et hétérogènes. La majorité des technologies traditionnelles ne sont plus
adéquates [5] pour prendre en charge ces Big Data car souvent ils manquent de performance, de flexibilité et d’évolutivité. En effet, Big Data requièrent de
nouvelles technologies plus flexibles et plus performantes, ainsi que de nouvelles méthodes d’analyses fiable et robuste pour stocker, traiter, analyser,
sécuriser et visualiser des billions de données en un temps record. Les Big Data nécessitent également le développement de nouvelles compétences, méthodes
et modèles pour assurer la fiabilité du processus de traitement et d’analyses des données. Savoir interpréter les résultats est une tâche dédiée aux Data
Scientists.
Le Big Data est défini par ses trois caractéristiques fondamentales, soit les 3V : Volume (données massivement générées chaque seconde), Vélocité (des
données qui changent et se dupliquent rapidement), Variance (données provenant de plusieurs sources hétérogènes et dans différents formats) [6]. Selon [7]
ces trois caractéristiques doivent coexister afin de confirmer qu’une source est bien une source du Big Data. Si l’une de ces caractéristiques est absente, on ne
peut donc parler du Big Data. [7] et [5] mentionnent d’autres caractéristiques des Big Data telles que la Vision (l’objectif visé par l’exploitation du Big Data),
la Vérification (les données traitées doivent respecter certaines exigences), la Validation (l’objectif visé est atteint), la Complexité (il est difficile d’organiser
et d’analyser les Big Data à cause des relations complexes entre les données) et la Permanence (les données collectées et sauvegardées peuvent être
permanentes et accessibles en tout temps si elles sont bien gérées).
D’autres avancent que le Big Data se définit par tout grand volume de données numériques que l’on ne peut adéquatement collecter et traiter par le biais des
technologies et méthodes existantes.
Cet article présente de nombreux projets, opportunités, exemples, défis de data mining, solutions technologiques développées pour Big Data. La section 2
donne des exemples concrets dans différents secteurs d’activité. La section 3 présente les défis et solutions pour l’analyse des Big Data. La section 4 présente
les technologies des Big Data.
2 Opportunités du Big Data

Cette section présente les opportunités, les bénéfices et les nouveaux modèles (prédictifs, décisionnels, de regroupement par profil ou catégorie, etc.) dans le
contexte du Big Data, notamment dans les secteurs suivants : la santé, le commerce, l’agriculture, le tourisme, le transport, la politique, les technologies de
l’information et la recherche.
2.1 Secteur de la santé

L’analyse efficace et en temps réel des Big Data a déjà fait ses preuves dans le domaine de la santé. En effet, plusieurs modèles ont été testés pour améliorer le
service médical privé et public, de même que la qualité de vie des patients, et ce, dans différents pays.
Big Data peut encore révolutionner le domaine de la santé, non seulement en soutenant l’optimisation des services opérationnels, mais aussi en offrant des
outils d’aide à la décision plus efficaces et en diminuant les coûts importants de ce secteur [8]. En bref, l’exploitation et l’intégration adéquate de larges
sources de données médicales apportent plusieurs opportunités notables, en particulier :
- L’optimisation des services et des dépenses médicaux : L’analyse du Big Data aide les organismes œuvrant dans le secteur de la santé à mieux
détecter les services nécessitant une réorganisation et à suivre en temps réel la qualité des services rendus et la performance des unités médicales, de
même que leurs besoins en approvisionnement humain et matériel. Des projets recommandent de collecter et suivre automatiquement le feedback des
patients sur les services offerts afin d’améliorer leur satisfaction ;
- La personnalisation des services médicaux : A titre d’exemple, en exploitant l’analyse des données en temps réel, des modèles médicaux permettent
de suivre à distance l’état des patients pour ajuster les doses ou faire des recommandations selon les symptômes relevés. En effet, certains projets se
basent sur des détecteurs intelligents (smart sensors) connectés aux Smartphones ou à des glucomètres pour suivre le taux de glycémie chez les
diabètes ou pour suivre d’autres symptômes selon la maladie. L’information est montée automatiquement aux médecins pour évaluer l’efficacité du
traitement, adapter la prescription des médicaments ou ajuster les doses. De telles informations servent à prévenir les détériorations et à transmettre
des alertes pour intervenir en cas d’urgence ;
- Une meilleure compréhension de l’évolution des maladies : Le Data Mining de larges sources d’informations sur les virus contractés et sur les ADNs
des patients peut aider à mieux comprendre certaines maladies, de même que les risques héréditaires ou génétiques reliées à la santé des individus. Un
soutien à la prise de décision médicale : par exemple, l’analyse de l’historique des interventions par profil des patients permet de choisir plus
adéquatement les futures interventions, en combinant l’analyse des données collectées sur le patient et l’analyse de l’historique des patients qui ont un
profil similaire.
- Une meilleure prévention : Grâce à l’analyse avancée des flux de données cliniques collectés dans le secteur public et privé, les modèles prédictifs du
Big Data peuvent aider à mieux planifier les moyens de prévention et à soutenir la gestion des épidémies, en particulier la détection précoce des signes
alarmants touchant la santé de la population. Cela aide les décideurs à élaborer des plans de réponses optimisés selon le besoin de chaque région et
selon la gravité des symptômes des individus ;
- L’intégration de plusieurs sources médicales distribuées et hétérogènes constitue un défi de taille. Afin de réussir ce pari et de mieux exploiter les
opportunités du Big Data dans le secteur de la santé, il est important de créer une synergie entre les différents acteurs de ce secteur (privés et publics).
Le but étant de faciliter l’intégration et le Data Mining en temps réel de plusieurs sources médicales. En outre, l’accès aux données et l’intégration des
différentes plateformes médicales relève un autre défi lié à la sécurité des dossiers médicaux, au respect de la vie privée des malades, et à la
conformité aux lois, aux règlements et aux critères de qualité [8].
2.2 Secteur du commerce

Les données constituent un actif stratégique et tangible pour les entreprises. En effet, grâce aux technologies du Big Data, l’intégration et l’analyse avancées
en temps réel de grands volumes de données permettent de transformer les modèles d’affaires traditionnels, de maximiser les profits et de créer de la valeur.
D’après [5], "il est estimé que le marché du Big Data augmenterait de 45% annuellement, et atteindrait environ 25 Milliards de dollars en 2014".
2.2.1 Marketing ciblé et en temps réel (Targeted Advertizing)
De nos jours, les données produites chaque seconde liées aux comportements des consommateurs en magasin ou en ligne sont énormes (transactions, clicks en
ligne, données de capteurs intelligents, code barre des produits achetés, géo-localisation, vidéo surveillance des consommateurs, etc.). Pour ne pas manquer
des opportunités commerciales et afin d’augmenter la satisfaction des clients, il devient impératif de traiter ces données en temps réel et de réagir
immédiatement (ex. augmenter ou diminuer la production d’une usine). Les entreprises gagnent donc à investir dans des technologies d’avant-garde et de
prédiction afin d’améliorer l’efficacité de leurs services et promotions, d’optimiser les processus d’affaires et de mettre en œuvre des politiques commerciales
efficaces.
Les stratégies du Big Data reposent notamment sur des techniques d’analyses avancées (Big Data Analytics), le marketing ciblé (Behavioral Targeting) et le
marketing en ligne (Web Advertizing) [9]. À titre d’exemple, Facebook, Google, Amazon et d’autres compagnies qui proposent des services de carte crédit
(Equifaxe et Transunion) collectent des informations sur les internautes pour les vendre ou les analyser [10].
2.2.2 Prévisions commerciales
Grâce à l’analyse des Big Data, il est possible de générer différents modèles prédictifs. Par exemple, le secteur du commerce du détail peut exploiter ses
données pour prévoir les besoins en approvisionnement et assurer une gestion de stock optimale. Le secteur financier peut également exploiter les Big Data
pour prédire le cours des actions et les fluctuations du marché. Cela offre un meilleur suivi des tendances micro et macro économiques. Les managers et les
décideurs peuvent ainsi mieux se préparer pour saisir les opportunités commerciales ou se prémunir contre les récessions économiques [11].
2.2.3 Modèle d’affaires du Big Data
L’exploitation efficace et efficiente des données internes et externes permet non seulement d’améliorer les produits et services, mais aussi de créer de
nouveaux modèles d’affaires. De tels modèles rendent l’entreprise plus agile et assurent un avantage concurrentiel important. Par exemple, certaines
entreprises réalisent des bénéfices et créent de la valeur en vendant les données collectées et leurs résultats d’analyses avancées à des tiers. Toutefois, le défi
d’assurer une gestion et un traitement optimal du Big Data est de taille.
Selon [12], le nouveau Modèle d’Affaires amené par le Big Data comporte cinq phases selon le niveau de maturité des entreprises :
- Surveillance : il s’agit au début de surveiller l’efficacité des processus d’affaires afin d’apporter les ajustements requis à son modèle ;
- Analyse en temps réels : il s’agit d’analyser les données en temps réel afin de développer des modèles de prédiction du comportement et de capturer
les besoins du client et ses décisions. Le but étant de maximiser les profits et d’augmenter la satisfaction des clients ;
- Optimisation : il s’agit d’exploiter les Big Data pour découvrir les opportunités, élaborer des modèles de prédiction et optimiser les processus et
stratégies d’affaires ;
- Monétisation : il s’agit à ce stade d’exploiter la valeur ajoutée générée par les données collectées ou produites au moyen des processus d’affaires ;
- Métamorphose : il s’agit de transformer le modèle d’affaire d’un modèle centré sur les produits à un modèle centré sur un écosystème. Ce dernier se
base sur une plateforme commune qui doit être rentable non seulement pour l’entreprise mais aussi pour plusieurs tiers.
2.2.4 Exemple de Walmart
Le modèle de Walmart (entreprise américaine et multinationale de distribution) est un exemple de métamorphose d’affaires. La force de son écosystème
repose sur l’analyse en temps réel et la vente des données capturées sur le comportement des consommateurs et les informations des scanners aux points de
ventes aux différents partenaires (fournisseurs, distributeurs, agences de marketing, etc.). Une telle accessibilité aux données commerciales en temps réels
permet d’ajuster les stratégies de toute la chaine de valeur et donne à Walmart le pouvoir d’influencer la décision des partenaires pour maximiser les profits,
optimiser les prix, et réduire les coûts. De plus, les partenaires peuvent créer de nouveaux services et produits autour de cette plateforme commune.
En résumé, l’exploitation efficace et efficiente du Big Data permet de révolutionner les modèles d’affaire et d’augmenter les profits à tous les niveaux de la
chaine de valeur. Son pouvoir réside dans l’intégration, l’analyse et le partage en temps réel des données sur le marché tout en considérant d’autres facteurs
(conditions économiques, prévisions climatiques, vacances et fêtes, etc.). Différentes applications Big Data commencent à être proposées pour assister les
entreprises et leur apporter les avantages concurrentiels suivants : la prédiction de la demande et des tendances des marchés, l’optimisation de la chaine
d’approvisionnement, la surveillance de l’efficacité des promotions, l’optimisation des prix, l’amélioration des produits et services, la fidélisation des clients,
etc., [12].
2.3 Secteur de l’agriculture

L’accès aux flux de données reliées à l’agriculture provenant de plusieurs sources (capteurs intelligents, caméras, agriculteurs, données sur le climat, etc.)
permettrait d’améliorer la productivité des terres agricoles, de planifier des stratégies efficaces de protection ou d’approvisionnement et de mieux suivre la
demande du marché par région et par type de clients.
Par exemple, selon [13], un projet japonais vise à développer un system avancé d’analyse afin de recommander aux utilisateurs finaux, selon leurs préférences
ou symptômes, la meilleure combinaison de produits alimentaires, les restaurants offrant le menu répondant aux exigences, et les producteurs offrant les
produits désirés (tels que les produits bio). Le système vise à interconnecter les parties prenantes à travers une plateforme commune intégrant les données
provenant de plusieurs acteurs (utilisateurs, restaurants, producteurs agricoles). Ce système permettrait d’accéder aux informations utiles par profil et une
interaction entre ces acteurs.
2.4 Secteur du tourisme

Plusieurs modèles Big Data ont vu le jour ou sont en émergence dans l’optique d’améliorer les activités touristiques et de mieux servir les touristes. Grâce, par
exemple, aux données géographiques, il est possible d’extraire des informations pour mieux comprendre le comportement et les préférences des touristes et
améliorer les services privés et publics associés. De plus, il est possible d’envoyer aux touristes en temps réels des recommandations de sites à visiter et des
activités. S’il est d’accord, le touriste n’a qu’à suivre le chemin proposé par le système [14].
Les recommandations sont le fruit d’une combinaison d’une part des résultats d’analyse de l’historique des tendances des touristes précédents et d’autre part
des résultats d’analyse en temps réels du comportement du touriste, son profil, sa géo-localisation et les sites visités. Les données collectés des GPS peuvent
être exploitées en appliquant des algorithmes tels que : Le chemin séquentiel, les règles d’association, K-means, les chemins Q, le centre géo-graphie des
chemins séquentiels.
2.5 Secteur du transport

L’application des technologies du Big Data au domaine du transport apporte plusieurs avantages. En effet, en ayant la possibilité d’analyser efficacement et
rapidement une panoplie de flux de transport, il est possible d’améliorer la satisfaction des passagers et d’offrir des outils d’aide en temps réels aux
conducteurs, en considérant plusieurs facteurs : localisation et destination, prévisions climatiques, préférences des clients, historiques et tendances, etc. Cela
permettrait d’optimiser les circuits des taxis entre les villes et les aéroports, réduire le temps d’attente, identifier les périodes de pénuries ou d’excès des
moyens de transport en commun, créer un équilibre dans la répartition des moyens de transport selon les prédictions de l’offre et de la demande.
Actuellement, les modèles émergents permettent de tester l’efficacité et l’impact des politiques de transport existantes et de formuler des recommandations
aux différents acteurs de transports (managers, chauffeurs de taxis, voyageurs, etc.). Le but étant d’améliorer les politiques, optimiser les services et maximiser
les profits. À titre d’exemple, un modèle du Processus de Décision des Chauffeurs de Taxis de NewYork, permet de capturer et de suivre les décisions des
chauffeurs de taxi servant l’aéroport de NewYork [15]. Ce modèle décisionnel se base sur une analyse de la décision binaire des chauffeurs de taxis (prendre
les clients de l’aéroport ou chercher les clients ailleurs après chaque voyage). Ce modèle analyse également les facteurs influençant la décision des chauffeurs
au moyen de la prédiction par Régression Logistique. La puissance de ce modèle repose notamment sur l’intégration et le traitement en temps réel de plusieurs
données provenant de plusieurs sources hétérogènes (GPS des taxis, Système d’information de l’Aéroport, information en ligne sur le climat, information sur
la séquence des voyages effectuées par chaque taxi, information sur les périodes de pénurie ou d’excès de taxis, etc.).
En résumé et vu le rôle important de ce secteur, l’exploitation des technologies du Big Data et des nouvelles méthodes d’analyse peut non seulement
augmenter la satisfaction des voyageurs et soutenir la prise de décision mais aussi de maximiser les profits tout en créant une synergie optimale entre les
différents acteurs de ce secteur.
2.6 Secteur de la politique et des services publics

Pour ce secteur, sont présentés deux exemples d’application du Big Data. Le premier exemple présente quelques opportunités exploitables par les
gouvernements. Le deuxième exemple présente l’application du Big Data dans la science politique.
2.6.1 Surveillance et prédiction pour une meilleure gouvernance
Plusieurs gouvernements ont commencé à analyser différentes sources d’information incluant notamment le contenu des caméras de surveillances publiques et
privées, des réseaux sociaux, des transactions en ligne, des satellites et signaux de GPS. Le but étant d’extraire des informations utiles et d’élaborer des
modèles de prédiction afin d’optimiser les stratégies gouvernementales dans plusieurs secteurs, d’améliorer les services offerts aux citoyens, de prévoir les
événements à venir et leurs impacts, d’identifier les suspects et les organisations criminelles ou terroristes, de protéger les citoyens, de freiner les crimes, etc.
[16].
2.6.2 Géo-politique
Une recherche réalisée par [17] montre comment le Big Data peut être appliqué à la géo-politique et soutenir l’avancement de la science politique. Selon cette
recherche, le Big Data peut aider à analyser ou détecter quelques tendances politiques, prévoir l’impact des élections sur la situation des pays, vérifier la
validité de certaines opinions, suivre les objectifs politiques menés par les présidents et apprécier leur confiance par rapport aux sujets traités en politique.
2.7 Secteur des technologies
Les techniques et les méthodes d’analyse conventionnelles sont généralement coûteuses et ne sont pas bien adaptées pour analyser et supporter le traitement
rapide de larges sources de données (terabytes à zetabytes, voir plus) en perpétuelle évolution. Face à cette réalité, la révolution du Big Data a poussé les
industries à :
- développer des technologies plus performantes et moins coûteuses offrant de nouvelles possibilités pour nettoyer, sauvegarder, traiter et analyser
efficacement et en temps réel de très grands volumes de flux de données. Ces technologies telles que les bases de données NoSQL, l’exploration des
flux de données, le clustering et le traitement complexe des événements permettent de traiter des données hétérogènes, non structurées ou incomplètes,
et de différents formats [18];
- développer de nouvelles plateformes et applications plus performantes et moins coûteuses pour mieux gérer, contrôler et analyser les informations de
la sécurité. En effet, alors que le traitement des événements de sécurité prenait de 20 min à 1h à travers les logicielles traditionnelles SIEM. Le même
traitement prend environ 1 min grâce au système d’analyse de Hadoop [19]. Auparavant, la majorité des événements de sécurité devaient être
supprimés après 60 jours par faute de moyens efficaces de sauvegarde. Grâce aux technologies du Big Data, il est possible, dans une vision d’analyse
à long terme, de sauvegarder un large volume des événements de sécurité pour une plus long durée. Cette option permet de pouvoir combiner les
résultats d’analyse des flux d’information (données en mouvement) à ceux des historiques (données statiques). Par conséquent, les outils du Big Data
améliorent la détection des failles et des menaces de sécurité de même que l’analyse rapide et efficace des événements provenant de plusieurs sources
(Pare-feu, caméra de surveillances, événements d’achats par cartes Visa aux magasins, transactions en ligne, événements de processus d’affaires, etc.).
2.8 Secteur de la recherche

Grâce aux technologies de plus en plus performantes du Big Data, il est possible de sauvegarder de larges volumes de données et d’intégrer plusieurs
plateformes de systèmes d’information pour extraire très rapidement des informations pertinentes. Les chercheurs peuvent donc accéder plus facilement à
plusieurs sources (données cliniques, archives des recherches, flux de données en temps réel à partir des capteurs intelligents ou des caméras, informations
collectées à partir des réseaux sociaux, etc.). Ils peuvent également effectuer plus rapidement des analyses avancées et appliquer des algorithmes complexes
sur les Big Data pour tester et valider leurs théories, découvrir des modèles, ou étudier des phénomènes importants.
De plus, le caractère permanent du Big Data permet d’assurer le contrôle de la qualité des tests et des recherches (dans le domaine biologique, informatique,
mathématiques ou autres), en ayant la possibilité de vérifier en tout temps la fiabilité du processus, des données, des méthodes utilisées et des résultats.
3 Les défis d’analyse des Big Data

Les algorithmes du Data Mining sont de plus en plus appliqués dans le contexte du Big Data. Les modèles générés permettent entre autres, de soutenir la prise
de décision des managers, de réformer les processus opérationnels, d’améliorer les services et les produits offerts à la clientèle, de prévenir les risques de perte
de clients ou de bénéfices, de mieux cibler les clients par la publicité personnalisée et d’agir sur les variables affectant la décision des clients.
Afin de tirer le meilleur parti des projets de Data Mining pour le Big Data, [11] recommande une approche formalisée à suivre. Selon cette approche
générique, il est recommandé de suivre les phases suivantes : définir l’objectif du projet, définir et préparer les données, analyser les données, générer les
modèles de regroupement et/ou de prédictions, mettre en œuvre le(s) système(s) d’information pour exploiter les résultats de Datamining et les mettre à la
disposition des managers.
L’analyse des Big Data apporte des défis indéniables. Certes, les avancées technologiques permettent de plus en plus de traiter des données à grand échelle en
minimisant le temps de calcul. Mais il n’est pas facile d’assurer la précision et la fiabilité des résultats d’analyse. Pour éviter des modèles et des résultats
biaisés il convient :
- de cerner les besoins organisationnels en terme d’analyse des Big Data : Les modèles et les algorithmes d’analyse doivent être choisis en tenant
compte des objectifs visés par l’organisation à court et moyen terme. Il faut également comprendre les besoins d’affaires actuels et futurs en termes
d’analyse et de prédiction, ainsi que présenter les résultats dans un format compréhensible.
- de choisir des modèles d’analyse fiables : Il ne s’agit pas de considérer l’état des sources de données mais aussi de prévoir l’évolution future en terme
de variété de sources et de volume (données en entrée et en sortie, données interne et externe).
- d’identifier l’échantillon de données et choisir sa taille idéale : afin d’économiser les ressources de traitements et minimiser le temps de calcul. Par
exemple, la technique de classification Bayésien peut produire des modèles prédictifs sans nécessairement utiliser de larges volumes de données.
Parfois, la grande quantité de données utilisées pour établir un modèle ou faire des prédictions peut engendrer des résultats biaisés (cela a été déjà
rencontré lors de recherche médicales basés sur le Big Data). Donc, maitriser le contexte et la complexité des données aide à définir l’échantillon de
données et sa taille optimale. Un tel échantillon des Big Data doit être représentatif et assez variés pour alimenter et entrainer les algorithmes.
- d’évaluer l’efficacité des modèles prédictifs pour chaque cas d’utilisation. Il est difficile de prévoir la nature des futurs flux de données ce qui peut
biaisés les résultats d’analyse.
Il importe donc de bien étudier la nature des sources de données et de tester l’efficacité des modèles par le biais d’un processus itérative. Le but étant de
choisir des modèles plus précis et surtout plus fiable. Dans le cas des Big Data, la haute précision du modèle d’analyse peut être bien pour certains échantillon
de données mais peut être biaisé quand on ajouter de nouvelles données. Les analystes de données doivent donc mener plusieurs essais afin de choisir le
niveau de variances optimal et dans certains cas minimiser le niveau de précision afin d’accommoder un plus grand volume et variété de données. En d’autres
termes, étudier les trades-off entre précision d’algorithme et variance.
Plusieurs outils, plateformes et softwares ont été développés ou améliorés pour relever le défi d’analyse des Big Data. Ils reposent sur des calculs distribués
afin de gagner du temps et assurer la performance des systèmes.
4 Les technologies Big Data

Les technologies et les méthodes traditionnelles du datamining ne sont pas tout à fait adapter à la nature complexe des Big Data (volume, vélocité et variété).
En effet, de telles technologies sont souvent peu efficaces, moins rapides et n’arrivent pas à assurer le stockage, le traitement, l’analyse et la visualisation de
grands volumes hétérogènes de données. Plusieurs questions se posent donc dans ce contexte : comment analyser en temps réels des flux de données en
perpétuelles croissance provenant de plusieurs sources distribuées et ayant des formats hétérogènes ? Comment visualiser efficacement les résultats
d’analyse? Comment sécuriser de gros volumes de données sans affecter la valeur des données ni la performance des systèmes? Comment protéger la vie
privée des utilisateurs des plateformes communes des Big Data tout en assurant un accès granulaire et rapide aux données.
Afin de faire face à de tels défis, les communautés de recherche ne cessent de travailler pour développer de nouvelles technologies des Big Data plus rapides,
flexibles et évolutives. Ainsi, diverses solutions privées ou open-sources ont été proposées. L’objectif est de soutenir les hautes directions et les managers à
prendre rapidement les meilleures décisions à la lumière du savoir extrait de l’analyse. Ci-après, un aperçu de nouvelles technologies apportées par la
révolution des Big Data.
4.1 Infrastructures et plateformes pour les Big Data
Plusieurs plateformes basées sur le concept de MapReduce ont été développées afin de prendre en charge le stockage et l’analyse de grands volumes de
données structurées et non structurées (ex. Apache Hadoop, Skynet, Sailfish et FileMap).
De tels plateformes permettent non seulement de stocker et traiter les données permanentes (telles que les logs et les grands objets binaires) mais aussi les flux
de données collectés (telles que les commentaires des utilisateurs sur les réseaux sociaux, les données de GPS, la navigation des utilisateurs sur le Web, les
événements des capteurs intelligents, etc.).
De telles plateformes sont basées sur de solides concepts incluant les éléments suivants :
- Stockage distribués de données : contrairement aux plateformes traditionnelles de gestion de données, les plateformes des Big Data (Hadoop, Disco et
autres) divisent les grands fichiers de données en blocks ( habituellement 64 bits ou plus ) et les stockent sur de multiples nœuds. Ils sont adaptés pour
être déployés sur des serveurs économiques et assurent un accès rapide aux flux de données [20].
- Traitement massivement parallèle (TMP ou Massive Parallel Processing (MPP)) : les multiples taches de traitement de données sont exécutées en
parallèle à travers plusieurs serveurs. Le TMP permet donc d’éviter de copier les données distantes afin d’exécuter les calculs requis. En effet, les
tâches sont exécutées directement sur les nœuds ou se trouvent les données concernées afin d’éviter la congestion du réseau et d’assurer un traitement
rapide.
- Tolérance aux erreurs et évolutivité : afin d’assurer aucun point de panne ou d’erreur, les systèmes des Big Data reposent souvent sur une architecture
fiable. Ils reposent également sur la redondance des données (comme Hadoop) ou le concept de rétablissement par des pairs (recovery concept)
comme Skynet [21]. Plusieurs systèmes des Big Data offrent la possibilité d’ajouter plusieurs clusters de serveurs et d’autres composants afin de
supporter plus de données et d’assumer le traitement massif.
Afin d’offrir un écosystème de solutions complet, la plupart des plateformes des Big Data se composent de plusieurs composantes privées et open-source (tels
que Hortonworks Data Platform (HDP) [22] et IBM InfoSphere BigInsights [23]). En effet, de tels systèmes visent à exploiter les avantages des
implémentations de MapReduce, de simplifier leur utilisation et d’élargir leur capacité. Par conséquent, les solutions des Big Data sont multiples et peuvent
être intégrés selon le besoin d’utilisation :
- Des outils d’intégration des sources des Big Data (tels que Sqoop, Flume and DataLoader);
- Des outils de gestion de resources, de workflows et des services (tels que Cloudera Manager, Yarn, Oozie et Zookeeper);
- Des outils de gestion de métadonnées (tels que Hcatalog);
- Des outils d’analyse de données (tels que R, Mahout, Chukwa et Teradata Analytical Ecosystem);
- Des outils de recherche interactive et d’interrogation des bases de données (tels que Cloudera search, Sphinx Search Server et Facebook Unicorn [24]
lequel est un système d’indexation in-memory développé pour la recherché de trillions de données à partir de millions de serveurs) ;
- Des outils de visualisation de données (tels que Advisor, Visual Analytics et Centrifuge).
Par conséquent, grâce aux efforts déployés dans ce domaine, les managers et les spécialistes de données peuvent compter sur des technologies des Big Data de
plus en plus économiques, efficaces, fiables et d’utilisation conviviale. Les gestionnaires ont la possibilité de choisir entre une solution complète ou élargir les
capacités de leurs infrastructures existantes en intégrant des composantes des Big Data. Par exemple, Oracle Big Data Apliance [25] intègre dans un seul
système, la force d’une infrastructure conforme aux standards fusionnant l’expérience riche d’Oracle et les avantages des composantes open-sources
d’Apache Hadoop.
4.2 Bases de données pour le Big Data

4.2.1 NoSQL
Les bases de données SQL (SMBDR) requièrent une structure de données bien définies et ont une capacité de stockage limitée. Toutefois, Big Data apporte
des flux de données colossales non structurées ou semi-structurées de différents formats. Cela rend les SMBDR inadéquates pour les cas d’utilisation des Big
Data. Par contre, les bases de données NoSQL (ex. HBase, Cassandra, DynamoDB, MongoDB, Riak, Redis, Accumulo, Couchbase, etc.) offrent plus de
flexibilité pour s’accommoder aux différentes structures de données non relationnelles. Ils supportent un ou plusieurs modèles de données flexibles incluant :
clé-valeur, documents, graphes (pour des données hautement connectées) et colonnes.
Cependant, NoSQL présentent quelques désavantages. Contrairement aux bases de données relationnelles, la pluparts des bases de données NoSQL ne se
basent pas sur les principes ACID. En effet, ils offrent la disponibilité de grands volumes de données au détriment de la fiabilité des transactions. De plus, Ils
sont souvent longs à exécuter de grandes requêtes ou à supporter la fusion de plusieurs requêtes [26]. [27]. [28].
4.2.2 NewSQL
Afin de remédier aux points faibles de NoSQL, NewSQL a été développé pour mieux supporter les applications Big Data en jumelant les avantages des
SGBDR et NoSQL. Basé sur une architecture distribuée, NewSQL assure les principes ACID et supporte les requêtes SQL. Les bases de données NewSQL
sont donc recommandées pour les applications des Big Data nécessitant un bon niveau de disponibilité de données, performance d’exécution et fiabilité de
transaction [29].
4.2.3 Recherche et indexation
Les méthodes de recherches traditionnelles supportent mal les environnements distribuées et la complexité des Big Data. Les entreprises ont besoin d’exécuter
en temps réels de larges requêtes sur de grands volumes de données non structurées et structurées provenant de sources hétérogènes et distribuées. Une telle
demande a poussé le développement de moteurs de recherche (search engines) évolutives basées sur des technologies avancées de recherche et d’indexation
(telles que Lucene and Splunk Processing Language).
4.2.4 Securité des Big Data
La sécurité des Big Data implique la sécurité de l’information de même que la surveillance et le contrôle des échanges [23]. Selon [32], le mangement de la
sécurité des données dans un environnement distribué implique non seulement le management des Big Data mais aussi l’intégrité du système et la sécurité du
cyberspace.
4.2.4.1 Besoin d’outils de sécurité plus rapide
Les technologies des Big Data permettent d’améliorer le management de la sécurité en permettant d’accéder et d’analyser en temps réels plusieurs sources de
données. En effet, le traitement des événements de sécurité prend approximativement 1 minute à travers Hadoop s’il prend 60 min par les outils SIEM
traditionnels [33].
Grâce aux avancées technologiques des Big Data, il est devenu possible d’assurer un stockage fiable des événements de sécurité et des archives et ce pour de
plus longues périodes (les entreprises n’ont plus besoin de supprimer les archives après une certaine période). Il est possible d’appliquer les algorithmes de
datamining sur des flux d’événements de sécurité et de combiner les résultats aux statistiques de sécurité et aux événements archivés. De telles fusions de
sources et corrélations améliorent la détection des incidents de sécurité et des comportements suspects ou anormaux.
4.2.4.2 Les défis de la sécurité des Big Data
Big Data amène de nouveaux défis de sécurité : i) comment appliquer les mécanismes de sécurité aux systèmes distribués ayant différents propriétaires de
données et différentes politiques de sécurité ? ii) comment intégrer la sécurité à de grand volume et flux de donnée sans affecter la valeur des données ou la
performance de système ? iii) comment analyser de larges volumes de données sans compromettre la confidentialité et la privacy ?
En effet, la valeur des Big Data est concentrée sur plusieurs clusters, clouds et centres de données distribués à travers le Net. De telles mines de données
attirent l’attention des industries, des commerces (avantages concurrentiels et d’innovation), des laboratoires de recherches (découvertes scientifiques
importantes), des gouvernements (surveillance de la sécurité, planification stratégique, etc.). Vu la nature complexe des Big Data, il est difficile de protéger
l’ensemble de données. Des chercheurs proposent de protéger la valeur de données et ses attributs clés au lieu de protéger les données [23].
De plus, les différentes couches de sécurité à tous les niveaux (ex. données, cyber, système) ralentissent souvent la performance de systèmes et affectent
l’analyse dynamique de large volume de données. En conséquence, la sécurité et le control d’accès au Big data sont des ‘’Big’’ problèmes de sécurité.
L’anonymisation de données devrait être réalisée sans affecter la performance et la qualité de donnée. Toutefois, les méthodes existantes d’anonymisation sont
basées sur plusieurs itérations et des calcules exigeants. Cela affecte la performance des systèmes dans le contexte des Big Data. De plus, il devient difficile
d’appliquer des algorithmes d’analyses sur des données anonymisées.
4.2.4.3 Les solutions de sécurité des Big Data
Les propriétaires de sources de données ont la responsabilité d’établir des clauses et des politiques de sécurité en cas de sous-traitance ou de transfert de
données sur le Cloud. Ils ont aussi la responsabilité d’apprécier les risques de sécurité souvent cachés et qui sont liés à l’intégration de différentes technologies
des Big Data (peu matures). Étant le volume croissant de plusieurs solutions open-source ou propriétaire, le choix des technologies à intégrer nécessite une
connaissance approfondies, d’une part, des besoins spécifiques en terme d’analyse et de sécurité des Big Data, et d’autres part, des spécifités de chaque
technologies et des conséquences de fusionnement de plusieurs technologies sur des environnements distribués. Ci-après quelques solutions de sécurité pour
les Big Data :
- Techniques d’anonymisation : afin d’améliorer les techniques d’anonymisation de plusieurs sources de données, [34] propose une méthode basée sur
une seule itération pour la généralisation des opérations. Les recherches se poursuivent afin d’améliorer la capacité de parallélisme, la performance et
l’évolutivité des techniques d’anonymisation.
- Techniques d’encryptage de données : la cryptographie homomorphique vise à assurer la confidentialité des données. Elle permet de faire des calcules
même sur des données cryptées. À cet égard [35] propose une plateforme adaptées aux Big Data afin de supporter les calculs sur Hadoop.
- Technique de privacy : afin d’assurer la privacy des Big Data, plusieurs projets visent à développer des outils de préservation de vie privée basé sur
l’analyse respectant les principes de privacy (preservation aware analysis).
- Mécanismes d’authentifications : de tels mécanismes sont souvent complexes et lourds à appliquer dans le contexte des Big Data impliquant un
environnement distribué. Ci-après des solutions pour relever le défi :
- Kerberos [36] est un protocole d’authentification sur le réseau utilisé par plusieurs entreprises afin de garantir une authentification forte des
applications client\serveur.
- Apache Sentry [37] est un system d’autorisation. Il renforce le respect des règles de sécurité et offre un control d’accès granulé aux données et aux
métadonnées basé sur les rôles.
- Knox [32] assure l’authentification. Ainsi, les utilisateurs peuvent accéder aux différentes machines d’un cluster à travers un seul point d’entrée soit
pour accéder aux données ou pour exécuter les tâches sur Hadoop. Il permet de contrôler l’accès aux services d’Hadoop à travers la vérification de la
sécurité basée sur des tokens.
5 Conclusion
Les avancées technologiques commencent à permettre d'exploiter le Big Data en supportant des analyses complexes et en temps réel de large volume de
données provenant de plusieurs sources hétérogènes. Les applications Big Data ouvrent de nouvelles possibilités dans plusieurs secteurs. En effet, les
informations extraites constituent un avantage concurrentiel. L'analyse des flux de données combinée à l'analyse des historiques et à la génération des modèles
prédictifs ou d'identification permettent entre autres d'optimiser les processus organisationnel, d'améliorer les services, d'adapter l'offre à la demande, etc.
De nouveaux modèles sont proposés dans ce contexte tel que le modèle d'affaires du Big Data. Ce dernier apporte un nouveau concept de synergie entre les
différentes parties prenantes et les acteurs clés de la chaine de valeur dans un secteur donné. Sans une telle synergie et collaboration, l'exploitation du Big Data
ne peut donner des résultats satisfaisants et optimaux. L'intégration des modèles prédictifs dans les systèmes d'information organisationnels permet de soutenir
la prise de décision en temps réels, la génération des alertes pour se prémunir contre les risques de sécurité, les épidémies, les récessions commerciales, les
changements climatiques, de surveiller la fluctuation des tendances et des demandes pour adapter l'offre, et optimiser la gestion des stocks.
L’analyse du Big Data ouvre de nouvelles perspectives. Toutefois, un tel projet doit suivre une approche formalisée afin de tirer le meilleur parti du Big Data.
La démarche, les techniques d'analyse et de modélisation à adopter doivent être choisies en fonction de l'objectif visé, de la nature des données analysées et
des préférences des managers et des décideurs.
Malgré les avancées reliées au Big Data, il convient de souligner que la mise en œuvre des modèles d'analyse et de prédiction ne peut remplacer une bonne
gestion de connaissance ni la supervision ou l'intervention des analystes. En effet, la double validation par les intervenants de même que la validation croisée
sont donc de mise pour assurer la fiabilité des données, des processus et des résultats.
Les nouvelles technologies de Big Data apportent plus de flexibilité, de performance et d’évolutivité afin de prendre en charge le stockage, le traitement,
l’analyse, la sécurité et la visualisation efficaces et efficientes de larges sources de données. Le choix des technologies dépend entre autres de la nature des
données, des besoins en termes de sécurité et des objectifs d’analyses.
6 Bibliographie
[1] RICK W. et ZGORSKI L., Obama Administration Unveils Big Data Initiative: Announces 200 million in new r&d investments, Oﬃce of Science and Technology Policy, Washington, DC,
2012.
[2] DOUG L., Getting Value from Big Data, Gartner, 2011.
[3] FOSTER P. et TOM F., Data Science for Business: What you need to know about data mining and data-analytic thinking, O’Reilly Media, inc, 2013.
[4] MICHAEL M., Data Just Right : Introduction to large-scale data & analytics, Pearson Education, Inc., 2014
[5] KATAL A., WAZID M. et GOUDAR R., Big Data : Issues, challenges, tools and good practices., Sixth International Conference on Contemporary Computing (IC3), 2013, p 404–409.
[6] WU X., ZHU X., WU G.-Q. ET DING W., Data Mining with Big Data, IEEE Transactions on Knowledge and Data Engineering, vol. 26, no. 1, 2014, p 97–107
[7] BERMAN J. J., Principles of Big Data: Preparing, Sharing, and Analyzing Complex Information, Morgan Kaufmann Publishers Inc., 2013.
[8] NAMBIAR R., BHARDWAJ R., SETHI A. et VARGHEESE R., A Look at Challenges and Opportunities of Big Data Analytics in Healthcare. In IEEE International Conference on Big
Data, 2013, 2013, p 17–22.
[9] CHANDRAMOULI, B., J. GOLDSTEIN et S. DUAN. Temporal Analytics on Big Data for Web Advertising, In IEEE 28th International Conference on Data Engineering (ICDE), 2012, p
90–101.
[10] LESK M., Big Data, Big Brother, Big Money, IEEE Security Privacy, 11(4), 2013, p 85–89.
[11] NETTLETON D. F., Commercial Data Mining : Processing, Analysis and Modeling for Predictive Analytics Projects, Morgan Kaufmann Publishers-Elsevier, 2014.
[12] SCHMARZO B., Understanding How Data Powers Big Business, 2013.
[13] LUDENA R. et AHRARY A., A Big Data Approach for a New ICT Agriculture Application Development, In International Conference on Cyber-Enabled Distributed Computing and
Knowledge Discovery (CyberC), 2013, p 140–143.
[14] ELISABETH E., NOCK R. et Celimene F., Demonstrator of a Tourist Recommendation System. In V. Bhatnagar et S. Srinivasa (Eds.), BDA, Volume 8302 of Lecture Notes in Computer
Science, Springer, 2013, p 171–175
[15] YAZICI M., KAMGA C. ET SINGHAL A., A Big Data Driven Model for Taxi Drivers’ Airport Pick-up Decisions in New York City. In IEEE International Conference on Big Data, 2013,
p 37–44.
[16] CHE D., SAFRAN M. S. et PENG Z., From Big Data to Big Data Mining: Challenges, issues, and opportunities. In B. Hong, X. Meng, L. C. 0002, W. Winiwarter, et W. Song (Eds.),
DASFAA Workshops, Volume 7827 of Lecture Notes in Computer Science, Springer, 2013, p 1–15.
[17] BENSRHIR A., Big Data for Geo-political Analysis: Application on barack obama’s remarks and speeches, in ACS International Conference on Computer Systems and Applications
(AICCSA), 2013, Mai 2013, p 1–4.
[18] CARDENAS A., MANADHATA P. et RAJAN S., Big Data Analytics for Security. IEEE Security Privacy, 11(6), 2013, p 74–76.
[19] CHICKOWSKI E., A Case Study in Security Big Data Analysis, Dark Reading, 2013.
[20] LUBLINSKY B., SMITH K. T. et YAKUBOVICH A. Professional Hadoop Solutions. John Wiley & Sons, 2013.
[21] SKYNET, http://skynet.rubyforge.org/doc/
[22] HORTONWORKS, http://docs.hortonworks.com/
[23] IBM INFOSPHERE BIGINSIGHTS, http://www-01.ibm.com/
[24] CURTISS M., BECKER I., BOSMAN T., DOROSHENKO S., GRIJINCU L., JACKSON T., KUNNATUR S., S. LASSEN, P. PRONIN, S. SANKAR, G. SHEN, G. WOSS, C. YANG,
AND N. ZHANG, Unicorn: A system for searching the social Graph, Proc. VLDB Endow., vol. 6, no. 11, 2013, p. 1150–1161.
[25] ORACLE, White paper: Big data for the enterprise, http://www.oracle.com
[26] MICHAEL S., SQL Databases v. NoSQL Databases. Communications of the ACM, 53(4):10–11, 2010.
[27] MOHAMED, M.A., ALTRAﬁ, O.G., ISMAIL, M.O.: Relational vs. NoQL Databases: A survey. International Journal of Computer and Information Technology, 03(03), 2014, p 598–601.
[28] RICK CATTELL. Scalable SQL and NoSQL Data Stores. ACM SIGMOD Record, 39(4):12–27, 2011.
[29] MARIJANA, Newsql: Handling big data in the enterprise, November 19, 2013. http://bizcloudnetwork.com/newsql-for-enterprise-big-data
[30] LU T., GUO X., XU B., ZHAO L., PENG Y., et YANG H., Next Big Thing in Big Data: The security of the ict supply chain, in International Conference on Social Computing (SocialCom),
2013, p 1066-1073.
[31] HOLTSNIDER ET JAFFE B., Chapter 8 - Security and Compliance, in IT Manager’s Handbook (Third Edition), B. Holtsnider and B. D. Jaffe, Eds. Boston: Morgan Kaufmann, 2012, p
205-246.
[32] APACHE, Apache Knox Gateway 0.4.x Users Guide, http://knox.apache.org/books/knox-0-4-0/knox-0-4-0.html#Quick+Start
[33] ZIN T., TIN P., TORIU T., ET HAMA H., A Big Data Application Framework for Consumer Behavior Analysis, in IEEE 2nd Global Conference on Consumer Electronics (GCCE), 2013,
p 245-246.
[34] X. ZHANG, C. LIU, S. NEPAL, C. YANG, W. DOU, et J. CHEN, A Hybrid Approach for Scalable Sub-Tree Anonymization over Big Data Using MapReduce on Cloud, Journal of
Computer and System Sciences, vol. 80, no. 5, special Issue on Dependable and Secure Computing, 2014, p. 1008-1020.
[35] CHEN X. et HUANG Q., The Data Protection of MapReduce using Homomorphic Encryption, in 4th IEEE International Conference on Software Engineering and Service Science
(ICSESS), 2013, May 2013, p 419-421.
[36] KERBEROS, Kerberos: The network authentication protocol, http://web.mit.edu/Kerberos
[37] SENTRY, A Fne-Grained Authorization System for the Hadoop Ecosystem, http://wiki.apache.org/incubator/SentryProposal

VSST2015

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

VSST2015

Transféré par

Droits d'auteur :

Formats disponibles

BIG DATA : LE QUOI, LE POURQUOI ET LE COMMENT

Fatima-Zahra Benjelloun (), Ayoub Aitlahcen (,**), Samir Belfkih (*)

(*) LGS, ENSA, Université Ibn Tofail, Kénitra, Maroc,

2 Opportunités du Big Data

2.1 Secteur de la santé

2.2 Secteur du commerce

2.3 Secteur de l’agriculture

2.4 Secteur du tourisme

2.5 Secteur du transport

2.6 Secteur de la politique et des services publics

2.8 Secteur de la recherche

3 Les défis d’analyse des Big Data

4 Les technologies Big Data

4.2 Bases de données pour le Big Data

Vous aimerez peut-être aussi