Académique Documents
Professionnel Documents
Culture Documents
Mots clefs :
Big Data, les opportunités du Big Data, les applications du Big Data, les technologies du Big Data.
Keywords :
Big Data, Big Data opportunities, Big Data applications, Big Data technologies.
Palabras clave :
Big Data, Las oportunidades de Big Data, las aplicaciones de Big Data, las tecnologias de Big Data.
Résumé
La valeur du Big Data est aujourd’hui reconnue par différents industriels et gouvernements. L’exploitation efficace et efficiente du Big Data permet d’assurer
un avantage concurrentiel et apporte de la valeur pour plusieurs secteurs économiques et sociaux. En effet, nombreux gouvernements ont lancé des
programmes, avec de gros investissements, pour soutenir la recherche et le développement dans ce domaine. Le secteur privé s’est également investi pour
maximiser les profits et optimiser les ressources. Cet article présente de nombreux projets, opportunités, exemples, modèles et démarches autour du Big Data,
notamment dans les secteurs de : santé, recherche, commerce, transport, tourisme, politique et technologie.
1 Introduction
La valeur du Big Data est reconnue aujourd’hui par différents industriels et gouvernements. En effet, plusieurs projets autour du Big Data, avec de gros
investissements, ont été lancés par le gouvernement des Etats-Unis [1] et autres pays afin d’extraire un maximum d’avantages. Les recherches de Gartner [2]
confirment que l’exploitation efficace et efficiente du Big Data permet d’innover en découvrant de nouvelles informations et un savoir précieux pour les
organisations. Un tel savoir permet non seulement de réaliser des économies d’échelles mais aussi de supporter la prise de décision des managers. En effet,
l’analyse en temps réels de plusieurs sources de formats hétérogènes (flux de données collectées en interne, données des tiers, données externes) et d’optimiser
les processus en décelant les failles opérationnelles ou managériales. Ainsi l’analyse des Big Data apporte de la valeur et un avantage concurrentiel pour
plusieurs secteurs économiques et sociaux [3][4].
De nos jours, les données sont générées rapidement par plusieurs sources distribuées et hétérogènes. La majorité des technologies traditionnelles ne sont plus
adéquates [5] pour prendre en charge ces Big Data car souvent ils manquent de performance, de flexibilité et d’évolutivité. En effet, Big Data requièrent de
nouvelles technologies plus flexibles et plus performantes, ainsi que de nouvelles méthodes d’analyses fiable et robuste pour stocker, traiter, analyser,
sécuriser et visualiser des billions de données en un temps record. Les Big Data nécessitent également le développement de nouvelles compétences, méthodes
et modèles pour assurer la fiabilité du processus de traitement et d’analyses des données. Savoir interpréter les résultats est une tâche dédiée aux Data
Scientists.
Le Big Data est défini par ses trois caractéristiques fondamentales, soit les 3V : Volume (données massivement générées chaque seconde), Vélocité (des
données qui changent et se dupliquent rapidement), Variance (données provenant de plusieurs sources hétérogènes et dans différents formats) [6]. Selon [7]
ces trois caractéristiques doivent coexister afin de confirmer qu’une source est bien une source du Big Data. Si l’une de ces caractéristiques est absente, on ne
peut donc parler du Big Data. [7] et [5] mentionnent d’autres caractéristiques des Big Data telles que la Vision (l’objectif visé par l’exploitation du Big Data),
la Vérification (les données traitées doivent respecter certaines exigences), la Validation (l’objectif visé est atteint), la Complexité (il est difficile d’organiser
et d’analyser les Big Data à cause des relations complexes entre les données) et la Permanence (les données collectées et sauvegardées peuvent être
permanentes et accessibles en tout temps si elles sont bien gérées).
D’autres avancent que le Big Data se définit par tout grand volume de données numériques que l’on ne peut adéquatement collecter et traiter par le biais des
technologies et méthodes existantes.
Cet article présente de nombreux projets, opportunités, exemples, défis de data mining, solutions technologiques développées pour Big Data. La section 2
donne des exemples concrets dans différents secteurs d’activité. La section 3 présente les défis et solutions pour l’analyse des Big Data. La section 4 présente
les technologies des Big Data.
Les stratégies du Big Data reposent notamment sur des techniques d’analyses avancées (Big Data Analytics), le marketing ciblé (Behavioral Targeting) et le
marketing en ligne (Web Advertizing) [9]. À titre d’exemple, Facebook, Google, Amazon et d’autres compagnies qui proposent des services de carte crédit
(Equifaxe et Transunion) collectent des informations sur les internautes pour les vendre ou les analyser [10].
2.2.2 Prévisions commerciales
Grâce à l’analyse des Big Data, il est possible de générer différents modèles prédictifs. Par exemple, le secteur du commerce du détail peut exploiter ses
données pour prévoir les besoins en approvisionnement et assurer une gestion de stock optimale. Le secteur financier peut également exploiter les Big Data
pour prédire le cours des actions et les fluctuations du marché. Cela offre un meilleur suivi des tendances micro et macro économiques. Les managers et les
décideurs peuvent ainsi mieux se préparer pour saisir les opportunités commerciales ou se prémunir contre les récessions économiques [11].
2.2.3 Modèle d’affaires du Big Data
L’exploitation efficace et efficiente des données internes et externes permet non seulement d’améliorer les produits et services, mais aussi de créer de
nouveaux modèles d’affaires. De tels modèles rendent l’entreprise plus agile et assurent un avantage concurrentiel important. Par exemple, certaines
entreprises réalisent des bénéfices et créent de la valeur en vendant les données collectées et leurs résultats d’analyses avancées à des tiers. Toutefois, le défi
d’assurer une gestion et un traitement optimal du Big Data est de taille.
Selon [12], le nouveau Modèle d’Affaires amené par le Big Data comporte cinq phases selon le niveau de maturité des entreprises :
- Surveillance : il s’agit au début de surveiller l’efficacité des processus d’affaires afin d’apporter les ajustements requis à son modèle ;
- Analyse en temps réels : il s’agit d’analyser les données en temps réel afin de développer des modèles de prédiction du comportement et de capturer
les besoins du client et ses décisions. Le but étant de maximiser les profits et d’augmenter la satisfaction des clients ;
- Optimisation : il s’agit d’exploiter les Big Data pour découvrir les opportunités, élaborer des modèles de prédiction et optimiser les processus et
stratégies d’affaires ;
- Monétisation : il s’agit à ce stade d’exploiter la valeur ajoutée générée par les données collectées ou produites au moyen des processus d’affaires ;
- Métamorphose : il s’agit de transformer le modèle d’affaire d’un modèle centré sur les produits à un modèle centré sur un écosystème. Ce dernier se
base sur une plateforme commune qui doit être rentable non seulement pour l’entreprise mais aussi pour plusieurs tiers.
2.2.4 Exemple de Walmart
Le modèle de Walmart (entreprise américaine et multinationale de distribution) est un exemple de métamorphose d’affaires. La force de son écosystème
repose sur l’analyse en temps réel et la vente des données capturées sur le comportement des consommateurs et les informations des scanners aux points de
ventes aux différents partenaires (fournisseurs, distributeurs, agences de marketing, etc.). Une telle accessibilité aux données commerciales en temps réels
permet d’ajuster les stratégies de toute la chaine de valeur et donne à Walmart le pouvoir d’influencer la décision des partenaires pour maximiser les profits,
optimiser les prix, et réduire les coûts. De plus, les partenaires peuvent créer de nouveaux services et produits autour de cette plateforme commune.
En résumé, l’exploitation efficace et efficiente du Big Data permet de révolutionner les modèles d’affaire et d’augmenter les profits à tous les niveaux de la
chaine de valeur. Son pouvoir réside dans l’intégration, l’analyse et le partage en temps réel des données sur le marché tout en considérant d’autres facteurs
(conditions économiques, prévisions climatiques, vacances et fêtes, etc.). Différentes applications Big Data commencent à être proposées pour assister les
entreprises et leur apporter les avantages concurrentiels suivants : la prédiction de la demande et des tendances des marchés, l’optimisation de la chaine
d’approvisionnement, la surveillance de l’efficacité des promotions, l’optimisation des prix, l’amélioration des produits et services, la fidélisation des clients,
etc., [12].
Il importe donc de bien étudier la nature des sources de données et de tester l’efficacité des modèles par le biais d’un processus itérative. Le but étant de
choisir des modèles plus précis et surtout plus fiable. Dans le cas des Big Data, la haute précision du modèle d’analyse peut être bien pour certains échantillon
de données mais peut être biaisé quand on ajouter de nouvelles données. Les analystes de données doivent donc mener plusieurs essais afin de choisir le
niveau de variances optimal et dans certains cas minimiser le niveau de précision afin d’accommoder un plus grand volume et variété de données. En d’autres
termes, étudier les trades-off entre précision d’algorithme et variance.
Plusieurs outils, plateformes et softwares ont été développés ou améliorés pour relever le défi d’analyse des Big Data. Ils reposent sur des calculs distribués
afin de gagner du temps et assurer la performance des systèmes.
- Des outils d’intégration des sources des Big Data (tels que Sqoop, Flume and DataLoader);
- Des outils de gestion de resources, de workflows et des services (tels que Cloudera Manager, Yarn, Oozie et Zookeeper);
- Des outils de gestion de métadonnées (tels que Hcatalog);
- Des outils d’analyse de données (tels que R, Mahout, Chukwa et Teradata Analytical Ecosystem);
- Des outils de recherche interactive et d’interrogation des bases de données (tels que Cloudera search, Sphinx Search Server et Facebook Unicorn [24]
lequel est un système d’indexation in-memory développé pour la recherché de trillions de données à partir de millions de serveurs) ;
- Des outils de visualisation de données (tels que Advisor, Visual Analytics et Centrifuge).
Par conséquent, grâce aux efforts déployés dans ce domaine, les managers et les spécialistes de données peuvent compter sur des technologies des Big Data de
plus en plus économiques, efficaces, fiables et d’utilisation conviviale. Les gestionnaires ont la possibilité de choisir entre une solution complète ou élargir les
capacités de leurs infrastructures existantes en intégrant des composantes des Big Data. Par exemple, Oracle Big Data Apliance [25] intègre dans un seul
système, la force d’une infrastructure conforme aux standards fusionnant l’expérience riche d’Oracle et les avantages des composantes open-sources
d’Apache Hadoop.
5 Conclusion
Les avancées technologiques commencent à permettre d'exploiter le Big Data en supportant des analyses complexes et en temps réel de large volume de
données provenant de plusieurs sources hétérogènes. Les applications Big Data ouvrent de nouvelles possibilités dans plusieurs secteurs. En effet, les
informations extraites constituent un avantage concurrentiel. L'analyse des flux de données combinée à l'analyse des historiques et à la génération des modèles
prédictifs ou d'identification permettent entre autres d'optimiser les processus organisationnel, d'améliorer les services, d'adapter l'offre à la demande, etc.
De nouveaux modèles sont proposés dans ce contexte tel que le modèle d'affaires du Big Data. Ce dernier apporte un nouveau concept de synergie entre les
différentes parties prenantes et les acteurs clés de la chaine de valeur dans un secteur donné. Sans une telle synergie et collaboration, l'exploitation du Big Data
ne peut donner des résultats satisfaisants et optimaux. L'intégration des modèles prédictifs dans les systèmes d'information organisationnels permet de soutenir
la prise de décision en temps réels, la génération des alertes pour se prémunir contre les risques de sécurité, les épidémies, les récessions commerciales, les
changements climatiques, de surveiller la fluctuation des tendances et des demandes pour adapter l'offre, et optimiser la gestion des stocks.
L’analyse du Big Data ouvre de nouvelles perspectives. Toutefois, un tel projet doit suivre une approche formalisée afin de tirer le meilleur parti du Big Data.
La démarche, les techniques d'analyse et de modélisation à adopter doivent être choisies en fonction de l'objectif visé, de la nature des données analysées et
des préférences des managers et des décideurs.
Malgré les avancées reliées au Big Data, il convient de souligner que la mise en œuvre des modèles d'analyse et de prédiction ne peut remplacer une bonne
gestion de connaissance ni la supervision ou l'intervention des analystes. En effet, la double validation par les intervenants de même que la validation croisée
sont donc de mise pour assurer la fiabilité des données, des processus et des résultats.
Les nouvelles technologies de Big Data apportent plus de flexibilité, de performance et d’évolutivité afin de prendre en charge le stockage, le traitement,
l’analyse, la sécurité et la visualisation efficaces et efficientes de larges sources de données. Le choix des technologies dépend entre autres de la nature des
données, des besoins en termes de sécurité et des objectifs d’analyses.
6 Bibliographie
[1] RICK W. et ZGORSKI L., Obama Administration Unveils Big Data Initiative: Announces 200 million in new r&d investments, Office of Science and Technology Policy, Washington, DC,
2012.
[2] DOUG L., Getting Value from Big Data, Gartner, 2011.
[3] FOSTER P. et TOM F., Data Science for Business: What you need to know about data mining and data-analytic thinking, O’Reilly Media, inc, 2013.
[4] MICHAEL M., Data Just Right : Introduction to large-scale data & analytics, Pearson Education, Inc., 2014
[5] KATAL A., WAZID M. et GOUDAR R., Big Data : Issues, challenges, tools and good practices., Sixth International Conference on Contemporary Computing (IC3), 2013, p 404–409.
[6] WU X., ZHU X., WU G.-Q. ET DING W., Data Mining with Big Data, IEEE Transactions on Knowledge and Data Engineering, vol. 26, no. 1, 2014, p 97–107
[7] BERMAN J. J., Principles of Big Data: Preparing, Sharing, and Analyzing Complex Information, Morgan Kaufmann Publishers Inc., 2013.
[8] NAMBIAR R., BHARDWAJ R., SETHI A. et VARGHEESE R., A Look at Challenges and Opportunities of Big Data Analytics in Healthcare. In IEEE International Conference on Big
Data, 2013, 2013, p 17–22.
[9] CHANDRAMOULI, B., J. GOLDSTEIN et S. DUAN. Temporal Analytics on Big Data for Web Advertising, In IEEE 28th International Conference on Data Engineering (ICDE), 2012, p
90–101.
[10] LESK M., Big Data, Big Brother, Big Money, IEEE Security Privacy, 11(4), 2013, p 85–89.
[11] NETTLETON D. F., Commercial Data Mining : Processing, Analysis and Modeling for Predictive Analytics Projects, Morgan Kaufmann Publishers-Elsevier, 2014.
[12] SCHMARZO B., Understanding How Data Powers Big Business, 2013.
[13] LUDENA R. et AHRARY A., A Big Data Approach for a New ICT Agriculture Application Development, In International Conference on Cyber-Enabled Distributed Computing and
Knowledge Discovery (CyberC), 2013, p 140–143.
[14] ELISABETH E., NOCK R. et Celimene F., Demonstrator of a Tourist Recommendation System. In V. Bhatnagar et S. Srinivasa (Eds.), BDA, Volume 8302 of Lecture Notes in Computer
Science, Springer, 2013, p 171–175
[15] YAZICI M., KAMGA C. ET SINGHAL A., A Big Data Driven Model for Taxi Drivers’ Airport Pick-up Decisions in New York City. In IEEE International Conference on Big Data, 2013,
p 37–44.
[16] CHE D., SAFRAN M. S. et PENG Z., From Big Data to Big Data Mining: Challenges, issues, and opportunities. In B. Hong, X. Meng, L. C. 0002, W. Winiwarter, et W. Song (Eds.),
DASFAA Workshops, Volume 7827 of Lecture Notes in Computer Science, Springer, 2013, p 1–15.
[17] BENSRHIR A., Big Data for Geo-political Analysis: Application on barack obama’s remarks and speeches, in ACS International Conference on Computer Systems and Applications
(AICCSA), 2013, Mai 2013, p 1–4.
[18] CARDENAS A., MANADHATA P. et RAJAN S., Big Data Analytics for Security. IEEE Security Privacy, 11(6), 2013, p 74–76.
[19] CHICKOWSKI E., A Case Study in Security Big Data Analysis, Dark Reading, 2013.
[20] LUBLINSKY B., SMITH K. T. et YAKUBOVICH A. Professional Hadoop Solutions. John Wiley & Sons, 2013.
[21] SKYNET, http://skynet.rubyforge.org/doc/
[22] HORTONWORKS, http://docs.hortonworks.com/
[23] IBM INFOSPHERE BIGINSIGHTS, http://www-01.ibm.com/
[24] CURTISS M., BECKER I., BOSMAN T., DOROSHENKO S., GRIJINCU L., JACKSON T., KUNNATUR S., S. LASSEN, P. PRONIN, S. SANKAR, G. SHEN, G. WOSS, C. YANG,
AND N. ZHANG, Unicorn: A system for searching the social Graph, Proc. VLDB Endow., vol. 6, no. 11, 2013, p. 1150–1161.
[25] ORACLE, White paper: Big data for the enterprise, http://www.oracle.com
[26] MICHAEL S., SQL Databases v. NoSQL Databases. Communications of the ACM, 53(4):10–11, 2010.
[27] MOHAMED, M.A., ALTRAfi, O.G., ISMAIL, M.O.: Relational vs. NoQL Databases: A survey. International Journal of Computer and Information Technology, 03(03), 2014, p 598–601.
[28] RICK CATTELL. Scalable SQL and NoSQL Data Stores. ACM SIGMOD Record, 39(4):12–27, 2011.
[29] MARIJANA, Newsql: Handling big data in the enterprise, November 19, 2013. http://bizcloudnetwork.com/newsql-for-enterprise-big-data
[30] LU T., GUO X., XU B., ZHAO L., PENG Y., et YANG H., Next Big Thing in Big Data: The security of the ict supply chain, in International Conference on Social Computing (SocialCom),
2013, p 1066-1073.
[31] HOLTSNIDER ET JAFFE B., Chapter 8 - Security and Compliance, in IT Manager’s Handbook (Third Edition), B. Holtsnider and B. D. Jaffe, Eds. Boston: Morgan Kaufmann, 2012, p
205-246.
[32] APACHE, Apache Knox Gateway 0.4.x Users Guide, http://knox.apache.org/books/knox-0-4-0/knox-0-4-0.html#Quick+Start
[33] ZIN T., TIN P., TORIU T., ET HAMA H., A Big Data Application Framework for Consumer Behavior Analysis, in IEEE 2nd Global Conference on Consumer Electronics (GCCE), 2013,
p 245-246.
[34] X. ZHANG, C. LIU, S. NEPAL, C. YANG, W. DOU, et J. CHEN, A Hybrid Approach for Scalable Sub-Tree Anonymization over Big Data Using MapReduce on Cloud, Journal of
Computer and System Sciences, vol. 80, no. 5, special Issue on Dependable and Secure Computing, 2014, p. 1008-1020.
[35] CHEN X. et HUANG Q., The Data Protection of MapReduce using Homomorphic Encryption, in 4th IEEE International Conference on Software Engineering and Service Science
(ICSESS), 2013, May 2013, p 419-421.
[36] KERBEROS, Kerberos: The network authentication protocol, http://web.mit.edu/Kerberos
[37] SENTRY, A Fne-Grained Authorization System for the Hadoop Ecosystem, http://wiki.apache.org/incubator/SentryProposal