Académique Documents
Professionnel Documents
Culture Documents
INTRODUCTION
• Introduction et démystification étymologique du Big Data : de quoi s'agit-il ?
Les Big Data sont un domaine qui traite des moyens d'analyser, d'extraire systématiquement des
informations ou de traiter d'une autre manière des ensembles de données trop volumineux ou
complexes pour être traités par un logiciel d'application de traitement de données traditionnel.
Les Big Data font référence à des ensembles d'informations vastes et diversifiés qui se développent à
un rythme toujours croissant. Il englobe le volume d'informations, la vitesse ou la vitesse à laquelle
elles sont créées et collectées, et la variété ou l'étendue des points de données couverts. Les
mégadonnées proviennent souvent de l'exploration de données et arrivent sous plusieurs formats.
Le Big Data est défini comme des données de grande taille. Big data est un terme utilisé pour décrire
une collection de données de grande taille et qui croît de façon exponentielle avec le temps.
Depuis maintenant quelques années, le volume de données numériques ne cesse d’augmenter. Cette
multiplication des données est due à la numérisation grandissante de tous les domaines du web et de
l’économie, ainsi que de la globalisation.
Le Big Data est un ensemble d’algorithmes et d’outils non classiques qui rendent possibles le
stockage, l'analyse et la visualisation de quantités très importantes (tera/peta/exa-octets/Yota) de
données structurées, non structurées ou mixtes au moyen de centaines ou de milliers de machines
travaillant en parallèle.
Présent dans de nombreux secteurs du métier ( la santé, éducation, le transport, la communication…)
dans l’optique de récolter beaucoup de données dont l’analyse permet de piloter les activités de
l’entreprise, les Big Data sont :
• Enregistrer dans un volume important de données issues des objet connectés (IoT).
• Identifier depuis la source des données émise pas un utilisateur.
• Déporter vers un traitement via des machines virtuelles stockés dans un environnement
spécifique ( data-center, cloud provider…). Pour la plupart au format usuelle utlisé dans les IoT
(pdf, odt, jpeg, mp3…)
Le livre blanc publié par le groupe Meta, que Gartner a ensuite racheté en 2004. Douglas a remarqué
qu'en raison de l'essor des activités de commerce électronique, les données ont augmenté selon trois
dimensions, à savoir :
1. Volume (plus ou moins massif), c'est-à-dire le flux de données entrant et le volume cumulé
de données
2. Variété (nature et niveau de structuration), qui signifie la variété de formats de données et de
structures de données incompatibles et incohérents
3. Vélocité (de la production, de la collecte et d’analyse), qui représente le rythme des données
utilisées pour soutenir l'interaction et générées par les interactions
Le Big Data appliqué au service d’une organisation permet d’ailleurs de répondre à des problématiques
très concrètes…
• Volume : les données à traiter sont en hausse constante. Or, elles sont sensibles et cruciales
pour l’entreprise ;
• Variété : la capacité à croiser des données internes et externes, du type data INSEE, enquêtes…
• Vitesse : la collecte, le calcul, l’analyse et l’exploitation des données doivent désormais
s’opérer en temps réel ;
• Valeur : les données proviennent de sources et/ou systèmes d’information multiples qui ne
communiquent pas forcément entre eux. Unifier la donnée est une première étape pour la
maîtriser, lui donner du sens et créer de la valeur…
Ainsi, IBM propose InfoSphere BigInsights Basic pour IBM SmartCloud Enterprise. Cette version
pouvant gérer 10To de données est accessible gratuitement aux utilisateurs de Linux. Cependant,
BigInsights Enterprise est payant.
Microsoft a privilégié l’utilisation du framework Hadoop au détriment de LINQ to HPC. Le géant de
l’informatique l’a ainsi utilisé pour développer Windows Azure et Windows Server.
• Les technologies concernées par le Big Data
La technologie Big Data est principalement classée dans les deux grands types suivants :
Technologies Big Data opérationnelles : Ce type de technologie Big Data comprend principalement
les données quotidiennes de base que les gens traitaient.
Comme exemples spécifiques qui incluent les technologies de Big Data opérationnelles peuvent être
énumérés ci-dessous :
• Système de réservation de billets en ligne, par exemple, bus, trains, vols et films, etc.
• Commerce en ligne ou achats sur des sites de commerce électronique comme Amazon, Flipkart,
Walmart, etc.
• Données en ligne sur les sites de médias sociaux, tels que Facebook, Instagram, Whatsapp, etc.
• Les données des employés ou les coordonnées des cadres dans les entreprises multinationales.
Technologies de Big Data analytiques : Le Big Data analytique est communément appelé une version
améliorée des technologies Big Data.
Ce type de technologie Big Data est un peu compliqué par rapport aux Big Data opérationnels. Les
mégadonnées analytiques sont principalement utilisées lorsque des critères de performance sont utilisés
et que d'importantes décisions commerciales en temps réel sont prises sur la base de rapports créés en
analysant des données opérationnelles réelles. Cela signifie que l'enquête réelle sur les mégadonnées
qui est importante pour les décisions commerciales relève de ce type de technologie de mégadonnées.
Certains exemples courants impliquant les technologies de Big Data analytiques peuvent être
répertoriés ci-dessous :
• Données de commercialisation des actions
• Les données de prévision météorologique et l'analyse des séries chronologiques
• Dossiers médicaux où les médecins peuvent surveiller personnellement l'état de santé d'un
individu
• Réaliser les bases de données des missions spatiales où chaque information d'une mission est
très importante
Au départ, ces tâches étaient allouées aux responsables des départements informatiques.
Cependant, au milieu des années 2010, face à l’augmentation exponentielle des données à
disposition, certaines entreprises ont décidé de créer un pont entre les départements
informatiques et les dirigeants (responsables des ventes, des ressources humaines ou du
marketing) qui ont besoin des informations en temps réel. Tel est le rôle du Chief Data Officer
(CDO).
Rôle et missions du Chief Data Officer (CDO)
Le Chief Data Officer, CDO ou directeur des données, doit créer un environnement permettant à tous
les différents responsables de l’entreprise d’accéder aux informations dont ils ont besoin facilement et
en toute sécurité. Pour ce faire, il doit trouver les plateformes et systèmes logiciels de Business
Intelligence les plus appropriés pour que chacun puisse effectuer des analyses de données de manière
autonome. Le Chief Data Officer est donc au coeur de son organisation.
Il doit également repérer parmi toutes les informations à disposition de l’entreprise quelles sont les plus
importantes à extraire pour des prises de décisions optimales en s’appuyant sur une méthodologie
objective basée sur les statistiques. Il doit vérifier que les informations recueillies en interne ou en
externe sont fiables et cohérentes et prêtes à être analysées.
Le CDO est donc aussi responsable de la qualité et de la cohérence des données. Sa fonction croise
donc celles d’autres métiers comme le contrôleur de gestion, le directeur informatique (DSI), et le
responsable des activités opérationnelles. Il officie également en étroite collaboration avec les Data
Scientists, analystes web, et autres spécialistes des données au sein de son entreprise.
Au quotidien, le Chief Data Officer doit créer une base de données pour l’entreprise et l’organiser. Il
doit aussi s’assurer de la qualité et de la cohérence des données. Il doit exploiter la base de données des
clients de l’entreprise, mais aussi l’optimiser et l’étoffer. Il devra également réaliser des rapports sur les
différentes données. Enfin, il doit définir une stratégie en fonction des données récoltées.
Missions Compétences
*Créer un environnement Big Data pour l’entreprise *Maîtrise des outils analytiques et bases de données
*Choisir les données à analyser *Expertise mathématiques, statistiques, informatique, analyse
*Assurer la qualité, la cohérence des données *Communication et pédagogie
*Réaliser des rapports à partir des données analysées *Charisme, diplomatie, leadership
*Développer une stratégie data driven *Connaissance de l’entreprise et son secteur d’activité
• Architecte Big Data : Chaque jour, de plus en plus de données sont générées dans le monde
entier. Ces données peuvent être utilisées par les entreprises de tous les secteurs pour mieux
comprendre leur clientèle, aiguiller leurs décisions et prendre un avantage compétitif sur la
concurrence. Toutefois, pour pouvoir être utilisées, les données doivent d’abord être collectées
et organisées. Tel est le rôle de l’architecte Big Data, l’un des métiers du Big Data.
Missions Compétences
*Collecter des données brutes pour l’entreprise *Maîtrise des technologies Big Data
*Créer des infrastructures de stockage, manipulation et restitution *Maîtrise des infrastructures serveur
*Elaborer une architecture de Data Management *Esprit de collaboration
*Talent de communication
• Business Intelligence Manager : Le Business Intelligence Manager est un métier du Big Data.
La Business Intelligence (BI), ou informatique décisionnelle, est l’ensemble des technologies
permettant d’analyser les données et de les transformer en informations exploitables pour
permettre aux gestionnaires d’entreprises et autres utilisateurs sans spécialisation technique de
prendre des décisions. Plus généralement, ce terme désigne le processus d’analyse et
d’exploitation des données. Il s’agit donc d’un atout précieux pour les entreprises de toutes
tailles et de tous secteurs. Cependant, pour tirer profit de la Business Intelligence, il est
nécessaire d’employer un expert qualifié capable de gérer ces ensembles d’outils. Dans ce cas,
c’est le Business Intelligence Manager. Découvrez la profession à travers cette fiche métier.
Missions Compétences
*Identifier les besoins de l’entreprise en Business Intelligence *Connaissance du monde de l’entreprise
*Fournir des rapports détaillés aux différents départements *Talent de communication
*Gérer une équipe de développeurs *Talent de leader
*Déterminer la stratégie BI de l’entreprise *Compétences techniques en Business Intelligence
*Suivre l’évolution du marché de la BI *Maîtrise des outils de bases de données Microsoft
*Maîtrise des outils d’informatique décisionnelle
*Maîtrise des systèmes de gestion de bases de données
• Master Data Manager : Le Master Data Manager est un métier du Big Data réservé aux
professionnels très qualifié. Le Master Data Management, ou gestion des données de référence,
est un terme qui désigne la gestion des données critiques d’une entreprise. Toutes ces données
sont liées au sein d’un seul fichier : le Master File.
Cette méthode permet de faciliter et d’accompagner le partage de données entre les employés et
les différents départements de l’entreprise, ainsi que l’informatique sur diverses applications,
plateformes et architectures systèmes. La personne chargée du Master Data Management est le
Master Data Manager.
• Data Protection Officer : Le 26 avril 2016, le Parlement européen a publié son Règlement
européen sur la protection des données (RGPD). L’article 37 de ce règlement oblige les
entreprises et administrations qui traitent des données sensibles à grande échelle à employer une
personne chargée d’assurer la sécurité et la conformité de ces données à partir du 25 mai 2018
dernier délai. Il s’agit du Data Protection Officer (DPO), ou délégué à la protection des données
: l’un des nouveaux métiers du Big Data.
• Data Scientist et Chef Data Scientist : Le Data Scientist est un métier né grâce au Big Data.
Depuis plusieurs années, les technologies du Big Data sont en plein essor et le volume de
données mondiales explose. Ces deux phénomènes ont provoqué l’évolution des métiers de
statisticiens et de Data Analysts.
Les données sont devenues essentielles pour les entreprises de toutes les industries, et ces
dernières souhaitent désormais s’en remettre à des spécialistes capables non seulement
d’analyser les informations, mais aussi de faire preuve de créativité et d’un talent pour générer
du profit à partir du Big Data. Tel est le rôle du Data Scientist, ou scientifique des données.
Missions Compétences
*Collecter et convertir de larges quantités de données *Compétences en informatique et mathématiques
*Détecter des tendances dans les ensembles de données *Expertise en analyse de données
*Résoudre les problèmes de l’entreprises grâce aux données *Curiosité naturelle
*Communiquer avec les différents responsables de l’entreprise *Maîtrise des langages de programmation SAS, R, Python
*Rédiger des rapports pour la direction *Maîtrise des bases de données MySQL Postgres
*Maîtrise des technologies Big Data (Hadoop,
MapReduce…)
• Data Miner : Au sein d’une entreprise, les données peuvent être utilisées pour prendre des
décisions stratégiques. Par exemple, les informations sur les préférences des clients peuvent
aiguiller l’entreprise pour ses créations de produits ou pour ses campagnes marketing. Le rôle
du Data Miner, ou fouilleur de données, est d’explorer les données à sa disposition pour trouver
celles qui peuvent aider l’entreprise. Il s’agit de l’un des métiers du Big Data.
Missions Compétences
*Choisir les données potentiellement exploitables *Passion pour l’analyse de données
*Formater et nettoyer les données *Sens de l’analyse et de l’observation
*Analyser les données *Rigueur et concentration
*Réaliser des rapports (tableaux et Dataviz) *Talent de communication et pédagogie
*Comparer les performances de l’entreprise avec ses objectifs *Connaissance de l’entreprise
• Data Analyst : Le Data Analyst est l’un des métiers né grâce au Big Data. Avec l’essor des
réseaux sociaux, du e-commerce et de l’internet des objets, les entreprises de toutes les
industries possèdent désormais d’immenses quantités de données. Ces données peuvent être
liées à leurs clients, à leurs produits, à leurs propres performances ou encore au marché dans
son ensemble et à la concurrence.
En analysant ces données brutes, il est possible de dégager des informations très utiles pour
appuyer la prise de décision et prendre un avantage compétitif. Cependant, l’analyse de données
nécessite une expertise et des compétences. C’est là qu’intervient ce métier.
Missions Compétences
*Valoriser les données de l’entreprise *Expertise en informatique, mathématiques et statistiques
*Analyser les données de l’entreprise *Maîtrise d’internet et des bases de données
*Classer les informations recueillies en fonction des besoins *Maîtrise de l’anglais technique
*Fournir des rapports à ses supérieurs *Maîtrise des langages de programmation (Java, Scala…)
*Concevoir et gérer l’architecture Big Data de l’entreprise *Connaissance de l’entreprise
*Veille technologique *Maîtrise des cadriciels (Hadoop, Spark, Hive, Storm, Pig)
*Talent pour la communication écrite et orale
Missions
• Ecrire des programmes et développer des algorithmes pour extraire de précieuses informations
de larges ensembles de données
• Effectuer des expériences et tester différents approches
• Optimiser des programmes pour améliorer les performances, la vitesse et l’élasticité
• Assurer le nettoyage des ensembles de données
• Suggérer des applications de Machine Learning pertinentes
• Mettre en production les modèles de Machine Learning
• Gérer le cycle de vie des modèles de Machine Learning
Compétences
• Compétences en informatique et en programmation
• Expertise mathématique en probabilité et en statistiques
• Modélisation et évaluation de données
• Application de modèles et de librairies de Machine Learning
• Ingénierie logicielle
• Communication
Pour résumer l’Open Data est une donnée pouvant respecter les règles suivantes :
• Disponibilité et accèsibilité : ce qui signifi que, les données doivent être disponibles dans leur
ensemble et à un coût de reproduction n'excédant pas un raisonnable, de préférence par
téléchargement sur Internet. Les données doivent également être disponibles sous une forme
pratique et modifiable.
• Réutilisation et redistribution : ce qui stipule que, les données doivent être fournies dans des
conditions permettant la réutilisation et la redistribution, y compris le mélange avec d'autres
ensembles de données.
• Participation universelle : en terme clair, tout le monde doit pouvoir utiliser, réutiliser et
redistribuer les données sans y avoir aucune discrimination contre les domaines d'activité ou
contre les personnes ou les groupes. Par exemple, les restrictions «non commerciales» qui
empêcheraient une utilisation «commerciale», ou les restrictions d'utilisation à certaines fins
(par exemple, uniquement dans l'éducation), ne sont pas autorisées.
Mesurer ce qui se passe dans le monde réel est l'un des principaux bénéfices du Big Data dont la
pertinence des données résulte du monde des IoT.
Fabricants d'équipements et concepteurs de services disposent de plusieurs catégories de produit
destiné à faciliter et anticiper cetrains événements qui vont influencer le quotidien tant des particulier
que des entreprises. Voilà pourquoi, pour mieux connaître les usages de leurs produits et anticiper les
évènements qui vont influencer ces usages, les fabricants ou les concepteurs de services vont de plus en
plus les connecter afin de collecter et d'analyser les données.
Les 3 modèles du Big Data
L'utilisation de ces données sous réserve du respect des règles de vie privée, anonyme et de sécurité,
mais également de ne pas se montrer trop intrusif – doit permettre de disposer d'une meilleure
connaissance des usages du produit, mais surtout participer à son amélioration en continue et à
l'innovation.
L'analyse de ces données doit passer par des outils puissants, qui font du Big Data une réelle
opportunité. On distingue aujourd'hui 3 modèles d'usages auxquels le Big Data fait référence :
• Volumes de données ;
• Dépasser les capacités des bases de données traditionnelles ;
• Outils d'analyse qui permettent de dépasser les 2 modèles précédents.
• Les données d'état : Ce sont les données logiquement les plus répandues, car elles sont
naturellement associées à l'objet connecté. Elles permettent de mettre en place une base de
référence et serviront de plus en plus comme matière première pour alimenter les moteurs
d'algorithmes des solutions de Big Data, et réaliser du prévisionnel sur le long terme.
• Les données de localisation : Extension logique du GPS, ces données se complètent : le GPS
fonctionne bien en déplacement, à l'extérieur, mal sur le statique, sur des déplacements courts et
surtout en intérieur. Le potentiel est énorme, certes dans la chaine logistique qui devrait être la
première à l'industrialiser, mais également avec un énorme marché grand public, celui de la
localisation d'un objet ou d'une personne. Des fonctionnalités qui demandent à bénéficier d'un
traitement en temps réel.
• Les données personnalisées : Les acteurs du marché sont très prudents dans ce domaine : ils
distinguent les données anonymes sur les usage et les préférences individuelles aux données
personnelles associées à la vie privée. En fait, se profile derrière ces données une notion
essentielle, source de scepticisme de la part des utilisateurs, l'automatisation. Toute la difficulté
est de pouvoir associer des règles à des usages en passant de la moyenne aux pratiques de
l'individu, sans heurter le respect de la vie privée…
• Les données décisionnelles : Principalement associée à l'exploitation des données d'état, mais
également aux deux suivantes, les données décisionnelles doivent accompagner la prise de
décision, quelle soit automatisée ou personnelle. Elles ont donc deux états, l'automatisation et
la persuasion.
• Processus du traitement des données dans le Big Data
En l'absence d'un processus de traitement des données, les entreprises ne peuvent pas accéder au big
data qui les permettent d’acquérir des connaissances nécessaires sur leurs produits et aussi avoir un
avantage concurrentiel, les permettant de booster leur efficacité au niveau des stratégies marketing et
les besoins de leurs consommateurs. Avec l’avènement des NTIC, les entreprises doivent
impérativement comprendre la nécessité du traitement des données.
Le traitement des données est exécuté dès que celles-ci sont collectées, en vue de les traduire en
information exploitable. Le traitement des données est généralement effectué par un data scientist
(ou une équipe de data scientists). Il est important qu'il soit effectué correctement afin de ne pas
impacter négativement le produit final ou la sortie des données (c’est le résultat d’une information).
Le traitement des données commence avec les données brutes : il les convertit sous une forme plus
lisible (graphiques, documents de texte, etc.) en leur donnant le format et contexte nécessaires pour
qu'elles puissent être interprétées par les systèmes IT et utilisées par les employés à l'échelle de
l'entreprise.
Les six étapes du traitement des données décrites ci-dessous ne devraient pas changer
significativement, mais le cloud a bénéficié d'avancées technologiques considérables et propose dès à
présent les méthodes les plus avancées, les plus performantes et les moins coûteuses pour ces
opérations.
Et ensuite ? Il est temps de mettre vos données au service de vos activités. Une fois traitées, les
données peuvent être analysées efficacement dans un contexte de Business Intelligence. Et avec un
environnement d'analyse des données, efficace, vous pourrez prendre des décisions plus rapides et plus
avisées.
• les données de connexion : permettent de récolter des informations sur des éléments
intrinsèques à la connexion comme la quantification du volume de données échangées, la durée
de connexion ainsi que le réseau et l’opérateur utilisés.
• les données raw ou brutes : se sont des données brutes collectées par l’objet et qui ont pour
vocation d’être analysées.
Pour cela, il faut, dans un premier temps, réaliser un audit pour connaître les besoins métier de
l’utilisateur final. Ensuite, selon son niveau d’attente et de compréhension, le traitement des
données s’effectue via une restitution automatique ou via la création de modèles statistiques.
Les interfaces qui lient l’algorithme à l’utilisateur sont alors personnalisées selon les besoins.
• L'image de la donnée
Big Data Analytics Photos Stock & Des Images
◦ Gestion de l'analyse de données Photo Stock
◦ Concept de big data avec l'icône illustration de construction.
les images diffusées, la plupart sont publiées par les ayants-droits (visuels produits, publicités, logos et
autres actifs de marques) et associées à des mots clés particuliers (hashtags).
Mais des millions d’images (dans leurs versions originales ou modifiées) sont également créés et
diffusées sans aucune mention textuelle.
ENJEUX STRATÉGIQUES ET ORGANISATIONNELS DU BIG DATA
Solution :
Les entreprises investissent des sommes supplémentaires dans le recrutement de professionnels
qualifiés. Ils doivent même fournir des programmes de formation au personnel en place pour en tirer le
meilleur parti. Une autre étape importante franchie par les organisations est l'achat de solutions
d'analyse des connaissances alimentées par l'intelligence artificielle/l'apprentissage automatique. Ces
outils de big data sont souvent parcourus par des professionnels qui ne sont pas des experts en science
des données mais qui ont les connaissances de base. Cette étape aide les entreprises à économiser
beaucoup d'argent pour le recrutement.
Par exemple, si les employés ne comprennent pas l'importance du stockage des connaissances, ils ne
pourraient pas conserver la sauvegarde des données sensibles. Ils ne pouvaient pas utiliser correctement
les bases de données pour le stockage. Par conséquent, lorsque ces données importantes sont requises,
elles ne peuvent pas être récupérées facilement.
Solution :
Les ateliers et séminaires Big Data doivent être organisés dans les entreprises pour tous. Des
programmes de formation militaire doivent être organisés pour tous les travailleurs manipulant
régulièrement des données et constituent un voisinage de grands projets de données. Tous les niveaux
de l'organisation doivent inculquer une compréhension de base des concepts de connaissance.
Solution :
Vous embaucherez soit des professionnels expérimentés qui en savent beaucoup plus sur ces outils.
Autrement, c'est voyager pour le géant Data consulting. Ici, les consultants fourniront une
recommandation des outils les plus simples prenant en charge le scénario de votre entreprise. À l'appui
de leurs conseils, vous calculerez une technique puis sélectionnerez l'outil le plus simple pour vous.
Solution :
Les entreprises doivent résoudre leurs Intégration de données problèmes en achetant les outils
appropriés. Un certain nombre des outils d'intégration de données les plus simples sont mentionnés ci-
dessous :
Intégration de données Talend, Intégrateur de données Centerprise, ArcESB, IBM InfoSphere,
Xplein, Informatica PowerCenter, CloverDX, Microsoft SQL QlikView
Solution :
Les entreprises recrutent davantage de professionnels de la cybersécurité pour protéger leurs données.
D'autres mesures prises pour Sécuriser les mégadonnées comprennent : Chiffrement des données,
Ségrégation des données, Identité et contrôle d'accès, Mise en œuvre de la sécurité des terminaux,
Surveillance de la sécurité en temps réel , Utilisation des outils de sécurité Big Data, comme IBM
Guardian.
• Dans son Enquête 2019 sur le Big Data et l'IA auprès des dirigeants, NewVantage Partners
note que 62,2 % des personnes interrogées ont obtenu des résultats mesurables de leurs
investissements dans le Big Data, avec des améliorations générales dans les domaines de
l'analyse avancée (79,8 %), de la réduction des dépenses (59,5 %), du service client (57,1 %)
et de la vitesse de marché (32,1%).
• Selon un Rapport McKinsey 2019, les entreprises affichant la croissance globale et les revenus
les plus élevés sont trois fois plus susceptibles que les autres entreprises de dire que leurs
initiatives de données et d'analyse ont contribué au moins 20 % au bénéfice avant intérêts et
impôts (EBIT) au cours des trois dernières années.
NB: Nous pouvons investir dans une solution de stockage et d'analyse de données à la pointe de la
technologie. Mais si les données que nous stockons et analysons sont truffées d'incohérences,
d'inexactitudes ou d'autres problèmes, les résultats d'analyse que nous obtiendrons seront trompeurs. Ils
ne nous aiderons pas à planifier la bonne stratégie marketing, à prédire les comportements de nos
clients ou à obtenir les autres informations cruciales que seules des données de qualité peuvent fournir.
• Investissement dans l'analyse et le traitement des informations du Big Data
Exemple: une société de services financiers a construit un modèle basé sur une analyse de données
volumineuses qui a identifié le meilleur endroit pour localiser un guichet automatique, seulement pour
apprendre que les consultants avaient déjà construit des modèles similaires pour plusieurs autres
banques. De plus, transformer les informations issues de l'analyse de données en avantage concurrentiel
nécessite des changements que les entreprises peuvent être incapables d'apporter.
Investir dans l’analyse des données numériques : consiste a capturer, analyser et utiliser les
informaions pour servir les clients. Ceci permet aux entreprises d’améliorer considérablement leurs
performances commerciales en se concentrant simplement sur la façon dont les données d'exploitation
peuvent éclairer la prise de décision au quotidien.
• Analyse statistique consiste à utiliser les données du passé pour comprendre le présent, sous
forme de tableaux de bord. Cette pratique regroupe la collecte, l’analyse, la présentation et la
modélisation des données.
• Analyse prédictive permet quant à elle de déterminer les événements probables, de prédire le
futur grâce aux données du passé ou du présent. Ces données sont utilisées pour prédire les
probabilités futures. La fiabilité de ces prédictions dépend de la quantité d’informations à
disposition, de leur exactitude et de l’ampleur de leur exploration.
• Analyse prescriptive consiste quant à elle à combiner toutes les informations obtenues à partir
des précédentes analyses pour déterminer quelles mesures prendre pour résoudre un problème
ou prendre une décision.
• Qu’est ce que le web sémantique ?
Le Web sémantique est une vision d'une extension du World Wide Web existant, qui fournit aux
programmes logiciels des métadonnées interprétables par la machine des informations et des données
publiées. En d'autres termes, nous ajoutons d'autres descripteurs de données au contenu et aux données
autrement existants sur le Web. En conséquence, les ordinateurs sont capables de faire des
interprétations significatives similaires à la façon dont les humains traitent les informations pour
atteindre leurs objectifs.
L'ambition ultime du Web sémantique, , est de permettre aux ordinateurs de mieux manipuler
l'information à notre place. Il explique en outre que, dans le contexte du Web sémantique,
Le mot web véhicule l'idée d'un espace navigable d'objets interconnectés avec des mappages d'URI
vers des ressources.Alors que l’expression sémantique indiquel’ensemble des valeurs pouvant être
traité par une machine ou ce qu'une machine est capable de faire avec les données.
Les concepts du Web sémantique ont été rapidement adoptés dans la gestion des données et de
l'information.
Enjeux économiques
Le Big Data est mieux compris comme une ressource inexploitée que la technologie nous permet enfin
d'exploiter.
Par exemple, les données sur la météo, les insectes et les plantations de cultures ont toujours existé.
Mais il est désormais possible de collecter ces données de manière rentable et de les utiliser en toute
connaissance de cause. Nous pouvons conserver une trace de l'historique de chaque plante, y compris
les pulvérisations et les précipitations. Lorsque nous conduisons une moissonneuse-batteuse sur le
terrain, l'équipement peut identifier chaque plante comme étant une culture ou une mauvaise herbe et
appliquer sélectivement un herbicide uniquement aux mauvaises herbes.
Impact organisationnel
Une entreprise a besoin d'avoir un aperçu analytique d'un énorme volume de données pour appliquer
l'analyse des mégadonnées, ce qui aidera certainement une organisation à améliorer ses performances
commerciales.
Trois opportunités commerciales majeures incluent : l'automatisation, des informations
approfondies et une prise de décision basée sur les données.
• Marketing : le Big Data est utilisé dans le marketing pour mieux cibler les clients. L’objectif
est, entre autres, d’améliorer les relations avec les consommateurs et d’augmenter le taux de
conversion. Même l'industrie de la publicité, dont l'utilisation des données est parfois
considérée avec méfiance, offre de grands avantages. Une étude a révélé qu'une meilleure
utilisation des données rendait le marketing plus efficace, à la fois en permettant aux entreprises
d'éviter d'envoyer des sollicitations à des personnes peu susceptibles d'acheter leur produit et en
faisant correspondre les clients avec des offres qui répondent mieux à leurs besoins et intérêts
individuels. Les données ont également réduit les barrières à l'entrée en permettant aux petites
entreprises d'obtenir plus facilement des données de marché utiles. Enfin, une autre étude a
conclu que les services Internet gratuits souscrits par la publicité sur Internet offraient des
avantages significatifs aux internautes. Elle a estimé le surplus social de ces services à 120
milliards d'euros, dont 80 pour cent sont allés aux consommateurs.
• Service public…
• La recherche médicale : grâce à l’évaluation des données massives, les médecins
peuvent trouver de meilleures solutions de thérapie et de traitement pour leurs patients.
• L’économie : il permet aux entreprises de mieux connaitre leurs clients et de leur
proposer des offres toujours plus adaptées à leurs besoins.
• L’énergie : les données sur la consommation d’énergie permettent à long terme
d’adapter l’offre aux besoins des utilisateurs dans le but de rendre l’approvisionnement
énergétique plus responsable et durable.
• Le secteur bancaire : le Big Data permet à une banque de proposer des services adaptés
au profil de ses clients ou de mieux anticiper ses risques de défaut ou de liquidité.
LES TECHNOLOGIES UTILISÉES DANS DES PROJETS BIG DATA
• Le NoSQL
NoSQL Database est un système de gestion de données non relationnel, qui ne nécessite pas de
schéma fixe.
Les bases de données NoSQL sont spécialement conçues pour des modèles de données spécifiques et
disposent de schémas flexibles pour la création d'applications modernes.
Les bases de données NoSQL sont largement reconnues pour leur facilité de développement, leurs
fonctionnalités et leurs performances à grande échelle au sein des Big Data.
• Apache
Apache est un logiciel d'application open-source remarquable. Il s'agit de l'application de serveur Web
la plus utilisée au monde avec plus de 50 % de parts de marché sur le marché des serveurs Web
commerciaux.
Les différentes versions d’apache présent sur Hadoop nous permettent d’effectuer diverse tâche :
Apache Drill L'objectif principal du composant d'écosystème Hadoop est le traitement de données à
grande échelle, y compris des données structurées et semi-structurées.
Apache Mahout
Mahout est un framework open source permettant de créer un algorithme d' apprentissage
automatique évolutif et une bibliothèque d'exploration de données. Une fois les données stockées dans
Hadoop HDFS, mahout fournit les outils de science des données pour trouver automatiquement des
modèles significatifs dans ces grands ensembles de données.
Apache Sqoop
Sqoop importe des données de sources externes dans des composants de l'écosystème Hadoop associés
tels que HDFS, Hbase ou Hive. Il exporte également les données de Hadoop vers d'autres sources
externes. Sqoop fonctionne avec des bases de données relationnelles telles que teradata, Netezza,
oracle, MySQL.
Apache Flume
Flume collecte, agrège et déplace efficacement une grande quantité de données depuis leur origine et
les renvoie vers HDFS. C'est un mécanisme fiable et tolérant aux pannes. Ce composant Hadoop
Ecosystem permet le flux de données de la source vers l'environnement Hadoop. Il utilise un modèle de
données extensible simple qui permet l'application analytique en ligne. En utilisant Flume, nous
pouvons obtenir les données de plusieurs serveurs immédiatement dans hadoop.
4.les coûts de stockage et de réseau rendent une architecture incrémentielle permanente critique
Une approche traditionnelle de la sauvegarde des données dans un environnement Big Data n'est pas
économiquement ou logistiquement faisable. Prenez le mécanisme de sauvegarde traditionnel qui
intègre des sauvegardes complètes hebdomadaires avec des sauvegardes incrémentielles quotidiennes.
Sur un environnement Big Data de production de 100 To avec un taux de changement de 5 %, vous
déplaceriez plus de 550 To par mois. Dans une architecture incrémentielle permanente, vous feriez la
sauvegarde complète de 100 To une seule fois, la première fois que le workflow est exécuté. Toutes les
sauvegardes suivantes identifieraient uniquement les nouvelles modifications (ajouts, suppressions,
mutations) et déplaceraient les données et métadonnées modifiées. La même approche efficace devrait
s'appliquer au processus de récupération. L'approche traditionnelle impliquerait de trouver la dernière
sauvegarde complète et de lui appliquer toutes les incréments pertinentes pour créer l'image finale. Au
lieu.
Les plateformes de Big Data ne sont pas seulement là pour rester, elles sont de plus en plus importantes
dans les architectures d'entreprise. Alors que les entreprises réalisent que la protection de ces actifs de
données est synonyme de réussite commerciale, leur attention se tournera à juste titre vers la meilleure
façon d'architecturer un environnement de stockage secondaire qui prend pleinement en charge ces
besoins de gestion des données sans perdre de vue le coût global de possession, la flexibilité nécessaire
pour travailler dans divers environnements architecturaux et la capacité d'évoluer au niveau des
mégadonnées.
L’écosystème Hadoop regroupe une large variété d’outils Big Data open source. Ces divers outils
complémentent Hadoop et améliorent sa capacité de traitement Big Data.
Parmi les plus populaires, Apache Hive est une Data Warehouse dédiée au traitement de larges
ensembles de données stockés dans le HDFS. L’outil Zookeeper automatise les basculements et réduit
l’impact d’une panne de NameNode.
De son côté, HBase est une base de données non relationnelle pour Hadoop. Le service distribué
Apache Flume permet le streaming de données de larges quantités de données de log.
Citons aussi Apache Sqoop, un outil de ligne de commande permettant la migration de données entre
Hadoop et les bases de données relationnelles. La plateforme de développement Apache Pig permet
le développement de jobs à exécuter sur Hadoop.
Le système de planification Apache Oozie facilite la gestion des jobs Hadoop. Enfin, HCatalog est
un outil de gestion de tableau pour trier les données en provenance de divers systèmes de traitement.
• L'écosystème Hadoop
L'écosystème Apache Hadoop fait référence aux différents composants de la bibliothèque logicielle
Apache Hadoop; il comprend des projets open source ainsi qu'une gamme complète d'outils
complémentaires.
Certains des outils les plus connus de l'écosystème Hadoop incluent HDFS, Hive, Pig,
YARN, MapReduce , Spark, HBase, Oozie, Sqoop, Zookeeper, etc.
Composants HDFS :
Il existe deux composants principaux de Hadoop HDFS :
▪ Nom de Nœud (NameNode),
▪ Nœud de données (DataNode).
• MapReduce
Un MapReduce est un outil de traitement de données qui est utilisé pour traiter les données en parallèle
sous une forme distribuée.
Le MapReduce est un paradigme qui comporte deux phases, la phase de cartographie et la phase de
réduction. Dans le Mapper, l'entrée est donnée sous la forme d'une paire clé-valeur. La sortie du
Mapper est transmise au réducteur en tant qu'entrée. Le réducteur ne s'exécute qu'après la fin du
mappeur. Le réducteur prend également une entrée au format clé-valeur, et la sortie du réducteur est la
sortie finale.
• Hbase
Hbase est une source de données cartographiques open source et triée construite sur Hadoop. Il est
orienté colonne et évolutif horizontalement.
Il est basé sur la grande table de Google. Il comporte un ensemble de tables qui conservent les données
au format de valeur clé. Hbase est bien adapté aux ensembles de données épars qui sont très courants
dans les cas d'utilisation du Big Data. Hbase fournit des API permettant le développement dans
pratiquement tous les langages de programmation. Il fait partie de l'écosystème Hadoop qui fournit un
accès aléatoire en lecture/écriture en temps réel aux données du système de fichiers Hadoop.
• Hive
Hive est un système d'entrepôt de données utilisé pour analyser des données structurées. Il est construit
sur le dessus de Hadoop. Il a été développé par Facebook.
Hive fournit la fonctionnalité de lecture, d'écriture et de gestion de grands ensembles de données
résidant dans un stockage distribué. Il exécute des requêtes de type SQL appelées HQL (langage de
requête Hive) qui sont converties en interne en tâches MapReduce.
En utilisant Hive, nous pouvons ignorer l'exigence de l'approche traditionnelle d'écriture de
programmes MapReduce complexes. Hive prend en charge le langage de définition de données (DDL),
le langage de manipulation de données (DML) et les fonctions définies par l'utilisateur (UDF).
• Pig
Apache Pig est une plate-forme de flux de données de haut niveau pour l'exécution des programmes
MapReduce de Hadoop. La langue utilisée pour Pig est Pig Latin.
Les scripts Pig sont convertis en interne en tâches Map Reduce et sont exécutés sur les données
stockées dans HDFS. En dehors de cela, Pig peut également exécuter son travail dans Apache Tez ou
Apache Spark.
Pig peut gérer tout type de données, c'est-à-dire structurées, semi-structurées ou non structurées et
stocke les résultats correspondants dans Hadoop Data File System. Chaque tâche pouvant être réalisée
à l'aide de PIG peut également être réalisée à l'aide de Java utilisé dans MapReduce.
La protection des données s’assure que les données ne sont pas corrompues, sont accessibles
uniquement à des fins autorisées et sont conformes aux exigences légales ou réglementaires
applicables. Les données protégées doivent être disponibles en cas de besoin et utilisables aux fins
prévues.
Les contraintes d'intégrité des données font référence aux règles appliquées pour maintenir la qualité de
vos données que vous souhaitez sauvegarder. Ici on peut parler de :
• L'intégrité logique des données : quant à elle, vérifie si les données sont correctes et
exactes dans un contexte spécifique.
La préservation de l'intégrité des données doit être la priorité absolue dans les organisations. Il faut
donc veiller :
• Le chiffrement d'une donnée : désigne la conversion des données depuis un format lisible
dans un format codé. Les données chiffrées ne peuvent être lues ou traitées qu’après leur
déchiffrement. Le chiffrement est l’élément fondamental de la sécurité des données. C’est le
moyen le plus simple et le plus efficace de s’assurer que les informations du système
informatique ne peuvent être ni volées ni lues par quelqu’un qui souhaite les utiliser à des fins
malveillantes.
Les deux principales techniques de chiffrement les plus courantes sont le chiffrement symétrique et
asymétrique. Ces noms font référence à la clé, qui peut être la même ou non pour le chiffrement et le
déchiffrement :
Les données chiffrées avec la clé publique du destinataire ne peuvent être déchiffrées qu’avec la clé
privée correspondante.
• Définir vos compétences techniques personnelles à mettre au profit des technologies Big Data
1. Choix du métier
2. Compétences personnelles
3. Objectifs visées dans une entreprise Big Data
•Élaborer une migration réussie d'un SI composite vers une urbanisation orientée Big Data.
1. Définir le nom d’une entreprise X.
2. Quel est le type de donnée(s) qui afflue vers une BD traditionnelle de votre
entreprise.
3. Quelle est l’information que vous souhaiter en tirer sur les données au profit de
l’entreprise
4. Selon votre métier proposer l’utilisation des technologies Big Data en justifiant et
soutenant votre point de vue. (Le choix de l’architecture dépendra de votre métier et
vous avez le choix d’appuyer votre illustration par des images de votre choix).
Exemple 4 :