Support de Cours BIG DATA

BIG DATA (42h)
INTRODUCTION
• Introduction et démystification étymologique du Big Data : de quoi s'agit-il ?
Les Big Data sont un domaine qui traite des moyens d'analyser, d'extraire systématiquement des
informations ou de traiter d'une autre manière des ensembles de données trop volumineux ou
complexes pour être traités par un logiciel d'application de traitement de données traditionnel.
Les Big Data font référence à des ensembles d'informations vastes et diversifiés qui se développent à
un rythme toujours croissant. Il englobe le volume d'informations, la vitesse ou la vitesse à laquelle
elles sont créées et collectées, et la variété ou l'étendue des points de données couverts. Les
mégadonnées proviennent souvent de l'exploration de données et arrivent sous plusieurs formats.
Le Big Data est défini comme des données de grande taille. Big data est un terme utilisé pour décrire
une collection de données de grande taille et qui croît de façon exponentielle avec le temps.
Depuis maintenant quelques années, le volume de données numériques ne cesse d’augmenter. Cette
multiplication des données est due à la numérisation grandissante de tous les domaines du web et de
l’économie, ainsi que de la globalisation.
Le Big Data est un ensemble d’algorithmes et d’outils non classiques qui rendent possibles le
stockage, l'analyse et la visualisation de quantités très importantes (tera/peta/exa-octets/Yota) de
données structurées, non structurées ou mixtes au moyen de centaines ou de milliers de machines
travaillant en parallèle.
Présent dans de nombreux secteurs du métier ( la santé, éducation, le transport, la communication…)
dans l’optique de récolter beaucoup de données dont l’analyse permet de piloter les activités de
l’entreprise, les Big Data sont :
• Enregistrer dans un volume important de données issues des objet connectés (IoT).
• Identifier depuis la source des données émise pas un utilisateur.
• Déporter vers un traitement via des machines virtuelles stockés dans un environnement
spécifique ( data-center, cloud provider…). Pour la plupart au format usuelle utlisé dans les IoT
(pdf, odt, jpeg, mp3…)
• Perspectives offertes par le Big Data

L'importance des mégadonnées (Big Data) ne dépend pas simplement de la quantité de données dont
vous disposez. La valeur réside dans la façon dont vous l'utilisez. En prenant des données de n'importe
quelle source et en les analysant, vous pouvez trouver des réponses qui:
◦ rationalisent la gestion des ressources,
◦ améliorent l'efficacité opérationnelle,
◦ optimisent le développement de produits,
◦ génèrent de nouvelles opportunités de revenus et de croissance et
◦ permettent une prise de décision intelligente.
Caractéristiques de base d’une donnée Big Data
Selon l'histoire de la chronologie du Big Data, la définition des 3V de Douglas Laney a été largement
considérés comme les attributs "communs" du Big Data, mais il s'est abstenu d'attribuer ces attributs
au terme "Big Data".
Le livre blanc publié par le groupe Meta, que Gartner a ensuite racheté en 2004. Douglas a remarqué
qu'en raison de l'essor des activités de commerce électronique, les données ont augmenté selon trois
dimensions, à savoir :
1. Volume (plus ou moins massif), c'est-à-dire le flux de données entrant et le volume cumulé
de données
2. Variété (nature et niveau de structuration), qui signifie la variété de formats de données et de
structures de données incompatibles et incohérents
3. Vélocité (de la production, de la collecte et d’analyse), qui représente le rythme des données
utilisées pour soutenir l'interaction et générées par les interactions
Le Big Data appliqué au service d’une organisation permet d’ailleurs de répondre à des problématiques
très concrètes…
• Volume : les données à traiter sont en hausse constante. Or, elles sont sensibles et cruciales
pour l’entreprise ;
• Variété : la capacité à croiser des données internes et externes, du type data INSEE, enquêtes…
• Vitesse : la collecte, le calcul, l’analyse et l’exploitation des données doivent désormais
s’opérer en temps réel ;
• Valeur : les données proviennent de sources et/ou systèmes d’information multiples qui ne
communiquent pas forcément entre eux. Unifier la donnée est une première étape pour la
maîtriser, lui donner du sens et créer de la valeur…
• Les acteurs impliqué dans un projet Big Data

Les acteurs de la Big Data sont principalement ces géants de la technologie aujourd’hui qui essaye
d’apporter des solutions évolutives pour améliorer la gestion des données en transit, il sagit notamment
de :
• HP,
• Oracle,
• IBM,
• SAP…
Ainsi, IBM propose InfoSphere BigInsights Basic pour IBM SmartCloud Enterprise. Cette version
pouvant gérer 10To de données est accessible gratuitement aux utilisateurs de Linux. Cependant,
BigInsights Enterprise est payant.
Microsoft a privilégié l’utilisation du framework Hadoop au détriment de LINQ to HPC. Le géant de
l’informatique l’a ainsi utilisé pour développer Windows Azure et Windows Server.
• Les technologies concernées par le Big Data
La technologie Big Data est principalement classée dans les deux grands types suivants :
Technologies Big Data opérationnelles : Ce type de technologie Big Data comprend principalement
les données quotidiennes de base que les gens traitaient.
Comme exemples spécifiques qui incluent les technologies de Big Data opérationnelles peuvent être
énumérés ci-dessous :
• Système de réservation de billets en ligne, par exemple, bus, trains, vols et films, etc.
• Commerce en ligne ou achats sur des sites de commerce électronique comme Amazon, Flipkart,
Walmart, etc.
• Données en ligne sur les sites de médias sociaux, tels que Facebook, Instagram, Whatsapp, etc.
• Les données des employés ou les coordonnées des cadres dans les entreprises multinationales.
Technologies de Big Data analytiques : Le Big Data analytique est communément appelé une version
améliorée des technologies Big Data.
Ce type de technologie Big Data est un peu compliqué par rapport aux Big Data opérationnels. Les
mégadonnées analytiques sont principalement utilisées lorsque des critères de performance sont utilisés
et que d'importantes décisions commerciales en temps réel sont prises sur la base de rapports créés en
analysant des données opérationnelles réelles. Cela signifie que l'enquête réelle sur les mégadonnées
qui est importante pour les décisions commerciales relève de ce type de technologie de mégadonnées.
Certains exemples courants impliquant les technologies de Big Data analytiques peuvent être
répertoriés ci-dessous :
• Données de commercialisation des actions
• Les données de prévision météorologique et l'analyse des séries chronologiques
• Dossiers médicaux où les médecins peuvent surveiller personnellement l'état de santé d'un
individu
• Réaliser les bases de données des missions spatiales où chaque information d'une mission est
très importante
• Les différents métiers du Big Data

Les différents métiers du Big Data
Les emplois Big Data, ou métiers de la donnée, sont de plus en plus nombreux. On distingue cependant
:
• Chief Data Officer : Chief Data Officer (CDO) ou directeur des données est l’un des métiers
du Big Data. Avec l’essor d’internet et des objets connectés, de nombreuses entreprises se sont
retrouvées avec un grand nombre d’informations à disposition, sans forcément savoir qu’en
faire. Si les données peuvent apporter de nombreux bénéfices à l’entreprise, elles peuvent aussi
être coûteuses et complexes à exploiter. Il est nécessaire de développer l’infrastructure
adéquate pour collecter les données, mais aussi d’avoir la capacité d’accéder à ces données et de
les extraire. Par la suite, il faut également pouvoir les convertir en insights utilisables.
Au départ, ces tâches étaient allouées aux responsables des départements informatiques.
Cependant, au milieu des années 2010, face à l’augmentation exponentielle des données à
disposition, certaines entreprises ont décidé de créer un pont entre les départements
informatiques et les dirigeants (responsables des ventes, des ressources humaines ou du
marketing) qui ont besoin des informations en temps réel. Tel est le rôle du Chief Data Officer
(CDO).
Rôle et missions du Chief Data Officer (CDO)
Le Chief Data Officer, CDO ou directeur des données, doit créer un environnement permettant à tous
les différents responsables de l’entreprise d’accéder aux informations dont ils ont besoin facilement et
en toute sécurité. Pour ce faire, il doit trouver les plateformes et systèmes logiciels de Business
Intelligence les plus appropriés pour que chacun puisse effectuer des analyses de données de manière
autonome. Le Chief Data Officer est donc au coeur de son organisation.
Il doit également repérer parmi toutes les informations à disposition de l’entreprise quelles sont les plus
importantes à extraire pour des prises de décisions optimales en s’appuyant sur une méthodologie
objective basée sur les statistiques. Il doit vérifier que les informations recueillies en interne ou en
externe sont fiables et cohérentes et prêtes à être analysées.
Le CDO est donc aussi responsable de la qualité et de la cohérence des données. Sa fonction croise
donc celles d’autres métiers comme le contrôleur de gestion, le directeur informatique (DSI), et le
responsable des activités opérationnelles. Il officie également en étroite collaboration avec les Data
Scientists, analystes web, et autres spécialistes des données au sein de son entreprise.
Au quotidien, le Chief Data Officer doit créer une base de données pour l’entreprise et l’organiser. Il
doit aussi s’assurer de la qualité et de la cohérence des données. Il doit exploiter la base de données des
clients de l’entreprise, mais aussi l’optimiser et l’étoffer. Il devra également réaliser des rapports sur les
différentes données. Enfin, il doit définir une stratégie en fonction des données récoltées.
Missions Compétences
*Créer un environnement Big Data pour l’entreprise *Maîtrise des outils analytiques et bases de données
*Choisir les données à analyser *Expertise mathématiques, statistiques, informatique, analyse
*Assurer la qualité, la cohérence des données *Communication et pédagogie
*Réaliser des rapports à partir des données analysées *Charisme, diplomatie, leadership
*Développer une stratégie data driven *Connaissance de l’entreprise et son secteur d’activité
• Architecte Big Data : Chaque jour, de plus en plus de données sont générées dans le monde
entier. Ces données peuvent être utilisées par les entreprises de tous les secteurs pour mieux
comprendre leur clientèle, aiguiller leurs décisions et prendre un avantage compétitif sur la
concurrence. Toutefois, pour pouvoir être utilisées, les données doivent d’abord être collectées
et organisées. Tel est le rôle de l’architecte Big Data, l’un des métiers du Big Data.
Rôle et missions de l'architecte Big Data

C’est la personne qui se charge de collecter des données brutes pour l’entreprise. Les données en
question peuvent provenir d’une multitude de sources internes ou externes, et peuvent être structurées
ou non. Leur quantité peut aussi varier énormément. Il doit mettre en place l’infrastructure qui
permettra de stocker, d’ingérer les données dans les applications métiers.
Après avoir collecté les données brutes, l’architecte Big Data se charge de créer et d’optimiser des
infrastructures de stockage, manipulation et restitution. Il doit élaborer une architecture de Data
Management et concevoir un plan pour intégrer, centraliser, protéger et maintenir les données. Il est
garant du bon fonctionnement du système qui doit pouvoir s’étendre selon les besoins du clients.
*Collecter des données brutes pour l’entreprise *Maîtrise des technologies Big Data
*Créer des infrastructures de stockage, manipulation et restitution *Maîtrise des infrastructures serveur
*Elaborer une architecture de Data Management *Esprit de collaboration
*Talent de communication
• Business Intelligence Manager : Le Business Intelligence Manager est un métier du Big Data.
La Business Intelligence (BI), ou informatique décisionnelle, est l’ensemble des technologies
permettant d’analyser les données et de les transformer en informations exploitables pour
permettre aux gestionnaires d’entreprises et autres utilisateurs sans spécialisation technique de
prendre des décisions. Plus généralement, ce terme désigne le processus d’analyse et
d’exploitation des données. Il s’agit donc d’un atout précieux pour les entreprises de toutes
tailles et de tous secteurs. Cependant, pour tirer profit de la Business Intelligence, il est
nécessaire d’employer un expert qualifié capable de gérer ces ensembles d’outils. Dans ce cas,
c’est le Business Intelligence Manager. Découvrez la profession à travers cette fiche métier.
Rôle et missions du Business Intelligence Manager

Ce gestionnaire est dans un premier temps chargé d’identifier les besoins de l’entreprise en matière de
Business Intelligence. Il doit analyser les informations pertinentes, et fournir des rapports
détaillés basés sur ces analyses pour permettre à l’entreprise d’agir. Il implémente enfin des
recommandations en matière d’outils de reporting et de gestion d’intelligence.
Il gère une équipe de développeurs et d’analystes chargés de faciliter les processus de Business
Intelligence. Il est responsable de développer la stratégie BI de l’entreprise et de la maintenir.
Au quotidien, ce manager doit identifier les besoins en intelligence de tous les départements de
l’entreprise. Pour ce faire, il doit communiquer au cas par cas avec les responsables des différents
départements.
Ces entretiens lui permettront de déterminer quelles décisions doivent être prises, quand, pourquoi, et
qui utilisera l’intelligence permettant de prendre ces décisions. Son travail de recherche et d’analyse
doit permettre à l’entreprise de gagner un avantage compétitif par rapport à la concurrence.
Il doit aussi surveiller les différents domaines d’intérêt de l’entreprise, étudier les environnements
internes et externes de l’entreprise, effectuer des études et des analyses de marché. Il doit aussi
rassembler des informations pour divers projets puis analyser ces informations et produire des rapports.
Son rôle est aussi de participer aux meetings de management liés au reporting d’intelligence, et de
proposer des recommandations concernant le reporting et la gestion de l’intelligence. Il doit aussi
suivre l’avancée des projets et les prioriser.
Le manager de Business Intelligence doit aussi fournir des rapports au chef d’entreprise. Il participe à
des événements organisés par des industriels, et participe à des salons en tant que représentant de
l’entreprise. Il est aussi en communication avec des contacts extérieurs pour assurer le suivi de
l’environnement externe de l’entreprise pour des recherches liées aux différents projets.
Selon les témoignages de Business Intelligence Managers, une part de l’emploi du temps consiste
à rester en contact direct avec le marché par le biais d’entretiens téléphoniques, de sondages et autres
visites collaboratives, mais aussi à rester en contact avec des analyses industriels ou financiers et autres
universités.
*Identifier les besoins de l’entreprise en Business Intelligence *Connaissance du monde de l’entreprise
*Fournir des rapports détaillés aux différents départements *Talent de communication
*Gérer une équipe de développeurs *Talent de leader
*Déterminer la stratégie BI de l’entreprise *Compétences techniques en Business Intelligence
*Suivre l’évolution du marché de la BI *Maîtrise des outils de bases de données Microsoft
*Maîtrise des outils d’informatique décisionnelle
*Maîtrise des systèmes de gestion de bases de données
• Master Data Manager : Le Master Data Manager est un métier du Big Data réservé aux
professionnels très qualifié. Le Master Data Management, ou gestion des données de référence,
est un terme qui désigne la gestion des données critiques d’une entreprise. Toutes ces données
sont liées au sein d’un seul fichier : le Master File.
Cette méthode permet de faciliter et d’accompagner le partage de données entre les employés et
les différents départements de l’entreprise, ainsi que l’informatique sur diverses applications,
plateformes et architectures systèmes. La personne chargée du Master Data Management est le
Master Data Manager.
Rôle et missions du Master Data Manager

Le rôle du Master Data Manager est d’accompagner la transformation numérique des entreprises. Pour
ce faire, il doit s’assurer que les données internes sont fiables, cohérentes, pertinentes et utilisables par
les responsables de l’entreprise pour atteindre les objectifs fixés. En somme, il doit veiller à la qualité
et à l’intégrité de ce que l’entreprise a de plus précieux : ses données.
Le Master Data Manager doit ainsi instaurer une cohérence entre les multiples données
disséminées dans tout le système d’information de l’entreprise et ses diverses bases de données. Il doit
notamment éliminer les doubles et les informations incohérentes, inexactes ou obsolètes afin
d’instaurer une harmonie.
Concrètement, sa tâche consiste à décloisonner les différents silos métiers et à regrouper les données de
base au sein d’un référentiel unique, un fichier maître. Ces diverses données sont liées aux clients, aux
fournisseurs, aux produits ou encore au comptable et à tous les différents volets de l’entreprise.
Afin d’assurer l’exactitude des données, le Master Data Manager doit mettre en place des mécanismes
de contrôle et de validation. Ce travail s’effectue généralement dans le cadre d’un ERP ou un projet de
conformité réglementaire.
*Assurer la qualité et l’intégrité des données *Compétences en systèmes informatiques
*Eliminer les doublons et les incohérences *Connaissance du monde de l’entreprise
*Regrouper les données au sein du Master File *Echanger avec les responsables des différents départements
*Mettre en place des mécanismes de contrôle et validation *Talent de communication et pédagogie
• Data Protection Officer : Le 26 avril 2016, le Parlement européen a publié son Règlement
européen sur la protection des données (RGPD). L’article 37 de ce règlement oblige les
entreprises et administrations qui traitent des données sensibles à grande échelle à employer une
personne chargée d’assurer la sécurité et la conformité de ces données à partir du 25 mai 2018
dernier délai. Il s’agit du Data Protection Officer (DPO), ou délégué à la protection des données
: l’un des nouveaux métiers du Big Data.
Rôle et missions du Data Protection Officer (DPO)

La quantité massive de données disponibles au sein des entreprises entraînent des risques en matière de
sécurité et de légalité. Le rôle du DPO est de s’assurer que l’utilisation des données à des fins
commerciales ou internes de son entreprise respecte la législation en vigueur. S’il s’aperçoit d’un
manquement à la loi, le Data Protection Officer doit s’empresser d’alerter la direction.
Le rôle double du Data Protection Officer
En somme, le Data Protection Officer, c’est le chef d’orchestre de la conformité. Les responsables le
consultent lors du traitement de données à caractère personnel, aussi bien en ce qui concerne la sécurité
informatique que la sécurité juridique.
Le Data Protection Officer contribue aussi à la valorisation de la donnée, véritable enjeu d’avenir pour
les entreprises de toutes les industries. La législation sur les données concerne l’entreprise dans sa
globalité, le DPO doit donc travailler avec tous les différents départements : direction générale,
ressources humaines, recherche et développement, marketing…
Missions du DPO Compétences du DPO

*S’assurer que l’entreprise respecte la législation sur les données *Compétences en informatique, web, cybersécurité
*Alerter la direction en cas de manquement à la loi *Connaissances juridiques (droit NTIC)
*Valoriser les données de l’entreprise *Talent de communication et pédagogie
• Data Scientist et Chef Data Scientist : Le Data Scientist est un métier né grâce au Big Data.
Depuis plusieurs années, les technologies du Big Data sont en plein essor et le volume de
données mondiales explose. Ces deux phénomènes ont provoqué l’évolution des métiers de
statisticiens et de Data Analysts.
Les données sont devenues essentielles pour les entreprises de toutes les industries, et ces
dernières souhaitent désormais s’en remettre à des spécialistes capables non seulement
d’analyser les informations, mais aussi de faire preuve de créativité et d’un talent pour générer
du profit à partir du Big Data. Tel est le rôle du Data Scientist, ou scientifique des données.
Rôle et missions du Data Scientist / Chief Data Scientist

Il est difficile de définir de façon concrète les missions et tâches d’un Data Scientist, tant cet expert doit
faire preuve de polyvalence et de flexibilité. Il existe toutefois plusieurs tâches que doivent
généralement effectuer les scientifiques des données.
Ainsi, le scientifique des données devra notamment collecter de larges quantités de données non
structurées afin de les convertir dans un format exploitable. Il doit être en mesure de détecter des
patterns et des tendances dans les ensembles de données à sa disposition. Il devra aussi résoudre les
problèmes de son entreprise à l’aide de techniques data-driven. Le Data Scientist devra également
communiquer et collaborer avec les responsables de l’entreprise et les informaticiens.
Après avoir analysé les données, le scientifique des données doit rédiger des conclusions et les
transmettre à la direction générale ou à son client. Ses analyses peuvent viser à trouver de nouveaux
axes d’optimisation, des leviers de croissance, ou encore à identifier de nouveaux usages et modes de
fonctionnement.
Le travail d’un Data Scientist peut beaucoup varier d’une semaine à l’autre. Il est par exemple possible
que le professionnel travaille pendant plusieurs semaines un projet de text mining, pour ensuite passer à
un projet de développement d’un modèle prédictif. Il doit par ailleurs prendre part à divers meetings
pour expliquer aux différents employés et responsables de l’entreprise à quel point les données sont
importantes pour les différents départements.
*Collecter et convertir de larges quantités de données *Compétences en informatique et mathématiques
*Détecter des tendances dans les ensembles de données *Expertise en analyse de données
*Résoudre les problèmes de l’entreprises grâce aux données *Curiosité naturelle
*Communiquer avec les différents responsables de l’entreprise *Maîtrise des langages de programmation SAS, R, Python
*Rédiger des rapports pour la direction *Maîtrise des bases de données MySQL Postgres
*Maîtrise des technologies Big Data (Hadoop,
MapReduce…)
• Data Miner : Au sein d’une entreprise, les données peuvent être utilisées pour prendre des
décisions stratégiques. Par exemple, les informations sur les préférences des clients peuvent
aiguiller l’entreprise pour ses créations de produits ou pour ses campagnes marketing. Le rôle
du Data Miner, ou fouilleur de données, est d’explorer les données à sa disposition pour trouver
celles qui peuvent aider l’entreprise. Il s’agit de l’un des métiers du Big Data.
Rôle et missions du Data Miner

Le travail de Data Miner ou fouilleur de données est finalement assez proche de celui de Data Analyst.
Son rôle est d’explorer les différentes données à disposition de l’entreprise en provenance de
différentes sources internes ou externes afin de trouver celles qui peuvent être utiles à sa firme.
Il doit ensuite formater et nettoyer les données pour qu’elles soient utilisables, et procéder à leur
analyse afin de les transformer en informations exploitables. La connaissance ainsi dégagée doit ensuite
être transmise aux responsables des différents départements de l’entreprise. Pour ce faire, le Data Miner
se charge de réaliser des tableaux et autres Data Vizualisations à partir des données. Il se charge
également de comparer les performances de l’entreprise avec ses objectifs et ses prévisions.
*Choisir les données potentiellement exploitables *Passion pour l’analyse de données
*Formater et nettoyer les données *Sens de l’analyse et de l’observation
*Analyser les données *Rigueur et concentration
*Réaliser des rapports (tableaux et Dataviz) *Talent de communication et pédagogie
*Comparer les performances de l’entreprise avec ses objectifs *Connaissance de l’entreprise
• Data Analyst : Le Data Analyst est l’un des métiers né grâce au Big Data. Avec l’essor des
réseaux sociaux, du e-commerce et de l’internet des objets, les entreprises de toutes les
industries possèdent désormais d’immenses quantités de données. Ces données peuvent être
liées à leurs clients, à leurs produits, à leurs propres performances ou encore au marché dans
son ensemble et à la concurrence.
En analysant ces données brutes, il est possible de dégager des informations très utiles pour
appuyer la prise de décision et prendre un avantage compétitif. Cependant, l’analyse de données
nécessite une expertise et des compétences. C’est là qu’intervient ce métier.
Rôle et missions du Data Analyst

Il est chargé de traiter les données à disposition de l’entreprise afin d’en extraire des
informations permettant de stimuler la croissance de l’entreprise et d’aiguiller sa stratégie. Par
exemple, les données peuvent permettre de déterminer le profil type du client de l’entreprise, et de
saisir ses attentes, ses envies et ses besoins.
Il est ensuite possible de se baser sur ces informations pour décider quels produits développer, ou pour
définir une stratégie marketing. Ainsi, il est au cœur de l’entreprise. C’est lui qui doit définir la stratégie
à adopter et la direction à emprunter. Son rôle est de donner un sens aux données, de les transformer en
informations exploitables.
En amont, le Data Analyst est également chargé de créer et de modéliser les bases de données de
l’entreprise, puis d’assurer leur fonctionnement. C’est également son rôle d’élaborer les critères de
segmentation pour exploiter les données de façon optimale.
*Analyser les données pour les transformer en informations exploitables *Expertise en mathématiques et en statistiques
*Définir la stratégie Data-Driven de l’entreprise *Maîtrise des bases de données
*Créer et maintenir les bases de données de l’entreprise *Maîtrise de l’informatique
*Elaborer les critères de segmentation *Rigueur et organisation
*Connaissance de l’entreprise
*Maîtrise de l’anglais
• Ingénieur Big Data : L’ingénieur Big Data est un professionnel très polyvalent. Parmi les
tâches qu’il doit accomplir, la principale est sans doute la valorisation des données de son
entreprise. Tout commence avec l’analyse de centaines de millions de données. Cette analyse
s’effectue à l’aide de logiciels divers, afin de transformer les données en informations
exploitables.
L’ingénieur classe ensuite les informations recueillies grâce à l’analyse en fonction des besoins
de son employeur. Il présente ensuite des rapports détaillés à ses supérieurs.
Il est aussi responsable de la conception de l’architecture, de la mise en place et de la
configuration des clusters, de l’implémentation des algorithmes, des tests techniques, du
contrôle qualité et doit assurer la cohérence du résultat. De temps à autre, il doit aussi effectuer
une veille technologique pour rester au fait des dernières innovations dans le domaine des
solutions analytiques.
*Valoriser les données de l’entreprise *Expertise en informatique, mathématiques et statistiques
*Analyser les données de l’entreprise *Maîtrise d’internet et des bases de données
*Classer les informations recueillies en fonction des besoins *Maîtrise de l’anglais technique
*Fournir des rapports à ses supérieurs *Maîtrise des langages de programmation (Java, Scala…)
*Concevoir et gérer l’architecture Big Data de l’entreprise *Connaissance de l’entreprise
*Veille technologique *Maîtrise des cadriciels (Hadoop, Spark, Hive, Storm, Pig)
*Talent pour la communication écrite et orale
• Machine Learning Engineer : Le Machine Learning ou apprentissage automatique est de plus

en plus utilisé par les entreprises de tous les secteurs. Cette sous-catégorie d’intelligence
artificielle permet aux ordinateurs d’apprendre à effectuer une tâche et de progresser de façon
autonome sans avoir besoin d’être programmées à cet effet.
Cependant, pour que cette révolution soit possible, il est nécessaire de développer des
algorithmes permettant aux machines d’apprendre par elles-mêmes. C’est l’un des rôles
du Machine Learning Engineer ou Ingénieur en Machine Learning.
En plus de cette tâche, qu’il partage avec le Data Scientist, le Machine Learning Engineer est
aussi responsable de la mise en production (industrialisation) des modèles d’intelligence
artificielle. Cet expert a donc la double casquette de scientifique des données et de développeur
logiciel.
Rôle et missions du Machine Learning Engineer

Le Machine Learning Engineer est un programmateur informatique. Cependant, plutôt que de
programmer des machines pour qu’elles effectuent des tâches spécifiques, cet expert crée des
programmes permettant aux machines d’effectuer des tâches sans être spécifiquement programmées à
cet effet.
Il crée des algorithmes permettant de traiter de larges volumes de données de différente nature. Ces
algorithmes doivent permettre de répondre à des problématiques de modélisation mathématiques. Le
rôle de l’ingénieur sera donc de choisir le modèle le plus performant parmi différentes familles
d’algorithmes.
Parmi les missions qui lui sont confiées et les tâches qu’il doit maîtriser, le Machine Learning Engineer
doit programmer des algorithmes de Machine Learning, entraîner des réseaux de neurones profonds
(Deep Learning), modéliser des données complexes et non structurés telles que des images et des
textes, ou encore mener un projet de recherche et réaliser des preuves de concept.
Cependant, le Machine Learning Engineer est aussi chargé d’industrialiser les modèles d’intelligence
artificielle. Cette mise en production s’anticipe dès la phase de conception, et amène donc de nouveaux
enjeux.
Le spécialiste devra aussi gérer le cycle de vie des modèles et des données. Il devra parvenir à déployer
les modèles et à les faire vivre dans le temps via le développement logiciel, le monitoring des
performances ou encore la détection de dérives dans les données.
Il existe un grand nombre d’applications pour les travaux de l’ingénieur en Machine Learning. Par
exemple, il peut développer le système logiciel d’une voiture autonome. Il peut aussi concevoir le
moteur de recommandation d’un site web ou d’un réseau social.
Missions
• Ecrire des programmes et développer des algorithmes pour extraire de précieuses informations
de larges ensembles de données
• Effectuer des expériences et tester différents approches
• Optimiser des programmes pour améliorer les performances, la vitesse et l’élasticité
• Assurer le nettoyage des ensembles de données
• Suggérer des applications de Machine Learning pertinentes
• Mettre en production les modèles de Machine Learning
• Gérer le cycle de vie des modèles de Machine Learning
Compétences
• Compétences en informatique et en programmation
• Expertise mathématique en probabilité et en statistiques
• Modélisation et évaluation de données
• Application de modèles et de librairies de Machine Learning
• Ingénierie logicielle
• Communication
• Les distributions Big Data

Nous pouvons classer les principales technologies de Big Data dans les quatre sections suivantes :
◦ Stockage de données
◦ Exploration de données
◦ Analyse des données
◦ Visualisation de données
IMPACT ET ÉVOLUTIONS DU BIG DATA
• La qualité des données dans l’univers du Big Data

De par leur volume considérable, certaines données sont de qualité médiocre et la mauvaise gestion
des données paralysent les entreprises. Ces problèmes liés aux données forcent les entreprises à passer
énormément de temps à :
• chercher les données manquantes,

• corriger les données inexactes,
• créer des solutions de contournement,
• supprimer des doublons,
• Etc…
• Introduction et définition de l’Open Data

Open Data : sont des données librement utilisées, accessibles, exploitables, modifiables, partagées,
réutilisées et redistribuées par n'importe qui sous réserve uniquement, au maximum, de l'exigence
d'attribution et de partage. Les Open Data font l'objet d'une licence ouverte.
Pour résumer l’Open Data est une donnée pouvant respecter les règles suivantes :
• Disponibilité et accèsibilité : ce qui signifi que, les données doivent être disponibles dans leur
ensemble et à un coût de reproduction n'excédant pas un raisonnable, de préférence par
téléchargement sur Internet. Les données doivent également être disponibles sous une forme
pratique et modifiable.
• Réutilisation et redistribution : ce qui stipule que, les données doivent être fournies dans des
conditions permettant la réutilisation et la redistribution, y compris le mélange avec d'autres
ensembles de données.
• Participation universelle : en terme clair, tout le monde doit pouvoir utiliser, réutiliser et
redistribuer les données sans y avoir aucune discrimination contre les domaines d'activité ou
contre les personnes ou les groupes. Par exemple, les restrictions «non commerciales» qui
empêcheraient une utilisation «commerciale», ou les restrictions d'utilisation à certaines fins
(par exemple, uniquement dans l'éducation), ne sont pas autorisées.
• Les Types de données du Big Data
Mesurer ce qui se passe dans le monde réel est l'un des principaux bénéfices du Big Data dont la
pertinence des données résulte du monde des IoT.
Fabricants d'équipements et concepteurs de services disposent de plusieurs catégories de produit
destiné à faciliter et anticiper cetrains événements qui vont influencer le quotidien tant des particulier
que des entreprises. Voilà pourquoi, pour mieux connaître les usages de leurs produits et anticiper les
évènements qui vont influencer ces usages, les fabricants ou les concepteurs de services vont de plus en
plus les connecter afin de collecter et d'analyser les données.
Les 3 modèles du Big Data
L'utilisation de ces données sous réserve du respect des règles de vie privée, anonyme et de sécurité,
mais également de ne pas se montrer trop intrusif – doit permettre de disposer d'une meilleure
connaissance des usages du produit, mais surtout participer à son amélioration en continue et à
l'innovation.
L'analyse de ces données doit passer par des outils puissants, qui font du Big Data une réelle
opportunité. On distingue aujourd'hui 3 modèles d'usages auxquels le Big Data fait référence :
• Volumes de données ;
• Dépasser les capacités des bases de données traditionnelles ;
• Outils d'analyse qui permettent de dépasser les 2 modèles précédents.
Les 4 types de données

Avec les premières années d'analyse et de développement des projets et des technologies liées à
l'Internet des Objets, il est possible aujourd’hui de résumer les données associées aux objets connectés
en 4 types de données. La démarche est importante, car elle est un guide pour le déploiement des
solutions de Big Data associées à l'IoT.
• Les données d'état : Ce sont les données logiquement les plus répandues, car elles sont
naturellement associées à l'objet connecté. Elles permettent de mettre en place une base de
référence et serviront de plus en plus comme matière première pour alimenter les moteurs
d'algorithmes des solutions de Big Data, et réaliser du prévisionnel sur le long terme.
• Les données de localisation : Extension logique du GPS, ces données se complètent : le GPS
fonctionne bien en déplacement, à l'extérieur, mal sur le statique, sur des déplacements courts et
surtout en intérieur. Le potentiel est énorme, certes dans la chaine logistique qui devrait être la
première à l'industrialiser, mais également avec un énorme marché grand public, celui de la
localisation d'un objet ou d'une personne. Des fonctionnalités qui demandent à bénéficier d'un
traitement en temps réel.
• Les données personnalisées : Les acteurs du marché sont très prudents dans ce domaine : ils
distinguent les données anonymes sur les usage et les préférences individuelles aux données
personnelles associées à la vie privée. En fait, se profile derrière ces données une notion
essentielle, source de scepticisme de la part des utilisateurs, l'automatisation. Toute la difficulté
est de pouvoir associer des règles à des usages en passant de la moyenne aux pratiques de
l'individu, sans heurter le respect de la vie privée…
• Les données décisionnelles : Principalement associée à l'exploitation des données d'état, mais
également aux deux suivantes, les données décisionnelles doivent accompagner la prise de
décision, quelle soit automatisée ou personnelle. Elles ont donc deux états, l'automatisation et
la persuasion.
• Processus du traitement des données dans le Big Data
En l'absence d'un processus de traitement des données, les entreprises ne peuvent pas accéder au big
data qui les permettent d’acquérir des connaissances nécessaires sur leurs produits et aussi avoir un
avantage concurrentiel, les permettant de booster leur efficacité au niveau des stratégies marketing et
les besoins de leurs consommateurs. Avec l’avènement des NTIC, les entreprises doivent
impérativement comprendre la nécessité du traitement des données.
Le traitement des données est exécuté dès que celles-ci sont collectées, en vue de les traduire en
information exploitable. Le traitement des données est généralement effectué par un data scientist
(ou une équipe de data scientists). Il est important qu'il soit effectué correctement afin de ne pas
impacter négativement le produit final ou la sortie des données (c’est le résultat d’une information).
Le traitement des données commence avec les données brutes : il les convertit sous une forme plus
lisible (graphiques, documents de texte, etc.) en leur donnant le format et contexte nécessaires pour
qu'elles puissent être interprétées par les systèmes IT et utilisées par les employés à l'échelle de
l'entreprise.
Du traitement des données à l'analytique

Les big data modifient les pratiques des entreprises, grandes ou petites, mais les avantages
concurrentiels qui leur sont associés exigent une stratégie de traitement des données bien pensée.
Les six étapes du traitement des données décrites ci-dessous ne devraient pas changer
significativement, mais le cloud a bénéficié d'avancées technologiques considérables et propose dès à
présent les méthodes les plus avancées, les plus performantes et les moins coûteuses pour ces
opérations.
Et ensuite ? Il est temps de mettre vos données au service de vos activités. Une fois traitées, les
données peuvent être analysées efficacement dans un contexte de Business Intelligence. Et avec un
environnement d'analyse des données, efficace, vous pourrez prendre des décisions plus rapides et plus
avisées.
Workflow du traitement des données en six étapes

1. Collecte des données
La collecte des données est la première étape du traitement des données. Les données proviennent de
toutes les sources disponibles, y compris les data lakes et les data warehouses. Il est important que les
sources de données disponibles soient fiables et correctement structurées pour que les données
importées (et utilisées par la suite sous forme d'information ou de connaissance) soient de la meilleure
qualité possible.
2. Préparation des données

Après la collecte des données suit la préparation des données. La préparation des données, parfois
appelée « pré-traitement », est l’étape pendant laquelle les données brutes sont nettoyées et
structurées en vue de l'étape suivante du traitement des données. Pendant cette phase de préparation, les
données brutes sont vérifiées avec soin afin de déceler d'éventuelles erreurs. L'objectif est d'éliminer les
données de mauvaise qualité (redondantes, incomplètes ou incorrectes) et de commencer à créer les
données de haute qualité qui peuvent garantir la qualité de votre environnement de Business
intelligence.
3. Importation des données

Les données propres sont ensuite importées dans leur emplacement de destination (par exemple, un
système CRM tel que Salesforce ou un data warehouse tel que Redshift), et converties vers un format
supporté par cette destination. L'importation des données est la première étape au cours de laquelle les
données brutes commencent à se transformer en information exploitable.
4. Traitement des données

Pendant cette étape, les données importées dans le système lors de l'étape précédente sont traitées pour
interprétation. Le traitement s'effectue par exécution d'algorithmes de machine learning. Toutefois, le
processus peut présenter certaines variations en fonction de la source des données (data lakes, réseaux
sociaux, IoT, etc.) et de l'utilisation prévue pour ces données (analyse de modèles publicitaires,
diagnostic médical à partir d'équipements connectés, détermination des besoins des clients, etc.).
Les objets connectés génèrent deux types de données :
• les données de connexion : permettent de récolter des informations sur des éléments
intrinsèques à la connexion comme la quantification du volume de données échangées, la durée
de connexion ainsi que le réseau et l’opérateur utilisés.
• les données raw ou brutes : se sont des données brutes collectées par l’objet et qui ont pour
vocation d’être analysées.
Pour cela, il faut, dans un premier temps, réaliser un audit pour connaître les besoins métier de
l’utilisateur final. Ensuite, selon son niveau d’attente et de compréhension, le traitement des
données s’effectue via une restitution automatique ou via la création de modèles statistiques.
Les interfaces qui lient l’algorithme à l’utilisateur sont alors personnalisées selon les besoins.
5. Sortie et interprétation des données

Lors de l'étape de sortie/interprétation, les données deviennent exploitables par tous les employés, y
compris ceux qui n'ont pas les compétences d'un data scientist. Elles sont converties, deviennent
lisibles et sont généralement présentées sous forme de graphiques, vidéos, photos, texte sans
enrichissements, etc. Les employés disposent maintenant d'un accès en libre-service aux données
nécessaires à leurs projets d' analytique.
6. Stockage des données

La dernière étape du traitement des données est le stockage. Lorsque toutes les données ont été traitées,
elles sont stockées pour une utilisation ultérieure (certaines données peuvent être utilisées
immédiatement). Le stockage correct des données est généralement une exigence de conformité des
directives telles que le Règlement général sur la protection des données (RGPD) imposé par l'Union
européenne. Lorsque les données sont correctement stockées, les employés peuvent y accéder
facilement et rapidement.
L'avenir du traitement des données

L'avenir du traitement des données est dans le cloud ou encore dans les Data center. La technologie
cloud s'appuie sur les méthodes actuelles de traitement des données, améliore leurs performances et
augmente leur efficacité. Avec des données de meilleure qualité et accessibles plus rapidement, chaque
entreprise peut traiter de plus gros volumes et en extraire des connaissances précieuses.
En migrant leurs big data vers le cloud, les entreprises bénéficient d'avantages considérables.
Les technologies big data en cloud permettent aux entreprises d'agréger leurs différentes plates-
formes en un seul système facilement adaptable. Chaque fois qu'un logiciel est modifié ou mis à jour
(comme c'est souvent le cas dans l'univers des big data), la technologie cloud intègre automatiquement
les nouveautés dans l'ancienne version.
• La protection et sécurité des données
Les plateformes big data sont conçues pour traiter une quantité de données massive, en revanche
elles sont très rarement conçues pour traiter ces données en temps réel. L’information des personnes
concernées sur la manière dont leurs données sont collectées, utilisées, consultées, traitées constitue
un préalable indispensable à la maîtrise effective des usages qui en sont faits.
Les droits reconnus aux personnes concernées tendent à rétablir un équilibre entre celles-ci et les
responsables de traitement. Le droit d’accès, le droit de rectification, le droit à l’effacement, le droit
à la limitation du traitement ou encore par exemple le droit d’opposition contribuent à assurer aux
personnes concernées une maîtrise sur les usages qui sont faits de leurs données personnelles. Ces
droits s’imposent aux recherches en sciences sociales prenant appui sur le big data. Pour tout ce qui
concerne les données des utilisateurs de Big data le légisateur des différents pays on pu élaborer un
politique conforme à la protecttion du droit des personnes.
• L'image de la donnée
Big Data Analytics Photos Stock & Des Images
◦ Gestion de l'analyse de données Photo Stock
◦ Concept de big data avec l'icône illustration de construction.
les images diffusées, la plupart sont publiées par les ayants-droits (visuels produits, publicités, logos et
autres actifs de marques) et associées à des mots clés particuliers (hashtags).
Mais des millions d’images (dans leurs versions originales ou modifiées) sont également créés et
diffusées sans aucune mention textuelle.
ENJEUX STRATÉGIQUES ET ORGANISATIONNELS DU BIG DATA
• Le challenge technique mis en place dans les Big Data

L’enjeux ici est la façon dont est gerer les volumes de quantité de données qui impliquent le processus
de stockage, en analysant l'énorme ensemble d'informations sur divers magasins de données. Il existe
divers défis majeurs qui se présentent lors de la gestion du Big Data et qui doivent être pris en charge
avec Agilité.
1) Manque de connaissances Professionnels

Pour exécuter ces technologies modernes et ces outils de données volumineux, les entreprises ont
besoin de professionnels des données qualifiés. Ces professionnels comprendront des scientifiques des
données, des analystes de données et des ingénieurs de données pour travailler avec les outils et
donner un sens à des ensembles de données géants. L'un des défis du Big Data auquel toute entreprise
est confrontée est le manque de professionnels des données massifs. C'est souvent parce que les outils
de traitement des données ont évolué rapidement, mais dans la plupart des cas, ce n'est pas le cas des
professionnels. Des mesures concrètes doivent être prises pour combler cet écart.
Solution :
Les entreprises investissent des sommes supplémentaires dans le recrutement de professionnels
qualifiés. Ils doivent même fournir des programmes de formation au personnel en place pour en tirer le
meilleur parti. Une autre étape importante franchie par les organisations est l'achat de solutions
d'analyse des connaissances alimentées par l'intelligence artificielle/l'apprentissage automatique. Ces
outils de big data sont souvent parcourus par des professionnels qui ne sont pas des experts en science
des données mais qui ont les connaissances de base. Cette étape aide les entreprises à économiser
beaucoup d'argent pour le recrutement.
2) Manque de compréhension adéquate des données massives

Les entreprises échouent dans leurs initiatives Big Data, tout cela à cause d'une compréhension
insuffisante. Les employés peuvent ne pas savoir ce que sont les données, leur stockage, leur
traitement, leur importance et leurs sources. Les professionnels des données peuvent savoir ce qui se
passe, mais d'autres peuvent ne pas avoir une image transparente.
Par exemple, si les employés ne comprennent pas l'importance du stockage des connaissances, ils ne
pourraient pas conserver la sauvegarde des données sensibles. Ils ne pouvaient pas utiliser correctement
les bases de données pour le stockage. Par conséquent, lorsque ces données importantes sont requises,
elles ne peuvent pas être récupérées facilement.
Solution :
Les ateliers et séminaires Big Data doivent être organisés dans les entreprises pour tous. Des
programmes de formation militaire doivent être organisés pour tous les travailleurs manipulant
régulièrement des données et constituent un voisinage de grands projets de données. Tous les niveaux
de l'organisation doivent inculquer une compréhension de base des concepts de connaissance.
3) Problèmes de croissance des données

L'un des défis les plus urgents des données massives est de stocker correctement ces énormes
ensembles de connaissances. la quantité de connaissances stockées dans les centres de données et les
bases de données des entreprises augmente rapidement. À mesure que ces ensembles de données
augmentent de façon exponentielle avec le temps, cela devient difficile à gérer. La plupart des
informations ne sont pas structurées et proviennent de documents, de vidéos, de fichiers audio, de
fichiers texte et d'autres sources. Cela suggère que vous ne pouvez pas les trouver dans la base de
données.
Les entreprises choisissent des techniques modernes pour gérer ces grands ensembles de données,
comme la compression, la hiérarchisation et la déduplication. La compression est utilisée pour réduire
le nombre de bits dans les données, réduisant ainsi leur taille globale. La déduplication est le processus
de suppression des données en double et indésirables d'un ensemble de connaissances. La
hiérarchisation des données permet aux entreprises de stocker des données dans plusieurs niveaux de
stockage. Il garantit que les informations résident dans l'espace le plus approprié pour le stockage. Les
niveaux de données sont souvent un cloud public, un cloud privé et un stockage flash, en fonction de la
taille et de l'importance des informations. Les entreprises choisissent également des outils Big Data,
comme Hadoop, NoSQL, et d'autres technologies.
4) Confusion lors de la sélection de l'outil Big Data

Les entreprises sont souvent confuses lorsqu'elles choisissent l'outil le plus simple pour l'analyse et le
stockage de données géantes.
• HBase ou Cassandra sont-ils la technologie la plus simple pour le stockage de données ?
• EstHadoop MapReduceok, ou Spark sera-t-il une bien meilleure option pour l'analyse et le
stockage des données ?
Ces questions dérangent les entreprises, et parfois elles sont incapables de trouver les réponses. Ils se
retrouvent à prendre de mauvaises décisions et à sélectionner une technologie inappropriée. En
conséquence, de l'argent, du temps, des efforts et des heures de travail sont gaspillés.
Solution :
Vous embaucherez soit des professionnels expérimentés qui en savent beaucoup plus sur ces outils.
Autrement, c'est voyager pour le géant Data consulting. Ici, les consultants fourniront une
recommandation des outils les plus simples prenant en charge le scénario de votre entreprise. À l'appui
de leurs conseils, vous calculerez une technique puis sélectionnerez l'outil le plus simple pour vous.
5) Intégration de données à partir d'un éventail de sources

Les données d'une entreprise proviennent de diverses sources, comme les pages de médias sociaux,
Applications ERP(Enterprise Resource Planning), les journaux des clients, les rapports financiers, les
e-mails, les présentations et les rapports créés par les employés. La combinaison de toutes ces données
pour organiser les rapports peut être une tâche difficile. C'est un quartier souvent délaissé par les
entreprises. L'intégration des données est cruciale pour l'analyse, la création de rapports et la veille
économique, elle est donc parfaite.
Solution :
Les entreprises doivent résoudre leurs Intégration de données problèmes en achetant les outils
appropriés. Un certain nombre des outils d'intégration de données les plus simples sont mentionnés ci-
dessous :
Intégration de données Talend, Intégrateur de données Centerprise, ArcESB, IBM InfoSphere,
Xplein, Informatica PowerCenter, CloverDX, Microsoft SQL QlikView
6) Sécurisation des données

Sécuriser ces énormes ensembles de connaissances est l'un des défis de taille des données massives.
Souvent, les entreprises sont tellement occupées à comprendre, stocker et analyser leurs ensembles
de données qu'elles poussent la sécurité des données à des étapes ultérieures. Ce n'est souvent pas une
décision sensée car les référentiels de données non protégés peuvent devenir des terrains fertiles pour
les pirates malveillants.
Les entreprises peuvent perdre jusqu'à 3,7 millions de dollars pour un dossier volé ou une violation de
connaissances.
Solution :
Les entreprises recrutent davantage de professionnels de la cybersécurité pour protéger leurs données.
D'autres mesures prises pour Sécuriser les mégadonnées comprennent : Chiffrement des données,
Ségrégation des données, Identité et contrôle d'accès, Mise en œuvre de la sécurité des terminaux,
Surveillance de la sécurité en temps réel , Utilisation des outils de sécurité Big Data, comme IBM
Guardian.
• Investissement dans la capacité de stockage des SI du Big Data

Ce n'est un secret pour personne que le Big Data est essentiel pour les entreprises, en supposant que
nous puissions faire confiance à nos données. C'est la clé pour maintenir la visibilité de nos opérations
commerciales afin que nous puissions garder notre organisation légère et efficace. Des données de
qualité nous aident également à planifier et à mesurer le succès de tout, des campagnes marketing aux
lancements de nouveaux produits. Si nos données sont dignes de confiance, elles constituent l'un de nos
atouts les plus stratégiques.
Combien valent exactement les données stockées en memoire?

Impossible de quantifier de maniere efficace la valeur de ces données car elle varie d’une entreprise a
une autre, et parfois implique sa zone géographique. Il est clair et net, qu’investir dans le stockage des
donnees rapportent énorment d’argent.
Considérez les statistiques suivantes :

• Le marché du big data vallait 138,9 milliards de dollars en 2020 et devrait dépasser 229,4
milliards de dollars d'ici 2025. C'est une mesure de la quantité d'entreprises qui investissent
dans les mégadonnées, et non de la valeur qu'elles en retirent. Néanmoins, cela donne une idée
de la quantité de capital financier que les entreprises investissent dans les opérations de
données.
• Dans son Enquête 2019 sur le Big Data et l'IA auprès des dirigeants, NewVantage Partners
note que 62,2 % des personnes interrogées ont obtenu des résultats mesurables de leurs
investissements dans le Big Data, avec des améliorations générales dans les domaines de
l'analyse avancée (79,8 %), de la réduction des dépenses (59,5 %), du service client (57,1 %)
et de la vitesse de marché (32,1%).
• Selon un Rapport McKinsey 2019, les entreprises affichant la croissance globale et les revenus
les plus élevés sont trois fois plus susceptibles que les autres entreprises de dire que leurs
initiatives de données et d'analyse ont contribué au moins 20 % au bénéfice avant intérêts et
impôts (EBIT) au cours des trois dernières années.
NB: Nous pouvons investir dans une solution de stockage et d'analyse de données à la pointe de la
technologie. Mais si les données que nous stockons et analysons sont truffées d'incohérences,
d'inexactitudes ou d'autres problèmes, les résultats d'analyse que nous obtiendrons seront trompeurs. Ils
ne nous aiderons pas à planifier la bonne stratégie marketing, à prédire les comportements de nos
clients ou à obtenir les autres informations cruciales que seules des données de qualité peuvent fournir.
• Investissement dans l'analyse et le traitement des informations du Big Data
Investissement dans l'analyse

Investir dans l’analyse des données stratégique pour la prise de décision : L’analyse des donnees
est de plus en plus utilisée par les entreprises de tout bord. Ceci grâce aux multiples outils sur le
marche. L’analyse de données est utilisée par les entreprises pour prendre de meilleures décisions grâce
à la Business Intelligence. Elle peut être exploitée dans le cadre d’une étude de marché, d’un
développement de produit, d’un positionnement sur le marché, ou encore pour passer en revue les
avis et sentiments de la clientèle.
De manière générale, elle permet de faire des choix basés sur des éléments concrets plutôt que de se
baser sur une intuition ou autre facteur abstrait.
Exemple: une société de services financiers a construit un modèle basé sur une analyse de données
volumineuses qui a identifié le meilleur endroit pour localiser un guichet automatique, seulement pour
apprendre que les consultants avaient déjà construit des modèles similaires pour plusieurs autres
banques. De plus, transformer les informations issues de l'analyse de données en avantage concurrentiel
nécessite des changements que les entreprises peuvent être incapables d'apporter.
Investir dans l’analyse des données numériques : consiste a capturer, analyser et utiliser les
informaions pour servir les clients. Ceci permet aux entreprises d’améliorer considérablement leurs
performances commerciales en se concentrant simplement sur la façon dont les données d'exploitation
peuvent éclairer la prise de décision au quotidien.
Types, Techniques et Methode d’analyse

• Analyse de texte permet de découvrir des tendances dans de larges ensembles de données
textuelles. On utilise des outils de Data Mining, permettant de transformer les données brutes
en informations stratégiques.
• Analyse statistique consiste à utiliser les données du passé pour comprendre le présent, sous
forme de tableaux de bord. Cette pratique regroupe la collecte, l’analyse, la présentation et la
modélisation des données.
• Analyse prédictive permet quant à elle de déterminer les événements probables, de prédire le
futur grâce aux données du passé ou du présent. Ces données sont utilisées pour prédire les
probabilités futures. La fiabilité de ces prédictions dépend de la quantité d’informations à
disposition, de leur exactitude et de l’ampleur de leur exploration.
• Analyse prescriptive consiste quant à elle à combiner toutes les informations obtenues à partir
des précédentes analyses pour déterminer quelles mesures prendre pour résoudre un problème
ou prendre une décision.
• Qu’est ce que le web sémantique ?
Le Web sémantique est une vision d'une extension du World Wide Web existant, qui fournit aux
programmes logiciels des métadonnées interprétables par la machine des informations et des données
publiées. En d'autres termes, nous ajoutons d'autres descripteurs de données au contenu et aux données
autrement existants sur le Web. En conséquence, les ordinateurs sont capables de faire des
interprétations significatives similaires à la façon dont les humains traitent les informations pour
atteindre leurs objectifs.
L'ambition ultime du Web sémantique, , est de permettre aux ordinateurs de mieux manipuler
l'information à notre place. Il explique en outre que, dans le contexte du Web sémantique,
Le mot web véhicule l'idée d'un espace navigable d'objets interconnectés avec des mappages d'URI
vers des ressources.Alors que l’expression sémantique indiquel’ensemble des valeurs pouvant être
traité par une machine ou ce qu'une machine est capable de faire avec les données.
Les concepts du Web sémantique ont été rapidement adoptés dans la gestion des données et de
l'information.
◦ L'enjeu économique & impact organisationnel
Enjeux économiques
Le Big Data est mieux compris comme une ressource inexploitée que la technologie nous permet enfin
d'exploiter.
Par exemple, les données sur la météo, les insectes et les plantations de cultures ont toujours existé.
Mais il est désormais possible de collecter ces données de manière rentable et de les utiliser en toute
connaissance de cause. Nous pouvons conserver une trace de l'historique de chaque plante, y compris
les pulvérisations et les précipitations. Lorsque nous conduisons une moissonneuse-batteuse sur le
terrain, l'équipement peut identifier chaque plante comme étant une culture ou une mauvaise herbe et
appliquer sélectivement un herbicide uniquement aux mauvaises herbes.
Ces données affectent l’économie de la manière suivante:

• Produire de nouveaux biens et services, tels que le thermomètre domestique Nest ou des
chaussures personnalisées de masse ;
• Optimisation des processus d'affaires ;
• Un marketing plus ciblé qui injecte les commentaires des clients dans la conception du produit
• Une innovation plus rapide grâce à un cycle de recherche et développement plus court.
Impact organisationnel
Une entreprise a besoin d'avoir un aperçu analytique d'un énorme volume de données pour appliquer
l'analyse des mégadonnées, ce qui aidera certainement une organisation à améliorer ses performances
commerciales.
Trois opportunités commerciales majeures incluent : l'automatisation, des informations
approfondies et une prise de décision basée sur les données.
• Automatisation: Les mégadonnées ont le potentiel d'améliorer l'efficacité et les opérations

internes grâce à l'automatisation des processus robotiques. D'énormes quantités de données en
temps réel peuvent être immédiatement analysées et intégrées aux processus métier pour une
prise de décision automatisée. Avec une infrastructure informatique évolutive et des coûts de
cloud computing décroissants, l'automatisation de la collecte et du stockage des données est à
portée de main.
• Aperçus approfondis : Les données peuvent également être utilisées pour découvrir des
opportunités cachées qui étaient inconnues des organisations avant la possibilité d'examiner de
grands ensembles de données. Des ensembles de données complexes peuvent même être utilisés
pour développer de nouveaux produits ou améliorer les produits existants. Les données
exclusives sur le marché peuvent s'avérer inestimables dans le paysage concurrentiel.
• Prise de décision plus rapide et meilleure: Grâce à la vitesse de la technologie d'analyse de
données, associée à la capacité d'analyser de nouvelles sources de données, les entreprises sont
désormais en mesure d'analyser les informations instantanément et de prendre des décisions
intelligentes et éclairées.
◦ La conduite du changement & L'apparition de nouveaux métiers

La conduite de nouveaux projets sur la gestion des flux de données demande une trrès grande attention
sur les divers métiers pouvant avoir un impact sur la géostratégie et l’évolution des Big Data
technologie dans tous les secteurs d’activité.
Les différents métiers du Big Data

• Chief Data Officer
• Architecte Big Data
• Business Intelligence Manager
• Master Data Manager
• Data Protection Officer
• Data Scientist et Chef Data Scientist
• Data Miner
• Data Analyst
• Ingénieur Big Data
• Machine Learning Engineer
Cas d'usage du Big Data

• Industrie : grâce à l’utilisation des données des machines de la chaîne de production par
exemple, les entreprises peuvent augmenter l’efficacité de leur production et travailler de
manière plus durable.
• Marketing : le Big Data est utilisé dans le marketing pour mieux cibler les clients. L’objectif
est, entre autres, d’améliorer les relations avec les consommateurs et d’augmenter le taux de
conversion. Même l'industrie de la publicité, dont l'utilisation des données est parfois
considérée avec méfiance, offre de grands avantages. Une étude a révélé qu'une meilleure
utilisation des données rendait le marketing plus efficace, à la fois en permettant aux entreprises
d'éviter d'envoyer des sollicitations à des personnes peu susceptibles d'acheter leur produit et en
faisant correspondre les clients avec des offres qui répondent mieux à leurs besoins et intérêts
individuels. Les données ont également réduit les barrières à l'entrée en permettant aux petites
entreprises d'obtenir plus facilement des données de marché utiles. Enfin, une autre étude a
conclu que les services Internet gratuits souscrits par la publicité sur Internet offraient des
avantages significatifs aux internautes. Elle a estimé le surplus social de ces services à 120
milliards d'euros, dont 80 pour cent sont allés aux consommateurs.
• Service public…
• La recherche médicale : grâce à l’évaluation des données massives, les médecins
peuvent trouver de meilleures solutions de thérapie et de traitement pour leurs patients.
• L’économie : il permet aux entreprises de mieux connaitre leurs clients et de leur
proposer des offres toujours plus adaptées à leurs besoins.
• L’énergie : les données sur la consommation d’énergie permettent à long terme
d’adapter l’offre aux besoins des utilisateurs dans le but de rendre l’approvisionnement
énergétique plus responsable et durable.
• Le secteur bancaire : le Big Data permet à une banque de proposer des services adaptés
au profil de ses clients ou de mieux anticiper ses risques de défaut ou de liquidité.
LES TECHNOLOGIES UTILISÉES DANS DES PROJETS BIG DATA
• Le NoSQL
NoSQL Database est un système de gestion de données non relationnel, qui ne nécessite pas de
schéma fixe.
Les bases de données NoSQL sont spécialement conçues pour des modèles de données spécifiques et
disposent de schémas flexibles pour la création d'applications modernes.
Les bases de données NoSQL sont largement reconnues pour leur facilité de développement, leurs
fonctionnalités et leurs performances à grande échelle au sein des Big Data.
• Apache
Apache est un logiciel d'application open-source remarquable. Il s'agit de l'application de serveur Web
la plus utilisée au monde avec plus de 50 % de parts de marché sur le marché des serveurs Web
commerciaux.
Les différentes versions d’apache présent sur Hadoop nous permettent d’effectuer diverse tâche :
Apache Drill L'objectif principal du composant d'écosystème Hadoop est le traitement de données à
grande échelle, y compris des données structurées et semi-structurées.
Apache Mahout
Mahout est un framework open source permettant de créer un algorithme d' apprentissage
automatique évolutif et une bibliothèque d'exploration de données. Une fois les données stockées dans
Hadoop HDFS, mahout fournit les outils de science des données pour trouver automatiquement des
modèles significatifs dans ces grands ensembles de données.
Apache Sqoop
Sqoop importe des données de sources externes dans des composants de l'écosystème Hadoop associés
tels que HDFS, Hbase ou Hive. Il exporte également les données de Hadoop vers d'autres sources
externes. Sqoop fonctionne avec des bases de données relationnelles telles que teradata, Netezza,
oracle, MySQL.
Apache Flume
Flume collecte, agrège et déplace efficacement une grande quantité de données depuis leur origine et
les renvoie vers HDFS. C'est un mécanisme fiable et tolérant aux pannes. Ce composant Hadoop
Ecosystem permet le flux de données de la source vers l'environnement Hadoop. Il utilise un modèle de
données extensible simple qui permet l'application analytique en ligne. En utilisant Flume, nous
pouvons obtenir les données de plusieurs serveurs immédiatement dans hadoop.
• Les outils de stockage : Cassandra, MongoDB, CouchDB, DynamoDB, Riak, Hadoop,

HBase, BigTable…
Les outils de stockage Big Data jouent un rôle très important dans la collecte, entreposage, la gestion
et la manipulation des données via les System de Gestions de Bases de Données et leur langage de
manipulation tant généralisé (SQL et NoSQL...) que spécifique(CQL,HQL...) à ces outils de stockage.
• Les exigences de stockage
Afin de mieux stocker nos données que ce soit sur Handoop ou sous Cassandra avons généralement
besoin de compressées pour réduire l'empreinte de stockage, créant une charge supplémentaire pour
les entreprises de décompresser les données avant d'appliquer des techniques d'optimisation du
stockage. Il est souvent judicieux de respecter les exigences suivantes :
1.Faire évoluer notre architecture secondaire de gestion des données

La plupart des plateformes Big Data sont déployées sur du matériel x86 de base ou des machines
virtuelles avec des disques à connexion directe et possèdent une architecture hautement élastique où les
nœuds et les disques peuvent être ajoutés ou mis hors service très facilement. Le volume considérable
des ensembles de données impliqués dans les charges de travail de Big Data implique que votre
architecture de gestion de données secondaire doit également évoluer afin de stocker des pétaoctets de
données avec autant de points de restauration que votre entreprise l'exige. Une architecture définie par
logiciel offre ce type de flexibilité, avec la possibilité de se déployer sur le matériel (physique ou
virtuel) de votre choix. Les applications Big Data typiques se développent en ajoutant simplement des
nœuds à un cluster. Un environnement de stockage secondaire doit croître de la même manière en
ajoutant simplement des nœuds de base qui évoluent pour gérer la croissance de votre système
principal.
2.Réduction du stockage et nécessité d'une connaissance des applications

Les plates-formes Big Data sont uniques dans leur structure et utilisent différents types d'algorithmes
de compression ou de formats de colonnes compressés pour stocker efficacement les données. Par
conséquent, l'optimisation du stockage sur votre stockage secondaire doit prendre en compte les
applications pour être efficace. Prenons l'exemple de la déduplication. Dans le monde du Big Data, une
déduplication efficace doit aller au-delà des techniques au niveau des blocs qui impliquent simplement
de trouver des doublons à une granularité de flux d'octets. Au lieu de cela, les algorithmes de
déduplication doivent être suffisamment « intelligents » pour comprendre les différences
« sémantiques » entre les formats de données, par exemple, les espaces de clés Cassandra et le schéma
Hive. En utilisant la notion de «data-awareness», les algorithmes de déduplication peuvent
décompresser les données, puis appliquer des algorithmes appropriés afin que toutes les répliques
puissent être supprimées du flux de données. Ce n'est qu'alors que la déduplication peut réellement
avoir un impact sur votre empreinte de stockage secondaire. Les données uniques doivent être stockées
dans un format compressé.
3.Soutenir la flexibilité de la cible de stockage

Les entreprises peuvent avoir plusieurs environnements de stockage secondaires dans leur mix. Votre
architecture de gestion des données devra prendre en charge une infrastructure de stockage qui peut
prendre en charge le stockage de produits à connexion directe, NAS, SAN ou même potentiellement
fédérer des données plus anciennes vers des cibles de stockage cloud moins chères comme Amazon S3
ou le stockage blob Microsoft Azure. Encore une fois, votre architecture de gestion des données ne doit
pas seulement stocker des données sur ces différentes cibles, mais offrir la possibilité de restaurer
rapidement et facilement afin de minimiser l'impact des temps d'arrêt et de la perte de données.
4.les coûts de stockage et de réseau rendent une architecture incrémentielle permanente critique
Une approche traditionnelle de la sauvegarde des données dans un environnement Big Data n'est pas
économiquement ou logistiquement faisable. Prenez le mécanisme de sauvegarde traditionnel qui
intègre des sauvegardes complètes hebdomadaires avec des sauvegardes incrémentielles quotidiennes.
Sur un environnement Big Data de production de 100 To avec un taux de changement de 5 %, vous
déplaceriez plus de 550 To par mois. Dans une architecture incrémentielle permanente, vous feriez la
sauvegarde complète de 100 To une seule fois, la première fois que le workflow est exécuté. Toutes les
sauvegardes suivantes identifieraient uniquement les nouvelles modifications (ajouts, suppressions,
mutations) et déplaceraient les données et métadonnées modifiées. La même approche efficace devrait
s'appliquer au processus de récupération. L'approche traditionnelle impliquerait de trouver la dernière
sauvegarde complète et de lui appliquer toutes les incréments pertinentes pour créer l'image finale. Au
lieu.
Les plateformes de Big Data ne sont pas seulement là pour rester, elles sont de plus en plus importantes
dans les architectures d'entreprise. Alors que les entreprises réalisent que la protection de ces actifs de
données est synonyme de réussite commerciale, leur attention se tournera à juste titre vers la meilleure
façon d'architecturer un environnement de stockage secondaire qui prend pleinement en charge ces
besoins de gestion des données sans perdre de vue le coût global de possession, la flexibilité nécessaire
pour travailler dans divers environnements architecturaux et la capacité d'évoluer au niveau des
mégadonnées.
• Les outils et prommation Hadoop
L’écosystème Hadoop regroupe une large variété d’outils Big Data open source. Ces divers outils
complémentent Hadoop et améliorent sa capacité de traitement Big Data.
Parmi les plus populaires, Apache Hive est une Data Warehouse dédiée au traitement de larges
ensembles de données stockés dans le HDFS. L’outil Zookeeper automatise les basculements et réduit
l’impact d’une panne de NameNode.
De son côté, HBase est une base de données non relationnelle pour Hadoop. Le service distribué
Apache Flume permet le streaming de données de larges quantités de données de log.
Citons aussi Apache Sqoop, un outil de ligne de commande permettant la migration de données entre
Hadoop et les bases de données relationnelles. La plateforme de développement Apache Pig permet
le développement de jobs à exécuter sur Hadoop.
Le système de planification Apache Oozie facilite la gestion des jobs Hadoop. Enfin, HCatalog est
un outil de gestion de tableau pour trier les données en provenance de divers systèmes de traitement.
• L'écosystème Hadoop
L'écosystème Apache Hadoop fait référence aux différents composants de la bibliothèque logicielle
Apache Hadoop; il comprend des projets open source ainsi qu'une gamme complète d'outils
complémentaires.
Certains des outils les plus connus de l'écosystème Hadoop incluent HDFS, Hive, Pig,
YARN, MapReduce , Spark, HBase, Oozie, Sqoop, Zookeeper, etc.
Hadoop Distributed File System (HDFS : Système de fichiers distribué Hadoop)

C'est le composant le plus important de l'écosystème Hadoop. HDFS est le système de stockage
principal de Hadoop.
Le système de fichiers distribué Hadoop (HDFS) est un système de fichiers basé sur Java qui fournit
un stockage de données évolutif, tolérant aux pannes, fiable et économique pour le Big Data . HDFS
est un système de fichiers distribué qui s'exécute sur du matériel standard. HDFS est déjà configuré
avec la configuration par défaut pour de nombreuses installations. La plupart du temps, la configuration
des grands clusters est nécessaire. Hadoop interagit directement avec HDFS par des commandes de
type shell.
Composants HDFS :
Il existe deux composants principaux de Hadoop HDFS :
▪ Nom de Nœud (NameNode),
▪ Nœud de données (DataNode).
• MapReduce
Un MapReduce est un outil de traitement de données qui est utilisé pour traiter les données en parallèle
sous une forme distribuée.
Le MapReduce est un paradigme qui comporte deux phases, la phase de cartographie et la phase de
réduction. Dans le Mapper, l'entrée est donnée sous la forme d'une paire clé-valeur. La sortie du
Mapper est transmise au réducteur en tant qu'entrée. Le réducteur ne s'exécute qu'après la fin du
mappeur. Le réducteur prend également une entrée au format clé-valeur, et la sortie du réducteur est la
sortie finale.
• Hbase
Hbase est une source de données cartographiques open source et triée construite sur Hadoop. Il est
orienté colonne et évolutif horizontalement.
Il est basé sur la grande table de Google. Il comporte un ensemble de tables qui conservent les données
au format de valeur clé. Hbase est bien adapté aux ensembles de données épars qui sont très courants
dans les cas d'utilisation du Big Data. Hbase fournit des API permettant le développement dans
pratiquement tous les langages de programmation. Il fait partie de l'écosystème Hadoop qui fournit un
accès aléatoire en lecture/écriture en temps réel aux données du système de fichiers Hadoop.
• Hive
Hive est un système d'entrepôt de données utilisé pour analyser des données structurées. Il est construit
sur le dessus de Hadoop. Il a été développé par Facebook.
Hive fournit la fonctionnalité de lecture, d'écriture et de gestion de grands ensembles de données
résidant dans un stockage distribué. Il exécute des requêtes de type SQL appelées HQL (langage de
requête Hive) qui sont converties en interne en tâches MapReduce.
En utilisant Hive, nous pouvons ignorer l'exigence de l'approche traditionnelle d'écriture de
programmes MapReduce complexes. Hive prend en charge le langage de définition de données (DDL),
le langage de manipulation de données (DML) et les fonctions définies par l'utilisateur (UDF).
• Pig
Apache Pig est une plate-forme de flux de données de haut niveau pour l'exécution des programmes
MapReduce de Hadoop. La langue utilisée pour Pig est Pig Latin.
Les scripts Pig sont convertis en interne en tâches Map Reduce et sont exécutés sur les données
stockées dans HDFS. En dehors de cela, Pig peut également exécuter son travail dans Apache Tez ou
Apache Spark.
Pig peut gérer tout type de données, c'est-à-dire structurées, semi-structurées ou non structurées et
stocke les résultats correspondants dans Hadoop Data File System. Chaque tâche pouvant être réalisée
à l'aide de PIG peut également être réalisée à l'aide de Java utilisé dans MapReduce.
• Les différentes types de distributions Big Data :

il exite plusieurs fournisseurs de Big Data parmi lesquels on peu citer :
• Cloudera : se classe en tête de tous les fournisseurs de Big Data pour faire d'Hadoop
une plateforme Big Data fiable. Le fournisseur Cloudera Hadoop compte plus de 350
clients payants, dont l'armée américaine, Allstate et Monsanto. Les clients de Cloudera
apprécient les outils complémentaires commercialisables tels que Cloudera Manager,
Navigator et Impala.
• Hortonworks : est l'un des principaux fournisseurs Hadoop proposant des solutions Big
Data sur la plateforme Open Data. C'est l'un des principaux fournisseurs car il promet
une distribution open source. Apache Ambari est une illustration de l'administration
des outils de cluster Big Data Hadoop développés par les fournisseurs de Hortonworks
pour exécuter, superviser et contrôler les clusters Big Data.
• MapR : est une société de logiciels. Les technologies MapR ont été utilisées pour
permettre à Hadoop de bien fonctionner avec un effort potentiel et minimal. Leur pivot,
le système de fichiers MapR qui hérite de l'API HDFS, est entièrement en
lecture/écriture et peut enregistrer des milliards de fichiers. MapR a fait plus que tout
autre fournisseur pour fournir une distribution fiable et efficace pour une implémentation
de cluster énorme.
Cloudera occupe 53 % du marché Hadoop, suivi de 11 % par MapR et de 16 % par
Hortonworks.
Les solutions de visualisation dans l’univers du Big Data :

c’est une représentation shématique voire graphique ou en image des données. Parmi ces
logiciels de visualisation nous avons :
• Kibana : c’est un outil de visualisation et d'exploration de données utilisé pour l'analyse
des journaux et des séries chronologiques, la surveillance des applications et les cas
d'utilisation de l'intelligence opérationnelle.
• QlikView : c’est un logiciel aui apporte une solution d'analyse classique guidée pour le
développement rapide d'applications et de tableaux de bord d'analyse hautement
interactifs, fournissant des informations pour résoudre les défis commerciaux.
• Superse : c’est un outil qui nous permet de visualiser facilement leurs données, par des
simples graphiques linéaires aux graphiques géospatiaux très détaillé
SÉCURITÉ, ÉTHIQUE ET ENJEUX JURIDIQUES DU BIG DATA
• Assurer la protection de l’univers des données das le Big Data

La protection des données est le processus consistant à protéger les données importantes contre la
corruption, la compromission ou la perte et à fournir la capacité de restaurer les données dans un état
fonctionnel si quelque chose devait les rendre inaccessibles ou inutilisables.
La protection des données s’assure que les données ne sont pas corrompues, sont accessibles
uniquement à des fins autorisées et sont conformes aux exigences légales ou réglementaires
applicables. Les données protégées doivent être disponibles en cas de besoin et utilisables aux fins
prévues.
• L'anonymisation d'une donnée

L'anonymisation d'une donnée : il consiste à faire un nettoyage des informations dans lequel les
outils d'anonymisation des données cryptent ou suppriment les informations personnellement
identifiables des ensembles de données dans le but de préserver la confidentialité d'une personne
concernée. Cela réduit le risque de divulgation involontaire lors du transfert d'informations à travers les
frontières et facilite l'évaluation et l'analyse post-anonymisation.
• Le contrôle d'intégrité des informations

Le contrôle d'intégrité données : fait référence à l'exactitude et à la cohérence des données stockées
dans une base de données ou un entrepôt de données.
Les contraintes d'intégrité des données font référence aux règles appliquées pour maintenir la qualité de
vos données que vous souhaitez sauvegarder. Ici on peut parler de :
• L’intégrité physique des données : Il s'agit du processus de stockage et de collecte des

données de la manière la plus correcte, en maintenant leur exactitude et leur fiabilité.
• L'intégrité logique des données : quant à elle, vérifie si les données sont correctes et
exactes dans un contexte spécifique.
• Le mode de chiffrement d'une donnée du Big Data

Afin de s’assurer que nos données sont bien sécurisé, il est important de mettre une certaine routine en
place pour vérifier et valider les erreurs qui garantisse que les données n'ont pas été compromises entre
les transferts et les mises à jour.
La préservation de l'intégrité des données doit être la priorité absolue dans les organisations. Il faut
donc veiller :
• Nettoyage et maintenance des données : assurez-vous de le faire régulièrement et mettez en

œuvre une routine régulière pour vous assurer que cela est effectué de manière cohérente.
• La formation à la saisie de données : formez vos utilisateurs à la saisie et à la gestion des

données, et responsabilisez-les quant à la qualité des données.
• Règles de validation des données : quelle que soit votre prudence, les erreurs humaines sont
presque inévitables. Les règles de validation des données contrôleront et restreindront les
valeurs que les utilisateurs peuvent saisir dans leur système.
• Le chiffrement d'une donnée : désigne la conversion des données depuis un format lisible
dans un format codé. Les données chiffrées ne peuvent être lues ou traitées qu’après leur
déchiffrement. Le chiffrement est l’élément fondamental de la sécurité des données. C’est le
moyen le plus simple et le plus efficace de s’assurer que les informations du système
informatique ne peuvent être ni volées ni lues par quelqu’un qui souhaite les utiliser à des fins
malveillantes.
Les deux principales techniques de chiffrement les plus courantes sont le chiffrement symétrique et
asymétrique. Ces noms font référence à la clé, qui peut être la même ou non pour le chiffrement et le
déchiffrement :
• Clés de chiffrement symétrique : Également appelé chiffrement à clé privée. La clé

utilisée pour encoder est la même que celle utilisée pour décoder, ce qui convient
parfaitement pour les utilisateurs individuels et les systèmes fermés. Autrement, la clé
doit être envoyée au destinataire, ce qui augmente le risque de compromission si elle est
interceptée par un tiers (un cybercriminel, par exemple). Cette méthode est plus rapide
que la méthode asymétrique.
• Cryptographie asymétrique : cette méthode utilise deux clés différentes (publique et

privée) mathématiquement reliées. Concrètement, les clés se composent uniquement de
grands nombres qui ont été couplés entre eux mais ne sont pas identiques, d'où le terme
asymétrique. La clé privée est tenue secrète par le propriétaire et la clé publique est soit
partagée parmi les destinataires autorisés, soit mise à disposition du public à grande
échelle.
Les données chiffrées avec la clé publique du destinataire ne peuvent être déchiffrées qu’avec la clé
privée correspondante.
• Réglement Général sur la Protection des Données (RGPD)

Le nouveau Règlement Général sur la Protection des Données (RGPD) est entré en vigueur. L'objectif
principal de ce nouveau règlement est d'encadrer la collecte, l'utilisation et l'échange des données
personnelles. La quantité de données que nous créons chaque jour augmente à un rythme exponentiel,
et comme le dit la réglementation, "le traitement des données personnelles doit être conçu pour
servir l'humanité".
Le terme juridique «règlement» signifie que le RGPD est directement applicable dans les États
membres de l'UE; il n'exige pas des gouvernements qu'ils approuvent une nouvelle législation. La
protection des données est l’élément clef qui garanti la sécurité d’un utilisateur lors du processus de
manipulation des données, en cas de violation de données, les individus doivent être informés dans les
72 heures suivant la détection de la violation par le sous-traitant ou le responsable du traitement.
Voici quelques termes et principes clés que vous entendrez probablement plus souvent avec le RGPD
qui est désormais en vigueur :
• Contrôleur de données : l'organisation qui collecte les données
• Processeur de données : souvent un tiers responsable de la collecte des données au nom du

contrôleur
• Personne concernée : la personne dont les données sont utilisées
• Profilage : Le profilage est le processus d'utilisation de données personnelles pour évaluer

certains aspects personnels afin d'analyser et de prédire le comportement / les performances / la
fiabilité, etc.
• Pseudonymisation / pseudonymisation : le processus de pseudonymisation est une alternative

à l'anonymisation des données. Alors que l'anonymisation implique l'élimination complète de
toutes les informations identifiables, la pseudonymisation vise à éliminer le lien entre un
ensemble de données et l'identité de l'individu. Les exemples de pseudonymisation sont le
cryptage et la tokenisation.
Exemple de travaux pratiques (Proposition)

• Bref résumé des connaissances du module Big Data (Exposé de 15 à 30 min)
• Définir vos compétences techniques personnelles à mettre au profit des technologies Big Data
1. Choix du métier
2. Compétences personnelles
3. Objectifs visées dans une entreprise Big Data
•Élaborer une migration réussie d'un SI composite vers une urbanisation orientée Big Data.
1. Définir le nom d’une entreprise X.
2. Quel est le type de donnée(s) qui afflue vers une BD traditionnelle de votre
entreprise.
3. Quelle est l’information que vous souhaiter en tirer sur les données au profit de
l’entreprise
4. Selon votre métier proposer l’utilisation des technologies Big Data en justifiant et
soutenant votre point de vue. (Le choix de l’architecture dépendra de votre métier et
vous avez le choix d’appuyer votre illustration par des images de votre choix).
Exemple 4 :
Définir les compétences du Data

Les outils utilisés par le
Data Analyst Rôle du Data Analyst Analyst dans une future
Data Analyst
entreprise Big Data
Proposition d’information recueillie par

un analyste à partir d’un cas X de Type de données Objectifs et impact
données reçues et exploitées dans analysées par un analyste des différents outils
l’univers du Big Data. du Data Analyst

Support de Cours BIG DATA

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Support de Cours BIG DATA

Transféré par

Droits d'auteur :

Formats disponibles

BIG DATA (42h)

• Perspectives offertes par le Big Data

• Les acteurs impliqué dans un projet Big Data

• Les différents métiers du Big Data

Rôle et missions de l'architecte Big Data

Rôle et missions du Business Intelligence Manager

Rôle et missions du Master Data Manager

Rôle et missions du Data Protection Officer (DPO)

Missions du DPO Compétences du DPO

Rôle et missions du Data Scientist / Chief Data Scientist

Rôle et missions du Data Miner

Rôle et missions du Data Analyst

• Machine Learning Engineer : Le Machine Learning ou apprentissage automatique est de plus

Rôle et missions du Machine Learning Engineer

• Les distributions Big Data

• La qualité des données dans l’univers du Big Data

• chercher les données manquantes,

• Introduction et définition de l’Open Data

• Les Types de données du Big Data

Les 4 types de données

Du traitement des données à l'analytique

Workflow du traitement des données en six étapes

2. Préparation des données

3. Importation des données

4. Traitement des données

5. Sortie et interprétation des données

6. Stockage des données

L'avenir du traitement des données

• Le challenge technique mis en place dans les Big Data

1) Manque de connaissances Professionnels

2) Manque de compréhension adéquate des données massives

3) Problèmes de croissance des données

4) Confusion lors de la sélection de l'outil Big Data

5) Intégration de données à partir d'un éventail de sources

6) Sécurisation des données

• Investissement dans la capacité de stockage des SI du Big Data

Combien valent exactement les données stockées en memoire?

Considérez les statistiques suivantes :

Investissement dans l'analyse

Types, Techniques et Methode d’analyse

◦ L'enjeu économique & impact organisationnel

Ces données affectent l’économie de la manière suivante:

• Automatisation: Les mégadonnées ont le potentiel d'améliorer l'efficacité et les opérations

◦ La conduite du changement & L'apparition de nouveaux métiers

Les différents métiers du Big Data

Cas d'usage du Big Data

• Les outils de stockage : Cassandra, MongoDB, CouchDB, DynamoDB, Riak, Hadoop,

1.Faire évoluer notre architecture secondaire de gestion des données

2.Réduction du stockage et nécessité d'une connaissance des applications

3.Soutenir la flexibilité de la cible de stockage

• Les outils et prommation Hadoop

Hadoop Distributed File System (HDFS : Système de fichiers distribué Hadoop)

• Les différentes types de distributions Big Data :

Les solutions de visualisation dans l’univers du Big Data :

• Assurer la protection de l’univers des données das le Big Data

• L'anonymisation d'une donnée

• Le contrôle d'intégrité des informations

• L’intégrité physique des données : Il s'agit du processus de stockage et de collecte des

• Le mode de chiffrement d'une donnée du Big Data

• Nettoyage et maintenance des données : assurez-vous de le faire régulièrement et mettez en

• La formation à la saisie de données : formez vos utilisateurs à la saisie et à la gestion des

• Clés de chiffrement symétrique : Également appelé chiffrement à clé privée. La clé

• Cryptographie asymétrique : cette méthode utilise deux clés différentes (publique et

• Réglement Général sur la Protection des Données (RGPD)