Vous êtes sur la page 1sur 15

: BIG DATA ET

DONNEES
19/09/2021

Auteur : Aicha Diallo


Table des matières
A. Origines des données Big Data 1
1. C’est quoi le Big Data ?
2. A quoi sert le Big Data ?
3. Comment fonctionne le Big Data ?
4. Comment le Big Data permet de prévoir le comportement des consommateurs ?
B. Les 5V fondamentaux 2
1. Volume
2. Variété
3. Vitesse
4. Véracité
5. Valeur
C. Pourquoi le Big Data est devenu important ? 3
1. Big Data et Business intelligence
2. Big Data et innovation
3. Une optimisation des coûts et investissement
D. L’analyse des données issues du Big Data 4
1. Qu’est ce que l’analyse du Big Data ?
2. A quoi sert l’analyse du Big Data ?
3. Application concrète du Big Data
4. Faut-il avoir peur du Big Data ?
E. Les enjeux du Big Data dans le domaine bancaire 5
1. Des données pour améliorer la relation client 
2. La lutte contre la fraude grâce au Big Data
3. Big Data et protection des données
F. Le Big Data chez LCL 6
G. Enjeux et perspectives du Big Data
H. Big Data en temps réel
I. Le futur du Big Data
1. Les acteurs du Big Data
J. CONCLUSION 7

Sources 8
A. L’origine des données Big Data ?
Les données numériques produites sont en partie dans l'utilisation de périphériques liés à des
réseaux cellulaires et à Internet. Par conséquent, les smartphones, les tablettes et les
ordinateurs pour transmettre des données relatives à leurs utilisateurs lors des actions
suivantes : Émission Signaux GPS de smartphones, navigation Internet, utilisant des moteurs
de recherche, des messages laissés sur des réseaux sociaux, du téléchargement et de
l'utilisation d'applications, de la publication en ligne de photos et de vidéos, Le magasin sur
les sites de vente en ligne, etc. De la même manière, les cartes bancaires envoient des données
lorsqu'elles sont utilisées pour des retraits ou des paiements, par exemple. Objets intelligents
connectés Données de transfert sur les consommateurs de certains objets d'utilisation
quotidienne (par exemple pour une voiture, la puce connectée indique la route et la distance,
ainsi que la vitesse moyenne). Dispositifs extérieurs, les données des volumes de données
importants proviennent de nombreuses sources diverses : données démographiques, données
climatiques, données scientifiques et médicales, données de consommation d'énergie, données
de réseaux de transport, assistance des lieux publics, etc. Nouvelle source importante de
données : données ouvertes, à savoir l'échange de données d'État, des institutions publiques et
des communautés. Toutes ces données fournissent des informations sur l'emplacement des
appareils, leurs voyages, leurs intérêts, leurs habitudes de consommation, leurs loisirs, leurs
projets, etc. mais également les informations sur la manière dont les infrastructures, les
machines et les appareils sont utilisés. Avec une augmentation continue du nombre
d'utilisateurs Internet et de téléphones mobiles, le volume de données numériques augmente
rapidement. Données de données grandes volumes
1. C’est quoi le Big Data ?
Le Big Data, littéralement «de grandes données » sont également appelées données médiées
ou massives. Ces données sont si complexes qu'un logiciel classique ou un disque dur ne peut
pas le traiter. De plus, le concept de données importantes est vague, car il peut également faire
référence à de grandes quantités d'anodine de recherche. Sachant que les données collectées
sont liées au comportement de la consommation ou de la communication des utilisateurs
d'Internet, l'idée est peu observée. Les critiques considèrent cette collection de données
comme une violation de votre droit privé.
2. A quoi sert le Big Data ?
Aujourd'hui, le développement d'applications big data répond largement à ces besoins.
Naturellement, vous vous demanderez « A quoi servent le big data ? » Eh bien, c'est très
simple. Aujourd'hui, il peut traiter plusieurs problématiques, comme l'analyse prédictive,
notamment dans le cadre de la maintenance préventive ou encore de la prévision des ventes et
de la gestion des stocks. L'analyse des données en temps réel est également l'une des
applications du big data. Il existe donc plusieurs technologies Big Data répondant à ces
besoins :
 Hadoop : La technologie Hadoop est un Framework JAVA et un projet open source
conçue pour faciliter la création d'applications distribuées et stocker des données en
mode colonne. Entre autres, il permet des processus de travail et de déploiement sur
tous les nœuds du cluster.
 Les traitements de type batch : Ils permettent de traiter les données jusqu'à ce qu'elles
soient épuisées lorsqu'elles entrent dans le système. L'opération de traitement est
continue et incrémentale, ce qui signifie que l'architecture considérera à chaque fois de
nouvelles données sans avoir à traiter à nouveau les anciennes données. Afin de garder
une cohérence lors du traitement de ces données, les résultats ne sont visibles et
accessibles qu'à la fin du traitement (une fois qu'il n'y a plus de données dans la
saisie). Il existe un traitement big data de type batch Map Reduce dans sa version
Hadoop ou Apache Spark.
 Les traitements en temps réel (streaming) : C'est le contraire du traitement de type
batch. En effet, grâce à cette méthode, vous n'avez pas à attendre la fin du traitement
des données pour accéder aux résultats. Il s'agit d'une solution facile à mettre en œuvre
et qui réduit le temps de traitement. Ils sont souvent utilisés comme base pour la mise
en œuvre de solutions évolutives.
 Architecture Lambda : C'est un hybride entre le traitement par lots et le temps réel.
L'architecture utilise le traitement par lots pour équilibrer la latence, le débit et la
tolérance aux pannes du système en fournissant des vues de données précises, tout en
faisant face aux données en temps réel pour obtenir des résultats plus précis.
 Les bases de données NoSQL : Les bases de données relationnelles traditionnelles
sont utilisées pour gérer des données d'entreprise qualifiées, mais elles ne peuvent pas
traiter rapidement des données de stockage à grande échelle. La base de données
NoSQL apporte une nouvelle méthode de stockage de données plus flexible, plus
adaptable aux changements et moins sensible aux défaillances du système. NoSQL ne
signifie pas qu'il n'y a pas de SQL, mais "pas seulement SQL".
 Les bases de données orientées colonne de type Cassandra et HBase : Les bases de
données relationnelles traditionnelles sont utilisées pour gérer des données d'entreprise
qualifiées, mais elles ne peuvent pas traiter rapidement des données de stockage à
grande échelle. La base de données NoSQL apporte une nouvelle méthode de stockage
de données plus flexible, plus adaptable aux changements et moins sensible aux
défaillances du système. NoSQL ne signifie pas qu'il n'y a pas de SQL, mais "pas
seulement SQL".
 Le Cloud Computing : Ce n’est pas une technologie Big Data pure et dure, mais c’est
la méthode de déploiement favorisée pour les technologies Big Data. En effet, celui-ci
demande des capacités énormes de stockage et de traitement et le cloud est
aujourd’hui le moyen le plus capable de supporter ces volumétries et à moindre coût
comparé à une solution classique on-premise.
3. Comment fonctionne le Big Data ?
Le big data permet de relever un immense défi technologique : stocker une grande
quantité de données provenant de différents canaux sur un immense disque dur, facilement
accessibles depuis les quatre coins de la planète. Des données stockées en lieu sûr et
récupérables à tout moment en cas d'incident quelconque.
Pour y parvenir, les fichiers sont découpés en plusieurs fragments nommés « chunks ». Ces
fragments sont ensuite répartis sur plusieurs ordinateurs, et il existe différentes façons de les
reconstituer. Une panne survient ? Une autre machine vient prendre le relais en empruntant un
autre chemin. Ainsi, les différentes pièces du puzzle restent disponibles en permanence, et
peuvent être assemblées d'une façon ou d'une autre.
La duplication massive des données est l'une des clés de voûte de l'architecture du big data.
Le cloud computing, les supercalculateurs hybrides (high performance computing ou HPC) et
les systèmes de fichiers distribués (DFS ou Distributed files system) figurent parmi les
principaux modèles de stockage actuellement disponibles.
4. Comment le big data permet de prévoir le comportement du consommateur ?
Le big data inclut les informations préavises sur les réseaux sociaux (âge et en harmonies,
dépouillement, souvenirs, photos, vidéos), la radioguidage web (à défaut les excellent
cookies) et les achats en terminus. Ces accordées fournissent des indices foncièrement
intéressants sur les comportements des consommateurs et les complexions du marché. Si
vous-même venez d’acheter des chaussures de running sur un zone de e-commerce et si vous-
même avez publié une photo de vous-même en train de courir le marathon de paris, vous êtes
une victime alléchante parmi les pancartes de divertissement. Ces marques pourront pourquoi
vous mander des newsletters ou des offres promotionnelles sur des produits collaborateurs à
vos chaussures pour de terminer votre équipement. Le big data permet de connaître votre
profil, mais aussi votre comportement global : fréquence d'utilisation des réseaux sociaux et
de vos achats en ligne (historique des transactions, dépenses effectuées), canaux utilisés,
heures de connexion, etc...

B. Les 5V fondamentaux
Les spécialistes du Big Data, notamment chez IBM, définissent le Big Data par les
quatre V suivants : Volume, Variété, Vitesse, Véracité, et valeur. Ces quatre
dimensions caractérisent et distinguent les données volumineuses des données
ordinaires.
1. Volume
Le volume est la principale caractéristique du big data. En fait, le terme est tiré
directement de l'immense masse de données qui sont générées quotidiennement.
Selon IBM, en moyenne 2,5 billions d'octets de données sont créés chaque jour, soit
environ 2,3 billions de giga-octets. Ces données augmentent de jour en jour avec l'ajout
constant de sources de données. L'exemple de l'essor des objets connectés en est la
preuve. Année après année, la quantité de données augmente considérablement. Tout au
long de 2020, 40 zettaoctets de données, soit 43 000 milliards de giga-octets, seront créés.
Ces données doivent être stockées quelque part et le cloud est l'une des solutions
disponibles.
2. Variété
En plus des quantités simples, ces données sont plus diverses que jamais. Ce phénomène
est lié aux usages numériques et à la diversification d'Internet. La source des données,
leur format et les champs auxquels les données sont liées connaissent une diversité sans
précédent. De nouveaux types de données provenant de ressources sociales, de machine à
machine et mobiles ajoutent une nouvelle dimension aux données transactionnelles
traditionnelles. Par conséquent, vous devez modifier le modèle d'organisation des
données qui ne s'intègre plus dans une structure soignée et facile à utiliser (voir Valeurs
clés, Colonnes, Documents, Graphiques).
3. Vitesse
Les progrès de la technologie d'interconnexion et de mise en réseau augmentent la vitesse
et la direction dans laquelle les données sont envoyées aux entreprises, ce qui peut être
plus rapide que ce que nous pouvons comprendre. Plus vous obtenez des données
rapidement et plus vos ressources sont diversifiées, plus il est difficile de tirer de la valeur
de vos données. Les méthodes de calcul traditionnelles sont limitées et peuvent ne pas
fonctionner avec des données qui atteignent les vitesses actuelles.
4. Véracité
Enfin, si vous devez prendre un si grand nombre de décisions importantes et les collecter
très rapidement, la véracité des données ou la quantité de données fiables est essentielle.
Il est difficile de simplement savoir que les données ne sont pas réellement falsifiées,
corrompues ou proviennent d'une source attendue. Cela peut arriver, par exemple, avec
l'une des milliers de caméras de sécurité, chacune délivrant des milliers d'images vidéo
par heure.
5. Valeur
La valeur est le dernier élément de 5 vs Big Data et fait référence au fait que chaque
donnée doit apporter plus de valeur à l'entreprise. Par conséquent, avant de se lancer dans
un projet big data, les entreprises doivent savoir pourquoi et comment mettre en œuvre un
projet big data afin d'évaluer leur rentabilité future.
C. Pourquoi le Big Data est devenu important ?
La société numérique et les consommateurs exigent désormais des réponses immédiates. Des
transactions e-commerce aux avis marketing en ligne, tout dans le monde des affaires on-line
et en lien avec le cloud évolue rapidement. Tous ces échanges numériques compilent des
données à un rythme effréné. La bonne utilisation de ces informations en temps réel implique
de capitaliser les datas pour une vision à 360° de l’audience cible. Ne pas le faire crée le
risque de perdre des clients au profit de concurrents qui utilisent ce processus intelligent. Les
possibilités (et pièges potentiels) liées à la gestion et à l’utilisation des
données opérationnelles sont infinies. Toute les énumérer serait impossible alors voici les
principales opportunités liées à une intégration réussie du Big Data dans le processus de
transformation de son organisation.
1. Big Data et Business Intelligence

L'intelligence d'affaires vise à décrire l'ingestion, l'analyse et l'application d'ensembles de


données afin de réaliser les avantages de la stratégie d'entreprise. C’est une véritable arme
dans la guerre de marché moderne. En cartographiant et en prédisant les activités et les points
clés qui représentent des défis à relever, la BI utilise le Big Data pour livrer des produits.

2. Big Data et Innovation


Le big data est devenu monnaie courante dans le domaine de l'innovation. Il est utilisé
pour créer de nouveaux produits, services et outils pour mieux gérer les interactions,
résoudre des problèmes complexes et créer de nouveaux systèmes informatiques
intelligents.
Prenez Acme Widget Company comme exemple. La société a recherché ses données et a
constaté que le prix du Widget B par temps chaud est le double de celui du Widget A
dans le Midwest. Dans le même temps, les ventes sur la côte ouest et le sud des États-
Unis n'ont pas fluctué, ou très peu.
Acme a ensuite voulu développer un outil de marketing pour promouvoir les activités de
médias sociaux pour le marché du Midwest. Il souhaitait également mettre en avant une
publicité unique, mettant en avant la popularité et la disponibilité instantanée du Widget
B dans la zone géographique.
Dans ce cas, Acme utilise les mégadonnées pour proposer des produits commerciaux et des
outils de communication personnalisés afin de maximiser les profits sur les petits marchés.
3. Une optimisation des coûts et investissement
Si économiser un centime revient à gagner un centime, alors le big data est une opportunité de
gagner beaucoup d'argent. Les informaticiens analysent les opérations non pas sur la base du
prix d'achat de l'équipement, mais sur la corrélation de nombreux autres facteurs, tels que le
nombre de contrats annuels, de licences et de frais de personnel. Les analyses de Big Data
peuvent rapidement révéler des lacunes commerciales potentielles, telles que des ressources
sous-utilisées ou des emplois mieux rémunérés. En collectant ces informations, l'entreprise et
ses dirigeants peuvent ajuster leurs budgets en fonction des fluctuations de l'environnement du
marché. Entreprises et marques dans presque tous les secteurs utilisent le big data pour
innover. Par exemple, les compagnies maritimes l'utilisent pour calculer le temps de transit et
définir des tarifs optimaux. Les mégadonnées fournissent des capacités d'analyse et de
recherche à une vitesse sans précédent et font des percées révolutionnaires dans les domaines
de la science et de la recherche médicale. Le simple traitement de grandes quantités de
données affectera notre mode de vie et notre vie quotidienne.
D. L’analyse des Données issue du Big Data
1. Qu’est ce qu’une l’analyse du Big Data ?
La combinaison de solutions de stockage innovantes (cloud computing, supercalculateurs
hybrides, etc.) avec des logiciels utilisant des algorithmes de calcul avancés permet
l'analyse de ces énormes quantités de données numériques. Ces outils sont conçus pour
suivre les informations pertinentes et déterminer la corrélation entre elles. L'analyse de
données, également appelée « data mining », est réalisée par de nombreuses entreprises,
mais cette activité est entrée dans une nouvelle dimension avec l'avènement du big data.
Aujourd'hui, nous allons parler de science des données (ou "data science"). L'un des défis
actuels du big data est le développement d'outils complexes pour un meilleur traitement,
visualisation, analyse et catalogage des flux de données volumineux.
2. A quoi sert l’analyse du Big Data ?
Par exemple, cette analyse vous permet de :
 Comprendre les besoins des gens et les limites des utilisateurs.
 Adapter les infrastructures, les réseaux et les services (notamment les services
publics) en fonction de leur utilisation.
 Supporte la prise de décision des acteurs (entreprises, gouvernements) dans divers
rôles économiques.
 Analyser et prévoir le comportement des consommateurs (analyse prédictive).
 Faciliter l'évaluation des services.
 Améliore l'utilisation des machines et des équipements (amélioration des
performances, prévention des erreurs, maintenance).
3. Applications concrètes du Big Data
Le Big data est applicable dans tous les domaines liés au web. Un exemple d'outil de big
data dans le commerce électronique est la célèbre phrase "quiconque a acheté le produit X
a également acheté ...". Ces recommandations proviennent de l'évaluation de millions de
données d'achat d'autres clients.
Les autres domaines bénéficiant du Big Data sont :
 Recherche médicale : En évaluant le Big Data, les médecins peuvent trouver de
meilleures thérapies et solutions thérapeutiques pour leurs patients.
 Industrie : grâce à l'utilisation des données des machines, les entreprises peuvent
augmenter l'efficacité de leur production et fonctionner de manière plus durable.
 Economie : Le Big data permet aux entreprises de mieux comprendre leurs clients et
de leur proposer des offres plus adaptées à leurs besoins.
 Énergie : les données sur la consommation d'énergie permettent d'adapter à long terme
l'offre à la demande des utilisateurs dans le but de rendre l'approvisionnement
énergétique plus durable.
 Marketing : Le Big Data est utilisé en marketing pour mieux cibler les clients.
L'objectif est d'améliorer les relations avec les consommateurs et d'augmenter les taux
de conversion grâce à diverses mesures marketing.
 Lutte contre la criminalité : les services gouvernementaux et de sécurité utilisent
également le Big Data, par exemple dans la lutte contre le terrorisme.

4. Faut-il avoir peur du Big Data ?


L'utilisation des mégadonnées est strictement réglementée. En France, les opérateurs
impliqués dans la collecte et l'analyse des données sont sous la tutelle de la Commission
nationale de l'informatique et des libertés (CNIL). L'utilisation des données personnelles
est régie par les lois sur la protection des données. Cette loi stipule que les données
personnelles doivent être collectées et traitées pour des finalités déterminées. Seules les
données pertinentes peuvent être collectées pour une application particulière. La loi
reconnaît également le droit de chacun d'être informé de la collecte et de l'utilisation des
données personnelles. En règle générale, vous pouvez décider vous-même de l'utilisation
des données vous concernant. Le big data est donc soumis aux exigences de la CNIL i et à
son utilisation, qui est directement impactée par le cadre législatif actuel.
E. Les enjeux du Big Data dans le domaine bancaire
1. Des données pour améliorer la relation client
La stratégie big data d'une banque a pour objectif d'améliorer la connaissance client, d'établir
des liens plus étroits et de mieux répondre aux besoins des clients (satisfaction client).
Concrètement, il s'agit de personnaliser instantanément les services et produits proposés à
l'aide de sources de données accessibles aux clients. On parle de "marketing prédictif". Ainsi,
un produit bancaire particulier (par exemple, une offre de crédit immobilier) est consulté par
le client sur le site internet de la banque en fonction du projet identifié grâce au big data (par
exemple, les propriétés du projet d'acquisition identifiées par le client). Surlignez-le quand
vous l'êtes. Site de liste de propriétés visité). La satisfaction client peut également être
améliorée en adaptant le processus de communication, notamment en fonction de l'utilisation
des réseaux sociaux par le client. Par conséquent, le big data fait partie de la stratégie de
communication omnicanale d'une banque pour s'adapter aux habitudes et préférences de
communication des clients.
2. La lutte contre la fraude grâce au Big Data
Grâce aux mégadonnées, les banques compareront les informations relatives aux
demandes d'approbation de paiements par carte de crédit avec l'historique des clients, les
profils d'acheteurs et l'activité des réseaux sociaux dans la lutte contre la fraude par carte
de crédit. Réseau (notamment situation géographique). En cas de doute, une vérification
supplémentaire est requise.
3. Big Data et protection des données
Conformément aux exigences de la CNIL, les entreprises souhaitant utiliser la technologie big
data doivent respecter certains principes dans l'utilisation des données personnelles :
 Transparence bancaire concernant l'utilisation des données stockées et analysées.
 Respect de la confidentialité et de la vie privée (les données restent à l'intérieur de la
banque et ne font pas l'objet de traitement commercial) ;
 Développement de systèmes de sécurité avancés pour limiter le risque de piratage des
données.
F. Le Big Data chez LCL
Dans LCL, l'algorithme enquête sur la navigation des clients sur le site LCL.fr. -Banque. L’un
de nos objectifs est d'améliorer les connaissances de nos clients et de répondre à leurs besoins
de la manière la plus appropriée. Un autre objectif est de développer le site Web d'une banque
à travers les pages les plus visitées, les fonctionnalités les plus utilisées, etc. En mettant
l'accent sur les points forts de votre site Web, vous pouvez obtenir une meilleure expérience
client. De plus, LCL fournit des rapports d'efficacité pour améliorer les relations avec les
clients. Pour les clients, il s'agit d'évaluer la satisfaction vis-à-vis des relations bancaires. Le
questionnaire d'enquête sur l'efficacité comporte trois questions. À travers la première
question, les clients évaluent leur tendance à recommander des banques à leur entourage sur
une échelle de 0 à 10. Les deux questions suivantes sont ouvertes, tout en vous permettant
d'expliquer pourquoi vous marquez vos clients. En attendant, suggestions d'amélioration. Les
commentaires recueillis peuvent être analysés à l'aide d'algorithmes pour identifier les motifs
de satisfaction et d'insatisfaction textuellement, améliorer le processus et bénéficier des
bonnes pratiques. Ainsi, LCL confirme son intérêt pour les applications innovantes liées au
big data.
G. Enjeux et Perspectives du Big Data
Avec cette formation sur les enjeux et perspectives du big data, vous pourrez :
 Identifier les défis, les opportunités et l'évolution du Big Data
 Définit les enjeux stratégiques et organisationnels des projets big data en entreprise.
 Comprendre les technologies utilisées principalement selon le processus de démarrage
d'un projet big data.
 Détermine les éléments de sécurité, les questions éthiques et juridiques.
 Intégrer les connaissances à travers des cas d'utilisation
Programme :
 Big Data : défis et opportunités / Évolution des données
 Le Big data et ses quatre enjeux principaux : quantité, diversité, rapidité, vérité.
 Big data : web, réseaux sociaux, open data, capteurs, données industrielles.
 Données publiques : le mouvement des données ouvertes.
 Diversité, distribution et mobilité des données sur Internet.
 Vitesse et flux de données continu.
 Edge computing dans le sens du flow computing
Problèmes d'entreprise :
 Le processus de création de valeur grâce au big data
 Exactitude des données provenant de diverses sources pour la prise de décision.
 Analyse complexe de big data, big Analytics.
 Génération d'informations en temps réel à partir de données volumineuses.
 Réponse : Traitement de flux de données en temps réel, traitement d'événements
complexes (CEP).
 Définir la stratégie de mise en œuvre : cloud, sur site ou hybride
Opportunités offertes par le progrès matériel :
 Stockage : HDD et SSD « sur site », disques durs et objets ou blocs de stockage dans
le cloud.
 Impact de la baisse des coûts mémoire : l'émergence du traitement des données en
mémoire
 Connectivité CPU/GPU pour améliorer l'optimisation des ordinateurs parallèles.
 Stratégie de stockage sur disque réseau NAS/SAN/Isilon (Elastic Storage) : comment
cela affecte-t-il la gestion des données ? Architecture massivement parallèle (MPP) et
Hadoop
 Appareils ménagers.
Compréhension de la technologie / motivation à utiliser :
 Déclaration CAP (cohérence, disponibilité, tolérance de distribution) : analyse et
impact.
 Pile logicielle Big Data ("pile Hadoop")
 Notions de base sur les mégadonnées
 Organisation fonctionnelle et composants les plus importants : outils de stockage,
d'organisation, de traitement, d'intégration et d'analyse.
 Gestion de cluster.
 D’Hadoop "design patterns" (lambda, kappa, oméga architecture, etc.), adaptés à votre
application.
 Comparaison avec le SGBD relationnel.
Différentes méthodologies adaptées au big data :
 Gestion de projet Big Data 
Qu'est-ce que la gestion des données ?
 Gestion de projet
 Organisation et rôle
 Principes de base des méthodes agiles
 Pourquoi le design thinking s'adapte-t-il aux défis du big data ?
Principes de base du design thinking :
 Méthode de développement
 Impact sur l'organisation du service informatique (soutien à la conception conjointe)
 Intégrer les transactions dès la conception
 Définir les différents ateliers (modélisation, design de collection, prototypage)

Sécurité des mégadonnées :


 Cercle de défense des mégadonnées
 Protection des données
 Limites de sécurité
 Gestion des vérifications
 Gestion des approbations
 Sécurité du système d'exploitation
Utilisation du cryptage :
 Comprendre les principes de base (cryptographie ii, cryptanalyseiii, kleptographieiv,
etc.).
 Trois approches pour gérer les clés de chiffrement dans les architectures Big Data.
 Défis de codage isomorphe.
 Outil de gestion des données
 Cryptage à la volée avec stockage de format.
 Bonnes pratiques de codage et recommandations ANSSI et ENISA.
Autres technologies pour la protection des données :
 Comprendre le cycle de vie des données dans les architectures Big Data.
 Outils responsables de la gestion du cycle de vie des données
 Classement des données.
 L'importance de la classification dans les projets de Big Data.
 Anonymisation et pseudonymisationv des données.
Principes généraux des questions éthiques et juridiques / Conformité et responsabilité :
 Responsabilité informatique et liberté
 Responsabilité identitaire
 Responsabilité réglementaire
 Responsabilité financière
 Responsabilité de sécurité
 Responsabilité patriotique
 Responsabilité du dossier
 Responsabilité des ressources humaines
H. Quel est le but de Big Data ?
L'objectif de l'analyse Big Data est de tirer le meilleur parti de grands ensembles de données
pour : détecter les corrélations entre les informations, identifier les tendances et tendances
jusque-là inconnues, obtenir des informations sur les préférences des clients ou des cibles.
I. Avantages et Inconvénients de l’utilisation du Big Data
Comme mentionné précédemment, le big data permet aux entreprises et autres organisations
(publiques et privées) de prendre des décisions plus intelligentes et plus efficaces. De plus,
l'utilisation du big data présente les avantages suivants :
 Réduire les coûts ;
 Créer des produits et services améliorés ou nouveaux pour répondre aux besoins de
différents clients ;
 La possibilité de rétroaction en temps réel ;
 Une meilleure connaissance du marché.
Par conséquent, vous pouvez être sûr que l'utilisation des mégadonnées est très bénéfique
pour l'entreprise. Cependant, les mégadonnées sont aussi la source de quelques gros
problèmes au tournant du siècle, principalement la confidentialité et la vie privée.
Par conséquent, de nombreuses lacunes et faiblesses liées aux mégadonnées doivent être
prises en compte :
 Confidentialité des données ;
 Sécurité des données stockées menacée par les risques d'espionnage numérique ;
 Manipulation des données ;
 Selon la loi « Informatique et Libertés » de 1995, les données personnelles doivent
être collectées pour des finalités précises, claires et légales, mais pas tout le monde
prend cette législation en compte.
Néanmoins, le big data semble continuer à ouvrir de nouvelles portes pour améliorer les
résultats des acteurs économiques.

K. Big Data en temps réel


Les plateformes big data sont conçues pour traiter une quantité de données massive, en
revanche elles sont très rarement conçues pour traiter ces données en temps réel. Les
nouveaux usages et les nouvelles technologies génèrent des données au quotidien et sans
interruption, il est donc nécessaire de faire évoluer ces plateformes pour traiter les données
temps réel afin de répondre aux exigences métiers qui demandent d’aller vers plus de
réactivité et de personnalisation. C’est la raison pour laquelle les architectures lambda et
kappa ont vu le jour. Ces architectures permettent de prendre en compte les flux de données
temps réel pour répondre à ces nouvelles exigences.
L. Le futur du Big Data
La technologie des mégadonnées étant une industrie très jeune, les systèmes de traitement et
de stockage des mégadonnées ne cessent de croître. Nous assistons à l'émergence et à la
disparition de la technologie à un rythme alarmant. L'algorithme MapReduce est apparu sur
Google en 2004 et est largement utilisé aujourd'hui, notamment Yahoo! dans son projet Nutch
Small big data.
À partir de Hadoop version 2, l'architecture est construite de manière modulaire et prend en
charge l'inclusion de nouveaux modules de calcul (Hadoop File System-HDFS). Map Reduce
est l'un d'entre eux. Spark, bien plus jeune que MapReduce, remplace progressivement le
flambeau de son prédécesseur, et cet outil est également développé sous le nom d'Apache.
Spark peut fonctionner sur Hadoop et de nombreuses bases de données NoSQL. Le projet
s'est développé rapidement ces dernières années et a été reconnu par la plupart des
développeurs dans le cercle technologique.
1. Les acteurs du Big Data
Google et Facebook ont été confrontés très tôt à des problèmes de volume de données, ils sont
donc aujourd'hui certainement deux acteurs structurels du big data. Par conséquent, vous êtes
le plus capable de traiter cette quantité de données correctement et rapidement.
Le big data a suscité l'intérêt des géants de l'industrie informatique, des fabricants de logiciels
et des intégrateurs de logiciels historiques sur les serveurs de l'entreprise depuis le tout début.
Les premiers utilisateurs du big data sont Oracle, SAP, IBM, Microsoft, etc. Compte tenu du
potentiel de ce marché, ils ont démarré un peu plus tard que Google et Facebook, mais ont
tout de même bénéficié de la vague de croissance du big data. Participant aux données en
2016
a. Hortonworks, Cloudera et Mapr
Ce sont les éditeurs de la distribution big data. Cloudera a l'un des créateurs de Hadoop Doug
Cutting dans son équipe. Hortonworks est un produit dérivé de Yahoo et a la plupart de son
positionnement open source. Mapr a adopté une approche différente, en repensant le moteur
de stockage et de calcul, mais a conservé l'API Hadoop pour être compatible avec
l'écosystème et l'écosystème existant.
b. Google
Google est et est toujours le poids lourd et le pionnier de la technologie Big Data, comme le
développement de MapReduce en 2004. Google utilise largement sa technologie pour indexer
les algorithmes dans les moteurs de recherche, Google Translate et Google Satellite, y
compris l'équilibrage de charge, la parallélisation et la récupération après les pannes de
serveur. Google n'utilise quasiment plus MapReduce, et est très concentré sur le streaming
(traitement en temps réel). Avec Apache Beam, Google fournit également une version open
source de Google Data Stream.
c. Amazon
Depuis 2009, Amazon est devenu en quelques années l'un des principaux fournisseurs de Big
Data en fournissant Amazon Web Service. Il a développé une technologie très similaire à
Elastic MapReduce de Google, qui permet d'installer, de gérer ou d'optimiser le cluster
Hadoop. L'émergence du cloud computing lancée par Amazon lui a également permis
d'élargir encore son domaine du big data et de le démocratiser à grande échelle. Le défaut
d'Amazon est qu'il fournit des API et des moteurs propriétaires, et que la stratégie de sortie et
de migration est coûteuse.
d. IBM
IBM, comme beaucoup d'autres grandes sociétés du web, a commencé cette aventure en
intégrant dans ses services des blocs de traitement liés à Hadoop et MapReduce.
e. ODpi
Le projet Open Data Platform réunit Hortonworks, IBM et Pivotal pour tenter d'établir des
normes pour la mise en œuvre de plates-formes de Big Data. Le but est que l'entreprise
utilisatrice puisse disposer d'une garantie de réversibilité. L'initiative n'a pas encore abouti. En
fait, deux poids lourds de l'industrie (Cloudera et Mapr) n'ont pas rejoint l'initiative.
Conclusion
Le cœur de l'informatique consiste à traiter de grandes quantités de données, mais ce qui a
changé avec l'émergence des mégadonnées, c'est la formalisation de la quantité, de la vitesse
et des types de données qui ajoutent de la valeur.
Source
https://www.saagie.com/fr/blog/qu-est-ce-que-le-big-data-definition/
https://www.1and1.fr/digitalguide/web-marketing/analyse-web/le-big-data-cest-quoi/

https://www.riskinsight-wavestone.com/2013/08/auw-origines-du-big-data/

https://e-rse.net/definition/big-data-definition-enjeux/#gs.v0k50eQ

https://fr.wikipedia.org/wiki/Big_data

https://www.1and1.fr/digitalguide/serveur/know-how/apache-hadoop-le-framework-pour-le-
big-data/

http://www.digora.com/fr/blog/quest-ce-que-le-big-data-et-comment-le-gerer
i
Commission nationale de l'informatique et des libertés
ii
La cryptographie est une des disciplines de la cryptologie s'attachant à protéger des messages en
s'aidant souvent de secrets ou clés.
iii
La cryptanalyse est la technique qui consiste à déduire un texte en clair d’un texte chiffré sans
posséder la clé de chiffrement. 
iv
La kleptographie est l'information de vol légale sûre et subliminale.
v
La pseudonymisation est un traitement de données à caractère personnel de manière qu'on ne
puisse pas attribuer les données à une personne physique sans avoir recours à des informations
supplémentaires.

Vous aimerez peut-être aussi