Académique Documents
Professionnel Documents
Culture Documents
DONNEES
19/09/2021
Sources 8
A. L’origine des données Big Data ?
Les données numériques produites sont en partie dans l'utilisation de périphériques liés à des
réseaux cellulaires et à Internet. Par conséquent, les smartphones, les tablettes et les
ordinateurs pour transmettre des données relatives à leurs utilisateurs lors des actions
suivantes : Émission Signaux GPS de smartphones, navigation Internet, utilisant des moteurs
de recherche, des messages laissés sur des réseaux sociaux, du téléchargement et de
l'utilisation d'applications, de la publication en ligne de photos et de vidéos, Le magasin sur
les sites de vente en ligne, etc. De la même manière, les cartes bancaires envoient des données
lorsqu'elles sont utilisées pour des retraits ou des paiements, par exemple. Objets intelligents
connectés Données de transfert sur les consommateurs de certains objets d'utilisation
quotidienne (par exemple pour une voiture, la puce connectée indique la route et la distance,
ainsi que la vitesse moyenne). Dispositifs extérieurs, les données des volumes de données
importants proviennent de nombreuses sources diverses : données démographiques, données
climatiques, données scientifiques et médicales, données de consommation d'énergie, données
de réseaux de transport, assistance des lieux publics, etc. Nouvelle source importante de
données : données ouvertes, à savoir l'échange de données d'État, des institutions publiques et
des communautés. Toutes ces données fournissent des informations sur l'emplacement des
appareils, leurs voyages, leurs intérêts, leurs habitudes de consommation, leurs loisirs, leurs
projets, etc. mais également les informations sur la manière dont les infrastructures, les
machines et les appareils sont utilisés. Avec une augmentation continue du nombre
d'utilisateurs Internet et de téléphones mobiles, le volume de données numériques augmente
rapidement. Données de données grandes volumes
1. C’est quoi le Big Data ?
Le Big Data, littéralement «de grandes données » sont également appelées données médiées
ou massives. Ces données sont si complexes qu'un logiciel classique ou un disque dur ne peut
pas le traiter. De plus, le concept de données importantes est vague, car il peut également faire
référence à de grandes quantités d'anodine de recherche. Sachant que les données collectées
sont liées au comportement de la consommation ou de la communication des utilisateurs
d'Internet, l'idée est peu observée. Les critiques considèrent cette collection de données
comme une violation de votre droit privé.
2. A quoi sert le Big Data ?
Aujourd'hui, le développement d'applications big data répond largement à ces besoins.
Naturellement, vous vous demanderez « A quoi servent le big data ? » Eh bien, c'est très
simple. Aujourd'hui, il peut traiter plusieurs problématiques, comme l'analyse prédictive,
notamment dans le cadre de la maintenance préventive ou encore de la prévision des ventes et
de la gestion des stocks. L'analyse des données en temps réel est également l'une des
applications du big data. Il existe donc plusieurs technologies Big Data répondant à ces
besoins :
Hadoop : La technologie Hadoop est un Framework JAVA et un projet open source
conçue pour faciliter la création d'applications distribuées et stocker des données en
mode colonne. Entre autres, il permet des processus de travail et de déploiement sur
tous les nœuds du cluster.
Les traitements de type batch : Ils permettent de traiter les données jusqu'à ce qu'elles
soient épuisées lorsqu'elles entrent dans le système. L'opération de traitement est
continue et incrémentale, ce qui signifie que l'architecture considérera à chaque fois de
nouvelles données sans avoir à traiter à nouveau les anciennes données. Afin de garder
une cohérence lors du traitement de ces données, les résultats ne sont visibles et
accessibles qu'à la fin du traitement (une fois qu'il n'y a plus de données dans la
saisie). Il existe un traitement big data de type batch Map Reduce dans sa version
Hadoop ou Apache Spark.
Les traitements en temps réel (streaming) : C'est le contraire du traitement de type
batch. En effet, grâce à cette méthode, vous n'avez pas à attendre la fin du traitement
des données pour accéder aux résultats. Il s'agit d'une solution facile à mettre en œuvre
et qui réduit le temps de traitement. Ils sont souvent utilisés comme base pour la mise
en œuvre de solutions évolutives.
Architecture Lambda : C'est un hybride entre le traitement par lots et le temps réel.
L'architecture utilise le traitement par lots pour équilibrer la latence, le débit et la
tolérance aux pannes du système en fournissant des vues de données précises, tout en
faisant face aux données en temps réel pour obtenir des résultats plus précis.
Les bases de données NoSQL : Les bases de données relationnelles traditionnelles
sont utilisées pour gérer des données d'entreprise qualifiées, mais elles ne peuvent pas
traiter rapidement des données de stockage à grande échelle. La base de données
NoSQL apporte une nouvelle méthode de stockage de données plus flexible, plus
adaptable aux changements et moins sensible aux défaillances du système. NoSQL ne
signifie pas qu'il n'y a pas de SQL, mais "pas seulement SQL".
Les bases de données orientées colonne de type Cassandra et HBase : Les bases de
données relationnelles traditionnelles sont utilisées pour gérer des données d'entreprise
qualifiées, mais elles ne peuvent pas traiter rapidement des données de stockage à
grande échelle. La base de données NoSQL apporte une nouvelle méthode de stockage
de données plus flexible, plus adaptable aux changements et moins sensible aux
défaillances du système. NoSQL ne signifie pas qu'il n'y a pas de SQL, mais "pas
seulement SQL".
Le Cloud Computing : Ce n’est pas une technologie Big Data pure et dure, mais c’est
la méthode de déploiement favorisée pour les technologies Big Data. En effet, celui-ci
demande des capacités énormes de stockage et de traitement et le cloud est
aujourd’hui le moyen le plus capable de supporter ces volumétries et à moindre coût
comparé à une solution classique on-premise.
3. Comment fonctionne le Big Data ?
Le big data permet de relever un immense défi technologique : stocker une grande
quantité de données provenant de différents canaux sur un immense disque dur, facilement
accessibles depuis les quatre coins de la planète. Des données stockées en lieu sûr et
récupérables à tout moment en cas d'incident quelconque.
Pour y parvenir, les fichiers sont découpés en plusieurs fragments nommés « chunks ». Ces
fragments sont ensuite répartis sur plusieurs ordinateurs, et il existe différentes façons de les
reconstituer. Une panne survient ? Une autre machine vient prendre le relais en empruntant un
autre chemin. Ainsi, les différentes pièces du puzzle restent disponibles en permanence, et
peuvent être assemblées d'une façon ou d'une autre.
La duplication massive des données est l'une des clés de voûte de l'architecture du big data.
Le cloud computing, les supercalculateurs hybrides (high performance computing ou HPC) et
les systèmes de fichiers distribués (DFS ou Distributed files system) figurent parmi les
principaux modèles de stockage actuellement disponibles.
4. Comment le big data permet de prévoir le comportement du consommateur ?
Le big data inclut les informations préavises sur les réseaux sociaux (âge et en harmonies,
dépouillement, souvenirs, photos, vidéos), la radioguidage web (à défaut les excellent
cookies) et les achats en terminus. Ces accordées fournissent des indices foncièrement
intéressants sur les comportements des consommateurs et les complexions du marché. Si
vous-même venez d’acheter des chaussures de running sur un zone de e-commerce et si vous-
même avez publié une photo de vous-même en train de courir le marathon de paris, vous êtes
une victime alléchante parmi les pancartes de divertissement. Ces marques pourront pourquoi
vous mander des newsletters ou des offres promotionnelles sur des produits collaborateurs à
vos chaussures pour de terminer votre équipement. Le big data permet de connaître votre
profil, mais aussi votre comportement global : fréquence d'utilisation des réseaux sociaux et
de vos achats en ligne (historique des transactions, dépenses effectuées), canaux utilisés,
heures de connexion, etc...
B. Les 5V fondamentaux
Les spécialistes du Big Data, notamment chez IBM, définissent le Big Data par les
quatre V suivants : Volume, Variété, Vitesse, Véracité, et valeur. Ces quatre
dimensions caractérisent et distinguent les données volumineuses des données
ordinaires.
1. Volume
Le volume est la principale caractéristique du big data. En fait, le terme est tiré
directement de l'immense masse de données qui sont générées quotidiennement.
Selon IBM, en moyenne 2,5 billions d'octets de données sont créés chaque jour, soit
environ 2,3 billions de giga-octets. Ces données augmentent de jour en jour avec l'ajout
constant de sources de données. L'exemple de l'essor des objets connectés en est la
preuve. Année après année, la quantité de données augmente considérablement. Tout au
long de 2020, 40 zettaoctets de données, soit 43 000 milliards de giga-octets, seront créés.
Ces données doivent être stockées quelque part et le cloud est l'une des solutions
disponibles.
2. Variété
En plus des quantités simples, ces données sont plus diverses que jamais. Ce phénomène
est lié aux usages numériques et à la diversification d'Internet. La source des données,
leur format et les champs auxquels les données sont liées connaissent une diversité sans
précédent. De nouveaux types de données provenant de ressources sociales, de machine à
machine et mobiles ajoutent une nouvelle dimension aux données transactionnelles
traditionnelles. Par conséquent, vous devez modifier le modèle d'organisation des
données qui ne s'intègre plus dans une structure soignée et facile à utiliser (voir Valeurs
clés, Colonnes, Documents, Graphiques).
3. Vitesse
Les progrès de la technologie d'interconnexion et de mise en réseau augmentent la vitesse
et la direction dans laquelle les données sont envoyées aux entreprises, ce qui peut être
plus rapide que ce que nous pouvons comprendre. Plus vous obtenez des données
rapidement et plus vos ressources sont diversifiées, plus il est difficile de tirer de la valeur
de vos données. Les méthodes de calcul traditionnelles sont limitées et peuvent ne pas
fonctionner avec des données qui atteignent les vitesses actuelles.
4. Véracité
Enfin, si vous devez prendre un si grand nombre de décisions importantes et les collecter
très rapidement, la véracité des données ou la quantité de données fiables est essentielle.
Il est difficile de simplement savoir que les données ne sont pas réellement falsifiées,
corrompues ou proviennent d'une source attendue. Cela peut arriver, par exemple, avec
l'une des milliers de caméras de sécurité, chacune délivrant des milliers d'images vidéo
par heure.
5. Valeur
La valeur est le dernier élément de 5 vs Big Data et fait référence au fait que chaque
donnée doit apporter plus de valeur à l'entreprise. Par conséquent, avant de se lancer dans
un projet big data, les entreprises doivent savoir pourquoi et comment mettre en œuvre un
projet big data afin d'évaluer leur rentabilité future.
C. Pourquoi le Big Data est devenu important ?
La société numérique et les consommateurs exigent désormais des réponses immédiates. Des
transactions e-commerce aux avis marketing en ligne, tout dans le monde des affaires on-line
et en lien avec le cloud évolue rapidement. Tous ces échanges numériques compilent des
données à un rythme effréné. La bonne utilisation de ces informations en temps réel implique
de capitaliser les datas pour une vision à 360° de l’audience cible. Ne pas le faire crée le
risque de perdre des clients au profit de concurrents qui utilisent ce processus intelligent. Les
possibilités (et pièges potentiels) liées à la gestion et à l’utilisation des
données opérationnelles sont infinies. Toute les énumérer serait impossible alors voici les
principales opportunités liées à une intégration réussie du Big Data dans le processus de
transformation de son organisation.
1. Big Data et Business Intelligence
https://www.riskinsight-wavestone.com/2013/08/auw-origines-du-big-data/
https://e-rse.net/definition/big-data-definition-enjeux/#gs.v0k50eQ
https://fr.wikipedia.org/wiki/Big_data
https://www.1and1.fr/digitalguide/serveur/know-how/apache-hadoop-le-framework-pour-le-
big-data/
http://www.digora.com/fr/blog/quest-ce-que-le-big-data-et-comment-le-gerer
i
Commission nationale de l'informatique et des libertés
ii
La cryptographie est une des disciplines de la cryptologie s'attachant à protéger des messages en
s'aidant souvent de secrets ou clés.
iii
La cryptanalyse est la technique qui consiste à déduire un texte en clair d’un texte chiffré sans
posséder la clé de chiffrement.
iv
La kleptographie est l'information de vol légale sûre et subliminale.
v
La pseudonymisation est un traitement de données à caractère personnel de manière qu'on ne
puisse pas attribuer les données à une personne physique sans avoir recours à des informations
supplémentaires.