Vous êtes sur la page 1sur 7

Histoire du big data :

Le Big Data a une histoire partiellement cachée en tant qu'outil de technologie de


l'information et en tant qu'espace virtuel qui prend de plus en plus d'importance dans le
cyberespace.

Tandis que le concept du Big Data soit relativement nouveau, les grands ensembles de
données remontent aux années 60 et 70, lorsque le monde des données commençait à peine à
démarrer avec les premiers Datacenter et le développement de la base de données
relationnelle.

Selon les archives de la bibliothèque numérique de l'Association for Computing Machinery


(ACM), le terme "big data" est apparu dans un article scientifique d'octobre 1997 sur les défis
techniques de la visualisation de grands ensembles de données.

Dans les années 1980, afin de s'affranchir de certaines limitations comme la lenteur des
traitements, R. Kimball et B. Inmon ont proposé le Big Data. C'est une solution qui la
collecte, l'extrait, la transforme pour l'analyser selon de multiples critères et la présente aux
décideurs.

En 1965, le gouvernement américain a construit le premier centre de données capable de


stocker la plupart de ses données. 742 millions de déclarations de revenus et 175 millions
d'empreintes digitales.

Le projet s'est rapidement associé à "Big Brother" et a marqué le début du stockage données
numériques, Inventé par le scientifique britannique Tom Berners-Lee en 1989 Un futur World
Wide Web destiné à faciliter l'échange d'informations sur les systèmes hypertexte. Au début
des années 1990, les téléphones mobiles sont connectés à Internet et les données ont
incroyablement évolué.

En 2005, Roger Moulagas d'O'Reilly Media a inventé le terme "big data" un an plus tard.

Cette société a inventé le "Web 2.0"1 Il a utilisé le terme pour Quantité de données trop
importante pour être gérée et traitée Outils d'intelligence d'affaires actuels.

En même année, Apache a créé Hadoop, un framework open source qui rend cela possible.
Facilite la création d'applications distribuées et évolutives. Son but est Indexez l'intégralité du
"World Wide Web".

L’expression du Big Data est apparu finalement « 1997 » dans la bibliothèque numérique de
l’ACM, au sein d’articles scientifiques qui se réfère du doigt les défits technologiques à
visualiser les grands ensembles de données. Le Big Data est né, et avec lui ses nombreux
défis. Dans les années 2000, alors que l’exabytes entrent en jeu dans la quantification des
données produites annuellement, la valeur du Big Data est mise en avant, d’abord pour les
bénéfices que peuvent en tirer la recherche dans les secteurs de la physique, de la biologie ou
des sciences sociales.
Au cours de ces 5 dernières années, nous avons vu de plus en plus de startups , on est
intéressé par les projets Big Data. Ils essaient d'aider les entreprises à comprendre Gérer et
traiter cette grande quantité d'informations, non seulement les entreprises Tout comme
Internet est devenu populaire en 1993, le Big Data devient lentement populaire.

La révolution du big data n'est pas encore là, de grands changements sont sur le point de se
produire les années à venir.

Facebook a acquis WhatsApp pour 19 milliards de dollars, mais ce n'était pas dans le
décompte Plus de 450 millions d'utilisateurs mensuels. Bénéfice de 2,22 milliards de dollars

Net en 2013 sur Pandora, une web radio qui intègre des services automatisés de
recommandations musicales plus de 100 millions de jeux criminels. Jeu Facebook n°1 par les
utilisateurs... Taille du marché estimée à 6,3 milliards 50 milliards de dollars en 2012 et 50
milliards de dollars en 2018, soit un taux de croissance annuel de 40,5 %. De 2012 à 2018,
selon Transparency Market Research2, marché des mégadonnées Attirer tous les
entrepreneurs et Wall Street. Environ 350 000 tweets sont publiés chaque minute, 200
millions d'e-mails sont envoyés et 15 des millions de SMS, 25 heures de vidéo mises en ligne
sur YouTube, 600 000 Commentaires écrits sur Facebook… flux d'octets, mers de données,

Surcharge d'informations... les données sont-elles l'or noir du 21ème siècle ?

Le big data est devenu trop complexe et dynamique pour être viable de traitez, gérez et
analysez cette énorme quantité de données avec des outils traditionnels.

Heureusement, avec du matériel, des outils et des algorithmes récemment développés, toutes
ces données peuvent être transformées en données utiles.

L’idée c’est que les informations obtenues à partir de cela peuvent être utilisées pour un
développement et une amélioration ultérieurs prise de décision, efficacité, réduction des coûts,
augmentation des bénéfices.

La donnée est au cœur des stratégies des entreprises qui optimise l’utilisation pour cibler le
marché ; leurs produits et services et leurs relations avec la clientèle. Selon la recherche
CompTIA3, 95% des entreprises considèrent le big data comme un enjeu commercial majeur,
mais seulement 37 % des cadres comprennent ce que cela signifie.
En 2005, on assistera à une prise de conscience de la quantité de données que les utilistaeurs
généraient sur Facebook, YouTube et autres services en lignes. Hadoop ( une infrastructure
open source crée spécifiquement pour stocker et analyser les jeux de Big Data) fut développé
cette même année.
Traitements en Big Data :

Le traitement de base de données "traditionnel" utilisé par la plupart des entreprises


aujourd'hui fonctionne sur une base de données appelée SQL. Ces fondations fonctionnent
sous forme de piliers, avec des "principes directeurs" qui peuvent être intégrés selon leur
fonction.

Cependant, un e-commerçant qui maintient une base de données de tous les produits définit
une clé qui est une référence de produit. Cela permet de structurer la base de données de sorte
que chaque produit puisse être différencié par une mémoire qui affiche tous les produits à la
suite. associés aux données. Produit (couleur, poids, prix, etc.).

Vous pouvez lier des bases de données SQL entre elles en définissant une structure logique à
l'aide de ce système de clés. Par exemple, liez une fiche produit à une fiche client pour
montrer quels produits ont été achetés par quel client et quel jour. Vous pouvez donc voir
différentes bases de données reliées entre elles par des requêtes écrites dans un langage
informatique dédié à ce type de base de données, à savoir MySQL.

Aujourd’hui toute personne ayant une connaissance de base de MySQL peut l'exécuter.

Construisez votre base de données à l'aide d'un logiciel intuitif comme Access ou d'une
simple feuille de calcul Excel. Ces bases de données sont hébergées sur un seul serveur, la
plateforme.

Vous pouvez récupérer des données à partir de différentes bases de données en utilisant le
langage MySQL. Ce sont des fondations logiquement structurées qui fournissent des outils
puissants et essentiels pour toute entreprise qui effectue des transactions. Elle peut suffire à
piloter des campagnes digitales et permettre d'envisager des axes de développement
stratégique, par exemple en traçant les différents parcours d'achat des acheteurs. Pendant de
nombreuses années, cette technologie a été la seule alternative pour évaluer les tendances et
évaluer les opportunités de développement commercial et de commercialisation. Mais la
technologie qui utilise les API Hadoop, l'application la plus démocratisée lorsqu'on travaille
avec du big data, change les choses en introduisant des opérations et une logique

complètement différentes.

Les différences fondamentales entre le SQL et les bases traitées par Hadoop
Il existe trois différences principales entre les bases de données qui utilisent des API telles que
Hadoop et les bases de données SQL :

Comme nous l'avons vu, les bases de données SQL sont constituées de bases de données
structurées et fixées par un système de clés distribuées. Pour que deux bases de données
puissent communiquer entre elles, il est indispensable de connaître leur structure en leur
attribuant une clé commune. Si les deux structures ne correspondent pas, le logiciel de
traitement reconnaît une erreur et ne renvoie aucun résultat. Hadoop, au contraire, est basé sur
une logique non structurée. Le principe est d'utiliser un système de distribution de fichiers
appelé HDFS (Hadoop Distributed File System). Ce système peut obtenir les données dont il a
besoin grâce à un algorithme traduit en langage Java. Par conséquent, Hadoop vous donne
beaucoup plus de liberté en vous permettant de réconcilier des données qui semblent n'avoir
aucun lien logique.

Deuxième différence entre les bases de données utilisant des bases de données SQL et les
systèmes Hadoop est la vitesse de traitement des données. Une base de données SQL se
compose de données textuelles structurées logiquement sur un seul serveur. Puis la base de
données Hadoop Il contient toutes sortes de fichiers compressés (vidéos, textes, images, sons,
etc.). Ces fichiers compressés sont copiés plusieurs fois sur plusieurs serveurs. Hadoop et
toutes les API Big Data récupèrent les données via un système de "nœuds de calcul" appelés
"NameNodes". ce sont ces nœuds Appelé par des algorithmes Java. En résumé, lors de la
construction de requêtes algorithmiques, les nœuds appelant des fichiers sur différents
serveurs sont invités à rechercher des données. Hadoop a la capacité d'attribuer des requêtes
spécifiques, il est donc logique de copier des fichiers sur plusieurs serveurs. à chaque serveur.
Par exemple, considérez une entreprise comme Facebook qui souhaite visualiser positivement
tous les commentaires qui parlent du président Obama en recherchant le mot-clé "J'aime
Obama". en appelant tout le monde. Les systèmes Hadoop peuvent correspondre à des
serveurs contenant des données textuelles de Facebook.

Par exemple, mois ou année propre à chaque serveur. Par conséquent, la vitesse de traitement
des données est multipliée par 10 avec le nombre de serveurs. Alors qu'une base de données
SQL aurait mis des jours (voire des semaines) à renvoyer des résultats, les systèmes de Big
Data renvoient des réponses presque instantanément si les algorithmes sont corrects.
La troisième grande différence entre travailler avec des bases de données SQL et travailler
avec des bases de données utilisées pour le Big Data concerne la manière dont les requêtes
sont analysées.

Dans un système de type SQL hiérarchique, la requête appelle tous les champs obligatoires de
la base de données pour obtenir une réponse unique et précise. En d'autres termes, si un
élément de la base de données ne renvoie pas de réponse, la requête échouera. En revanche,
les requêtes effectuées via Hadoop les recherchent toutes sur différents serveurs.

Même si les informations sont présentes et manquantes, la requête réussit en recherchant la


réponse suivante. Ce processus garantit qu'une réponse est reçue pour chaque demande. C'est
un réel avantage en cas de panne technique du serveur. En effet, les auteurs de la demande ont
toujours accès à la réponse qui correspond le mieux à leurs attentes.

Entreposage de données ou HDFS comme choix commercial de base

C'est un terme que vous entendez souvent lorsqu'il s'agit de traitement de base de données.

Entrepôt de données, MPP, SMP, etc. Un entrepôt de données est un serveur qui collecte
toutes les données de votre entreprise. La fonction d'un entrepôt de données n'est pas
seulement de stocker et de structurer des bases de données pour optimiser l'espace de stockage
(supprimer les données en double, les données obsolètes, etc.), mais aussi de regrouper
certaines bases de données (data marts) pour faciliter des requêtes spécifiques. efficacement
aux demandes en accélérant. La technologie utilisée dans l'entrepôt de données est une base
de données structurée de type SQL contrôlée par un système de traitement SMP (Symmetric
Processing).

Les systèmes SMP fonctionnent de telle manière que toutes les données sont connectées et
gérées par un seul CPU (microprocesseur). L'architecture qui utilise des frameworks de type
Hadoop dans les systèmes HDFS est gérée au-dessus d'une base de données non structurée
(NoSQL) et contrôlée par un système appelé MPP (Massively Parallel Processing) qui peut
coordonner la base de données sur plusieurs processeurs (serveurs). . Après avoir évoqué plus
haut les principales différences entre les bases de données SQL structurées et NoSQL non
structurées, il semble a priori raisonnable de privilégier une architecture de base de données
non structurée et donc d'utiliser un système HDFS. Car cette dernière possibilité est très
prometteuse. Coût, flexibilité, polyvalence
Dans ce contexte, il est important de souligner la différence de coût entre les projets Big Data
et les projets utilisant des systèmes d'entrepôt de données. Comme déjà mentionné, les
systèmes de Big Data sont basés sur le stockage de données sur plusieurs serveurs. Les
entrepôts de données utilisent des serveurs individuels. Un serveur d'entrepôt de données a
l'avantage d'avoir une équipe très solide et dédiée à votre bien-être.

Cependant, ce type de stockage a un coût très élevé pour les entreprises. Selon une étude
publiée par Symantec7, la croissance des données d'entreprise devrait atteindre plus de 67 %
en un an, et la tendance devrait croître de façon exponentielle dans les années à venir. Dans ce
contexte, les entrepôts de données engrangent d'énormes profits au détriment des entreprises
qui se sentent obligées d'augmenter la capacité de stockage en raison de la croissance des
données hébergées. Je comprends parfaitement les implications de la différence entre le
traitement du Big Data et les structures d'hébergement de données. Les serveurs multiples
utilisés pour le Big Data sont très peu coûteux en raison de leur capacité modeste et des
faibles besoins de maintenance de la base de données. Le cas d'Orange Après avoir pris la
décision de passer à Big, les avantages en sont expliqués en termes de coût.

Données transitant par le framework Hadoop pour traiter les identifiants des box internet. Un
an après la mise en place du système, Orange a divisé par 20 le coût de traitement des bases
de données.

Cette structuration présente des avantages à la fois économiques et stratégiques. Les systèmes
Big Data avec des technologies comme Hadoop sont configurés pour fonctionner sur un
nombre illimité de serveurs. Ainsi, les entreprises peuvent mettre en place une véritable
stratégie de croissance du volume de données sans impact significatif sur l'organisation. Alors
que la reconstruction d'une base d'entrepôt de données prend en moyenne un an, un système
de Big Data peut être construit en quelques mois et peut évoluer et évoluer à l'infini. Cette
flexibilité des solutions Big Data permet une segmentation rentable, rapide et précise par
différents types de données et supports lors du traitement. Il a aussi l'avantage de créer des
configurations adaptées à chacun.

problème commercial. Le Big Data a tendance à dominer la prise de décision, grâce à des
outils flexibles et significatifs.

Vous aimerez peut-être aussi