Vous êtes sur la page 1sur 9

1

REPUBLIQUE DEMOCRATIQUE DU CONGO


ENSEIGNEMENT SUPERIEUR ET UNIVERSITAIRE
INSTITUT SUPERIEUR D’INFORMATIQUE,
PROGRAMMATION ET ANALYSE
ISIPA/MATADI

Section : Sciences Informatiques


Département : Informatique de Gestion

Défense de séminaire informatique


Sujet : Tout savoir sur le big data
=====================

Par
 MTADJIRI LUTOMA Perside
 TUNGA TAZI Exaucée
 MUANDA MANGOVO Hussein

Promotion : L2BDD
Assistant Valery MWAMBA LUFULUABO

Année Académique 2022-2023

INTRODUCTION SUR LE BIG DATA


2

Le Big Data désigne les mégadonnées ou une


grande quantité de données collectées par les entreprises de toutes les
industries, analysées afin d'en dégager de précieuses informations.

Avant de définir le Big Data, ou les mégadonnées, il est important de bien


comprendre ce que sont les données. Ce terme définit, informatiquement, la
représentation d'une information dans un programme : soit dans le texte du
programme (code source), soit en mémoire durant l’exécution. Les données,
souvent codées, décrivent les éléments du logiciel tels qu'une entité (chose),
une interaction, une transaction, un évènement, un sous- système, etc. Les
données peuvent être stockées ou transmises sous forme de signaux
électriques et enregistrées sur un support mécanique, optique ou magnétique.

Le terme de Big Data désigne de vastes


ensembles de données collectées par les entreprises, pouvant être explorées
et analysées afin d’en dégager des informations exploitables ou utilisées pour
des projets de Machine Learning.
On définit souvent le Big Data par les « 3 V » qui le caractérisent :

 le volume des données ;


 la variété des données ;
 la vélocité avec laquelle elles sont générées, collectées et traitées.

C’est ce qui différencie les « mégadonnées » des données traditionnelles. Ces


trois caractéristiques furent identifiées pour la première fois en 2001 par Doug
Laney, analyste chez Meta Group Inc. Elles furent ensuite popularisées par
Gartner suite à l’acquisition de Meta Group en 2005. De nos jours, on attribue
parfois d’autres caractéristiques au Big Data comme la véracité, la valeur et
la variabilité.1

Tout au long de notre travail nous palerons des points suivants :


 Historique du Big data ;
 C’est quoi le Big data ;
 A quoi sert le Big data dans les entreprises;
 Conclusion

1
https://datascientest.com/big-data-tout-savoir, Consulté le 25/02/2023 à 13h15
3

1. HISTORIQUE DU BIG DATA


L'expression « Big data » serait apparue en
octobre 1997 selon les archives de la bibliothèque numérique de l'Association
for Computing Machinery (ACM), dans un article scientifique sur les défis
technologiques à relever pour visualiser les « grands ensembles de
données »2.
La naissance du Big Data est liée aux progrès des capacités des systèmes de
stockage, de fouille et d'analyse de l'information numérique, qui ont vécu une
sorte de Big bang des données. Mais ses prémices sont à trouver dans le
croisement de la cybernétique et de courants de pensée nés durant
la Seconde Guerre mondiale, selon lesquels l’homme et le monde peuvent
être représentés comme « des ensembles informationnels, dont la seule
différence avec la machine est leur niveau de complexité. La vie deviendrait
alors une suite de 0 et de 1, programmable et prédictible ».
Les évolutions qui caractérisent le Big data et
ses algorithmes, ainsi que celles de la science des données sont en partie
cachées (au sein des services de renseignement des grands États) et si
rapides et potentiellement profondes que peu de prospectivistes se risquent à
pronostiquer son devenir à moyen ou long terme, mais la plupart des
observateurs y voient des enjeux majeurs pour l'avenir, tant en termes
d'opportunités commerciales que de bouleversements sociopolitiques et
militaires, avec en particulier le risque de voir émerger des
systèmes ubiquistes, orwelliens et totalitaires capables de fortement contrôler,
surveiller et/ou influencer les individus et groupes.
2. C’EST QUOI LE « BIG DATA » ?
Comme nous l’avons dit ci-haut, Le terme de Big Data désigne de vastes
ensembles de données collectées par les entreprises, pouvant être explorées
et analysées afin d’en dégager des informations exploitables ou utilisées pour
des projets de Machine Learning. Big Data est utilisé pour désigner deux
ensembles de choses :
 Les grosses bases de données : « Big Data » signifie d’abord «Big
volume of data ». Dans le Big Data, il y a l’idée qu’on ne gère pas de la
même manière des bases de données classiques et des énormes
volumes de données. A partir d’un certain seuil, la différence
quantitative, volumétrique, se transforme en différence qualitative. Les
processus et traitements changent de nature à partir d’un certain seuil,
les données ne peuvent plus être gérées de manière classique, dans
des bases et des outils classiques. Ce qui nous amène immédiatement
au second point.
 Les dispositifs informatiques et plus largement les technologies
utilisés pour gérer de gros volumes de données. Le Big Data ne
2
https://Big data — Wikipédia (wikipedia.org) , Consulté le 20/02/2023 à 18h23
4

renvoie pas qu’aux données en tant que telles, mais aussi aux
technologies, aux stratégies, aux techniques utilisées pour gérer de gros
volumes de données.
A. Les sources du Big Data
Les mégadonnées peuvent provenir d’une large
variété de sources. En guise d’exemple courant, on peut citer les systèmes de
transactions, les bases de données de clients, ou encore les enregistrements
médicaux. Le Big Data s’appuie sur quatre sources de données :
 Les « logs » des sites web
 Les « insights » des médias sociaux
 Les « third party data »
 L’Open data
De même, l’activité des internautes génère une myriade de données. Les
logs de clics, les applications mobiles, ou encore les réseaux sociaux
capturent de nombreuses informations. L’Internet des Objets est également
une source de données grâce à leurs capteurs, qu’il s’agisse des machines
industrielles ou d’objets connectés  «  grand public  » comme les bracelets
dédiés à l’activité sportive. Pour mieux comprendre, voici quelques exemples
concrets de sources de Big Data. À elle seule, la Bourse de New
York génère environ un téraoctet de données par jour.

C’est énorme, mais ce n’est rien en comparaison des réseaux sociaux. Ainsi,


Facebook ingère chaque jour plus de 500 téraoctets de nouvelles données
dans ses bases de données. Ces données sont principalement générées par
les téléchargements de photos et de vidéo, les échanges de messages et les
commentaires laissés sous les publications.

En seulement 30 minutes de vol, un simple moteur d’avion peut générer plus


de 10 téraoctets de données. Vous l’aurez compris, le Big Data afflue
désormais de multiples sources et les données sont toujours plus
volumineuses à mesure que la technologie progresse…

B. Les différents types de Big data ?


Les données du Big Data proviennent de sources
diverses, et peuvent donc prendre plusieurs formes. On distingue plusieurs
catégories principales.
1. Lorsque les données pouvant être stockées et traitées dans un format
fixe et bien défini, on parle alors de données  «structurées ». Grâce
aux nombreuses avancées réalisées dans le domaine de l’informatique,
des techniques permettent aujourd’hui de travailler efficacement avec
ces données et d’en dégager toute la valeur.
Cependant, même les données structurées peuvent poser problème à cause
de leur volume massif. Alors que le volume d’un ensemble atteint désormais
5

plusieurs zettabytes, le stockage et le traitement représentent de véritables


défis.
2. Les données dont le format ou la structure sont inconnus, quant à elles,
sont considérées comme des données « non structurées ». Ce type
de données présente de nombreux défis en termes de traitement et
d’exploitation, au-delà de leur volume massif.
En guise d’exemple typique, on peut évoquer une source de données
hétérogène contenant une combinaison de fichiers textuels, d’images et de
vidéo. À l’ère du numérique et du multimédia, ce type de données est de plus
en plus fréquent. Les entreprises ont donc de vastes quantités de données à
portée de main, mais peinent à en profiter à cause de la difficulté à traiter ces
informations non structurées…
3. Enfin, les données « semi-structurées »  sont à mi-chemin entre ces
deux catégories. Il peut s’agir par exemple de données structurées en
termes de format, mais n’étant pas clairement définies au sein d’une
base de données.
Avant de pouvoir traiter et analyser les données non structurées ou semi-
structurées, il est nécessaire de les préparer et de les transformer grâce à
différents types d’outils de datamining ou de préparation de données.
C. Les techniques d'analyse du Big data ?
On utilise différentes techniques pour analyser le Big Data. En voici quelques-
unes :
1. L’analyse comparative permet par exemple à une entreprise de
comparer les performances de ses produits et services auprès des
clients avec ceux de ses concurrents. L’analyse marketing consiste à
analyser les données permettant de faire la promotion de nouveaux
produits et services de manière mieux informée et innovante.
2. L’analyse de sentiment a pour but d’évaluer la satisfaction client à
l’égard d’une marque, notamment en passant en revue les critiques ou
les commentaires laissés sur internet. Dans la même optique, l’analyse
des réseaux sociaux permet de mettre en lumière la réputation d’une
entreprise à partir de ce que les internautes en disent sur les réseaux. Il
devient alors possible d’identifier de nouvelles audiences cibles pour les
campagnes de marketing.
D. Comment est traité et stocké le Big Data ?
Le volume, la vélocité et la variété des
mégadonnées impliquent des besoins spécifiques en matière d’infrastructure
6

informatique. Un simple serveur ou même un cluster de serveurs seront vite


surmenés face au Big Data.
Pour atteindre la puissance de traitement suffisante, il peut être nécessaire
de combiner des milliers de serveurs afin de distribuer le travail de traitement.
Ces serveurs doivent collaborer au sein d’une architecture de grappe, souvent
basée sur des technologies dédiées comme Hadoop ou Apache Spark.
Les coûts peuvent s’avérer très élevés, et c’est pourquoi de nombreux
dirigeants d’entreprise hésitent à investir dans une infrastructure adaptée au
stockage et au traitement des workloads Big Data.
En guise d’alternative, de nombreuses organisations se tournent vers le Cloud
public. Il s’agit aujourd’hui de la solution privilégiée. C’est la raison pour
laquelle l’essor du Cloud Computing accompagne celui du Big Data.
Un fournisseur de Cloud public peut étendre sa capacité de stockage de
manière illimitée en fonction des besoins de ses clients en termes de
traitement Big Data. L’entreprise paye pour les ressources qu’elle utilise. Il n’y
a donc aucune restriction de capacité, et aucune dépense superflue.
Parmi les solutions de stockage Cloud les plus utilisées pour le Big Data, on
peut citer Hadoop Distributed File System (HDFS), Amazon Simple Storage
Service (S3), ou encore les différentes bases de données relationnelles ou
NoSQL.
Par-delà le stockage, de nombreux fournisseurs de Cloud public proposent
des services de traitement et d’analyse Big Data. On peut citer Amazon EMR,
Microsoft Azure HADInsight ou encore Google Cloud Dataproc.
Il existe néanmoins des solutions Big Data conçues pour des déploiements sur
site. Ces solutions utilisent généralement des technologies Apache open
source en combinaison avec Hadoop et Spark. En guise d’exemple, on peut
citer le gestionnaire de ressources YARN, le framework de programmation
MapReduce, la plateforme de data streaming Kafka, la base de données
HBase et les moteurs de requête SQL comme Drill, Hive, Impala ou Presto.3
E. Comment se former au Big Data ?
Le traitement et l’exploitation du Big Data requièrent la maîtrise des différents
outils et techniques évoqués dans ce dossier. Ces compétences sont très
recherchées par les entreprises de tous les secteurs, car de nombreuses
organisations souhaitent profiter des données à leur disposition.
Pour apprendre les différents métiers du Big Data, vous pouvez choisir les
formations DataScientest. Il y a différentes formations permettant de devenir

3
https://datascientest.com/big-data-tout-savoir, Consulté le 27/02/2023 à 20h30
7

rapidement Data Scientist, Data Analyst, Data Engineer ou Machine


Learning Engineer.
3. À QUOI SERT LE BIG DATA DANS LES ENTREPRISES ?
Dans tous les secteurs, les entreprises utilisent le
Big Data engrangé dans leurs systèmes à différentes fins. Il peut s’agir
d’améliorer les opérations, de proposer un meilleur service client, de créer des
campagnes marketing personnalisées basées sur les préférences des
consommateurs, ou tout simplement d’augmenter le chiffre d’affaires. Grâce
au Big Data, les entreprises peuvent profiter d’un avantage compétitif face à
leurs concurrents n’exploitant pas les données. Elles peuvent prendre des
décisions plus rapides et plus précises, s’appuyant directement sur les
informations.

Par exemple, une entreprise peut analyser le Big Data pour découvrir de
précieuses informations sur les besoins et les attentes de ses clients. Ces
informations peuvent ensuite être exploitées pour créer de nouveaux produits
ou des campagnes marketing ciblées afin d’accroître la fidélité client ou
d’augmenter le taux de conversion. Une entreprise s’appuyant totalement sur
les données pour aiguiller son évolution est qualifiée de  « data-driven »
(signifiant dirigée par les données).

En outre, le Big Data est utilisé dans le domaine de la recherche médicale. Il


permet notamment d’identifier des facteurs de risque de maladies, ou de
réaliser des diagnostics plus fiables et plus précis. Les données médicales
permettent aussi d’anticiper et de suivre les éventuelles épidémies.

Les mégadonnées sont utilisées dans presque tous les secteurs sans
exception. L’industrie de l’énergie s’en sert pour découvrir des zones de
forage potentielles et surveiller leurs opérations ou le réseau électrique. Les
services financiers l’utilisent pour gérer les risques et analyser les données du
marché en temps réel.

Les fabricants et les entreprises de transport, quant à eux, gèrent leurs


chaînes logistiques et optimisent leurs itinéraires de livraison grâce aux
données. De même, les gouvernements exploitent le Big Data pour la
prévention du crime ou pour les initiatives de Smart City. Dans les entreprises
de toutes les industries, les systèmes permettant de traiter et de stocker le Big
Data sont devenus indispensables. Pour cause, les outils traditionnels de
gestion de données ne sont pas en mesure de stocker ou de traiter de tels
ensembles massifs.
8

 AVANTAGES ET INCONVENIENTS

Avantages du Big data Inconvénients du Big data


 Optimiser son offre et Améliorer  Le respect de la vie privée est
son expérience clients : il permet menacé : Le marché des données
en effet une analyse complète du personnelles est de plus en plus
comportement et des attentes du grand et croissant sans que nous
consommateur. A l’exemple le Big nous en rendions compte, ce qui
Data permet l’optimisation d’une affecte grandement la vie privée des
boutique e-commerce, des horaires personnes;
de trains et même des programmes  la sécurité des données au niveau
scolaires. Avec l’analyse des du stockage de cette grande
comportements des internautes quantité des données : Il y a des
suivant les MooCs (cours en ligne), il cas où la sécurité de l’information
est en effet possible d’analyser n’est pas bonne et ces informations
l’intérêt des cours et de leur contenu. pourraient être volées ;

 Anticiper les besoins et la


demande et Optimiser sa stratégie
Marketing Digital : le Big Data est à
la source du e-marketing, cette
pratique visant à vous afficher des
publicités en fonction de votre
navigation.
 Optimiser sa logistique et son
organisation : il permet, par
exemple, de suivre ses ventes en
temps réels et donc d’optimiser sa
gestion des stocks.
9

4. CONCLUSION

Comme vous pouvez le voir, un vrai changement est en cours, le Big Data
n’est pas un simple tapage médiatique. C’est un changement profond de notre
société qui apporte des opportunités qui sont bel et bien réelles. Ceux qui
seront proactifs, sortiront de leur zone de confort choisiront leur profil
bénéficieront professionnellement, socialement, et financièrement des
opportunités que le Big Data a à offrir, parce qu’il permet en effet une analyse
complète du comportement et des attentes du consommateur et optimise
sa stratégie Marketing Digital au sein des entreprises. Même s’il est
aujourd’hui difficile de prédire précisément l’impact qu’aura le Big Data sur nos
vies et notre économie, cependant, nul doute que nous assistons à une
véritable révolution qui signe sans doute la fin de la vie privée telle que nous
l’entendons.

Vous aimerez peut-être aussi