02A-Introduction Au Big Data

Université Virtuelle du Sénégal
Master Big Data & Analytics| Année: M1

Unité d’enseignement: Infrastructures Big data
Module: Virtualisation /Cloud/Plateforme Big Data
Session 02 – Introduction au Big Data
UVS, Dakar, Juillet 2023

Master M1 Big Data & Analytics
Papa Mbaye TINE, Ing., MS., MSc.
2
Objectifs de la session
• Cette session d'introduction au Big Data permet d'aborder d'un point de vue pratique l'utilisation
d'une architecture Big Data pour réaliser des analyses de données (Analytics).
• Seront mis en avant les problématiques de volumétrie, variété, vélocité (les fameux "V" du Big
Data).
• Une deuxième session plus pragmatique présentera l'environnement Hadoop, un des Framework
open source de stockage et de traitement distribués. Seront abordés le système de fichier
distribué HDFS, les principes de traitement distribué Map/Reduce, mais aussi, brièvement
l'écosystème d'outils autour de Hadoop.
3
Agenda
1. Introduction
2. Les « V » du Big Data
3. Nouveaux challenges, nouvelles formations
4. Applications du Big Data
5. Conclusion
4
5
Données massives et Préfixes multiplicatifs

Avant de parler de Big Data, connaissez-vous les préfixes ?
6
Big Data « Données Massives » (1/2)

Tout le monde en parle mais qu'est-ce que c'est ?
« Le big data (litt. « grosses données » en anglais), les mégadonnées ou les
données massives, désigne les ressources d’informations dont les
caractéristiques en termes de volume, de vélocité et de variété imposent
l’utilisation de technologies et de méthodes analytiques particulières pour
générer de la valeur, et qui dépassent en général les capacités d'une seule et
unique machine et nécessitent des traitements parallélisés. »
(https://fr.wikipedia.org/wiki/Big_data).
➔ Changement de pratique (outils, méthodologie).

7
Big Data « Données Massives » (2/2)

Les mégadonnées ou Big Data sont des collections d’informations qui
auraient été considérées comme gigantesques, impossible à stocker et à
traiter, il y a une dizaine d’années.
▪ Internet : Google en 2015 : 10 Eo (10 milliards de Go), Facebook en 2018 :
1 Eo de données, 7 Po de nouvelles données par jour, Amazon : 1 Eo.
▪ BigScience : télescopes (1 Po/jour), CERN (2 Po lus et écrits/jour, 280 Po de
stockage), génome, environnement. . .
▪ NB: ces informations sont très difficiles à trouver.
▪ La raison est que tout est enregistré sans discernement, dans l’idée que ça
pourra être exploité. Certains prêchent pour que les données collectées
soient pertinentes (smart data) plutôt que volumineuses.
8
Sources de ces données massives (1/6)

9

Mais aussi:
• génomique
• Téléphonie, réseaux sociaux
• Santé
• objets connectes, capteurs
• open data
• astrophysique, météo
• observation de la terre (climat, catastrophes)
➔ Quatre grands challenges (cyber sécurité, ville intelligente, transport
intelligent et le médical).
10

Bref, elles sont partout, c'est le déluge [The economist, 2010]
11

Les données sont enfin partout:
• qui n'a pas de téléphone portable ?
• qui n'a pas de compte sur un réseau social ?
• qui n'a jamais réalisé un achat sur internet ?
• qui n'a pas un objet connecté ?
• qui n'a pas d'assurance ?
• qui n'a pas de compte bancaire ?
• qui n'a pas...
➔ Un individu-jour génère aujourd'hui plus de données qu'un
Néandertalien (☺) pendant toute sa vie!!!
12

Données générées sur l’année horizon 2025
La quantité de données générées chaque
année a augmenté d'année en année depuis
2010.
En fait, on estime que 90 % des données

mondiales ont été générées au cours des deux
dernières années seulement.
En l'espace de 13 ans, ce chiffre a augmenté

d'environ 60 fois par rapport à seulement 2
zettaoctets en 2010.
Les 120 zettaoctets générés en 2023

devraient augmenter de plus de 150 % en
2025, pour atteindre 181 zettaoctets.
13

➔ Et les objets connectés vont déferler...
Number of Internet of Things (IoT) connected devices worldwide from 2019 to 2030 (in billions) | ©https://www.statista.com/
14
Différentes types de données

Les données peuvent être générées par la machine ou par l'homme. Les données générées
par l'homme font référence aux données générées à la suite d'interactions des humains via
des machines. Les e-mails, les documents, les publications Facebook font partie des
données générées par l'homme. Les données générées par la machine font référence aux
données générées par des applications informatiques ou des périphériques matériels sans
intervention humaine. Les données provenant de capteurs, de systèmes d'alerte aux
catastrophes, de systèmes de prévision météorologique et de données satellitaires font
partie des données générées par la machine.
Les données générées par la machine et par
l'homme peuvent être représentées par les types
primitifs de Big Data suivants:
• Données structurées
• Données non structurées
• Données semi-structurées
15
Données structurées
Les données qui peuvent être stockées dans une base de données relationnelle (SGBDR) au
format table avec des lignes et des colonnes sont appelées données structurées. Les
données structurées souvent générées par les entreprises présentent un degré élevé
d'organisation et peuvent être facilement traitées à l'aide d'outils d'exploration de données
et peuvent être interrogées et récupérées à l'aide du champ de clé primaire. Des exemples
de données structurées comprennent les détails des employés et les transactions
financières.
16
Données non structurées (1/2)

Les données brutes, non organisées et qui ne rentrent pas dans les systèmes de base de
données relationnelle sont appelées données non structurées. Près de 80% des données
générées actuellement ne sont pas structurées.
Des exemples de données non structurées incluent la vidéo, l'audio, les images, les e-mails,
les fichiers texte et les publications sur les réseaux sociaux. Les données non structurées
résident généralement sur des fichiers texte ou des fichiers binaires. Les données qui
résident dans des fichiers binaires n'ont pas de structure interne identifiable, par exemple,
audio, vidéo et images. Les données qui résident dans des fichiers texte sont des e-mails,
des publications sur les réseaux sociaux, des fichiers PDF et des documents de traitement
de texte.
17
Données non structurées (2/2)

La capture d’écran ci-contre affiche
des données non structurées, résultat
d'une recherche Google sur le mot
« Big data »
Comme je suis au Sénégal, il affiche
même le master Big Data Analytics de
l’UVS (sans doute référencé par
l’école dans les résultats de
recherches de Google) ou déterminé
par les algorithmes de Google selon la
localisation de l’utilisateur.
18
Données semi-structurées
Les données semi-structurées sont celles qui ont une structure mais qui ne rentrent pas
dans la base de données relationnelle. Les données semi-structurées sont organisées, ce qui
facilite leur analyse par rapport aux données non structurées. Les formats JSON et XML sont
des exemples de données semi-structurées.
Exemple: Fichier XML qui représente les détails d'un employé dans une organisation.
<?xml version = “1.0”?>

<Company>
<Employee>
<EmployeeId>339876</EmployeeId>
<FirstName>Joseph</FirstName>
<LastName>Agnes</LastName>
<Sex>Female</Sex>
<Salary>$4000<Salary>
</Employee>
</Company>
19
Big Data Analytics - Analyse des Données Massives (1/2)

Analyse des Données Massives: Le Big Data Analytics ou analytique Big Data est le
processus qui consiste à collecter, examiner, gérer, traiter et exploiter des ensembles
massifs de data issues de sources différentes et existantes sous divers formats,
structurées, semi-structurées ou non structurées.
➔ Données - Connaissances - Valeur
[Clive Huby, 2006 ; Infographie : Nigel Holmes]

20
Big Data Analytics - Analyse des Données Massives (2/2)

Quel est l’objectif de l’analytique Big Data ?
▫ Déceler des corrélations entre des informations,
▫ Identifier des schémas et tendances auparavant inconnus,
▫ Mieux comprendre les préférences des clients ou cibles
▫ Rendre l’entreprise plus réactive et intelligente sur son marché
▫ Anticiper des phénomènes marketing
Pour simplifier, la Big Data analytics a pour objectif de permettre aux organisations de
prendre les meilleures décisions stratégiques possibles en se basant sur des
informations concrètes. Les architectes Big Data, data scientists et data analysts
modélisent et analysent les données pour les transformer en informations exploitables
dans le processus décisionnel et en tirer tout leur potentiel.
Les résultats issus des analyses Big Data peuvent contribuer à améliorer la
performance, l’organisation et le marketing de l’entreprise.
21
Distribution données et traitements

• Le traitement d’aussi grandes quantités de données impose des méthodes
particulières. Un SGBD classique, même haut de gamme, est dans l’incapacité de
traiter autant d’informations.
• Répartir les données sur plusieurs machines (jusqu’à plusieurs millions d’ordinateurs)
dans des Data Centers
▫ système de fichiers spécial permettant de ne voir qu’un seul espace pouvant contenir
des fichiers gigantesques et/ou très nombreux (HDFS),
▫ bases de données spécifiques (HBase, Cassandra, ElasticSearch).
• Traitements du type « Map-Reduce » :
▫ algorithmes faciles à écrire,
▫ exécutions faciles à paralléliser.
22
Data Center: centre de données

• Imaginez 5000 ordinateurs connectés entre eux formant un cluster (agrégat de
machines dans un but de travail coopératif).
23
Serveur « lame »
Chacun de ces serveurs lames (blade computer) ou rack server peut ressembler à ceci (4
CPU multi-cœur, 1 To de RAM, 24 To de disques rapides, 5000€, prix et technologie en
constante évolution):
Front Open Back
Il semble que Google utilise des ordinateurs assez basiques, peu chers mais
extrêmement nombreux (𝟏𝟎𝟔 ), consulter Wikipédia.
24
Machines connectées
• Toutes ces machines sont connectées entre elles afin de partager l’espace de stockage
et la puissance de calcul.
• Le Cloud (qu’on a déjà abordé) est un exemple d’espace de stockage distribué : des
fichiers sont stockés sur différentes machines, généralement en double pour prévenir
une panne.
• L’exécution des programmes est également distribuée : ils sont exécutés sur une ou
plusieurs machines du réseau.
• Un cluster de machines a deux objectifs clés:
▫ Augmentation de la puissance de traitement (scalability)
▫ Augmentation de la disponibilité (high availability)
25
26
Données massives: les «V» (1/6)

3 dimensions initiales définies par Doug Laney.
Valeur
La majeure partie des

données n'ayant aucune
valeur n'est pas bonne
pour la société, à moins
que vous ne le
transformiez en quelque
chose d'utile.
➔ Valeur, Visualisation, . . .
27

• Le Volume
▫ Le Volume du principe des 5V fait référence aux énormes quantités de
data générées à chaque instant. Ces volumes sont devenus tellement
massifs que nous ne parlons plus en Téraoctets mais en Zettaoctets pour
les quantifier. D’ailleurs le volume annuel de data numériques créé à
l’échelle mondiale a été multiplié par plus de vingt durant les dix dernières
années et s’approche de 50 zettaoctets en 2020 selon Statista.
▫ Toute entreprise qui prévoit d’utiliser ces volumes de données massifs doit
donc développer des solutions Big Data Analytics pour gérer la quantité et
le volume de data à stocker et traiter.
28

• Le Vélocité
▫ La Vélocité, également appelée Vitesse, correspond à la rapidité à laquelle
les data sont générées et circulent. Le Big Data permet l’analyse
d’informations en temps réel et leur transmission à un rythme effréné.
Ainsi, les entreprises peuvent faire preuve d’une réactivité et d’une agilité
incomparables.
▫ Utiliser le Big Data et son principe de vélocité implique la recherche et le

déploiement de technologies pour s’assurer que les volumes massifs de
données soient traités de manière à être utilisées quasiment
instantanément.
29
• Le Variété
▫ La Variété désigne la multiplicité des types de données disponibles.
Auparavant, les data étaient majoritairement des données structurées,
faciles à classer et organiser. Aujourd’hui, de nombreuses data non-
structurée comme les données textuelles sont générées à chaque seconde.
▫ Pour utiliser le Big Data il faut donc être en mesure d’identifier tous les
différents types de données générées, ingérées et stockées dans
l’écosystème numérique de l’entreprise.
30
• Le Véracité
▫ La Véracité est un élément indispensable des 5V du Big Data. Elle désigne
à la fiabilité de la data qui est essentielle pour pouvoir en tirer profit et la
transformer en information utilisable dans l’entreprise.
▫ Cette notion des 5V désigne donc le fait nettoyer les données (data
cleansing) et faire en sorte qu’elles soient exactes, prêtes à l’emploi et
utilisées à des fins business dans le processus décisionnel.
31

• Le Valeur
▫ La Valeur est le dernier élément des 5V du Big Data et il désigne le fait
que chaque donnée doit apporter une valeur ajoutée à l’entreprise. Il est
donc crucial que les entreprises, avant de lancer leur projet Big Data,
sachent pourquoi et comment elles vont le mener afin d’évaluer la future
rentabilité.
▫ La Valeur des 5V rejoint le concept de Business Intelligence qui consiste à
rendre la data exploitable et stratégique dans le processus décisionnel afin
de prioriser les informations essentielles et stratégiques à chaque équipe
de l’organisation.
32
Données massives: un 6ème V ?
• Le Vertu
▫ Un 6ème V est apparu dans certaines littératures en relation avec l’éthique sur
l’exploitation des données (personnelles) et un durcissement sur la
réglementation des données personnes (ex. CDP au Sénégal, CNIL en France).
▫ Cette 6ème caractéristique essentielle à ce concept des 5 V du Big Data : la Vertu.
▫ La vertu fait référence aux réglementations en matière de confidentialité et de
conformité des data. L’aspect éthique et le respect des normes en vigueur
concernant les données sont cruciaux pour traiter les informations tout en se
conformant aux réglementations telles que le RGPD en Europe. C’est pourquoi la
Vertu fait désormais partie des éléments clés qui caractérisent le Big Data.
33
Changements
• Quelques problèmes à adresser:
▫ fausses corrélations
▫ Difficultés à évaluer les modèles
▫ estimation et tests
▫ pas de contrôle sur la production des données
▫ temps d'analyse (qualité des données)
▫ outils classiques ne savent pas traiter les grands Volumes
▫ récence, représentativité des données
➔ Il est à noter que « Massive n'est pas Meilleure, et les Algorithmes dans
tout cela ? -Big, Rich and Right Data- »
34
Nouvelle science ?
4ème révolution/paradigme…etc.
35
Nouvelle science & nouveaux enjeux ?

Et demain ?
• 8/9 solutions industrielles françaises (ville durable, mobilité écologique, transports de
demain, médecine du futur, économie des données, objets intelligents, confiance
numérique, alimentation intelligente) [Industrie du futur, 18 mai 2015]
• développements informatiques et nouvelles approches d'analyse

• changements de comportements
• éthique : vie privée (RGPD, PDS2) et risque de Big Brother, qui possède la donnée,
droit à l'oubli, etc.
➔ De gros Enjeux scientifique, politique, économiques et sociétaux.
36
37
Nouveaux challenges, nouveaux besoins (1/2)

• Exemple en France: au sein de la Branche numérique, les Data Scientists devraient rester les plus nombreux
sur la période 2019-2023 (cela pourrait s’inverser par la suite au profit du développement et de l’analyse).
• Syntec Numérique table sur 7 500 spécialistes supplémentaires de l’IA et Data Science sur la période 2019-
2023, pour une population totale portée de 11 200 à 21 000 personnes (+59 %).
Data Scientist Data Analyst

38
Nouveaux challenges, nouveaux besoins (2/2)

• Les grandes tendances de l’emploi en IA dans la Branche du numérique
au travers de 10 métiers.
39
Métiers en émergence (1/6)

Données métiers
• Volume et Vélocité ne sont pas une réelle nouveauté
• Volume important déjà pour modéliser les risques en actuariat par
• exemple
• Vélocité très élevée en finance de marché par exemple
• Mais toute la richesse n'a pas été exploitée
3 profils de métiers:
• Le Data Architect, responsable des infrastructures encore appelés «Data Engineers»
• Le Data Scientist, informaticien spécialisé dans l'analyse des données
• Le Data Analyst, responsable des opérations de bases de données et appui
analytique à l'exploration de données
[Source : Apec, BIG DATA : Les actuaires en première ligne (Institut des Actuaires)]
40

Data Scientist
• Un data scientist est normalement associé à un employé ou à un consultant en business
intelligence (BI) qui excelle dans l'analyse de données, en particulier de grandes quantités de
données, pour aider une entreprise à acquérir un avantage concurrentiel. Le data scientist est
généralement le chef d'équipe de facto lors d'un projet d'analyse de Big Data.
• Le titre data scientist est parfois décrié car il manque de spécificité et peut être perçu comme
un synonyme amplifié de data analyst. Néanmoins, la position est de plus en plus acceptée par
les grandes entreprises qui souhaitent tirer un sens du Big Data, la quantité volumineuse de
données structurées, non structurées et semi-structurées qu'une grande entreprise produit ou à
laquelle elle a accès.
• Un data scientist doit posséder une combinaison de compétences analytiques, d'apprentissage
automatique, d'exploration de données et de statistiques, ainsi qu'une expérience des
algorithmes et du codage. Cependant, la compétence la plus critique qu'un data scientist doit
posséder est la capacité de traduire la signification des données d'une manière qui peut être
facilement comprise par les autres (« faire parler les données ☺☺☺ »).
41

Mise en place Equipe Big Data
• Il est important de développer une sorte de test décisif pour déterminer si un
individu possède les compétences appropriées pour réussir dans ce qui
pourrait être une nouvelle carrière. Les candidats doivent posséder un socle
de cinq compétences essentielles pour apporter immédiatement de la valeur
à une équipe Big Data :
▫ Data mining
▫ Data visualization
▫ Data analysis
▫ Data manipulation
▫ Data discovery
• Celles-ci définissent ce qu'un data scientist doit être capable d'accomplir.
42

Data Data Data
Architect Analyst Scientist
Representation
Movement
Reporting and Summarization
Interpretation
Extrapolation
Prescription
43

Cloud Native: « Dream Team » Cloud Native & Data pour la Transformation Digitale (rappel)
Métiers en lien avec la Data Métiers en lien avec le Cloud

44

Données non structurés
• Le troisième V Variété est encore très peu exploité, potentiel de différentiation stratégique
• Données non structurées : mails, photos, tweets, etc.
• Open Data : fichiers de cartes grises, statistiques de vente de médicaments, paiement en ligne,
données financières…etc.
Nouveaux profils s’ajoutent

• Le Chief Data Officer (CDO), responsable de la collecte des données, la principale mission est
de s’assurer que les décisions prises capitalisent sur les données disponibles.
• Data Protection Officer (DPO): responsable des dispositifs informatiques de protection et de
conformité réglementaire des données de l’entreprise. L’émergence de ce métier introduit une
nouvelle culture de la donnée basée sur l’éthique, constituant un véritable levier de
performance.
• Le Responsable de la relation client et le Chef de projet e-CRM, pour une expérience
utilisateur au cœur de la stratégie des entreprises dans cet ère de transformation digitale.
45
Outils (1/2)
46
Outils (2/2) [Source: KDnuggets' Association Matrix Heat Map for top
10 most popular data mining tools]
▪ Logiciels d'informatique
décisionnelle s'intègrent petit
a petit aux environnements
Big Data (Data Loader for
Hadoop de SAS).
▪ Librairies Python, R gratuites
disponibles... et utilisables
sous Hadoop et Spark.
47
Infrastructures Big Data

Les composants de base des technologies de Big Data sont les outils et les technologies
qui fournissent la capacité de stocker, traiter et analyser les données. La méthode de
stockage des données dans des tableaux n'était plus compatible avec l'évolution des
données avec 3 Vs, à savoir le volume, la vitesse et la variété. Le SGBDR robuste n'était
plus rentable ni adapté au Big Data. La mise à l'échelle du SGBDR pour stocker et traiter
d'énormes quantités de données est devenue coûteuse. Cela a conduit à l'émergence
d'une nouvelle technologie, hautement évolutive à un coût très bas.
Les technologies clés comprennent:

▫ Hadoop (à voir dans la 4ème session)
▫ HDFS (à voir dans la prochaine session: systèmes de fichiers distribués)
▫ MapReduce
48
Cycle de vie des données
Schéma synthétique du
cycle de vie des données.
49
50
Applications du Big Data

• Banque et valeurs mobilières – Détection de fraude par carte de crédit/débit, avertissement de fraude sur
valeurs mobilières, rapports sur le risque de crédit, analyse des données clients.
• Secteur de la santé – Stockage des données des patients et analyse des données pour détecter à un stade
précoce diverses affections médicales.
• Marketing – Analyse de l'historique des achats des clients pour atteindre les bons clients afin de
commercialiser leurs produits nouvellement lancés.
• Analyse Web – Les données des médias sociaux, les données des moteurs de recherche, etc., sont
analysées pour diffuser des publicités en fonction de leurs intérêts.
• Analyse du centre d'appels – La technologie Big Data est utilisée pour identifier les problèmes récurrents et
les modèles de comportement du personnel en capturant et en traitant le contenu de l'appel.
• Agriculture – Les capteurs sont utilisés par les entreprises de biotechnologie pour optimiser l'efficacité des
cultures. La technologie Big Data est utilisée pour analyser les données des capteurs.
• Smartphones – La fonction de reconnaissance faciale des téléphones intelligents est utilisée pour
déverrouiller leurs téléphones, récupérer des informations sur une personne avec les informations
précédemment stockées dans leurs Smartphones.
• Internet des objets – des milliards d'objets connectés les prochaines années qui génèrent beaucoup de
données.
51
Cas d'utilisation du Big Data: la santé

• Pour faire face au flot massif d'informations générées à grande vitesse, les institutions médicales
recherchent une percée pour gérer cette inondation numérique afin de les aider à améliorer leurs services
de soins de santé et à créer un modèle commercial réussi. Les dirigeants de la santé croient que l'adoption
de technologies commerciales innovantes réduira les coûts engagés par les patients pour les soins de santé
et les aidera à fournir des services médicaux de meilleure qualité. Mais les défis liés à l'intégration des
données des patients qui sont si volumineuses et si complexes croissent à un rythme plus rapide entravent
leurs efforts pour améliorer les performances cliniques et convertir les actifs en valeur commerciale.
• Hadoop, précurseur des technologies Big Data, joue un rôle majeur dans les soins de santé, rendant le
stockage et le traitement des donnés massives moins coûteux et hautement disponibles, donnant ainsi plus
d'informations aux médecins. Il est devenu possible avec l'avènement des technologies du Big Data que les
médecins puissent surveiller la santé des patients qui résident dans un endroit éloigné de l'hôpital en
faisant porter aux patients des appareils ressemblant à des montres. Les appareils enverront des rapports
sur la santé des patients, et en cas de problème ou si la santé des patients se détériore, il alerte
automatiquement le médecin.
52
Cas d'utilisation du Big Data: les Télécoms

• Le Big Data favorise la croissance et augmente la rentabilité dans les télécoms en optimisant la qualité de
service. Il analyse le trafic réseau, analyse les données d'appel en temps réel pour détecter tout
comportement frauduleux, permet aux représentants du centre d'appels de modifier le plan des abonnés
immédiatement sur demande, utilise les informations acquises en analysant le comportement et
l'utilisation des clients pour faire évoluer de nouveaux plans et services afin d'augmenter la rentabilité ,
c'est-à-dire fournir un service personnalisé basé sur l'intérêt des consommateurs.
• Les opérateurs de télécommunications pourraient analyser les préférences et les comportements des
clients pour permettre au moteur de recommandation de faire correspondre les plans à leurs préférences
de prix et offrir de meilleurs modules complémentaires. Les opérateurs réduisent les coûts de fidélisation
des clients existants et identifient les opportunités de ventes croisées pour améliorer ou maintenir le
revenu moyen par client et réduire le taux de désabonnement.
• Les performances du réseau, principale préoccupation de l’opérateur, peuvent être améliorées grâce à
l’analyse du Big Data en identifiant le problème sous-jacent et en effectuant un dépannage en temps réel
pour résoudre le problème. Le marketing et les ventes, domaine majeur des télécommunications, utilisent
la technologie du Big Data pour analyser et améliorer la stratégie marketing et augmenter les ventes pour
augmenter les revenus.
53
Cas d'utilisation du Big Data: services financiers

• Les services financiers utilisent la technologie Big Data en matière de risque de crédit, de gestion de
patrimoine, de banque et de change, pour n'en nommer que quelques-uns. La gestion des risques est une
priorité élevée pour une organisation financière, et le Big Data est utilisé pour gérer divers types de risques
associés au secteur financier. Certains des risques impliqués dans les organisations financières sont le risque
de liquidité, le risque opérationnel, le risque de taux d'intérêt, l'impact des calamités naturelles, le risque de
perdre de précieux clients en raison de la concurrence existante et des marchés financiers incertains. Les
technologies Big Data dérivent des solutions en temps réel, ce qui permet une meilleure gestion des
risques.
• L'octroi de prêts aux organisations et aux particuliers est le principal secteur d'activité d'une institution
financière. L'émission de prêts se fait principalement sur la base de la solvabilité d'une organisation ou d'un
individu. La technologie des Big Data est maintenant utilisée pour déterminer la solvabilité en fonction des
dernières transactions commerciales d'une organisation, des organisations de partenariat et des nouveaux
produits qui doivent être lancés. Dans le cas des particuliers, la solvabilité est déterminée en fonction de
leur activité sociale, de leur intérêt et de leur comportement d'achat.
• Les institutions financières sont exposées à des activités frauduleuses de la part des consommateurs, qui
entraînent de lourdes pertes. Des outils d'analyse prédictive du Big Data sont utilisés pour identifier de
nouveaux modèles de fraude et les prévenir.
54
Cas d'utilisation du Big Data: IoT

• Une variété de données est générée par les différents types d'appareils IoT. Les données peuvent être de
différents types tels que la température ambiante, l'humidité, la consommation d'électricité pour les
applications de maison intelligente et les paramètres de santé tels que la pression artérielle, la température
corporelle, la fréquence du pouls, etc., pour les soins de santé intelligents. La diversification et le volume
des données dépendront du type d'applications utilisées par les gens.
• Toutes les données générées doivent être accumulées dans un dépôt parfois référencé comme un entrepôt
de données. Alors que le volume de données IoT augmente rapidement, leur stockage et en particulier le
stockage sécurisé sont devenus un défi. La plupart des organisations ne disposent pas de l'infrastructure
nécessaire pour collecter des données pour lesquelles elles s'appuient sur des fournisseurs de services
cloud pour les installations de stockage. Le Big Data a un rôle crucial sur le stockage et le traitements des
données générées par les objets.
• Le Big Data Analytics permet de connaître la valeur des données collectées pour offrir de meilleures
performances à l'avenir. L'équipe d'analyse des données étudie les informations collectées, le
comportement passé et les réponses, les traite à l'aide de différentes méthodes et, pour en tirer de
meilleures informations.
55
Applications du Big Data: les challenges (1/4)

Afin de récolter de la valeur à partir du Big Data, les entreprises doivent relever et surmonter certains défis liés à:
• La dimension des donnés massives: Le Big Data attire l'attention du monde entier et peuvent être mieux
décrites en utilisant les 3V (Volume, Vélocité, Variété). Chaque dimension présente à la fois des défis et des
opportunités pour la gestion des données pour faire avancer la prise de décision. Les 3V représentent un défi
lié au travail avec le Big Data. Le volume met l'accent sur les problèmes de stockage, de mémoire et de
capacité d'un système informatique et nécessite l'accès à un cloud informatique.
• Contexte technologique: Il existe de nombreux défis liés à l'utilisation et à la mise en œuvre du Big Data. Ainsi,
l'un des principaux problèmes est l'incompatibilité des infrastructures informatiques et des architectures de
données. Les systèmes et logiciels informatiques doivent pouvoir stocker, analyser et extraire des informations
utiles à partir des données disponibles (structurées, semi-structurées et non structurées). Les entreprises les
plus performantes comprennent les limites de la technologie derrière leurs opérations de Big Data et
reconnaissent l'importance de combiner l'analyse avec une bonne compréhension du contexte, une bonne
intuition pour l'industrie et une attitude critique envers les informations dérivées des données.
56

• Contexte managérial: Dans l'univers du Big data, les entreprises cherchent à libérer le potentiel des données
afin de générer de la valeur. La clé de voûte de l'exploitation du Big Data est d'exploiter les ensembles de
données existants pour créer de nouvelles informations, enrichissant la chaîne de valeur de l'entreprise. Le
défi majeur à surmonter est le manque de compréhension de la direction quant à la valeur potentielle du Big
data pour les entreprises. L'objectif est de gérer la quantité croissante de données et d'informations, et de
garantir leur utilisation et leur circulation dans les entreprises. Les données doivent être gérées en différentes
étapes et surtout analysées pour que les organisations acquièrent des connaissances et de la valeur.
Les défis incluent non seulement les contextes précédents, mais également d'autres problèmes liés à
l'évolutivité, à l'hétérogénéité, à la qualité, à la rapidité, à la sécurité et à la confidentialité.
57

• Hétérogénéité: Les données peuvent être à la fois structurées et non structurées. Ils sont très dynamiques et
n'ont pas de format particulier. Il peut exister sous la forme de pièces jointes de courrier électronique,
d'images, de documents PDF, de dossiers médicaux, de graphiques, de vidéo, d'audio, etc. qui ne peuvent pas
être stockés au format ligne/colonne en tant que données structurées. Transformer ces données en un format
structuré pour une analyse ultérieure est un défi majeur dans l'analyse du Big Data. Cependant, les
algorithmes d'analyse de la machine attendent des données homogènes et ne peuvent pas comprendre les
nuances. En conséquence, les données doivent être soigneusement structurées dans la première étape de
l'analyse des données.
• Evolutivité: La gestion de volumes de données importants et en augmentation rapide est un problème difficile
depuis de nombreuses décennies. Dans le passé, ce défi était atténué par le fait que les processeurs
devenaient plus rapides, conformément à la loi de Moore, pour nous fournir les ressources nécessaires pour
faire face à des volumes croissants de données. Les difficultés de l'analyse Big Data proviennent de sa grande
échelle ainsi que de la présence de données mixtes basées sur des modèles ou des règles différents (données
de mélanges hétérogènes) dans les données collectées et stockées. En particulier, dans le cas de données
complexes de mélanges hétérogènes, les données ont non seulement plusieurs modèles et règles, mais de
manière caractéristique, les propriétés des modèles varient considérablement.
58

• Qualité: Le traitement du Big Data nécessite un investissement dans l'architecture informatique pour stocker,
gérer, analyser et visualiser une énorme quantité de données. C’est la matière première indispensable de l’une
des activités les plus importantes du nouveau siècle. Mais il est important d'être prudent dans nos analyses et
nos prévisions car beaucoup de données ne sont pas encore «les bonnes données». Il y a donc une difficulté
sous-jacente derrière le Big Data, car plus de données ne sont pas nécessairement de meilleures données.
• Sécurité: La grande majorité des données provient des nombreux appareils et machines qui se rapportent les
uns aux autres et à ceux qui les exécutent. Des chaînes d'assemblage des usines de fabrication aux avions de
passagers en vol, des millions d'octets de données sont générés puis analysés. Certaines des données
capturées sont des informations personnelles et, à ce titre, des modèles de sécurité de pointe et de gestion
responsable doivent être utilisés pour s'assurer que ces informations sont sûres et correctement utilisées.
• Confidentialité: Les progrès de l'analyse du Big Data nous ont apporté des outils pour extraire et corréler ces
données, ce qui faciliterait beaucoup la violation des données. Cela rend le développement des applications
Big Data un must sans oublier les exigences des principes de confidentialité et des recommandations
réglementaires. Le procès suivant le défi NETFLIX est un exemple frappant où la liaison des données fournies
aux critiques de films IMDB a permis si possible d'identifier certains utilisateurs.
59
Conclusion
• Le terme Big Data est utilisé lorsque la quantité de données qu'une organisation doit gérer atteint un
volume critique qui nécessite de nouvelles approches technologiques en termes de stockage, de
traitement et d'utilisation. Le volume, la vitesse et la variété sont généralement les trois critères
utilisés pour qualifier une base de données de «Big data».
• Le Big Data marque un tournant majeur dans l'utilisation des données et est un puissant vecteur de
croissance et de rentabilité. Une compréhension globale des données d’une entreprise, de son
potentiel et des méthodes d’analyse peut être un nouveau vecteur de performance. Le Big Data est un
terme large désignant généralement de très grandes collections de données qui compliquent les outils
d'analyse pour leur exploitation et leur gestion.
• Des méthodes bien choisies et bien mises en œuvre pour la collecte et l'analyse des données sont
essentielles pour mieux comprendre les données. D'une autre manière, chaque donnée raconte une
histoire et l'analyse des données, en particulier les méthodes statistiques associées au développement
d'outils informatiques, reconstitue cette histoire pour révéler le message sous-jacent.
• Cela s’accompagne par l’apparition de nouveaux métiers et challenges spécifiquement dédiés au Big
Data.
60
Bibliographie
https://www.solutions-numeriques.com/emploi/data-science-et-ia-7-
500-creations-nettes-demploi-a-venir-dans-la-branche-numerique/
https://christophesaintcarats.wordpress.com/2016/07/05/technologie-
big-data-les-4-v-et-son-importance/
https://en.wikipedia.org/wiki/Google_data_centers
https://www.talend.com/fr/resources/5v-big-
data/#:~:text=utilis%C3%A9es%20quasiment%20instantan%C3%A9me
nt.-,V%C3%A9racit%C3%A9,information%20utilisable%20dans%20
https://hadoop.apache.org/
61
Crédits des illustrations

© Linux Foundation, © Wikipedia, ©Amazon ©Google, ©Apache
Foundation ©HP, ©Talend, ©Willey, ©Statista, ©Allaccess
62
Questions ?
Contactez-nous:
tinembaye@gmail.com
@tinepapa (twitter)

02A-Introduction Au Big Data

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

02A-Introduction Au Big Data

Transféré par

Droits d'auteur :

Formats disponibles

Université Virtuelle du Sénégal

Master Big Data & Analytics| Année: M1

Session 02 – Introduction au Big Data

UVS, Dakar, Juillet 2023

2. Les « V » du Big Data

3. Nouveaux challenges, nouvelles formations

4. Applications du Big Data

Données massives et Préfixes multiplicatifs

Big Data « Données Massives » (1/2)

➔ Changement de pratique (outils, méthodologie).

Big Data « Données Massives » (2/2)

Sources de ces données massives (1/6)

Sources de ces données massives (2/6)

Sources de ces données massives (3/6)

Sources de ces données massives (4/6)

Sources de ces données massives (5/6)

En fait, on estime que 90 % des données

En l'espace de 13 ans, ce chiffre a augmenté

Les 120 zettaoctets générés en 2023

Sources de ces données massives (6/6)

Différentes types de données

Données non structurées (1/2)

Données non structurées (2/2)

<?xml version = “1.0”?>

Big Data Analytics - Analyse des Données Massives (1/2)

➔ Données - Connaissances - Valeur

[Clive Huby, 2006 ; Infographie : Nigel Holmes]

Big Data Analytics - Analyse des Données Massives (2/2)

Distribution données et traitements

Data Center: centre de données

Front Open Back

Données massives: les «V» (1/6)

La majeure partie des

Données massives: les «V» (2/6)

Données massives: les «V» (3/6)

▫ Utiliser le Big Data et son principe de vélocité implique la recherche et le

Données massives: les «V» (4/6)

Données massives: les «V» (5/6)

Données massives: les «V» (6/6)

Données massives: un 6ème V ?

Nouvelle science & nouveaux enjeux ?

• développements informatiques et nouvelles approches d'analyse

Nouveaux challenges, nouveaux besoins (1/2)

Data Scientist Data Analyst

Nouveaux challenges, nouveaux besoins (2/2)

Métiers en émergence (1/6)

Métiers en émergence (2/6)

Métiers en émergence (3/6)

Métiers en émergence (4/6)

Reporting and Summarization

Métiers en émergence (5/6)

Métiers en lien avec la Data Métiers en lien avec le Cloud

Métiers en émergence (6/6)

Nouveaux profils s’ajoutent

Infrastructures Big Data

Les technologies clés comprennent:

Cycle de vie des données

Applications du Big Data

Cas d'utilisation du Big Data: la santé

Cas d'utilisation du Big Data: les Télécoms

Cas d'utilisation du Big Data: services financiers

Cas d'utilisation du Big Data: IoT

Applications du Big Data: les challenges (1/4)