Académique Documents
Professionnel Documents
Culture Documents
BIG DATA
Pr. Youness OUBENAALLA
y.oubenaalla@umi.ac.ma
Big Data
Source:
Capteurs utilisés pour collecter
Messages sur les médias sociaux
Images numériques et vidéos publiées en ligne
Enregistrements transactionnels d’achat en ligne
Signaux GPS de téléphones mobiles
…
Big Data 2
1
24/10/2022
NoSQL 3
Big Data 4
https://sproutsocial.com/insights/facebook-stats-for-marketers/#general
2
24/10/2022
Big Data 5
NoSQL 6
3
24/10/2022
https://www.smartinsights.com/internet-marketing-statistics/happens-online-60-seconds/
Big Data 8
4
24/10/2022
Big Data 9
Volume
Variété
Vitesse
Véracité
Valeur
Big Data 10
5
24/10/2022
Volume
Bg Data 11
Volume
Le prix de stockage des données a beaucoup diminué ces 30 dernières
années:
De $100,000 / Go (1980)
À $0.03 / Go (2021)
Les lieux de stockage fiables (comme des SAN: Storage Area Network) ou
réseaux de stockage peuvent être très coûteux
Choisir de ne stocker que certaines données, jugées sensibles
Perte de données, pouvant être très utiles, comme les logs
Comment déterminer les données qui méritent d’être stockées?
Transactions? Logs? Métier? Utilisateur? Capteurs? Médicales? Sociales?
Aucune donnée n’est inutile. Certaines n’ont juste pas encore servi.
Comment stocker les données dans un endroit fiable, qui soit moins
cher
Comment parcourir ces données et en extraire des informations
facilement et rapidement?
Big Data 12
6
24/10/2022
Volume
Volume de données
Augmentation de 40% par an
De 8 zettabytes (2016) à 44 zettabytes (2020) à 74 en
2021
volume de données augmente exponentiellement
Big Data 13
Volume
Big Data 14
7
24/10/2022
Volume
Processes 20 PB a day (2008)
Crawls 20B web pages a day (2012)/ 149,5B en 2021
Search index is 100+ PB (5/2014)
Big Data 15
Variété
Pour un stockage dans des bases de données ou dans des entrepôts de données,
les données doivent respecter un format prédéfini.
La plupart des données existantes sont non-structurées ou semi-structurées
Données sous plusieurs formats et types
On veut tout stocker:
Exemple: pour une discussion dans un centre d’appel, on peut la stocker sous forme
textuelle pour son contenu, comme on peut stocker l’enregistrement en entier, pour
interpréter le ton de voix du client
Certaines données peuvent paraître obsolètes, mais sont utiles pour certaines
décisions:
Exemple: Pour le transport de marchandise, on a tendance à choisir le camion le plus
proche. Mais parfois, ce n’est pas la meilleure solution. D’autres problèmes peuvent
intervenir.
Besoin de : Données GPS, Plan de livraison du camion, Circulation, Chargement du
camion, Niveau d’essence
Big Data 16
8
24/10/2022
Variété
Différent Types:
Données Relationnelles(Tables/Transaction)
Données Textuelles (Web)
Données Semi-structurées (XML)
Données Graph
• Réseaux Sociaux, Web Semantic (RDF), …
Données Streaming
Une même application peut générer / collecter plusieurs types de données.
Différentes Sources
Big Data 17
Vitesse
Big Data 18
9
24/10/2022
Véracité
Les solutions Big Data doivent remédier à cela en se référant au volume des
données existantes
Big Data 19
Valeur
Le V le plus important
Il faut transformer toutes les données en valeurs exploitables: les données sans
valeur sont inutiles
Atteindre des objectifs stratégiques de création de valeur pour les clients et pour
l’entreprise dans tous les domaines d’activité
Big Data 20
10
24/10/2022
Valeur
Big Data 22
11
24/10/2022
Big Data
Hadoop
Big Data 24
12
24/10/2022
Hadoop : Origine
Big Data 25
Hadoop : utilisation
Big Data
13
24/10/2022
Hadoop
Principe :
Diviser les données
Les sauvegarder sur une collection de machines, appelées cluster
Traiter les données directement là où elles sont stockées, plutôt que de les
copier à partir d’un serveur distribué
Big Data 27
Big Data 28
14
24/10/2022
Ecosystème de Hadoop
Big Data 29
Ecosystème de Hadoop
La gestion et coordination de la
plateforme
Le monitoring du cluster
Big Data 30
15
24/10/2022
Ecosystème de Hadoop
Big Data 31
Ecosystème de Hadoop
Big Data 32
16
24/10/2022
Ecosystème de Hadoop
Big Data 33
Ecosystème de Hadoop
Big Data 34
17
24/10/2022
Ecosystème de Hadoop
Exemple :
hadoop fs -mkdir /user/monDossier
L’option -p est nécessaire si le dossier parent n’existe pas lors de la création d’un sous répertoire.
Big Data 35
Ecosystème de Hadoop
Exemple :
hadoop fs -ls /user
Big Data 36
18
24/10/2022
Ecosystème de Hadoop
Exemple :
hadoop fs -put /home/monFichier.txt /user/monDossier
Exporter un ou plusieurs fichiers de HDFS au local:
Commande:
hadoop fs -get
Exemple :
hadoop fs -get /user/monDossier/monFichier.txt /Desktop
Big Data 37
Ecosystème de Hadoop
Big Data 38
19
24/10/2022
Ecosystème de Hadoop
Big Data 39
Ecosystème de Hadoop
Big Data 40
20
24/10/2022
Ecosystème de Hadoop
Exemple :
hadoop fs -rmr /user/
Big Data 41
Ecosystème de Hadoop
21
24/10/2022
HDFS
Map Reduce
Big Data
Ecosystème de Hadoop
La gestion et coordination de la
plateforme
Le monitoring du cluster
Big Data 44
22
24/10/2022
Big Data 45
Architecture
HDFS est un système de fichiers distribué, extensible
et portable
Ecrit en Java
Big Data 46
23
24/10/2022
Architecture
Chaque bloc est enregistré dans un nœud différent du
cluster
NameNode :
Démon s’exécutant sur une machine séparée
Contient des méta-données
Permet de retrouver les nœuds qui exécutent les
blocs d’un fichier
Big Data 47
Si le NameNode a un problème :
X Pas de problème
Données perdues à jamais
Données inaccessibles?
Big Data 48
24
24/10/2022
Big Data 49
MapReduce
Big Data 50
25
24/10/2022
MapReduce
Big Data 51
MapReduce
Possibilité :
Pour chaque entrée, saisir la ville et le prix
de vente
Big Data 52
26
24/10/2022
MapReduce
Problèmes :
Big Data 53
MapReduce
Mappers
Pour chaque entrée, saisir la ville, et le total des ventes et
les enregistrer dans une fiche
Rassembler les fiches du même magasin dans une même
pile
Reducers
Chaque Reducer sera responsable d’un ensemble de
magasins
Ils collectent les fiches qui leur sont associées des
différents Mappers
Ils regroupent les petites piles d’une même ville en une
seule
Ils parcourent ensuite chaque pile par ordre alphabétique
des villes (L.A avant Miami), et font la somme de
l’ensemble des enregistrements
Big Data 54
27
24/10/2022
MapReduce
Big Data 55
MapReduce
Big Data 56
28
24/10/2022
MapReduce
BigData 57
MapReduce
BigData 58
29
24/10/2022
MapReduce
alias hs=run_mapreduce
Tester maintenant avec :
hs mapper.py reducer.py myinput joboutput
BigData 59
MapReduce
Exercices :
1.Donnez la liste des ventes par catégorie de produits.
2.Quelle est la valeur des ventes pour la catégorie Toys ?
3.Et pour la catégorie Consumer Electronics ?
4.Donnez le montant de la vente le plus élevé pour chaque magasin
5.Quelle est cette valeur pour les magasins suivants : Reno ? Toledo ? Chandler ?
6.Quel est le nombre total des ventes et la valeur totale des ventes de tous magasins confondus ?
7.Quelle est la somme des ventes par jour de la semaine?
8.Quelle est la moyenne des ventes par jour de la semaine?
BigData 60
30