Vous êtes sur la page 1sur 31

CHAPITRE1: INTRODUCTION

Dr. MALKI Abdelhamid @: a.malki@esi-sba.dz

Ecole Supérieure d’Informatique de Sidi Bel Abbes (ESI-SBA) 2022/2023

Module SIW/ISI: BIG DATA


OBJECTIFS
• Fournir les notions essentielles des bases de données standard et
présenter les bases de type NoSQL et les concepts associés.

• Fournir les outils informatiques pour la mise en œuvre d’une


architecture dédiée aux traitements des données massives (Big Data).

• Intégrer des composants appropriés de l’écosystème Hadoop/Spark


pour une solution de Big Data
CONTENU DU MODULE(1)
• 1. Introduction aux Systèmes NoSQL et Aspects méthodologiques
• Modèles d'agrégats 

• Modèles de données spécifiques (relations, graphes, base de données sans schéma) 

• Modèles distribués, Tables et fonctions de hachage, Consistance 

• 2. Les différents types de bases de données NoSQL


• Orienté clé/valeur (Redis) 

• Orienté document (MongoDB) 

• Orienté colonne (Cassandra) 

• Orienté graph (Neo4j) 


CONTENU DU MODULE(2)
• 3. Traitement massivement parallèle
• Concepts & Modèle de programmation MapReduce

• 4. Ecosystème Hadoop
• Formalisme de stockage distribué (HDFS, Avro, Parquet, Hive)

• Design Pattern: Map-Reduce

• 5. Ecosystème SPARK
• SPARK vs HADOOP

• PySpark (transformation et action)

• Outils pour le traitement distribué SQL (Spark SQL)

• Traitement distribué Machine learning (Spark MLlib, Spark R )

• Traitement distribué Streaming (Spark Streaming, Apache Storm)


ORGANISATION ET ÉVALUATION

• Volume Horaire
• 10 semaines *2h : (cours + TP)

• Evaluation
• Examen1 : ?%
• Note de TP : ?%

• Crédits: 5
• Coefficient: 5
BIBLIOGRAPHIE
• Hadoop, Devenez opérationnel dans le monde du Big Data, Juvénal CHOKOGOUE,
eni, 2017

• Les bases de données NoSQL et le Big Data Comprendre et mettre en œuvre, Rudi
Bruchez, Eyrolles, 2015
INTRODUCTION
À BIG DATA
DONNÉES MASSIVES
• Les Données Massives ou Big Data sont des collections d’informations qui auraient
été considérées comme gigantesques, impossible à stocker et à traiter, il y a une
dizaine d’années.

• Internet :
• Google en 2015 : 10 Eo (10 milliards de Go),
• Facebook en 2014 : 300 Po de données (300 millions de Go), 4 Po de nouvelles données
par jour,
• Amazon : 1 Eo.

• BigScience : télescopes (1 Po/jour), CERN (500 To/jour, 140 Po de stockage),


génome, environnement. . .

• La raison est que tout est enregistré sans discernement, dans l’idée que ça pourra être
exploité.
BIG DATA: MOTIVATION
• Data Torrent
• Open data
• Social network
• IoT
• SmartPhone

BIG DATA
• Super-Computer
ERA
• Multi‐Core/Node
• RAM ~ 1 To
• GPU/TPU
• Disk ~ 24 To SSD

• Cloud Computing
BIG DATA: DÉFINITION

• Big Data ∈ Data Science

• ou bien
?
• Big Data ∋ Data Science

• « Data Science » : plutôt Math & Stats

• « Big Data » : plutôt Informatique


BIG DATA: DÉFINITION

• «Mathématique» :
• Stats & Probas, Machine Learning, Deep Learning, Analyse de Graphes…

• Informatique distribuée (et parallèle) :


• Paradigme de programmation Map‐Reduce
• « amener les codes de calcul sur les nœuds de données »

• « traitements large échelle » ou même « web‐scale »

• Sur cluster Hadoop, sur matériel standard

• Paradigmes du Calcul à Haute Performance (HPC)


• Pour accélérer les algorithmes de « data analytics » ou de « machine learning »

• Sur cluster de calcul intensif, sur GPU, sur SuperCalculateurs


BIG DATA: LES 5 V
• Extraction d’informations et décisions à partir de données, caractérisées par
les 5 V:

• Volume (Volume )
• Variété (Variety )
• Vitesse (Velocity )
• Véracité (Veracity)
• Valeur (Value)
BIG DATA: VOLUME

• Chaque jour, des trillions d’octets de données sont générées.

• 90% des données créées dans le monde l’ont été au cours des 6 dernières années.

• Comment déterminer les données qui méritent d’être stockées?

• Transactions? Logs? Métier? Utilisateur? Capteurs? Médicales? Sociales?

• Aucune donnée n’est inutile. Certaines n’ont juste pas encore servi.

• Problèmes:
• Comment stocker les données dans un endroit fiable, qui soit moins cher ?

• Comment parcourir ces données et en extraire des informations facilement et


rapidement ?
BIG DATA: VOLUME
• Volumes de données estimées
• Google: 15 000PB (=15 Exabytes)
• Facebook: 300PB
• Volumes de données par jour:
• Google: 100 PB (5 milliards de requêtes par jour)
• Facebook: 600 TB
• …
BIG DATA: VARIÉTÉ

• Traitement des données sous forme structurée


• bases de données structurée, feuilles de calcul, …

• Et semi-structurée voire non-structurée


• Textes, sons, images, vidéos, données de capteurs, fichiers journaux, medias
sociaux, signaux,…

• qui doivent faire l’objet d’une analyse collective.


VOLUME & VARIÉTÉ
BIG DATA: VITESSE (VELOCITY)
• Utilisation des données en temps réel (pour la détection de fraudes, analyse des
données, face recognition, …).

• DATA STREAMING:
 Fait référence à la vitesse à laquelle de nouvelles données sont générées, capturées et
partagées
 Et la vitesse à laquelle les données sont traitées et restituées de manière compréhensible
par le système pour être bien analysées.
BIG DATA: VÉRACITÉ

• Cela fait référence au désordre ou la fiabilité des données.

• Avec l’augmentation de la quantité, la qualité et la précision se perdent


• abréviations, typos, déformations, source peu fiable, redondance…

• Les solutions Big Data doivent remédier à cela en se référant au volume des données
existantes

• Nécessité d’une (très) grande rigueur dans l’organisation de la collecte et le


recoupement, croisement, enrichissement des données

• Data Cleaning
• Data Wrangling
BIG DATA: VALEUR
• Le V le plus important
• Il faut transformer toutes les données en valeurs exploitables: les données sans valeur
sont inutiles
• Le succès d’un projet Big Data n'a d'intérêt aux utilisateurs que s'il apporte de la
valeur ajoutée et de nouvelles connaissances.
CAS D’UTILISATION:
HEALTHCARE
BIG DATA FOR CUSTOMER SENTIMENT
ANALYSIS: NESTLÉ

• Un portfolio de 2000 marques (nutrition, santé, bien-être)


• 2010 : crise liée à l’huile de palme utilisée dans les produits KitKat
(campagne virale de Greenpeace)
• Depuis, une équipe de 15 personnes (Digital Acceleration Team) surveille
24h/24 les échanges concernant les produits Nestlé sur les réseaux sociaux
avec le but d’engager le dialogue et de transformer les sentiments négatifs
CAS D’UTILISATION :
TRAFFIC CONTROL USING BIG DATA

• Batch/RealTime processing
• Traffic Crashes
• Red Light Camera Violations
• Speed Camera Violations
• etc
BIG DATA:
ACTEURS ET SOLUTIONS

• Les grands acteurs du web tel que Google, Yahoo, Facebook, Twitter, LinkedIn…
ont été les premiers à être confrontés à des volumétries de données extrêmement
importantes et ont été à l’origine des premières innovations en la matière portées
principalement sur deux types de technologies:

• Les plateformes de développement et de traitement des données: GFS, Hadoop,


HDFS, Spark,…

• Les bases de données NoSql


BIG DATA:
ACTEURS ET SOLUTIONS
BIG DATA: TECHNOLOGIES
• Processing
• Hadoop, Spark, Hive, Pig, mrjob, Caffeine

• NoSQL Databases
• Hbase, MongoDB, Vertica, Cassandra, Neo4j, etc.

• Servers
• EC2, Google App Engine, Elastic, Beanstalk, Heroku

• Analytics
• R, SAS, Python scikit-learn, SparkMLLib, Apache Mahout

• Search
• Solr/Lucene, ElasticSearch
BIG DATA: TECHNOLOGIES
BIG DATA: LANDSCAPE 2019
BIG DATA: LANDSCAPE 2021

Vous aimerez peut-être aussi