Académique Documents
Professionnel Documents
Culture Documents
• 4. Ecosystème Hadoop
• Formalisme de stockage distribué (HDFS, Avro, Parquet, Hive)
• 5. Ecosystème SPARK
• SPARK vs HADOOP
• Volume Horaire
• 10 semaines *2h : (cours + TP)
• Evaluation
• Examen1 : ?%
• Note de TP : ?%
• Crédits: 5
• Coefficient: 5
BIBLIOGRAPHIE
• Hadoop, Devenez opérationnel dans le monde du Big Data, Juvénal CHOKOGOUE,
eni, 2017
• Les bases de données NoSQL et le Big Data Comprendre et mettre en œuvre, Rudi
Bruchez, Eyrolles, 2015
INTRODUCTION
À BIG DATA
DONNÉES MASSIVES
• Les Données Massives ou Big Data sont des collections d’informations qui auraient
été considérées comme gigantesques, impossible à stocker et à traiter, il y a une
dizaine d’années.
• Internet :
• Google en 2015 : 10 Eo (10 milliards de Go),
• Facebook en 2014 : 300 Po de données (300 millions de Go), 4 Po de nouvelles données
par jour,
• Amazon : 1 Eo.
• La raison est que tout est enregistré sans discernement, dans l’idée que ça pourra être
exploité.
BIG DATA: MOTIVATION
• Data Torrent
• Open data
• Social network
• IoT
• SmartPhone
BIG DATA
• Super-Computer
ERA
• Multi‐Core/Node
• RAM ~ 1 To
• GPU/TPU
• Disk ~ 24 To SSD
• Cloud Computing
BIG DATA: DÉFINITION
• ou bien
?
• Big Data ∋ Data Science
• «Mathématique» :
• Stats & Probas, Machine Learning, Deep Learning, Analyse de Graphes…
• Volume (Volume )
• Variété (Variety )
• Vitesse (Velocity )
• Véracité (Veracity)
• Valeur (Value)
BIG DATA: VOLUME
• 90% des données créées dans le monde l’ont été au cours des 6 dernières années.
• Aucune donnée n’est inutile. Certaines n’ont juste pas encore servi.
• Problèmes:
• Comment stocker les données dans un endroit fiable, qui soit moins cher ?
• DATA STREAMING:
Fait référence à la vitesse à laquelle de nouvelles données sont générées, capturées et
partagées
Et la vitesse à laquelle les données sont traitées et restituées de manière compréhensible
par le système pour être bien analysées.
BIG DATA: VÉRACITÉ
• Les solutions Big Data doivent remédier à cela en se référant au volume des données
existantes
• Data Cleaning
• Data Wrangling
BIG DATA: VALEUR
• Le V le plus important
• Il faut transformer toutes les données en valeurs exploitables: les données sans valeur
sont inutiles
• Le succès d’un projet Big Data n'a d'intérêt aux utilisateurs que s'il apporte de la
valeur ajoutée et de nouvelles connaissances.
CAS D’UTILISATION:
HEALTHCARE
BIG DATA FOR CUSTOMER SENTIMENT
ANALYSIS: NESTLÉ
• Batch/RealTime processing
• Traffic Crashes
• Red Light Camera Violations
• Speed Camera Violations
• etc
BIG DATA:
ACTEURS ET SOLUTIONS
• Les grands acteurs du web tel que Google, Yahoo, Facebook, Twitter, LinkedIn…
ont été les premiers à être confrontés à des volumétries de données extrêmement
importantes et ont été à l’origine des premières innovations en la matière portées
principalement sur deux types de technologies:
• NoSQL Databases
• Hbase, MongoDB, Vertica, Cassandra, Neo4j, etc.
• Servers
• EC2, Google App Engine, Elastic, Beanstalk, Heroku
• Analytics
• R, SAS, Python scikit-learn, SparkMLLib, Apache Mahout
• Search
• Solr/Lucene, ElasticSearch
BIG DATA: TECHNOLOGIES
BIG DATA: LANDSCAPE 2019
BIG DATA: LANDSCAPE 2021