Vous êtes sur la page 1sur 31

INTRODUCTION AU BIG DATA

Tutrice : Dr Abir KHALDI

1
About Me
About Me
Academic Cursus

Professional Experiences

Certifications

Projects & Activities


« Digital Entreprenership in Data Science » DEDS Master’s project leader , 2018
Bootcamp Big Data & Data Science 2019, Organizer
Big Data Spring School, 2017, Organizer
Plan

Chapitre 1: Introduction au Big Data


Chapitre 2: Hadoop avec TP
Chapitre 3: MapReduce avec TP
Chapitre 4: YARN
Chapitre 5: Zookeeper
Chapitre 6: Spark avec TP

Dr Abir KHALDI, Introduction au Big Data 3


l Big Data: Historique

Historique Big Data


Présentation
3V ► Terme apparu en 1997
Challenges ► Décrit les défis technologiques à relever pour visualiser un
Problématiques grand ensemble de données
Stockage ► A pris toute son ampleur avec l’avènement du Web 2.0
Traitement ► L’analyse de données Big Data est un concept difficile à saisir, il
Collecte est décomposé en 3 segments simples (Les 3v du big data):
Architecture Lambda variété, vitesse et volume.
Technologies Clefs ► Le big data , les mégadonnées ou les données massives,
Domaines d‘application désigne des ensembles de données qui deviennent si
volumineux qu’ils excèdent l’intuition et les capacités humaines
d’analyse et même celles des outils informatiques classiques de
gestion de base de données ou de l’information.

Dr Abir KHALDI, Introduction au Big Data 4


Big Data: Présentation

Historique
Présentation
Big Data = Big + Data
3V

Challenges Big: Volume énorme


Problématiques

Stockage

Traitement Données Massives ou Megadonnées


Collecte

Architecture Lambda
► Exaoctets (1018 o) voire Zettaoctets (1021 o)
Technologies Clefs ► 90% des données récoltées depuis le début de l’humanité
Domaines d‘application ont été générées les deux dernières années

Dr Abir KHALDI, Introduction au Big Data 5


Big Data: Présentation

Historique
Présentation
Big Data = Big + Data
3V

Challenges Données:
Problématiques Deuxième bien le plus précieux au monde après l’Information
Stockage

Traitement

Collecte
Données:

DATA
Architecture Lambda

Technologies Clefs ► Valeur Ajoutée

Domaines d‘application ► Exploitation

► Interprétation

Dr Abir KHALDI, Introduction au Big Data 6


Big Data: 3V

Historique
Présentation
3V

Challenges 9

Problématiques

Stockage Volume Vélocité


Traitement

Collecte

Architecture Lambda

Technologies Clefs

Domaines d‘application Variété

Dr Abir KHALDI, Introduction au Big Data 7


Big Data: 3V

Historique
Présentation
3V
Les acteurs du big data s’accordent généralement sur
Challenges 9
un petit ensemble de critères à respecter qui, tous
Problématiques ensemble, constituent des «big data». Ceux-ci sont
Stockage communément appelés les 3V du Big Data.
Traitement

Collecte Volume: Quantité totale de données stockées.


Architecture Lambda Velocité: A quelle fréquence de nouvelles données
Technologies Clefs
sont créées et doivent être stockées .
Domaines d‘application
Variété: L’hétérogénéité des structures de données.

Dr Abir KHALDI, Introduction au Big Data 8


Big Data: 3V

Volume
Historique
Présentation
Le volume décrit la quantité de données générées par des entreprises, les objets
3V connectées, ou des personnes.
Selon planetoscope, chaque seconde, 29.000 Gigaoctets (Go) d’informations sont
Challenges 9
publiés dans le monde, soit 2,5 exaoctets par jour soit 912,5 exaoctets par an. Un
Problématiques volume de “big data” qui croît à une vitesse extraordinaire.
Stockage
Prenons pour exemple les médias sociaux, car ils ont un impact considérable sur
l’explosion des données. Depuis 2016, plus de 2 000 milliards de publications et 250
Traitement milliards de photos ont été téléchargés.
Collecte Facebook regorge de données personnelles et ses 2,2 milliards d’utilisateurs
partageant des données à chaque seconde. La gestion de cette quantité de
Architecture Lambda
données serait impossible sans le développement du Big Data.
Technologies Clefs

Domaines d‘application

Dr Abir KHALDI, Introduction au Big Data 9


Big Data: 3V

Historique
Vélocité
Présentation •La vitesse décrit la fréquence à laquelle les données sont générées,
3V capturées ou partagées. Du fait des évolutions technologiques, les
Challenges 9 consommateurs et les entreprises génèrent plus de données dans des
Problématiques temps beaucoup plus courts.
•Une étude menée par Digital Universe révèle que la taille des
Stockage
données dans le monde entier double tous les deux ans. Le plus
Traitement
important, c’est que 3% des données sont organisées et que
Collecte seulement 0,5% sont prêtes à être analysées. Les données “big data”
Architecture Lambda ne sont pas simplement volumineuses; ça évolue vite.
Technologies Clefs
•A titre d’exemple, les statistiques quotidiennes de Facebook. Selon
les informations de Social Skinny,
Skinny 293 000 status sont mis à jour, 136
Domaines d‘application
000 photos téléchargées et 500 000 commentaires postés sur
Facebook chaque minute.
Alors, la technologie des métadonnées et la technologie Big Data
associées à l’apprentissage automatique (Machine Learning) et à
l’intelligence artificielle sont utilisées pour donner un instantané dans
les différents cas d’utilisation.

Dr Abir KHALDI, Introduction au Big Data 10


Big Data: 3V
Variété
Historique Les données sont rapides, les données sont volumineuses, mais les données sont
Présentation extrêmement diverses. L’expansion de types de données provenant de sources
3V comme les médias sociaux, les interactions Machine to Machine et les terminaux
Challenges
mobiles, crée une très grande diversité.
diversité
9
Auparavant, les données se trouvaient dans une base de données
Problématiques structurée(SQL), dans un simple fichier texte ou dans une feuille de calcul. Il n’y
Stockage avait pas beaucoup d’options sur la façon d’utiliser les données.
Traitement

Collecte

Architecture Lambda

Technologies Clefs

Domaines d‘application

Dr Abir KHALDI, Introduction au Big Data 11


Big Data : Challenges

Historique
Présentation
3V

Challenges
► Stocker d’abord, réfléchir ensuite
Problématiques

Stockage 11

Traitement
► Les données qui pilotent le traitement
Collecte

Architecture Lambda ► Arrêter de réfléchir en relationnel


Technologies Clefs

Domaines d‘application
► TOUTES les données sont importantes

Dr Abir KHALDI, Introduction au Big Data 12


Big Data : Problématiques

Historique
Présentation
3V

Challenges 3 Problématiques majeures pour les données massives :


Problématiques

Stockage 12

Traitement
► Volume → Stockage
Collecte

Architecture Lambda

Technologies Clefs ► Vélocité → Traitement


Domaines d‘application

► Variété → Collecte

Dr Abir KHALDI, Introduction au Big Data 13


Big Data : Stockage
l Problématique du Volume

Historique
Présentation
Problème
3V Comment stocker ces données dont le volume ne cesse
Challenges d’augmenter?
Problématiques

Stockage Solution
13
Traitement
Scale UP
Collecte

Architecture Lambda

Technologies Clefs

Domaines d‘application

Scale OUT

Dr Abir KHALDI, Introduction au Big Data 14


Big Data : Stockage
l Problématique du Volume

Historique
Présentation
Problème
3V Comment stocker ces données dont le volume ne cesse
Challenges d’augmenter?
Problématiques
Dans le domaine du stockage, cependant, monter en charge signifie adapter
Stockage
13
le système à un besoin de capacité accrue. Il existe deux approches
Traitement
principales pour y parvenir :
Collecte Scale-up : La plus ancienne, le « scale-up », est une forme d'évolutivité
Architecture Lambda verticale. Il s'agit d'accroître la capacité du matériel ou des logiciels existants
Technologies Clefs
en ajoutant des ressources à un système physique (par exemple, en
augmentant la puissance de traitement d'un serveur pour le rendre plus
Domaines d‘application
rapide). Dans un système de stockage, cette méthode consiste à ajouter des
unités, comme des disques, à un système existant dont la capacité est
devenue insuffisante.
Scale-out: L'évolutivité horizontale, en revanche, représente la possibilité de
relier plusieurs entités de sorte qu'elles fonctionnent comme une seule
unité logique. Ainsi, un stockage scale-out peut être constitué de nombreux
noeuds séparés géographiquement.
Dr Abir KHALDI, Introduction au Big Data 15
Big Data : Stockage
l
Historique
Présentation
3V

Challenges
Un système de stockage Big Data assure:
Problématiques

Stockage

Traitement
► La répartition de charges
Collecte

Architecture Lambda

Technologies Clefs ► La tolérance aux fautes


Domaines d‘application

► La haute disponibilité

Dr Abir KHALDI, Introduction au Big Data 16


Big Data : Traitement des Données Massives
Principes Fondamentaux

Historique
Présentation
3V

Challenges ► Déplacer le traitement vers les données


Problématiques

Stockage
► Principe de In-Memory Processing
Traitement

Collecte
► Savoir être polyglotte
Architecture Lambda
* Polyglot Programming: Plusieurs langages et paradigmes
Technologies Clefs
de programmation dans une seule application
Domaines d‘application * Polyglot Persistance: Plusieurs technologies de stockage
dans une seule application

Dr Abir KHALDI, Introduction au Big Data 17


Big Data : Traitement des Données Massives
l
Types de Traitements

Historique
Présentation Plusieurs types de traitement:
3V

Challenges

Problématiques ► Batch Processing


Stockage

Traitement ► Stream Processing


Collecte

Architecture Lambda
► Micro-Batch Processing
Technologies Clefs

Domaines d‘application
► Real-time Processing

Dr Abir KHALDI, Introduction au Big Data 18


Big Data : Collecte des Données

Historique
Présentation
Problèmes
3V ► Collecte de données de sources, formats et types différents
Challenges
► Homogénéisation et fusion des données
Problématiques
► Considération de la vélocité des données
Stockage

Traitement

Collecte

Architecture Lambda
Solution
Technologies Clefs
Extraction de données et stockage dans des structures de
Domaines d‘application
données réparties en mémoire en attendant leur
traitement.

Dr Abir KHALDI, Introduction au Big Data 19


Big Data : Lambda Architecture

Historique •L'architecture Lambda est une approche hybride de


Présentation
3V
la gestion du Big Data qui permet un traitement par lots et
Challenges
en quasi temps réel.
réel
Problématiques
•L'architecture Lambda de base comporte trois couches :
Stockage
lot, temps réel et service. La couche lot, généralement
Traitement
sous Hadoop, stocke toutes les données. MapReduce
Collecte
exécute régulièrement un traitement par lots sur la
2

Architecture Lambda
totalité de ces données. Envoyées à un datastore, ces
Technologies Clefs
informations servent à mieux comprendre les tendances
Domaines d‘application
des données historiques.
historiques
•Parallèlement à cette couche moins rapide, les nouvelles
données sont capturées et traitées à mesure qu'elles
arrivent. La couche temps réel permet aux collaborateurs
d'adapter leurs décisions et de réagir promptement aux
nouvelles tendances.
Dr Abir KHALDI, Introduction au Big Data 20
Big Data : Lambda Architecture

Historique •Les données qui transitent par cette couche temps réel
Présentation
3V
sont également copiées dans un plus grand jeu de
Challenges
données pour y subir un traitement par lots, plus long.
long
Problématiques
•Après le traitement en temps réel, les données sont
Stockage
effacées de la couche temps réel pour laisser la place à
Traitement
de nouvelles données. Comme la couche temps réel ne
Collecte
traite que les données qui arrivent entre deux lots de
2

Architecture Lambda
traitement, son fonctionnement reste efficace même
Technologies Clefs
avec un flux régulier de données complexes.
Domaines d‘application
•Les couches temps réel et par lots fusionnent pour les
recherches effectuées via la couche service, qui inclut un
moteur de requêtes à traitement massivement parallèle.
•L'accès à cet ensemble de données combiné permet de
disposer à tout moment de rapports précis avec
une latence faible.
Dr Abir KHALDI, Introduction au Big Data 21
Big Data : Lambda Architecture

Historique
Présentation
3V

Challenges

Problématiques

Stockage

Traitement

Collecte
2

Architecture Lambda

Technologies Clefs

Domaines d‘application

Dr Abir KHALDI, Introduction au Big Data 22


Big Data : Technologies Clefs

Historique
Présentation
3V

Challenges Plusieurs technologies incontournables des Big Data :


Problématiques

Stockage
► Hadoop : Système de fichier distribué et Batch Processing
Traitement
► Spark : Traitement Batch et µ-Batch
Collecte
► Storm : Traitement streaming
Architecture Lambda

Technologies Clefs
► NoSQL : Bases de données distribuées et schema-less
Domaines d‘application

Dr Abir KHALDI, Introduction au Big Data 23


Etude de cas : Activité

Historique
Présentation
3V Soit une clinique qui veut mettre en place un
système d’information basé sur le Big Data.
Challenges

Problématiques

Stockage Discutez leur décision.


Traitement

Collecte

Architecture Lambda

Technologies Clefs

Domaines d‘application

Dr Abir KHALDI, Introduction au Big Data 24


Big Data: Domaines d’application

Historique Analyse du Comportement (Behavioral Analysis)


Présentation
► Compagnies peuvent apprendre ce qui pousse un client à
3V

Challenges
rester ou à abandonner ses services
► Analyse du comportement du client en observant ses
Problématiques

Stockage
habitudes
Traitement ► Marketing ciblé

Collecte
Acteurs
Architecture Lambda
* Nestlé: Utilisation des réseaux sociaux pour avoir les avis
Technologies Clefs
des consommateurs
Domaines d‘application34
* MacDonalds: optimisation de chaque restaurant selon sa
clientèle
* Starbucks: Envoi de coupons et offres ciblés aux
consommateurs

Dr Abir KHALDI, Introduction au Big Data 25


Big Data: Domaines d’application

Historique
Présentation
3V

Challenges Support Prédictif (Predictive Support)


Problématiques ► Utilisation de capteurs pour détecter le
Stockage mal-fonctionnement d’une machine
Traitement ► Envoi de pièces de rechange à l’avance
Collecte

Architecture Lambda
Acteurs
Technologies Clefs * Southwest Airlines
Domaines d‘application * Purdue University: Prédiction de possibles problèmes
académiques ou comportementaux

Dr Abir KHALDI, Introduction au Big Data 26


Big Data: Domaines d’application

Historique
Présentation
3V
Détection de Fraudes (Fraud Detection)
Challenges ► Combinaison de plusieurs données pour détecter

Problématiques d’éventuels schémas sophistiqués de fraudes.


Stockage
Acteurs
Traitement
* Zions Bank: détecte les anomalies de fonctionnement
Collecte
provenant de plusieurs sources
Architecture Lambda
Ex: client qui veut réaliser une transaction mobile en même
Technologies Clefs temps qu’une transaction en agence
Domaines d‘application
* Discovery Health: Agence d’assurance, identifie de
possibles prescriptions frauduleuses
Ex: peut identifier qu’un fournisseur charge une procédure
plus cher que ce qui est habituel

27
Big Data: Domaines d’application

Historique Optimisation
Présentation
3V ► Optimisation du temps de traitement

► Optimisation des tailles des données stockées


Challenges

Problématiques
► Optimisation des accès aux données
Stockage
► Tradeoffs entre consistance et disponibilité
Traitement

Collecte
► Stratégies de partitionnement et de réplication
Architecture Lambda
► In-memory vs. persistance
Technologies Clefs

Domaines d‘application

38 Data Science
► Algorithmes pour la visualisation des données
► Data mining, data prediction, data analytics
► Analyse des sentiments et analyse sémantique

Dr Abir KHALDI, Introduction au Big Data 28


Big Data: Domaines d’application

Historique
Présentation
3V
Big Data Design
Challenges ► Méthodologies de conception pour les systèmes Big Data

Problématiques ► Définition d’architectures de stockage et traitement


Stockage

Traitement

Collecte
Big Data Security
Architecture Lambda ► Sécurité des traitements dans les environnements

Technologies Clefs
distribués
Domaines d‘application ► Sécurité des bases de données non-relationnelles
relationnelles
39 ► Sécurité des logs

► Validation et filtrage des données en entrée


► Contrôle d’accès et cryptographie

Dr Abir KHALDI, Introduction au Big Data 29


Big Data: Domaines d’application

Historique
Présentation
3V
Big Data and Other New Trends
Challenges ► Big Data et Business Intelligence

Problématiques ► Big Data et Cloud Computing

Stockage ► Big Data et Internet of Things


Traitement
► Big Data et Mobile
Collecte

Architecture Lambda

Technologies Clefs Big Data and Other Fields


Domaines d‘application ► Big Data in Education
40
► Big Data in Health
► Big Data in Arts

Dr Abir KHALDI, Introduction au Big Data 30


INTRODUCTION AU BIG DATA

QUESTIONS ?
abir.khaldi@uvt.tn
40

Dr Abir KHALDI, Introduction au Big Data 31

Vous aimerez peut-être aussi