Académique Documents
Professionnel Documents
Culture Documents
1
About Me
About Me
Academic Cursus
Professional Experiences
Certifications
Historique
Présentation
Big Data = Big + Data
3V
Stockage
Architecture Lambda
► Exaoctets (1018 o) voire Zettaoctets (1021 o)
Technologies Clefs ► 90% des données récoltées depuis le début de l’humanité
Domaines d‘application ont été générées les deux dernières années
Historique
Présentation
Big Data = Big + Data
3V
Challenges Données:
Problématiques Deuxième bien le plus précieux au monde après l’Information
Stockage
Traitement
Collecte
Données:
DATA
Architecture Lambda
► Interprétation
Historique
Présentation
3V
Challenges 9
Problématiques
Collecte
Architecture Lambda
Technologies Clefs
Historique
Présentation
3V
Les acteurs du big data s’accordent généralement sur
Challenges 9
un petit ensemble de critères à respecter qui, tous
Problématiques ensemble, constituent des «big data». Ceux-ci sont
Stockage communément appelés les 3V du Big Data.
Traitement
Volume
Historique
Présentation
Le volume décrit la quantité de données générées par des entreprises, les objets
3V connectées, ou des personnes.
Selon planetoscope, chaque seconde, 29.000 Gigaoctets (Go) d’informations sont
Challenges 9
publiés dans le monde, soit 2,5 exaoctets par jour soit 912,5 exaoctets par an. Un
Problématiques volume de “big data” qui croît à une vitesse extraordinaire.
Stockage
Prenons pour exemple les médias sociaux, car ils ont un impact considérable sur
l’explosion des données. Depuis 2016, plus de 2 000 milliards de publications et 250
Traitement milliards de photos ont été téléchargés.
Collecte Facebook regorge de données personnelles et ses 2,2 milliards d’utilisateurs
partageant des données à chaque seconde. La gestion de cette quantité de
Architecture Lambda
données serait impossible sans le développement du Big Data.
Technologies Clefs
Domaines d‘application
Historique
Vélocité
Présentation •La vitesse décrit la fréquence à laquelle les données sont générées,
3V capturées ou partagées. Du fait des évolutions technologiques, les
Challenges 9 consommateurs et les entreprises génèrent plus de données dans des
Problématiques temps beaucoup plus courts.
•Une étude menée par Digital Universe révèle que la taille des
Stockage
données dans le monde entier double tous les deux ans. Le plus
Traitement
important, c’est que 3% des données sont organisées et que
Collecte seulement 0,5% sont prêtes à être analysées. Les données “big data”
Architecture Lambda ne sont pas simplement volumineuses; ça évolue vite.
Technologies Clefs
•A titre d’exemple, les statistiques quotidiennes de Facebook. Selon
les informations de Social Skinny,
Skinny 293 000 status sont mis à jour, 136
Domaines d‘application
000 photos téléchargées et 500 000 commentaires postés sur
Facebook chaque minute.
Alors, la technologie des métadonnées et la technologie Big Data
associées à l’apprentissage automatique (Machine Learning) et à
l’intelligence artificielle sont utilisées pour donner un instantané dans
les différents cas d’utilisation.
Collecte
Architecture Lambda
Technologies Clefs
Domaines d‘application
Historique
Présentation
3V
Challenges
► Stocker d’abord, réfléchir ensuite
Problématiques
Stockage 11
Traitement
► Les données qui pilotent le traitement
Collecte
Domaines d‘application
► TOUTES les données sont importantes
Historique
Présentation
3V
Stockage 12
Traitement
► Volume → Stockage
Collecte
Architecture Lambda
► Variété → Collecte
Historique
Présentation
Problème
3V Comment stocker ces données dont le volume ne cesse
Challenges d’augmenter?
Problématiques
Stockage Solution
13
Traitement
Scale UP
Collecte
Architecture Lambda
Technologies Clefs
Domaines d‘application
Scale OUT
Historique
Présentation
Problème
3V Comment stocker ces données dont le volume ne cesse
Challenges d’augmenter?
Problématiques
Dans le domaine du stockage, cependant, monter en charge signifie adapter
Stockage
13
le système à un besoin de capacité accrue. Il existe deux approches
Traitement
principales pour y parvenir :
Collecte Scale-up : La plus ancienne, le « scale-up », est une forme d'évolutivité
Architecture Lambda verticale. Il s'agit d'accroître la capacité du matériel ou des logiciels existants
Technologies Clefs
en ajoutant des ressources à un système physique (par exemple, en
augmentant la puissance de traitement d'un serveur pour le rendre plus
Domaines d‘application
rapide). Dans un système de stockage, cette méthode consiste à ajouter des
unités, comme des disques, à un système existant dont la capacité est
devenue insuffisante.
Scale-out: L'évolutivité horizontale, en revanche, représente la possibilité de
relier plusieurs entités de sorte qu'elles fonctionnent comme une seule
unité logique. Ainsi, un stockage scale-out peut être constitué de nombreux
noeuds séparés géographiquement.
Dr Abir KHALDI, Introduction au Big Data 15
Big Data : Stockage
l
Historique
Présentation
3V
Challenges
Un système de stockage Big Data assure:
Problématiques
Stockage
Traitement
► La répartition de charges
Collecte
Architecture Lambda
► La haute disponibilité
Historique
Présentation
3V
Stockage
► Principe de In-Memory Processing
Traitement
Collecte
► Savoir être polyglotte
Architecture Lambda
* Polyglot Programming: Plusieurs langages et paradigmes
Technologies Clefs
de programmation dans une seule application
Domaines d‘application * Polyglot Persistance: Plusieurs technologies de stockage
dans une seule application
Historique
Présentation Plusieurs types de traitement:
3V
Challenges
Architecture Lambda
► Micro-Batch Processing
Technologies Clefs
Domaines d‘application
► Real-time Processing
Historique
Présentation
Problèmes
3V ► Collecte de données de sources, formats et types différents
Challenges
► Homogénéisation et fusion des données
Problématiques
► Considération de la vélocité des données
Stockage
Traitement
Collecte
Architecture Lambda
Solution
Technologies Clefs
Extraction de données et stockage dans des structures de
Domaines d‘application
données réparties en mémoire en attendant leur
traitement.
Architecture Lambda
totalité de ces données. Envoyées à un datastore, ces
Technologies Clefs
informations servent à mieux comprendre les tendances
Domaines d‘application
des données historiques.
historiques
•Parallèlement à cette couche moins rapide, les nouvelles
données sont capturées et traitées à mesure qu'elles
arrivent. La couche temps réel permet aux collaborateurs
d'adapter leurs décisions et de réagir promptement aux
nouvelles tendances.
Dr Abir KHALDI, Introduction au Big Data 20
Big Data : Lambda Architecture
Historique •Les données qui transitent par cette couche temps réel
Présentation
3V
sont également copiées dans un plus grand jeu de
Challenges
données pour y subir un traitement par lots, plus long.
long
Problématiques
•Après le traitement en temps réel, les données sont
Stockage
effacées de la couche temps réel pour laisser la place à
Traitement
de nouvelles données. Comme la couche temps réel ne
Collecte
traite que les données qui arrivent entre deux lots de
2
Architecture Lambda
traitement, son fonctionnement reste efficace même
Technologies Clefs
avec un flux régulier de données complexes.
Domaines d‘application
•Les couches temps réel et par lots fusionnent pour les
recherches effectuées via la couche service, qui inclut un
moteur de requêtes à traitement massivement parallèle.
•L'accès à cet ensemble de données combiné permet de
disposer à tout moment de rapports précis avec
une latence faible.
Dr Abir KHALDI, Introduction au Big Data 21
Big Data : Lambda Architecture
Historique
Présentation
3V
Challenges
Problématiques
Stockage
Traitement
Collecte
2
Architecture Lambda
Technologies Clefs
Domaines d‘application
Historique
Présentation
3V
Stockage
► Hadoop : Système de fichier distribué et Batch Processing
Traitement
► Spark : Traitement Batch et µ-Batch
Collecte
► Storm : Traitement streaming
Architecture Lambda
Technologies Clefs
► NoSQL : Bases de données distribuées et schema-less
Domaines d‘application
Historique
Présentation
3V Soit une clinique qui veut mettre en place un
système d’information basé sur le Big Data.
Challenges
Problématiques
Collecte
Architecture Lambda
Technologies Clefs
Domaines d‘application
Challenges
rester ou à abandonner ses services
► Analyse du comportement du client en observant ses
Problématiques
Stockage
habitudes
Traitement ► Marketing ciblé
Collecte
Acteurs
Architecture Lambda
* Nestlé: Utilisation des réseaux sociaux pour avoir les avis
Technologies Clefs
des consommateurs
Domaines d‘application34
* MacDonalds: optimisation de chaque restaurant selon sa
clientèle
* Starbucks: Envoi de coupons et offres ciblés aux
consommateurs
Historique
Présentation
3V
Architecture Lambda
Acteurs
Technologies Clefs * Southwest Airlines
Domaines d‘application * Purdue University: Prédiction de possibles problèmes
académiques ou comportementaux
Historique
Présentation
3V
Détection de Fraudes (Fraud Detection)
Challenges ► Combinaison de plusieurs données pour détecter
27
Big Data: Domaines d’application
Historique Optimisation
Présentation
3V ► Optimisation du temps de traitement
Problématiques
► Optimisation des accès aux données
Stockage
► Tradeoffs entre consistance et disponibilité
Traitement
Collecte
► Stratégies de partitionnement et de réplication
Architecture Lambda
► In-memory vs. persistance
Technologies Clefs
Domaines d‘application
38 Data Science
► Algorithmes pour la visualisation des données
► Data mining, data prediction, data analytics
► Analyse des sentiments et analyse sémantique
Historique
Présentation
3V
Big Data Design
Challenges ► Méthodologies de conception pour les systèmes Big Data
Traitement
Collecte
Big Data Security
Architecture Lambda ► Sécurité des traitements dans les environnements
Technologies Clefs
distribués
Domaines d‘application ► Sécurité des bases de données non-relationnelles
relationnelles
39 ► Sécurité des logs
Historique
Présentation
3V
Big Data and Other New Trends
Challenges ► Big Data et Business Intelligence
Architecture Lambda
QUESTIONS ?
abir.khaldi@uvt.tn
40