Académique Documents
Professionnel Documents
Culture Documents
Data
Sylvain Allemand
ANF 2018
Le Big Data
Les défis du Big Data
Principes des infrastructures matérielles et logicielles du Big Data
Actions sur les données dans le Big Data
Quelques exemples
Hadoop
MongoDB
Historique
Quelques statistiques...
Quelques statistiques...
Le Big Data
Definition
Le terme Big Data réfère à l’accroissement exponentielle des données, au
traitement de ces dernières ou de manière plus générale à toutes les
étapes entrant en jeu dans le processus d’extraction d’informations utiles
à partir d’énormes lots de données brutes.
Le Big Data
Le Big Data
Le Big Data
Le Big Data
Le Big Data
En résumé
Être dans le Big Data, c’est rencontrer une évolution significative dans un
seul ou dans plusieurs des 3V.
Si les bases de données relationnelles avaient pu gérer les 3V, on ne
parlerait pas de Big Data.
I Paralléliser le stockage
I Paralléliser le traitement
La parallélisation du stockage
I maitre-esclaves
I maitres-esclaves
I p2p ou maitre-maitre
I maitres-esclaves
I p2p ou maitre-maitre
I maitre-esclaves
I maitres-esclaves (x serveurs de méta-données) => Mongodb
I p2p ou maitre-maitre
I maitre-esclaves
I maitres-esclaves
I p2p ou maitre-maitre (serveur de stockage = serveur de
méta-données) => utilise un algorithme pour découper/placer les
données.
I Architecture multisite
MapReduce
MapReduce
Quelques remarques
Étude de la qualité
Étude de la qualité
Plusieurs actions :
I contrôler les entrées
I connaı̂tre l’impact des erreurs potentielles sur les données
I détection des inexactitudes ou des absences de données
I nettoyage des données (50 à 90 % du temps du métier de
data-scientist)
Un cinquième V du Big Data: la Véracité
Indexation
Analyses
Chercher une aiguille dans une meule de foin !
Quelques exemples
Spotify :
I 30 millions de morceaux de musique, 75 millions d’utilisateurs, +
d’un milliard de listes d’écoute
I 10 To d’évènements utilisateurs par jour
I objectif : promotion des artistes et des labels, diffusion de publicités
Hadoop
Hadoop - écosystème
Hadoop
I Mode maı̂tre-esclaves
Hadoop
Hadoop - HDFS
Hadoop - MapReduce
I Jobtracker
I chargé de la coordination
I reparti les taches sur les tasktracker
I une instance par cluster
I Tasktracker
I exécute les taches
I présent sur chaque ”datanode”
Hadoop - MapReduce
Hadoop - TP
A vous de jouer !
https://plmlab.math.cnrs.fr/anf2018/bd-hadoop
Fin des années 90, les bases de données relationnelles atteignent leur
limite.
Caractéristiques des bases de données non-relationnelles :
I abandon de requêtage SQL, d’où le nom NoSQL
I abandon du modèle relationnel, puisque les BDD non-relationnelles
sont adaptées à ingérer des données non-structurées
I perte des qualités d’intégrité et de cohérence (ACID)
I enregistrement et extraction des données rapides
ACID
BASE
Théoreme CAP
Théorème CAP
Théorème CAP
Bases ”clé-valeur”
Bases ”colonnes”
Bases ”documents”
{
"nom": "Dupont",
"age": 117,
"adresse": {
"rue": "rue du pont",
"ville": "Paris"
}
}
Bases ”graphes”
Représentation de noeuds, de liens entre ces noeuds qui correspondent à
des jointures dans le monde relationnel, et des propriétés de ces liens.
I graphes de propriétés : noeuds et liens.
I graphe de triples de Resource Description Framework. Un triple
RDF : sujet − > prédicat − > objet
Les bases ”graphes” conviennent à de nombreux domaines : relations
sociales entre individus, réseau de transport, etc. Elles permettent de
réaliser des millions de jointures par seconde
Logiciel : Neo4J
NewSQL
NewSQL regroupe les bases qui tentent de lier la puissance des bases
NoSQL aux qualités ACID des BDD relationnelles.
I NoSQL se tournant vers le relationnel (MemSQL)
I relationnel intégrant des concepts du NoSQL (VoltDB)
Selon la situation, il peut être utile de requêter en SQL. Des outils ont
été conçus :
I Hive (Hive SQL)
I Big SQL
MongoDB
MongoDB
Fonctionnalités principales
Indexation
Types d’index :
I Single Field Indexes
I Compound Indexes
I Multikey Indexes
I Geospatial Indexes
I Text Indexes
Indexation
Types d’index :
I Single Field Indexes
I Compound Indexes
I Multikey Indexes
I Geospatial Indexes
I Text Indexes
Indexation
Types d’index :
I Single Field Indexes
I Compound Indexes
I Multikey Indexes
I Geospatial Indexes
I Text Indexes
Indexation
Types d’index :
I Single Field Indexes
I Compound Indexes
I Multikey Indexes
I Geospatial Indexes
I Text Indexes Sylvain Allemand Introduction aux technologies et applications Big Data
MongoDB
Indexation
Types d’index :
I Single Field Indexes
I Compound Indexes
I Multikey Indexes
I Geospatial Indexes
I Text Indexes
Propriétés d’index :
I TTL Indexes
I Unique Indexes
I Sparse Indexes
I Partial Indexes
Haute-Disponibilité
I Un replica set rend le système hautement disponible en proposant un
mécanisme de gestion de panne (failover)
I Lors de la panne d’un maı̂tre, le système déclenche un mécanisme
d’élection d’un nouveau maı̂tre
MapReduce
Aggregation Pipeline
MongoDB - TP
à vous de jouer !
https://plmlab.math.cnrs.fr/anf2018/bd-mongodb
Apprentissage
Neurone artificiel
Réseaux de neurones
Machine Learning
Machine Learning
Machine Learning
Deep Learning
ImageNet
Bibliographie et sources