Big Data

Big Data:
Quésaquo
Une vision fatalement
biaisée
Sofian Maabout
LaBRI
Université de Bordeaux
Big Data
Big Data
• Nature
• Traitements
• Outils
Big Data = données massives
• Surtout due à
– La facilité d’acquisition des données:

• capteurs, télescopes, cartes de fidélité, traces sur les sites
internet, simulations, …
– La baisse des prix des supports de stockage

• Le prix du Go
• Que peut-on faire avec toutes ces données

stockées ?
Big data = données distribuées
• Les quantités de données à stocker sont
tellement importantes qu’il est
inenvisageable d’utiliser une seule
machine/disque
• Les données sont acquises à des

endroits différents. Leur transfert
prendrait trop de temps
Big data = données incertaines
• Les capteurs sont sujets à des imprécisions
– Les images transmises par un télescope sont
altérées
• Les sujets observés sont difficilement

identifiables:
– Identifier une personne qui a plusieurs numéros
de téléphone
• Identifier un internaute avec son adresse IP

Big Data = données non/peu
structurées
• Pas forcément.
– Les tweets: pas ou peu structurés
– Les tickets de caisse d’un hypermarché: très
structurés
Les systèmes NoSQL permettant une

structuration lâche
– Exemple: Système <clé, valeur> où valeur peut être
n’importe quoi
Les systèmes à base de graphes étiquetés

– Structure très souple
Big Data = Stream Data
• Les données arrivent en continu
• Les traiter efficacement revient à les

prendre en charge quand elles arrivent
Proposer des algorithmes qui n’ont pas

besoin de faire plusieurs passes sur les
données
Big Data = Traitement parallèle
• Les données étant stockées d’une
manière distribuée, le traitement doit être,
autant que possible, fait d’une manière
parallèle
• Attention : Il n’est pas dit qu’un traitement

parallèle soit forcément plus rapide qu’un
traitement séquentiel.
Big Data = Traitement approché
• Un algorithme quadratique ou même
linéaire en la taille des entrées peut être
jugé comme efficace pour les « small
data » mais pas pour les données massives
• Souvent, un résultat approché avec

néanmoins une garantie sur la marge
d’erreur est suffisant dès lors qu’on peut
l’obtenir efficament.
Big Data = Visualisation
• Non seulement les données sont massives
mais même les résultats le sont aussi.
• Comment appréhender/analyser/inférer
la connaissance?
 Visualiser: une image vaut mille
discours
Big Data = Data Mining
• Brasser plus de données  plus de
chances de récupérer les pépites
• Comment retrouver les aiguilles dans les

tas de foins ?
Big Data = Machine/Deep
learning
• A partir des grosses quantités de données, on est
plus intéressé par l’extraction de
modèles/tendances que de valeurs précises
– Evolution de la pluviométrie ces 10 dernières années
• La modélisation devrait être

– plus précise de par la disponibilité de données
– Plus difficile de par la quantité des données
Big Data = Map-Reduce
• Map-Reduce est un paradigme de
programmation qui permet au
développeur de se concentrer sur une
solution « haut-niveau ».
• Rapidité de développement != efficacité

du résultat
– 1001 façons plus ou moins efficaces
d’implanter un même algorithme
Big Data = eco-système Hadoop, …
• Les dizaines de produits proposés actuellement ont
tous pour principal objectif:
– Simplifier la tâche du développeur en le déchargeant du
problème de
• L’occurrence des pannes (centaines de machines)
• Communication entre processus/threads d’un même
job
– Générer un exécutable qui soit le plus efficace
• Exactement ce que font les compilateurs
• Analogie avec SQL vs langage de programmation vs

Assembleur
Conclusion
• Pas de définition précise de ce que sont les
big data
• Quelques caractéristiques (les fameux 4V:

Volume, Variabilité, Véracité, Vélocité)
• Les différents thèmes des ateliers de la journée

illustrent parfaitement ces différentes
dimensions

Big Data

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Big Data

Transféré par

Droits d'auteur :

Formats disponibles

Big Data:

– La facilité d’acquisition des données:

– La baisse des prix des supports de stockage

• Que peut-on faire avec toutes ces données

• Les données sont acquises à des

• Les sujets observés sont difficilement

• Identifier un internaute avec son adresse IP

Les systèmes NoSQL permettant une

Les systèmes à base de graphes étiquetés

• Les traiter efficacement revient à les

Proposer des algorithmes qui n’ont pas

• Attention : Il n’est pas dit qu’un traitement

• Souvent, un résultat approché avec

• Comment retrouver les aiguilles dans les

– Evolution de la pluviométrie ces 10 dernières années

• La modélisation devrait être

• Rapidité de développement != efficacité

• Analogie avec SQL vs langage de programmation vs

• Quelques caractéristiques (les fameux 4V:

• Les différents thèmes des ateliers de la journée

Vous aimerez peut-être aussi