Vous êtes sur la page 1sur 17

Big Data:

Quésaquo
Une vision fatalement
biaisée

Sofian Maabout
LaBRI
Université de Bordeaux
Big Data
Big Data
• Nature

• Traitements

• Outils
Big Data = données massives
• Surtout due à

– La facilité d’acquisition des données:


• capteurs, télescopes, cartes de fidélité, traces sur les sites
internet, simulations, …

– La baisse des prix des supports de stockage


• Le prix du Go

• Que peut-on faire avec toutes ces données


stockées ?
Big data = données distribuées
• Les quantités de données à stocker sont
tellement importantes qu’il est
inenvisageable d’utiliser une seule
machine/disque

• Les données sont acquises à des


endroits différents. Leur transfert
prendrait trop de temps
Big data = données incertaines
• Les capteurs sont sujets à des imprécisions
– Les images transmises par un télescope sont
altérées

• Les sujets observés sont difficilement


identifiables:
– Identifier une personne qui a plusieurs numéros
de téléphone

• Identifier un internaute avec son adresse IP


Big Data = données non/peu
structurées
• Pas forcément.
– Les tweets: pas ou peu structurés
– Les tickets de caisse d’un hypermarché: très
structurés

Les systèmes NoSQL permettant une


structuration lâche
– Exemple: Système <clé, valeur> où valeur peut être
n’importe quoi

Les systèmes à base de graphes étiquetés


– Structure très souple
Big Data = Stream Data
• Les données arrivent en continu

• Les traiter efficacement revient à les


prendre en charge quand elles arrivent

Proposer des algorithmes qui n’ont pas


besoin de faire plusieurs passes sur les
données
Big Data = Traitement parallèle
• Les données étant stockées d’une
manière distribuée, le traitement doit être,
autant que possible, fait d’une manière
parallèle

• Attention : Il n’est pas dit qu’un traitement


parallèle soit forcément plus rapide qu’un
traitement séquentiel.
Big Data = Traitement approché
• Un algorithme quadratique ou même
linéaire en la taille des entrées peut être
jugé comme efficace pour les « small
data » mais pas pour les données massives

• Souvent, un résultat approché avec


néanmoins une garantie sur la marge
d’erreur est suffisant dès lors qu’on peut
l’obtenir efficament.
Big Data = Visualisation
• Non seulement les données sont massives
mais même les résultats le sont aussi.

• Comment appréhender/analyser/inférer
la connaissance?
 Visualiser: une image vaut mille
discours
Big Data = Data Mining
• Brasser plus de données  plus de
chances de récupérer les pépites

• Comment retrouver les aiguilles dans les


tas de foins ?
Big Data = Machine/Deep
learning
• A partir des grosses quantités de données, on est
plus intéressé par l’extraction de
modèles/tendances que de valeurs précises

– Evolution de la pluviométrie ces 10 dernières années

• La modélisation devrait être


– plus précise de par la disponibilité de données
– Plus difficile de par la quantité des données
Big Data = Map-Reduce
• Map-Reduce est un paradigme de
programmation qui permet au
développeur de se concentrer sur une
solution « haut-niveau ».

• Rapidité de développement != efficacité


du résultat
– 1001 façons plus ou moins efficaces
d’implanter un même algorithme
Big Data = eco-système Hadoop, …
• Les dizaines de produits proposés actuellement ont
tous pour principal objectif:
– Simplifier la tâche du développeur en le déchargeant du
problème de
• L’occurrence des pannes (centaines de machines)
• Communication entre processus/threads d’un même
job
– Générer un exécutable qui soit le plus efficace
• Exactement ce que font les compilateurs

• Analogie avec SQL vs langage de programmation vs


Assembleur
Conclusion
• Pas de définition précise de ce que sont les
big data

• Quelques caractéristiques (les fameux 4V:


Volume, Variabilité, Véracité, Vélocité)

• Les différents thèmes des ateliers de la journée


illustrent parfaitement ces différentes
dimensions

Vous aimerez peut-être aussi