Académique Documents
Professionnel Documents
Culture Documents
des
Big Data
Plan
Constats
Définition
Les 3V et les V supplémentaires
Nouveaux domaines et métiers
Etapes d’un projet Big Data
Traitement des données
BI vs Big Data
2
Constats
Chaque jour nous générons 2,5 exaoctets de
données soit 912,5 exaoctets par an.
4
5
Constats
Explosion des données issues de plusieurs sources :
Réseaux sociaux ;
7
Constats
8
Big Data - Définition
Big Data = Grosses données = Méga données =
Données massives
9
Big Data - Définition
Volume Variété
Vitesse
12
Volume
En une minute, il y a sur internet :
30h de vidéos
204 millions d’e-mails
300 mille tweets
13
Volume
Quelles données doivent être stockées ?
Transactions? Logs? Métier? Utilisateur? Capteurs? Médicales?
Sociales?
Problèmes :
Comment stocker les données dans un endroit fiable, qui soit
moins cher ?
Comment parcourir ces données et en extraire des
informations facilement et rapidement?
14
Variété
Données structurées
15
Variété
Données semi-structurées
◦ XML, SGML,. . .
◦ Tweets
◦ BibTeX
◦ Les logs
16
Variété
Données non-structurées
17
Vitesse (Vélocité)
o Plusieurs données sont générées rapidement et ont
besoin d’être traitées rapidement.
18
Vitesse
E-Promotions : selon votre location actuelle, votre
historique d’achat, ce que vous aimez envoi de
promotions dans les magasins de votre entourage.
19
Les V supplémentaires…
Véracité
21
Les V supplémentaires…
Visualisation
22
Nouveaux domaines…
Data Science :
Science de la donnée
Data Architect
◦ Elabore l’infrastructure technique permettant de gérer d’énormes
volumes de données.
Data Scientist
◦ Construit des algorithmes permettant d’extraire des informations
pertinentes et utiles à partir des masses de données non structurées ;
◦ Doit poser les bonnes questions!
24
Nouveaux métiers
Data Analyst
◦ C’est un spécialiste du métier pour lequel on met en œuvre des initiatives
Big Data
◦ Réceptionne, analyse et consolide les données reçues du Data Scientist
Data Visualizer
◦ Marie l’art à la donnée ;
◦ Présente l’information, sous forme de graphiques ou d’images, de façon
compréhensible et efficace fournissant un outil précieux surtout pour
l’aide à la décision.
25
Etapes d’un projet Big Data
Etape 1 : Nettoyage de données
Convertir les données pour les analyser = générer des vues
structurées
Etape 2 : Travail ad-hoc
Analyser les données avec des outils divers SQL, R, Python
pour bâtir des modèles
Etape 3 : Industrialisation
Peaufiner les algorithmes
Automatiser les traitements et les méthodes de visualisation
Les placer sur un gestionnaire de cluster
26
Traitement des données
Trois grandes classes :
27
BI vs Big Data
Informatique décisionnelle :
Utilisation de statistiques descriptives sur des données à forte
densité en information afin de mesurer des phénomènes et
détecter des tendances.
Big Data :
Utilisation de statistiques inférentielles sur des données à faible
densité en information dont le grand volume permet d’inférer
des lois donnant lieu à des capacités prédictives.
28
BI vs Big Data
Responsables
Responsables IT
Métier
Fournir une plateforme pour
Déterminer quelles questions poser permettre la découverte créative
Responsables
Responsables Métier
IT
Structurer les données pour
Explorer la plateforme pour déterminer
répondre à ces questions
quelles questions poser
29
Plusieurs termes à comprendre
et à différencier…
Business
Intelligence
Data mining
Data science
Machine
Learning
30
Plusieurs termes à comprendre
et à différencier…
Cluster
Rack server
Data center
31