Vous êtes sur la page 1sur 31

Concepts de Base

des
Big Data
Plan
 Constats
 Définition
 Les 3V et les V supplémentaires
 Nouveaux domaines et métiers
 Etapes d’un projet Big Data
 Traitement des données
 BI vs Big Data

2
Constats
Chaque jour nous générons 2,5 exaoctets de
données soit 912,5 exaoctets par an.

En 2018, on estime que 90% des données disponibles


dans le monde ont été créées pendant les deux
dernières années.

En 2018, 3.8 milliards d’humains utilisent Internet


dans le monde.
3
Constats
3.8 milliards d’utilisateurs
internet en 2018

Facebook : 500 TO de 4.9 milliards d’utilisateurs


nouvelles données de téléphones portables
chaque jour dans le monde

Twitter : 500 millions de


tweets chaque jour

4
5
Constats
Explosion des données issues de plusieurs sources :
 Réseaux sociaux ;

 Signaux GPS de téléphones mobiles ;


 Radio identification (RFID tags)
 Logs ;

 Capteurs utilisés pour collecter des informations


climatiques, de trafic et de consommation ;

 Transactions d’achat en ligne ;


6
Constats
• Chefs d’entreprise prennent fréquemment des
1/3 décisions basées sur des informations en lesquelles ils
n’ont pas confiance, ou qu’ils n’ont pas.

• Chefs d’entreprise disent qu’ils n’ont pas accès aux


1/2 informations dont ils ont besoin pour faire leur
travail.

• Des DSI (Directeurs des SI) veulent exploiter «


83% L’informatique décisionnelle et analytique » pour
améliorer leur compétitivité

• Des PDG ont besoin d’améliorer la capture et la


60% compréhension des informations pour prendre
des décisions plus rapidement.

7
Constats

Intérêt de stocker, d’analyser et d’exploiter


ces données

8
Big Data - Définition
Big Data = Grosses données = Méga données =
Données massives

Big Data : ensemble de données massives ayant une


structure variée et complexe avec des difficultés
de stockage, d'analyse et de visualisation.

9
Big Data - Définition

IOPS(Input/Output Operations Per Second)


10
Enjeux des Big Data
 Créer du sens et des connaissances à partir de données non
enrichies et non structurées ;

 Aider les décideurs à prendre les « bonnes » décisions ;

 Analyser des tendances sur la durée ;

 Permettre la création de modèle sur des données ambiantes ;

 Prédire des phénomènes, des comportements…


11
Les 3V du Big data

Volume Variété

Vitesse

12
Volume
En une minute, il y a sur internet :
30h de vidéos
204 millions d’e-mails
300 mille tweets

Données numériques créées dans le monde :


1,2 zettaoctets/an en 2010
1,8 zettaoctets/an en 2011
2,8 zettaoctets/an en 2012
40 zettaoctets/an en 2020

13
Volume
Quelles données doivent être stockées ?
Transactions? Logs? Métier? Utilisateur? Capteurs? Médicales?
Sociales?

Aucune donnée n’est inutile.


Certaines n’ont juste pas encore servi.

Problèmes :
Comment stocker les données dans un endroit fiable, qui soit
moins cher ?
Comment parcourir ces données et en extraire des
informations facilement et rapidement?

14
Variété
Données structurées

◦ Schéma prédéfini imposé aux données


◦ Très structurées
◦ Stockées dans un système de base de données
relationnel.
20% des données

15
Variété
Données semi-structurées

◦ XML, SGML,. . .
◦ Tweets
◦ BibTeX
◦ Les logs

16
Variété
Données non-structurées

Les données ne sont pas organisées


◦ Multimédia : vidéos, photos, audio
◦ Messages emails
◦ Texte libre
◦ Présentations
◦ Rapports
◦ ...

17
Vitesse (Vélocité)
o Plusieurs données sont générées rapidement et ont
besoin d’être traitées rapidement.

o Le défi consiste à gérer, analyser, visualiser et


découvrir les connaissances à partir des données
recueillies en temps opportun et de manière évolutive.

o Décisions en retard opportunités ratées

18
Vitesse
E-Promotions : selon votre location actuelle, votre
historique d’achat, ce que vous aimez envoi de
promotions dans les magasins de votre entourage.

Suivi santé : capteurs surveillants vos activités et


votre corps des mesures anormales exigent une
réaction immédiate

19
Les V supplémentaires…
Véracité

o Proposée par IBM


oAvec l’augmentation de la quantité, la qualité et la
précision des données diminuent.
o Les solutions big data doivent remédier à cela.
o Besoin d’une grande rigueur dans la collecte,
l’enrichissement et le croisement des données.
20
Les V supplémentaires…
Valeur

o La valeur ajoutée des données ou des informations


extraites

o Il faut transformer les données en valeurs exploitables

o Sans une réelle valeur, ce n’est qu’un gaspillage de


ressources

21
Les V supplémentaires…

Visualisation

Représentation des données sous formes intelligentes,


pratiques et interactives

22
Nouveaux domaines…
Data Science :
 Science de la donnée

 Discipline récente en pleine évolution

 Bâtit ses outils et concepts sur le data mining = data


mining massif!

 Analyser les données de façon à détecter des agrégats,


des liens, des informations =>répondre à des questions,
bâtir des modèles…
23
Nouveaux métiers
Chief Data Officer
◦ Responsable de l’acquisition des données ;
◦ Identification de fournisseurs possibles de données, sensibilisation,
négociation et acquisition ;
◦ Pilote et contribue à la stratégie Big Data de l’entreprise.

Data Architect
◦ Elabore l’infrastructure technique permettant de gérer d’énormes
volumes de données.

Data Scientist
◦ Construit des algorithmes permettant d’extraire des informations
pertinentes et utiles à partir des masses de données non structurées ;
◦ Doit poser les bonnes questions!

24
Nouveaux métiers
Data Analyst
◦ C’est un spécialiste du métier pour lequel on met en œuvre des initiatives
Big Data
◦ Réceptionne, analyse et consolide les données reçues du Data Scientist

Data Visualizer
◦ Marie l’art à la donnée ;
◦ Présente l’information, sous forme de graphiques ou d’images, de façon
compréhensible et efficace fournissant un outil précieux surtout pour
l’aide à la décision.

25
Etapes d’un projet Big Data
Etape 1 : Nettoyage de données
Convertir les données pour les analyser = générer des vues
structurées
Etape 2 : Travail ad-hoc
Analyser les données avec des outils divers SQL, R, Python
pour bâtir des modèles
Etape 3 : Industrialisation
Peaufiner les algorithmes
Automatiser les traitements et les méthodes de visualisation
Les placer sur un gestionnaire de cluster

26
Traitement des données
Trois grandes classes :

 Traitement descriptif : que s’est-il passé ?

 Traitement prédictif : que va-t-il se passer ?

 Traitement prescriptif : comment faire pour que ça se passe ?

27
BI vs Big Data
Informatique décisionnelle :
Utilisation de statistiques descriptives sur des données à forte
densité en information afin de mesurer des phénomènes et
détecter des tendances.

Big Data :
Utilisation de statistiques inférentielles sur des données à faible
densité en information dont le grand volume permet d’inférer
des lois donnant lieu à des capacités prédictives.

28
BI vs Big Data
Responsables
Responsables IT
Métier
Fournir une plateforme pour
Déterminer quelles questions poser permettre la découverte créative

Responsables
Responsables Métier
IT
Structurer les données pour
Explorer la plateforme pour déterminer
répondre à ces questions
quelles questions poser
29
Plusieurs termes à comprendre
et à différencier…
Business
Intelligence

Data mining

Data science

Machine
Learning
30
Plusieurs termes à comprendre
et à différencier…

Cluster

Rack server

Data center

31

Vous aimerez peut-être aussi