Vous êtes sur la page 1sur 24

Institut Supérieur des Etudes Technologiques de

Mahdia
Département: Technologies de
l’informatique

Gestion des Données


Massives
Chebbi Ikram Chebbi_ikram@yahoo.fr
&
moufidajguirim@yahoo.com
Moufida Jguirim

Master DSIoT AU: 2021-2022


Plan du cours

Chapitre 01 Chapitre 02
01 Introduction au
Big Data
03 Hadoop et Map-
Reduce

Chapitre 03 Chapitre 04
Domines
02 Les bases de
données NoSQL
04 d’application du
big data

0
PLAN

Approche
Historique Big Data: traditionnelle
& Définition Caractéristiques vs Approche
Contexte Big data
 L’évolution du SI amène les entreprises à traiter de plus en plus de données issues de sources
toujours plus variées .
 Les prévisions de taux de croissance des volumes de données traitées dépassent les limites des
technologies traditionnelles.
 Croissance de la quantité des données exponentielle
 La quantité de données digitales produites double tous les 2 ans.
Historique  On parle de pétaoctet (billiard d’octets) voir de zettaoctet (trilliard d’octets).
et
Contexte

03

02 04

05
3
1/3 des Chefs d’entreprise prennent fréquemment
des décisions basées sur des informations en
lesquelles ils n’ont pas confiance, ou qu’ils n’ont pas

Historique
et
• 1/2 Chefs d’entreprise disent qu’ils n’ont pas accès
Contexte aux informations dont ils ont besoin pour faire leur
travail

83% des DSI (Directeurs 03 des SI) citent : «


L’informatique décisionnelle et analytique » comme
faisant partie de leurs plans pour améliorer leur
compétitivité
02 04
• 60% des PDG ont besoin d’améliorer la capture et
la compréhension des informations pour prendre
des décisions plus rapidement
05
4
Les principales Sources

 Sources multiples: sites, bases de données, téléphones, serveurs,…

Historique  Les données massives sont le résultat de la rencontre de trois éléments essentiels qui
et sont:
Contexte
• Internet
• Les réseaux sociaux
• Les appareils intelligents: les ordinateurs, les tablettes,
03 les smartphones, les
objets connectés

 L’internet permet la transmission de l’information quelle que soit sa forme sur les
appareils intelligents:
02création de données 04
 Appareils intelligents:
 Utilisateurs des réseaux sociaux: consommateur
 Internet: vecteur de transmission

05
5
Challenges

Historique
et
Contexte
? Réunir un grand volume de données variées pour trouver de nouvelles idées
? Difficulté pour sauvegarder toutes ces données03

? Difficulté pour traiter ces données et les utiliser

? Les données sont créés rapidement


02 04

05
6
Quelle solution pour exploiter ces données

2008: 1ères analyses sur l’impact du Big


Data dans les activités commerciales,
Historique scientifiques, médicales,…. 1Zo
et
Contexte
2005: Définition du WEB 2.0 1Eo
2001: Définition des 3V 1Po
du big data 03

1To
2000: Présentation des 1ers modèles de données dynamiques lors d’une
conférence
02 « économétrie » 04
1Go
1998: 1ères estimations de croissance et volumétrie des données internet

1997: 1ère utilisation du terme ‘Big Data’ lors d’une conférence informatique
05
1996: sauvegarder sur support électronique coûte moins cher que l’archivage papier
7
 Le big data a pris naissance dans un contexte particulier;

 Avec l’explosion des usages digitaux, des objets connectés, les internautes-
consommateurs partagent de plus en plus d’informations et laissent sur la toile de plus
en plus de traces;

 Les outils traditionnels de gestion de données ont vite été débordés par cet afflux de
données différentes
Big Data:
Definitions
 Initialement, le phénomène Big Data a été exploité et développé par des sociétés comme
Yahoo, Google, Amazon, Facebook, qui offrent à leurs internautes la possibilité de
bénéficier de services gratuits en échange d’informations personnelles
03

 Le big data consiste donc:

- À prendre de grandes quantités de données de sources différentes


- À utiliser ces données de 02natures très différentes, produites
04 selon des rythmes
différents sans avoir forcément besoin de les traduire dans des formats spécifiques ;
- À stocker ces données de sorte qu’elles puissent servir en même temps à tout un tas
d’analyses différentes correspondant à des objectifs différents
- Et à faire tout cela très vite et même parfois…en
05 temps réel.

8
Big data is high volume, high velocity, and/or high variety information
assets that require new forms of processing to enable enhanced decision
making, insight discovery and process optimization.

(Gartner, updated definition of big data 2012)

Big Data:
Definitions
Le big data ou mégadonnées parfois appelées données massives, désignent des
ensembles de données devenus si volumineux qu'ils dépassent l'intuition et les
capacités humaines pour les analyser et même celles des03outils informatiques
classiques de gestion de base de données ou de l'information.

Il s’agit donc d’un ensemble de technologies, d’architecture, d’outils et de procédures


02 04
permettant à une organisation de très rapidement capter, traiter et analyser de larges
quantités et contenus hétérogènes et changeants, et d’en extraire les informations
pertinentes à un coût accessible.

05
9
Autour du Big Data, on trouve également les termes :
 Open Data : solution visant à rendre accessibles à tous des bases de données,
s'appuyant sur le participatif et la transparence.

Big Data:  Little Data: parfois utilisé pour permettre aux entreprises qui n’auraient pas les 3V
Definitions
pour utiliser les technologies Big Data
 Smart Data: Extraire parmi l’ensemble des données du Big Data les données
03
“intelligentes” permettant de piloter vos activités… nouvelle expression synonyme
de Business Intelligence.

02 04
Attention à ne pas être confronté au final au Bad Data!

05
10
Les 3Vs (Gartner 2001)

Big Data: Volume Variété


Caractéristiques
(Volume) (Variety)

L’origine variées des sources de


le poids total des données Vitesse 03
données qui arrivent non
collectées
structurées.
(Velocity)

02 04
La vitesse à laquelle les données sont
traitées simultanément

05
11
Les 3Vs (Gartner 2001)
Volume
(Volume)
Big Data:
Caractéristiques

 Croissance sans cesse des données à gérer de tout type, souvent en


teraoctets voir en petaoctets.

 Chaque jour, 2.5 trillions d’octets de données sont générées.


03
 4,4 zettaoctets de données = 4,4 trillion de gigaoctets

En 2013, il y a autant de données que les étoiles connues dans tout


l'univers.
02 04
 44 zettaoctets de données = 44 milliards gigaoctets
62 fois le nombre de tous les sables dans toutes les plages de la terre.

05
12
Les 3Vs (Gartner 2001)
Variété
(Variety)
Big Data:
Caractéristiques

 Traitement des données sous forme structurée (bases de données structurée, feuilles de
calcul venant de tableur, …) et non structurée (textes, sons, images, vidéos, données de
capteurs, fichiers journaux, medias sociaux, signaux,…) qui doivent faire l’objet d’une analyse
collective.
 Données sous plusieurs formats et types 03
 On veut tout stocker:
Exemple: pour une discussion dans un centre d’appel, on peut la stocker sous forme textuelle
pour son contenu, comme on peut stocker l’enregistrement en entier, pour interpréter le ton de
voix du client
 Certaines données peuvent 02paraître obsolètes, mais sont04utiles pour certaines décisions:
Exemple: Pour le transport de marchandise, on a tendance à choisir le camion le plus proche.
Mais parfois, ce n’est pas la meilleure solution. D’autres problèmes peuvent intervenir. Besoin de
: Données GPS, Plan de livraison du camion, Circulation, Chargement du camion, Niveau
d’essence… 05
13
Les 3Vs (Gartner 2001)
Vitesse
(Velocity)
Big Data:
Caractéristiques

 Rapidité d’arrivée des données


 Vitesse de traitement
 Les données doivent être stockées à l’arrivée, parfois même des Teraoctets par jour
sinon, risque de perte d’informations
03 ou réservé: si on sait que vous
Exemple: Il ne suffit pas de savoir quel article un client a acheté
avez passé plus de 5mn à consulter un article dans une boutique d’achat en ligne, il est possible
de vous envoyer un email dès que cet article est soldé.

02 04

05
14
Les 4Vs (IBM 2012)

Big Data:
Caractéristiques
Volume Variété
(Volume) (Variety)
Véracité
03 (Veracity)
Vitesse
(Velocity)
02 04

05
15
Les 4Vs (IBM 2012)
Véracité
(Veracity)
Big Data:
Caractéristiques

 Avec l’augmentation de la quantité, la qualité et précision se perdent (abréviations, typos,


déformations, source peu fiable…)
 Fait référence à la qualité de la fiabilité et la confiance des données.
 Données bruités, imprécises, prédictives, …
 La génération des données par Spambots est un exemple03 digne de confiance.
L’élection présidentielle de 2012 au Mexique avec de faux comptes Twitter.
 DES MILLIONS DE DOLLARS PAR AN: Ce que la pauvre qualité des données coute pour
l’économie des Etats-Unis.
 1 à 3 CHEFS D'ENTREPRISE Ne font pas confiance à l'information qu'ils utilisent.
02 04
Nécessité d’une (très) grande rigueur dans l’organisation de la collecte et le recoupement,
croisement, enrichissement des données pour lever l’incertitude et la nature imprévisible des
données introduites dans les modèles mais aussi pour respecter le cadre légal pour créer la
05des données.
confiance et garantir la sécurité et l’intégrité
16
Les 5Vs ( 2015 encore plus de V)
Valeur
(Value)
Big Data:
Caractéristiques

 Le V le plus important
 Il faut transformer toutes les données en valeurs exploitables:
les données sans valeur sont inutiles Volume Variety
 Atteindre des objectifs stratégiques de création de valeur pour Velocity
les clients et pour l’entreprise dans tous les domaines 03
d’activité
 La démarche Big Data n’a de sens que pour atteindre des Veraci
objectifs stratégiques de création de valeur pour les clients et ty
pour l’entreprise; dans tous les domaines d’activité :
commerce, industrie, services
02 … 04
 Le succès d’un projet Big Data n'a d'intérêt aux utilisateurs que
s'il apporte de la valeur ajoutée et de nouvelles connaissances.

05 Value
17
Pour Conclure Avec les 5Vs

Big Data: Variety


Structurées -
Caractéristiques Non structurées
Volume - Multi-facteur -
Téraoctets Probabilistes
Enreg. /
Archives Veracity
Transactions Confiance
Tables, fichiers 5Vs Authenticité
Origine,
du Big Data
03
réputation
Disponibilité
Velocity Responsabilité
Batch - Temps
réél - Processus
- Flot de
Value
données Statistiques
Évènements
Corrélations
02 Hypothétiques 04

05
18
Approche traditionnelle Les besoins métier guident la conception de la
solution
Analyse structurée et répétée
Le responsable métier
définit les besoins :
Quelles questions doit-on
poser?
Approche
traditionnelle Appropriée pour:
vs Approche
Big data
 Des données structurées
IT conçoit une solution avec  Opérations et processus
un ensemble de structures
et fonctionnalités répétitifs
03  Sources relativement
De nouvelles stables
exigences
nécessitent une  Besoins bien compris et
nouvelle bien cadrés
conception et
construction
02
Le responsable métier exécute
les requêtes pour répondre aux
questions – encore et encore
05
19
Approche Big Data Les sources d’information guident la découverte créative

Analyse itérative et exploratoire


Le responsable métier et
IT identifient les sources de
données disponibles
Approche
traditionnelle
vs Approche
Big data

03

De nouvelles idées
conduisent à 02 IT fournit une plateforme
l’intégration de qui permet une exploration
technologies créative de toutes les
traditionnelles données disponibles

Le responsable métier
05 détermine les
questions à poser en explorant
les données et relations entre
elles
20
La Fusion de l’approche traditionnelle avec l’approche
Big Data
La question n’est pas :
Approche
traditionnelle
vs Approche
Big data Dois-je choisir entre l’approche classique et
l’approche Big Data?
03
Mais plutôt:

Comment les02faire fonctionner ensemble?

05
21
La Fusion de l’approche traditionnelle avec l’approche
Big Data
Entrepôt de Plateforme
Approche
données Big Data
traditionnelle
vs Approche
Big data

03
Intégration

02

Sources Plateforme
traditionnelles 05 Big Data
22
La Fusion de l’approche traditionnelle avec l’approche
Big Data
Approche Traditionnelle Approche Big Data
Analyse Structurée et Répétée Analyse Itérative et
Approche
traditionnelle
Exploratoire
vs Approche Responsables IT
Responsables
Big data Fournissent une
Métier
plateforme pour
Déterminent
permettre la
quelles découverte
questions poser
VS
03 créative

Responsables
Responsables IT
Métier
Structurent les 02 Explorent la
données pour
plateforme pour
répondre à ces
questions déterminer quelles
questions poser
05
23

Vous aimerez peut-être aussi