Big Data Chap 1 - Introduction

Big Data
Chapitre 1
introduction au Big Data
Enseignante: Nedra Ibrahim

Nedra.Ibrahim@ensi-uma.tn 1
Plan du cours
• Introduction aux Big Data
• Principes Hadoop
• Écosystème Hadoop
• Les architectures Big Data
• Bases de données NoSQL

2
Faits
• Chaque jour, nous générons 2.5 trillions d’octets de données
• 90% des données dans le monde ont été crées au cours des deux
dernières années.
• 90% des données générées sont non structurées.
• Sources:
• Capteurs utilisés pour collecter les informations climatiques
• Messages sur les médias sociaux
• Images numériques et vidéos publiées en ligne
• Enregistrements des transactions d’achat en ligne
• Signaux GPS de téléphones mobiles
• Le développement de l’IoT (Internet des objets) et la généralisation
de la géolocalisation ou de l’analytique ont engendré une explosion
du volume de données collectées,
• … 3
• Données appelées Big Data ou Données Massives
Intérêts
• Détecter les sentiments et réactions des clients
• Détecter les conditions critiques ou potentiellement mortelles
dans les hôpitaux.
• Prendre des décisions risquées basées sur des données
transactionnelles en tems réel.
• Identifier les criminels et les menaces à partir de vidéos, sons
et flux de données.
• Étudier les réactions des étudiants pendant un cours, prédire
ceux qui vont réussir, d’après les statistiques et modèles réunis
au long des années.
4
Challenges
• Réunir un grand volume de données variées pour trouver de
nouvelles idées.
• Capturer des données crées rapidement
• Sauvegarder toutes ces données
• Traiter ces données et les utiliser
5
Approches traditionnelles
• Appropriées pour:
• Des données structurées
• Opérations et processus répétitifs
• Sources relativement stables
• Besoins bien compris et bien cadrés
6
Approche Big Data vs
Approche Traditionnelle
7
Approche Big Data vs
Approche Traditionnelle
8
Bases de données et SGBDR
• Une base de données est un ensemble d'informations qui est
organisé dans des tables de manière à être facilement
accessible, géré et mis à jour.
• SGBDR: Un système de gestion de bases de données
relationnelles est un logiciel permettant de partager et gérer
des informations et de les stocker dans une base de données.
9
SGBDR: ACID
• Les concepts de base des SGBDR
• Atomicité: une transaction s’effectue entièrement ou pas du tout
• Cohérence: le contenu d’une base doit être cohérent au début et
à la fin d’une transaction (mais pas forcément durant son
exécution)
• Isolation: les modifications d’une transaction ne sont
visibles/modifiables que quand celle-ci est validée
• Durabilité: une fois la transaction validée, l’état de la base est
permanent
• Fonctionnalités
• Jointures entre les tables
• Construction de requêtes complexes
10
• Contraintes d’intégrité solides
SGBDR: limitations
• Les SGBD relationnels montrent leurs limites avec de très hauts
débits de données de types incompatibles avec les schémas rigides
du modèle relationnel.
• Limites dans le contexte distribué: comment
distribuer/partitionner les données
• Liens entre entités -> Même serveur
• Mais plus on a de liens, plus le placement des données est complexe
• Contraintes ACID très complexes à assurer (techniques de
verrouillages distribués par exemple)
• Incompatible avec les performances
• Limites dans le contexte du quantité et débit de données:
• incapacité à gérer de très grands volumes de données à des débits
extrêmes 11
• certains types de données ne sont pas adaptés
Entrepôts de données (data
warehouse)
• Un entrepôt de données Un entrepôt de données est une base de données
regroupant une partie ou l'ensemble des données fonctionnelles d'une
entreprise. Il entre dans le cadre de l'informatique décisionnelle ; son but
est de fournir un ensemble de données servant de référence unique,
utilisée pour la prise de décisions dans l'entreprise par le biais de
statistiques et de rapports réalisés via des outils de reporting.
12
Entrepôts de données: limites
• L’entrepôt de données ne permet pas de gérer:
• Le volume: les entrepôts sont conçus pour gérer des Go ou To de
données alors que la croissance exponentielle des données nous
conduit aux Po ou Eo
• Le type (variety): plusieurs types de données: les données
textuelles semi ou non structurées,
• La vitesse (velocity): les données sont créées de plus en plus vite
et nécessitent des traitements en temps-réel
13
ACID vs BASE
• Systèmes distribués modernes assurent le modèle BASE
• Basically Available : une disponibilité face à une grande quantité de
requêtes
• Soft-state : l’état du système peut changer au cours du temps même sans
nouveaux inputs (cela est du au modèle de consistence).
• Eventually consistent : tous les réplicas atteignent le même état, et le
système devient à un moment consistant, si on stoppe les inputs.
CAP
Consistency
(consistance/cohérence)
Ex: BD relationnelles
Ex: BD relationnelles CP CA normalisées
distribuées centralisée
14
Partition tolerance Availability
AP
(distribution) (disponibilité)
Ex: Bases de données NoSQL
Big Data
BIG DATA
15
Big Data
• L’explosion quantitative des données numériques a obligé les
chercheurs à trouver de nouvelles manières de voir et d’analyser le
monde. Il s’agit de découvrir de nouveaux ordres de grandeur
concernant la capture, la recherche, le partage, le stockage,
l’analyse et la présentation des données.
• Ainsi est né le « Big Data ». Il s’agit d’un concept permettant de
stocker un nombre indicible d’informations sur une base numérique.
• Big Data est née suite à l’évolution des technologies de gestion de
données.
• Le Big Data désigne toute quantité volumineuse de données
structurées, semi-structurées et non structurées qui a le potentiel
d'être exploité pour obtenir des informations. Les données
deviennent Big data lorsqu'elles sont difficiles à traiter à l'aide des
techniques traditionnelles.
• Big Data est la capacité de gérer un énorme volume de données, à la
bonne vitesse et dans les délais appropriés pour permettre une
analyse et une réaction en temps réel. 16
Caractéristiques des données
• Les volumes à gérer sont Hétérogènes et complexes :
• produites par des applications parfois différentes,
• par des utilisateurs différents,
• avec des liens explicites (par exemple citations, url, etc) ou
implicites (à extraire ou à apprendre).
• Nous avons besoin de nombreux serveurs :
• un serveur unique ne peut stocker cette quantité d'information,
garantir des temps d'accès pour grand nombre d'utilisateur, faire
des calculs rapides, etc.
Besoin de distribuer les calculs et les données
• comme nous avons plusieurs serveurs/clusters, donc on a besoin
d'algorithmes permettant le calcul et la distribution des données
17
à large échelle.
Modèles de données
18
Données structurées
• Modèle relationnel de données
• Une relation est une table avec des lignes et des colonnes
• Chaque relation a un schéma définissant les types de ses
colonnes
• Le schéma prédéfini est statique
19
Données semi-structurées:
fichier log
20
Données non-structurées
• Exemples:
• Post Facebook
• image Instagram
• vidéo
• Blog
• Article journal
• …
21
Caractéristiques du Big Data
Les 5V du Big Data
• Extraction d’informations et décisions à partir de données
caractérisées par les 5V:
• Volume (volume) Volume
• Variété (variety)
• Vélocité ou Vitesse (velocity)

Véracité
Big Variété
• Véracité ou Validité (veracity) Data

• Valeur (value) 22
Valeur Vélocité
Volume
• le Big Data implique d'énormes volumes de données générées
par les capteurs et les machines combiné à l’explosion d’Internet,
des médias sociaux, du commerce électronique, des appareils
GPS, etc
• Le prix de stockage de données a beaucoup diminué ces 30
dernières années:
• De 100$/Go (1980)
• À 0.10$/Go (2013)
• les lieux de stockage fiables (SAN: Storage Area Network) ou
réseaux de stockage peuvent être couteux.
 Comment stocker les données dans un endroit fiable qui sont
moins cher
 Comment parcourir ces données et en extraire des 23
informations facilement et rapidement?
Variété
• La plupart des données existantes sont non-structurées ou semi-
structurées.
• Certaines données peuvent paraître obsolètes mais sont utiles pour
certaines décisions.
• Ces données peuvent présenter des formes complexes du fait
qu'elles trouvent leurs origines dans :
• des capteurs divers et variés (température, vitesse du vent,
hygrométrie, tours/mn, luminosité ...),
• des messages échangés (e-mails, médias sociaux, échanges d'images, de
vidéos, musique),
• des textes, des publications en ligne (bibliothèques numériques, sites
web, blogs, ...),
• enregistrements de transactions d'achats, des plans numérisés, des
annuaires, des informations issues des téléphones mobiles, etc.
24
 Besoin de technologies nouvelles pour analyser et recouper les
données non structurées (mails, photos, conversations…)
représentant au moins 90 % des informations collectées.
Variété
25
Vélocité ou Vitesse
• Rapidité d’arrivée des données
• Fait référence à l’aspect dynamique et/ou temporel des données, à
leur délai d’actualisation et d’analyse,
• les données ne sont plus traitées, analysées, en différé, mais en
temps réel ou quasi réel,
• elles sont produites en flots continus, sur lesquels des décisions en
temps réel peuvent être prises,
• Ce sont les données notamment issues de capteurs, nécessitant un
traitement rapide pour une réaction en temps réel,
• dans le cas de telles données de grande vélocité engendrant des
volumes très importants, il n’est plus possible de les stocker en l’état,
mais seulement de les analyser en flux (streaming) voire les résumer.
• Exemple
• Il ne suffit pas de savoir quel article un client a acheté ou réservé
• Il suffit de savoir que le client a passé 5mn à consulter un article dans
une boutique en ligne pour lui envoyer un email dès que cet article 26
est soldé.
Valeur
• Il faut transformer toutes les données en valeurs exploitables: les
données sans valeur sont inutiles.
• Atteindre des objectifs stratégiques de création de valeur pour les
clients et pour l’entreprise dans tous les domaines d’activité.
• Associé à l’usage qui peut être fait de ces mégadonnées, de leur
analyse, notamment d’un point de vue économique.
• L’analyse de ces mégadonnées demande une certaine expertise tant
liée à des méthodes et techniques en statistique, en analyse de
données, que de domaine pour l’interprétation de ces analyses.
• Les termes de « Data Scientist » et de « Data Science » sont liés à

cette expertise recherchée et à cette nouvelle discipline émergente.
27
Véracité ou Validité
• Cela fait référence au désordre ou la fiabilité des données.
Avec l’augmentation de la quantité, la qualité et la précision
se perdent.
• Si nous voulons du sens à partir de ces données, nous devons
d'abord les nettoyer.
• Les solutions Big Data doivent remédier à cela en se référant
au volume des données existantes.
• Nécessité d’une précision dans l’organisation de la collecte et
le croisement, enrichissement des données pour:
• Lever l’incertitude de la nature imprévisible des données.
• Créer la confiance et garantir la sécurité et l’intégrité des
données. 28
Ce que les entreprises y
gagnent
• Le Big Data permet aux organisations de stocker, gérer et
manipuler de grandes quantités de données à rapidement et
au bon moment pour obtenir les bonnes informations.
• De nombreuses entreprises expérimentent avec des
techniques qui leur permettent de collecter des quantités
massives de données pour déterminer les modèles cachés
dans ces données qui pourraient être indication précoce d’un
changement important.
• Certaines données peuvent indiquer:
• Le changement des habitudes d’achats du client.
• Apparition de nouvelles opportunités pour l’entreprise.
• Des modifications nécessaires dans le processus de production. 29
Challenges au niveau de
l’entreprise
• La croissance des données entraîne en particulier une hausse
des coûts du matériel, du logiciel, de la maintenance associée,
de l’administration et des services.
• Le Big Data exige un nouvel ensemble de compétences au sein

de l’entreprise.
• Les projets d’analyse Big Data nécessitent des équipes

multidisciplinaires, et une collaboration active doit être
engagée entre le service informatique et les data scientists.
30
Les applications du Big Data
• Big Data & Marketing prédictif : des prévisions basées sur des
données et des probabilités.
• traitement en temps réel d’un grand volume de données :
connaissance et définition des besoins et des attentes des clients
• Dans l’administration publique: des quantités extraordinaires
de données sont accumulées au cours de l'exécution des
services publics :
• La gestion des prestations d'aide sociale et de la santé publique,
• La délivrance des passeports et permis de conduire.
• La gestion des taxes et recettes …
31
Les applications du Big Data
• Blue C.R.U.S.H. (Crime Reduction Utilizing Statistical History): est
un logiciel qui prélève et rassemble avec l’aide de caméras et des
forces de police un maximum de données sur les délits qui
surviennent dans un territoire.
• Il s’agit d’envoyer les policiers dans les « hot spots »; là où la
probabilité qu’un crime survienne est la plus élevée, et ainsi arrêter
un délit avant qu’il ne se produise.
• Depuis son lancement il y a 7 ans,
• le nombre de meurtres et de cambriolages a diminué de 36% à Memphis.
• Le vol de véhicules motorisés a chuté de 55% !
• Départment de la santé et services de l’humanité.
• Améliorer l'utilisation de l'imagerie dans les recherche sur le cancer
• Département d’énergie : permettre d'obtenir des observations
32
précises des phénomènes atmosphériques.
Cycle de vie des Big Data
Génération
Utilisation Stockage
Analyse 33

Big Data Chap 1 - Introduction

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Big Data Chap 1 - Introduction

Transféré par

Droits d'auteur :

Formats disponibles

Big Data

Enseignante: Nedra Ibrahim

• Introduction aux Big Data

• Les architectures Big Data

• Bases de données NoSQL

• Capturer des données crées rapidement

• Sauvegarder toutes ces données

• Traiter ces données et les utiliser

• Des données structurées

• Opérations et processus répétitifs

• Sources relativement stables

• Besoins bien compris et bien cadrés

• Volume (volume) Volume

• Vélocité ou Vitesse (velocity)

• Véracité ou Validité (veracity) Data

• Les termes de « Data Scientist » et de « Data Science » sont liés à

• Le Big Data exige un nouvel ensemble de compétences au sein

• Les projets d’analyse Big Data nécessitent des équipes

Vous aimerez peut-être aussi