Vous êtes sur la page 1sur 28

1

Chp1 - Introduction aux Big


Data avancé
INITIATION, CONCEPTS, ARCHITECTURES, ADMINISTRATION ET DÉVELOPPEMENT …
2
Importance de Big Data

 Chaque jour, nous générons plus que 2,5 trillions d’octets de


données
 90% des données dans le monde ont été créées au cours des deux
dernières années
 90% des données générées sont non structurées
 Capteurs utilisés pour collecter les informations climatiques
 Messages sur les médias sociaux
 Images numériques et vidéos publiées en ligne
 Enregistrements transactionnels d’achat en ligne
 Signaux GPS de téléphones mobiles
Data is the new oil !
3
L'intérêt de Big Data pour les entreprises

 Chefs d’organisation prennent fréquemment des décisions basées sur


des informations en lesquelles ils n’ont pas confiance, ou qu’ils n’ont
pas
 Des DSI (Directeurs des SI) citent : « L’informatique décisionnelle et
analytique » comme faisant partie de leurs plans pour améliorer leur
compétitivité
 De plus en plus de données sont disponibles en temps réel (interactions
clients online, données de géolocalisation et de capteurs)
Dashboard analytique
 Des Chefs d’entreprise ont besoin d’améliorer la capture et la
compréhension des informations pour prendre des décisions plus
rapidement
4
L'intérêt de Big Data pour les entreprises

 Si on sait les analyser, la valeur tirée du Big


Data peut s’avérer extrêmement
stratégique
5
Impact organisationnel du Big Data

 Supervision de l’activité
 Optimisation de l’activité
 Gestion des ressources humaines
 Améliorer la qualité des produits ou services
 Attirer plus de clients
 Améliorer la fidélisation des clients
 Des campagnes marketing plus efficaces
 Identification des perspectives
6
Impacts économique dans l’organisation

 Ventes et marketing :
 Acquérir plus de clients
 Retenir les clients existants
 Augmenter le panier d’achat et le trafic en magasin
 Optimiser la tarification et le rendement
 Améliorer l’efficacité et la publicité
7
Impacts économique dans l’organisation

 Opérations :
 Optimiser la performance du réseau
 Prévoir les problèmes de maintenance
 Prévoir l’utilisation/capacité
 Augmenter les taux de service
 Réduire les ruptures de stock
 Consolider les fournisseurs
8
Exercices

 Donner des exemples concret d’utilisation et/ou exploitation des technologies Big Data
chez les entreprises et organisation moderne ?
9
Enjeux de Big data

 Garantir la qualité des informations


 Un système d’audit de la qualité des données doit être mis en place afin de corriger les éventuelles
erreurs humaines survenues
 Optimiser le traitement des données
 L’entreprise doit investir dans des outils de gestion et de traitement permettant de transformer les
données recueillies en informations intelligibles avec le moindre coût et meilleur performance
 Il faut penser à mettre en place l’architecture Big Data adéquat qui répond aux besoins de l’entreprise
 Mettre en relation tous les métiers
 Structurer les données dans des datamart en suivant une modélisation des processus métiers
 Les spécialistes de chaque métiers doive collaborer étroitement avec les statisticiens et les data
engineer
10
Enjeux de Big data

 Assurer la sécurité des données


 La plupart des données collectées par les entreprises à des fins stratégiques sont des données
privées venues tout droit des comptes utilisateurs
 L’entreprise doit mettre en œuvre les mesures de sécurité nécessaires pour éviter le traitement
illégal ou la perte accidentelle des données personnelles qui lui sont confiées
 Humaniser les données
 L’entreprise ne doit pas oublier l’humain derrière les données recueillies
 l’intérêt du Big Data est de placer les clients au centre du processus décisionnel
11
Exercices

 Quelles sont les approches à suivre pour assurer les enjeux du big data dans l’entreprise
?
 Quelles sont les solutions à faire pour assurer la qualités de données massives ?
 Quelles sont les solution à faire pour assurer une bonne gestion de données massives ?
 Quelles sont les solution à faire pour choisir la bonne architecture de traitement Big Data ?
12
Gouvernance des données

Gouvernance & sécurité des données


 La gouvernance des données est un
ensemble de processus, rôles, règles, normes
et métriques permettant d’assurer une
utilisation efficace et efficiente des
informations, dans le but d’aider les
entreprises à atteindre leurs objectifs
 Elle définit les procédures et les
responsabilités garantissant la qualité et la
sécurité des données au sein d’une
entreprise ou d’une organisation. Elle définit
également qui peut effectuer quelle action,
sur quelles données, dans quelle situation et
selon quelle méthode

Planification et/ou ordonnancement des Jobs


Orchestration des Jobs de pipelines Big Data
13
Gouvernance des données

Pour instaurer une bonne gouvernance des données il faut assurer


 La qualité des données
 La précision, l'exhaustivité et l'homogénéité des sources de données sont les piliers essentiels pour assurer la qualité des
données
 La disponibilité des données
 Sauvegarder les données dans le système informatique et mettre à disposition aux utilisateurs, la Gestion de réplication pour
assurer la haute disponibilité
 L’intégrité des données
 Ne pas altérer ou de détruire les données en assurant qu’elles soient cohérentes, fiables, pertinentes et valides
 Vérifier la qualité de l’écriture sur un support de stockage, la transmission des données
 La sécurité des données
 Mettre en place une politique de sécurisation des informations de l’entreprise et de ses clients
 Contrôler les accès, tracer l’activité et gérer les violations de données, réduire les vulnérabilités
14
Gouvernance des données - Apache Atlas

 Apache Atlas est un Framework permettant la gouvernance et la gestion de méta


données pour le Framework Hadoop
 Apache Atlas permet de :
 typage de métadonnées
 classifier les métadonnées
 Data Lineage
 la recherche de source de données et leur origines
 sécuriser l’accès au données en masquant des informations par exemple
15
Gestion de méta-data - Data Lineage

 Data Lineage est un processus qui vise a fournir une cartographie du système
d'information. Il permet une visualisation du cycle de vie de la donnée en vue de
répondre aux questions suivantes :
De quelle source provient cette donnée? Quelles transformations a-t-elle subies?
16
Sécurité des données - Apache Ranger

 Apache Ranger est un framework permettant d'activer, de surveiller et de gérer une


sécurité complète des données sur la plate-forme Hadoop
 Apache Ranger permet de :
 Administration centralisée de la sécurité pour gérer toutes les tâches liées à la sécurité dans
une interface utilisateur web à l'aide des API REST
 Standardisez la méthode d'autorisation sur tous les composants Hadoop
 Prise en charge de différentes méthodes d'autorisation par exemple contrôle d'accès basé sur
les rôles, contrôle d'accès basé sur les attributs, etc
 Centralisez l'audit des accès utilisateurs et des actions administratives (liées à la sécurité) dans
tous les composants de Hadoop
17
Sécurité des données - Apache Sentry

 Apache Sentry est un système permettant d'appliquer une autorisation basée sur des
rôles avec une fine granularité aux données et métadonnées stockées sur un cluster
Hadoop
 Permet de définir des règles d'autorisation pour valider les demandes d'accès d'un
utilisateur ou d'une application aux ressources Hadoop
18
Sécurité des données - Kerberos

 Kerberos est un protocole d'authentification réseau qui repose sur un mécanisme de


chiffrement symétrique et l'utilisation de tickets
 Hadoop utilise Kerberos pour authentifier les utilisateurs et les processus s'exécutant
dans un cluster Hadoop
 Kerberos est utilisé pour authentifier les services exécutés dans le cluster Hadoop
19
Exercices

 Qui est le responsable de la gouvernance des données au sein de l’entreprise ?


20
Architectures Big Data

 L’un des enjeux Big Data est l’optimisation de traitement des données à travers la mise en
place de l’architecture Big Data adéquat qui répond aux besoins de l’entreprise
 Le Big Data oblige les entreprises à adapter leurs systèmes existants (BI classique) pour
pouvoir effectuer l’ingestion, le traitement et l’analyse des données volumineuses
 Mettre en place la bonne architecture qui permet de manager, traiter et stocker de Big Data
 Adapter la structure de l’écosystème informatique traditionnel et mettre en place une
architecture Big Data
21
Pourquoi une architecture Big Data ?

 En mettant en place une architecture Big Data, l’organisation va pourvoir effectuer :


 Un traitement en batch des sources de Big Data
 Un traitement en temps réel des Big Data en mouvement
 Une exploration des données volumineuses
 Une transformation des données non structurées en données structurées
 Une centralisation des data issues de différentes sources et existantes sous différents formats
 Des analyses prédictives
 Des tâches basées sur les technologies du machine learning et de l’intelligence artificielle
22
Composantes d’une architecture Big Data

 La plupart des architectures Big Data incluent tout ou partie des éléments suivants :
 Source de données (base de données relationnel, fichiers, data mart, data warehouse, cloud, web)
 Stockage (magasin de données, data lake)
 Batch processing (traitement par lots)
 Stream processing (traitement de flux de data)
 Préparation de données
 Data catalog
 Modélisation de données
 Technologie d’orchestration
 En fonction du type d’architecture choisi et adopté, certaines de ces composantes seront
absentes, mutualisées ou combinées dans la structure
23
Architectures Big Data

 Pour effectuer des traitements Big Data, beaucoup d’architectures sont mis en place
 Architecture Lambda
 Architecture Kappa
 Architecture Zeta
 Architecture SMACK
24
Architecture Lambda

 Hadoop n'est pas capable de traiter un grand volume de données qui doit satisfaire une
faible latence, même en ajoutant d'autres serveurs de calcul
 l'architecture Lambda crée par Nathan Marz réponds aux limite de Hadoop en
fournissant un modèle de traitement Big Data presque temps réel
25
Architecture Lambda

 L’architecture lambda garantit l'équilibre entre la tolérance aux pannes, les contraintes
de latence (lecture/écriture) et le débit des disques durs
 Basé à la fois sur les traitements batch qui fournissent des vues batch et les traitements
temps réel qui fournissent des vues streaming, puis les joint avant leur présentation
26
Architecture lambda

 L’architecture Lambda est composée de trois couches :


 Couche Batch : mode de fonctionnement classique des applications big data type Hadoop, cette
couche est responsable de deux choses : récupérer les données et les stocker en format brut.
Cette couche peut être implémentée à l'aide de Apache Hadoop, Apache Hive, MapReduce ou
Apache Sqoop
 Couche Speeding (streaming) : traiter les nouveaux flux de données en temps réel, sans aucun
prétraitement (correction des jeux des données). Cette couche peut être implémentée à l'aide
de Apache Storm, Apache flink ou Spark Streaming
 Couche serving (présentation) : exploiter les résultats pré-calculés par la couche batch et la
couche speeding, pour effectuer des requêtes à la volée (ad hoc). Cette couche peut être
implémentée à l'aide des technologies NoSQL Apache HBase, Cassandra, et ElasticSearch qui
permettent de émerger les vues batch et les vues temps réel
27
Architecture kappa

 Créée par Jay Kreps en se basant sur ses expériences chez LinkedIn et son retour
d'expérience de l'architecture Lambda, dans un article : « Questioning the Lambda
Architecture »
 l'architecture Kappa, permet de simplifier l'architecture Lambda, en fusionnant la couche
batch et la couche streaming
 L'architecture Kappa n'est pas destinée au stockage des données, mais uniquement à
leur traitement
28
Exercices

 Qui est le responsable de la mise en place d’architecture Big Data dans un projet big data
?

Vous aimerez peut-être aussi