Académique Documents
Professionnel Documents
Culture Documents
Environnement Cloud
Sellami Mokhtar
les 5 piliers d'un cadre d'architecture cloud
robuste
Azure Well-Architected Framework
Piliers communs
• Azure Well-Architected Framework est un ensemble de principes
directeurs qui peuvent être utilisés pour améliorer la qualité
d’une charge de travail. Les cadres d'architecture cloud des trois
fournisseurs reposent sur cinq piliers communs :
• Fiabilité
• Sécurité
• Optimisation des coûts
• Excellence opérationnelle
• Efficacité des performances
Pourquoi mettre en place une architecture
Big Data ?
• Les systèmes de bases de données traditionnels ne permettent plus
de répondre aux exigences imposées par le Big Data.
• Ils ne sont pas en mesure de traiter des volumes de données aussi
massifs et assez rapidement.
• il faut adapter la structure son ecosystème informatique traditionnel
et mettre en place une architecture Big Data.
Pourquoi mettre en place une architecture
Big Data ?
• En mettant en place une architecture Big Data adaptée dans son
entreprise, une organisation va pourvoir effectuer :
• Un traitement en batch des sources de Big Data
• Un traitement en temps réel des Big Data en mouvement
• Une exploration des données volumineuses
• Une transformation des données complexes
• Une centralisation des data issues de différentes sources et existantes sous
différents formats
• Des analyses prédictives
• Des tâches basées sur les technologies de l’intelligence artificielle
Les composantes d’une architecture Big Data
• La plupart des architectures de données volumineuses incluent tout
ou partie des éléments suivants :
• Source de données (data mart, data warehouse, cloud, base de données
hybride)
• Stockage (data warehouse, data lake, data lake house)
• Batch processing (traitement par lots)
• Stream processing (traitement de flux de data)
• Préparation de données
• Data catalog
• Modélisation de données
• Technologie d’orchestration
Composants d’une architecture Big Data
Les principaux types d’architecture Big Data
• Architecture Lambda
• Architecture Kappa
Transformation et raffinement des données
le Datalake
Lambda
Architecture Kappa
Big Cloud
Service
Providers
Compute Services
SERVICE AWS AZURE GCP
AWS Elastic
PaaS App Service Google App Engine
Beanstalk
AWS Elastic
Azure Kubernetes Google Kubernetes
Container Container/Kuberne
Service (AKS) Engine
tes Service
Virtual Network Virtual Private Cloud (VPC) Virtual Network (Vnet) Virtual Private Cloud (VPC)
Load Balancing Elastic Load Balancer Azure Load Balancer Google Cloud Load Balancing
• Préparation:
• Il s'agit de l'opération d'extraction, de transformation, de chargement (ETL) pour nettoyer, conformer, mettre en forme,
transformer et cataloguer les blobs et les flux de données dans le lac de données; rendre les données prêtes à être
consommées pour le ML et les stocker dans un entrepôt de données .
• Calcul:
• c'est là que se déroulent l'analyse, la science des données et l'apprentissage automatique. Le calcul peut être une
combinaison de traitement par lots et par flux. Les modèles et les informations (à la fois les données structurées et les flux)
sont stockés dans l' entrepôt de données .
• Présentation:
• les informations sont fournies via des tableaux de bord, des e-mails, des SMS, des notifications push et des microservices.
Les inférences du modèle ML sont exposées sous forme de microservices.
Data Warehouse Data Lake et Data
Lake house
Data Lake et Data Warehouse
• Le Data Lake contient toutes les données sous leur forme naturelle / brute
telles qu'elles ont été reçues généralement dans des objets blob ou des
fichiers.
• L' entrepôt de données stocke les données nettoyées et transformées avec
le catalogue et le schéma. Les données du lac et de l'entrepôt peuvent être
de différents types: flux d'événements structurés (relationnels), semi-
structurés, binaires et en temps réel.
• C'est une question de choix si le lac et l'entrepôt sont physiquement conservés dans
des magasins différents, ou si l'entrepôt est matérialisé par une sorte d'interface (par
exemple les requêtes Hive ) sur le lac.
• Le choix est motivé par les exigences de vitesse et les contraintes de coût.
• Quelle que soit l'approche suivie, il est important de conserver les données brutes à
des fins d'audit, de test et de débogage.
Data Lake house
• l'architecture Lakehouse est définie comme
• "un système de gestion de données basé sur un stockage à faible
coût et directement accessible qui fournit également des
fonctionnalités de gestion et de performance de SGBD analytiques
traditionnelles telles que les transactions ACID, la gestion des
versions des données, l'audit, l'indexation, la mise en cache. , et
l'optimisation des requêtes. »
Data Warehouse
Data Lake
Data Lake house
Conceptions d'architecture de lac de données
• Fonctions en tant que service (FaaS) : Encore une fois, le FaaS est largement compris comme le
moteur de calcul/traitement central/fondamental en mode sans serveur et se trouve au centre de
la plupart des architectures sans serveur. Voir « Qu'est-ce que le FaaS ? » pour une plongée plus
approfondie dans la technologie.
• Bases de données et stockage sans serveur : les bases de données (SQL et NoSQL) et le
stockage (en particulier le stockage d'objets ) constituent le fondement de la couche de
données. Une approche « sans serveur » de ces technologies implique une transition des
« instances » de provisionnement avec des limites de capacité, de connexion et de requête
définies, et une évolution vers des modèles qui évoluent de manière linéaire avec la demande en
termes d'infrastructure et de tarification.
• Diffusion d' événements et messagerie : les architectures sans serveur sont bien adaptées aux
charges de travail axées sur les événements et le traitement de flux, notamment la plate-forme de
diffusion d'événements open source Apache Kafka.
• Passerelles API : les passerelles API agissent comme des proxys pour les actions Web et
fournissent un routage de méthode HTTP, un ID client et des secrets, des limites de débit, CORS,
l'affichage de l'utilisation de l'API, l'affichage des journaux de réponse et des politiques de partage
d'API.
•
Demandes courantes
• Dans une récente enquête IBM, les professionnels de l'informatique ont déclaré
utiliser le sans serveur dans un large éventail d'applications, notamment la gestion
de la relation client (CRM), l'analyse et l'informatique décisionnelle, la finance, etc.
(voir Figure 2).
Big data pipelines on Amazon Web Services
Piliers de l'architecture
de données moderne
https://aws.amazon.com/big-data/datalakes-and-analytics/modern-data-architecture/?nc1=h_ls
Big data pipelines on Microsoft Azure
Créer des solutions
d’analyse de
données adaptées
à un secteur avec
Azure Synapse
Analytics
Architecture d’analytique avancée
Système de génération d’offres personnalisées avec des
modèles de base de données Azure Synapse
Utiliser des modèles de base de données
Big data pipelines on Google Cloud
Modèles de conception
de lac de données sur le • Modèle I : Pile complète du lac de données
cloud Google (GCP)
Modèles de conception
de lac de données sur le • Modèle II : modèle unifié de traitement par lots et de
cloud Google (GCP) diffusion en continu
Modèles de
conception de lac de
données sur le cloud
Google (GCP)
Modèle 3 : architecture de
diffusion en continu Lambda
Simplifiez votre architecture Lakehouse avec
Azure Databricks, Delta Lake et Azure Data
Lake Storage
Simplifiez votre architecture Lakehouse avec
Azure Databricks, Delta Lake et Azure Data
Lake Storage
• Lors de la construction d'une architecture Lakehouse, gardez à l'esprit ces 3
principes clés et leurs composants associés :
• Un lac de données pour stocker toutes vos données, avec une couche organisée dans un
format open source. Le lac de données doit pouvoir accueillir des données de tout type,
taille et vitesse. Le format des données conservées dans le lac doit être ouvert, intégré aux
services de sécurité cloud natifs et doit prendre en charge les transactions ACID.
• Une couche de calcul fondamentale basée sur des normes ouvertes. Il devrait y avoir une
couche de calcul fondamentale qui prend en charge tous les principaux cas d'utilisation de
Lakehouse, y compris la conservation du lac de données (ETL et traitement de flux), la science
des données et l'apprentissage automatique, ainsi que l'analyse SQL sur le lac de données.
Cette couche doit également être construite sur des normes ouvertes qui garantissent une
innovation rapide et sont non verrouillables et à l'épreuve du temps.
• Intégration facile pour des cas d'utilisation supplémentaires et/ou nouveaux. Aucun service
ne peut tout faire. Il y aura toujours des cas d'utilisation nouveaux ou supplémentaires qui ne
font pas partie des cas d'utilisation principaux de Lakehouse. Ces cas d'utilisation nouveaux
ou supplémentaires nécessitent souvent des services ou des outils spécialisés. C'est pourquoi
des intégrations faciles entre le lac de données organisé, la couche de calcul fondamentale et
d'autres services et outils sont des exigences clés.
Data Lakehouse avec Databricks & AZURE
Gouvernance de données
• Qu'est-ce que la gouvernance des données ?
« La gouvernance des données est un ensemble de processus, rôles, règles,
normes et métriques permettant d'assurer une utilisation efficace et efficiente
des informations, dans le but d'aider les entreprises à atteindre leurs objectifs. »
Gouvernance de données
• Elle définit les procédures
et les responsabilités
garantissant la qualité et la
sécurité des données au
sein d'une entreprise ou
d'une organisation.
• Elle définit également qui
peut effectuer quelle
action, sur quelles
données, dans quelle
situation et selon quelle
méthode.
Gouvernance de données
• Une stratégie de gouvernance des données claire
• est fondamentale pour toute organisation traitant les big data, et
• explique comment la société peut bénéficier de procédures et de
responsabilités communes et cohérentes.
• Les moteurs opérationnels déterminent quelles données doivent être
soigneusement contrôlées dans votre stratégie de gouvernance des données
ainsi que les bénéfices attendus.
• Cette stratégie sera la base de votre cadre de gouvernance des es données
Gouvernance de
données
• Pour structurer un framework de Data Gouvernance au sein d’une
organisation, nous considérons qu’il faut tout d’abord évaluer l’état de
l’art sur les points suivants :
• La connaissance de son patrimoine de données,
• L’acculturation des différents acteurs, nécessaire à la mise en
place d’une stratégie data-driven,
• La structuration des responsabilités et de l’ownership autour de
la donnée,
• La mise en place de normes de qualité et la gestion quotidienne
de celle-ci,
• La sécurisation des données les plus sensibles de l’entreprise,
• La maîtrise du cycle de vie de ses données,
• La diffusion de la donnée dans une logique de désilotage,
• La valorisation et la création de valeur autour de la donnée.
Outils de gouvernance des données
• Ces outils doivent vous aider à :
• Collecter et comprendre vos données, grâce à des outils et des fonctionnalités de
découverte, de profilage et de comparaison. Par exemple, les outils performants
peuvent automatiquement détecter une donnée personnelle, comme un numéro
de sécurité sociale, dans un nouveau dataset et déclencher une alerte.
• Améliorer la qualité des données avec la validation, le nettoyage et
l'enrichissement des données.
• Gérer vos données grâce aux processus ETL et ELT basés sur les métadonnées, et
aux applications d'intégration de données, afin que les pipelines de données
puissent être suivis avec un historique des données de bout en bout.
• Contrôler vos données avec des outils de vérification et de surveillance actives.
• Documenter vos données afin que des métadonnées puissent leur être ajoutées,
améliorant ainsi la pertinence, la recherche, l'accès, les liaisons et la conformité.
• Responsabiliser les personnes qui connaissent le mieux les données, en leur
permettant de contribuer aux tâches de data stewardship avec des outils en libre-
service.
References
• https://towardsdatascience.com/scalable-efficient-big-data-analytics-machine-learning-pipeline-
architecture-on-cloud-4d59efc092b5
• https://www.altexsoft.com/blog/data-lakehouse/
• https://www.advancinganalytics.co.uk/blog/2020/2/4/the-data-lakehouse-dismantling-the-hype
• https://techcommunity.microsoft.com/t5/analytics-on-azure-blog/simplify-your-lakehouse-architecture-
with-azure-databricks-delta/ba-p/2027272
• https://www.tableau.com/about/blog/2021/6/how-databricks-and-tableau-customers-are-fueling-
innovation-data-lakehouse
• https://www.unifieddatascience.com/data-lake-design-patterns-on-google-cloud
• https://blog.miraclesoft.com/data-foundation-with-modernized-data-lake-data-warehouse/
• https://thenewstack.io/introducing-corps-the-five-pillars-for-a-robust-cloud-architecture-framework/
• https://www.unifieddatascience.com/data-lake-design-patterns-on-google-cloud
• https://www.alibabacloud.com/blog/data-lake-concepts-characteristics-architecture-and-case-
studies_596910