Vous êtes sur la page 1sur 35

24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

Page 1

Introduction SQL Analytics


sur Lakehouse Architecture
Instructeur: Doug Bateman

Page 2

À propos de votre instructeur /


24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

Doug Bateman

▪ Ingénierie des données principale


Instructor chez Databricks
▪ A rejoint Databricks en 2016
▪ Plus de 20 ans d'expérience dans l'industrie

Page 3

À propos de votre instructeur (personnel)

Doug Bateman

▪ Deux enfants
▪ 2 et 5 ans

▪ Pour le plaisir:
▪ Voile
/
▪ Escalade
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

▪ Snowboard (mal)
▪ Échecs (mal)

Page 4

Objectifs du cours

1 Décrire les principales caractéristiques d'un Data Lakehouse

2 Expliquez comment Delta Lake permet une architecture Lakehouse

3 Définir les fonctionnalités clés disponibles dans l'utilisateur Databricks SQL Analytics
interface.

Page 5

Agenda des cours /


24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

Activité

Bienvenue au cours

Introduction à l'architecture Lakehouse

Lac Delta

Présentation de Databricks SQL Analytics

Démo Databricks SQL Analytics

Récapitulation et questions et réponses

Page 6

Accéder aux diapositives

https://tinyurl.com/lakehouse-webinar

/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

Page 7

À propos de vous (sondages)

Page 8

/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

Introduction à l'architecture Lakehouse

Page 9

Décisions basées sur les données

/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

Page 10

Entrepôts de données
ont été construits à cet effet
pour la BI et le reporting, BI Rapports
toutefois…

▪ Pas de support pour la vidéo, l'audio, le texte Entrepôts de données

▪ Pas de support pour la science des données, ML


▪ Prise en charge limitée du streaming
▪ Formats fermés et propriétaires ETL

Par conséquent, la plupart des données sont stockées dans


lacs de données et magasins d'objets blob Données externes Donnée opérationnelle

Page 11

Lacs de données /
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

pourrait stocker toutes vos données


et déterminez ce que vous Données Machine Temps réel Rapports BI
veux savoir plus tard Science Apprentissage Base de données

▪ Mauvaise prise en charge de la BI


Préparation des données etETL
▪ Complexe à mettre en place Validation Données
Entrepôts
▪ Mauvaise performance
▪ Marécages de données peu fiables Data Lake

Structuré, semi-structuré et non structuré


Données

Page 12
Comment tirer le meilleur parti des deux mondes?

BI Rapports Données Machine Temps réel Rapports BI


Science Apprentissage Base de données

Entrepôts de données
Préparation des données etETL
Validation Données
Entrepôts /
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

ETL Data Lake

Données externes Donnée opérationnelle Structuré, semi-structuré et non structuré


Données

Page 13
Maison au bord du lac

Entrepôt de données Data Lake

Diffusion BI Données Machine


Analytique Science Apprentissage

Structuré, semi-structuré et non structuré


Données

Page 14
/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

Résumé de Lakehouse
Un Lakehouse présente les caractéristiques clés suivantes:
● prise en charge de divers types et formats de données
● fiabilité et cohérence des données
● prise en charge de diverses charges de travail (BI, data science, machine
apprentissage et analyse)
● capacité à utiliser les outils BI directement sur les données sources

Page 15

Construire un Lakehouse
Les composants de base dont nous avons besoin pour construire un Lakehouse

1. Votre lac de données (stockage blob cloud, format open source)


2. Couche de transaction pour assurer la cohérence (Delta)
3. Flux de travail ETL et de nettoyage des données (Spark + Databricks Delta Pipelines)
4. Sécurité, intégrité des données et performances (Databricks Delta Engine)
5. En plus des intégrations pour toutes vos communautés d'utilisateurs:
une. SQL (Databricks SQL Analytics) /
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

b. Outils et tableaux de bord BI


c. ML
ré. Diffusion

Page 16

Lac Delta

Page 17
/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

L'émergence des lacs de données


Stockage durable et vraiment bon marché
10 neuf de durabilité. Pas cher. Échelle infinie.

Stockez tous les types de données brutes


Vidéo, audio, texte, structuré, non structuré

Formats ouverts et standardisés


Format parquet, grand écosystème d'outils fonctionnent sur ces fichiers
les formats

Page 18

Les défis des lacs de données


1. Difficile d'ajouter des données
L'ajout de données nouvellement arrivées entraîne des lectures incorrectes

2. La modification des données existantes est difficile


Le RGPD / CCPA nécessite d'apporter des modifications fines à
lac de données existant /
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

3. Les travaux échouent à mi-chemin


La moitié des données apparaît dans le lac de données, le reste est manquant

Page 19

Les défis des lacs de données


4. Opérations en temps réel
Mélanger le streaming et le lot conduit à des incohérences

5. Il est coûteux de conserver les versions historiques des données


Les environnements réglementés nécessitent la reproductibilité, l'audit,
la gouvernance

6. Difficile de gérer de grandes métadonnées


Pour les grands lacs de données, les métadonnées elles-mêmes deviennent difficiles à
gérer

Page 20 /
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

Les défis des lacs de données


7. Problèmes de «trop de fichiers»
Les lacs de données ne sont pas parfaits pour gérer des millions de petits fichiers

8. Difficile d'obtenir de bonnes performances


Le partitionnement des données pour les performances est sujet aux erreurs et
difficile à changer

9. Problèmes de qualité des données


C'est un casse-tête constant de s'assurer que toutes les données sont correctes
et de haute qualité

Page 21

Une nouvelle norme pour la construction de lacs de données


Une approche avisée de
création de lacs de données

■ Ajoute fiabilité, qualité,


performances pour Data Lakes
■ Apporte le meilleur des données /
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

entreposage et data lake


■ Basé sur l'open source et
format ouvert (Parquet) - Delta
Lake est également open source

Page 22

1. Difficile d'ajouter des données

2. Modification difficile des données existantes

3. Les travaux échouent à mi-chemin

4. Opérations en temps réel difficiles

5. Coûteux de conserver les versions des données historiques

6. Difficile de gérer de grandes métadonnées

7. Problèmes de «trop de fichiers»

8. Mauvaises performances

9. Problèmes de qualité des données

Page 23 /
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

1. Difficile d'ajouter des données Transactions ACID


2. Modification difficile des données existantes
Rendre chaque opération transactionnelle
3. Les travaux échouent à mi-chemin
• Il réussit pleinement - ou il est pleinement
abandonné pour des tentatives ultérieures
4. Opérations en temps réel difficiles

5. Coûteux de conserver les versions des données historiques


/ chemin / vers / table / _delta_log
6. Difficile de gérer de grandes métadonnées - 0000.json
- 0001.json
7. Problèmes de «trop de fichiers»
- 0002.json
8. Mauvaises performances -…
- 0010.parquet
9. Problèmes de qualité des données

Page 24

1. Difficile d'ajouter des données Transactions ACID


2. Modification difficile des données existantes
Rendre chaque opération transactionnelle
3. Les travaux échouent à mi-chemin
• Il réussit pleinement - ou il est pleinement
abandonné pour des tentatives ultérieures
4. Opérations en temps réel difficiles

5. Coûteux de conserver les versions des données historiques


/ chemin / vers / table / _delta_log
6. Difficile de gérer de grandes métadonnées /
- 0000.json
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

- 0001.json Ajouter file2.parquet

{
7. Problèmes de «trop de fichiers» ...
- 0002.json
8. Mauvaises performances -…
- 0010.parquet Ajouter file1.parquet

9. Problèmes de qualité des données

Page 25

1. Difficile d'ajouter des données Transactions ACID


2. Modification difficile des données existantes
Rendre chaque opération transactionnelle
3. Les travaux échouent à mi-chemin
• Il réussit pleinement - ou il est pleinement
abandonné pour des tentatives ultérieures
4. Opérations en temps réel difficiles

5. Coûteux de conserver les versions des données historiques


/ chemin / vers / table / _delta_log
6. Difficile de gérer de grandes métadonnées - 0000.json

{
- 0001.json
7. Problèmes de «trop de fichiers» Ajouter file3.parquet
- 0002.json ...
8. Mauvaises performances -… Supprimer file1.parquet
- 0010.parquet
9. Problèmes de qualité des données

/
Piste 26
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

1. Difficile d'ajouter des données Transactions ACID


2. Modification difficile des données existantes
Rendre chaque opération transactionnelle
3. Les travaux échouent à mi-chemin
• Il réussit pleinement - ou il est pleinement
abandonné pour des tentatives ultérieures
4. Opérations en temps réel difficiles

5. Coûteux de conserver les versions des données historiques


/ chemin / vers / table / _delta_log
6. Difficile de gérer de grandes métadonnées - 0000.json
- 0001.json
7. Problèmes de «trop de fichiers»
- 0002.json
8. Mauvaises performances -…
- 0010.parquet
9. Problèmes de qualité des données - 0010.json
- 0011.json

Page 27

1. Difficile d'ajouter des données Transactions ACID


2. Modification difficile des données existantes Rendre chaque opération transactionnelle

3. Les travaux échouent à mi-chemin • Il réussit pleinement - ou il est pleinement


abandonné pour des tentatives ultérieures
4. Opérations en temps réel difficiles

Examiner les transactions passées


5. Coûteux de conserver les versions des données historiques

• Toutes les transactions sont enregistrées et vous /


6. Difficile de gérer de grandes métadonnées peut remonter le temps pour revoir les précédents
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

versions des données (c. -à-d. voyage dans le temps )


7. Problèmes de «trop de fichiers»

8. Mauvaises performances SELECT * FROM événements


HORAIRE À PARTIR DE ...
9. Problèmes de qualité des données
SELECT * FROM événements
VERSION À PARTIR DE ...

Page 28

1. Difficile d'ajouter des données Spark sous le capot


2. Modification difficile des données existantes
• Spark est conçu pour gérer de grandes
3. Les travaux échouent à mi-chemin quantités de données

4. Opérations en temps réel difficiles • Toutes les métadonnées de Delta Lake stockées en ouvert
Format du parquet
5. Coûteux de conserver les versions des données historiques
• Certaines parties de celui-ci sont mises en cache et optimisées pour
accès rapide
6. Difficile de gérer de grandes métadonnées
• Les données et leurs métadonnées coexistent toujours.
7. Problèmes de «trop de fichiers» Pas besoin de synchroniser les données du catalogue <>
8. Mauvaises performances

9. Problèmes de qualité des données

/
Page 29
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

1. Difficile d'ajouter des données Consolidation de fichiers


2. Modification difficile des données existantes
Optimiser automatiquement une mise en page qui
3. Les travaux échouent à mi-chemin permet un accès rapide

4. Opérations en temps réel difficiles • Partitionnement: mise en page pour les requêtes typiques
• Saut de données: élaguez les fichiers en fonction
5. Coûteux de conserver les versions des données historiques statistiques sur les nombres

6. Difficile de gérer de grandes métadonnées • Ordre Z: mise en page pour optimiser plusieurs
Colonnes
7. Problèmes de «trop de fichiers»

8. Mauvaises performances
OPTIMISER les événements
ZORDER BY (eventType)
9. Problèmes de qualité des données

Piste 30

1. Difficile d'ajouter des données Validation du schéma


2. Modification difficile des données existantes

Validation et évolution du schéma


3. Les travaux échouent à mi-chemin
• Toutes les données des tables delta doivent adhérer
4. Opérations en temps réel difficiles à un schéma strict (étoile, etc.)
• Inclut l'évolution du schéma dans la fusion
5. Coûteux de conserver les versions des données historiques les opérations
/
6. Difficile de gérer de grandes métadonnées
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

MERGE INTO événements


7. Problèmes de «trop de fichiers» UTILISATION des modifications
ON events.id = changes.id
8. Mauvaises performances
LORSQU'UNE CORRESPONDANCE ALORS
MISE À JOUR SET *
9. Problèmes de qualité des données
QUAND NON ASSORTIE ALORS
INSÉRER *

Piste 31

Résumé du lac Delta

▪ Élément central d'un Lakehouse


architecture
▪ Offre une cohérence garantie
parce qu'il est conforme ACID
▪ Stockage de données robuste
▪ Conçu pour fonctionner avec Apache
Étincelle

/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

Piste 32

Éléments du lac Delta

▪ Architecture Delta
▪ Couche de stockage Delta
▪ Delta Engine

Piste 33

Architecture delta

Bronze Argent Or
Diffusion /
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

LES DONNÉES Analytique


Brut Filtré, nettoyé, Niveau commercial
Ingestion Augmenté Agrégats
IA et
Qualité des données Rapports

Piste 34

Couche de stockage Delta

Diffusion BI Données Machine


Une plateforme pour chaque cas d'utilisation
Analytique Science Apprentissage

Couche transactionnelle structurée

Data Lake pour toutes vos données


Structuré, semi-structuré et non structuré
Données

/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

Piste 35

Moteur Delta de Databricks


Performance
Diffusion BI Données Machine
Analytique Science Apprentissage

▪ Optimisations de la gestion des fichiers


▪ Optimisation des performances avec MOTEUR DELTA
Delta Caching
▪ Élagage dynamique des fichiers
▪ Exécution adaptative des requêtes

Structuré, semi-structuré et
Données non structurées

Piste 36

Une plateforme pour chaque utilisation


Diffusion
Analytique
BI Données
Science
Machine
Apprentissage
Cas
Requête haute performance
MOTEUR DELTA moteur /
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

Transactionnel structuré
couche

Data Lake pour toutes vos données


Structuré, semi-structuré et
Données non structurées

Piste 37

Analyse SQL

/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

Piste 38

Décisions basées sur les données

Cadres

Ventes

Commercialisation
Données
analystes
La finance

Opérations

Piste 39

Défis résolus par Delta Lake

Incomplet Données périmées Complexité


silos de données
/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

Piste 40
Interface utilisateur SQL native

▪ Éditeur SQL familier


▪ Saisie automatique
▪ Visualisations intégrées
▪ Navigateur de données

/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

Piste 41

Interface utilisateur SQL native

▪ Éditeur SQL familier


▪ Saisie automatique
▪ Visualisations intégrées
▪ Navigateur de données
▪ Alertes automatiques
▪ Déclenchement basé sur
valeurs
▪ E-mail ou Slack
l'intégration

Piste 42
Interface utilisateur SQL native
▪ Éditeur SQL familier
▪ Saisie automatique
▪ Visualisations intégrées
▪ Navigateur de données
/
Alertes automatiques
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse


▪ Déclenchement basé sur
valeurs
▪ E-mail ou Slack
l'intégration
▪ Tableaux de bord
▪ Convertissez simplement les requêtes en
tableaux de bord
▪ Partager avec accès
Contrôler
Connecteurs intégrés pour la BI existante
Piste 43

outils

▪ Prend en charge votre outil préféré


▪ Connecteurs pour les meilleurs BI et SQL
clients
▪ Configuration de connexion simple
▪ Des performances optimisées
Autres clients BI et SQL
ce soutien
▪ OAuth et authentification unique
▪ Authentification simple et rapide
vivre. Pas besoin de s'occuper
jetons d'accès.
▪ Power BI disponible maintenant
/
▪ D'autres à venir
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

Piste 44

Démo SQL Analytics

Piste 45

Rejoignez-nous pour la partie 2

Connectez-vous et utilisez SQL Analytics:


/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

15 décembre à 10h (heure de San Francisco)


Merci d'être venu!

Piste 46

Installer &
Administration

/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

Piste 47
Points de terminaison SQL

Calcul optimisé SQL


Les points de terminaison SQL offrent un moyen rapide de configuration
Calcul optimisé SQL / BI. Vous choisissez un
Taille du T-shirt. Databricks assurera
configuration qui fournit le plus haut
prix / performances.

Mise à l'échelle de la concurrence intégrée


[Aperçu privé]
Les clusters virtuels peuvent charger les requêtes d'équilibrage
à travers plusieurs clusters dans les coulisses,
offrant une concurrence illimitée.

Piste 48
Historique des requêtes

Journal des requêtes central


Suivez et comprenez l'utilisation dans le virtuel
clusters, utilisateurs et temps. Observez facilement
charges de travail dans Redash, les outils BI et tout
autre utilisation du client SQL. /
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

Dépanner et déboguer
L'histoire est le point de départ de
comprendre / trier les erreurs et
les problèmes de performance. Aller dans les détails
Créez un profil de requête Spark si nécessaire.

Piste 49

Performance

/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

Piste 50

Performances - Durée de vie d'une requête

Databricks
Analyse SQL

Client BI et SQL ODBC / JDBC Routage Mettre en doute Mettre en doute Lac DELTA
Connecteurs Conducteurs Un service Planification Exécution

DATABRICKS CONFIDENTIEL

Piste 51
Prix / performances jusqu'à 9 fois supérieurs

Prix / performances du TPC-DS 30 To


Plus bas est
meilleurs
/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse

Piste 52

Agenda des cours

Activité Durée

Bienvenue au cours 5 min

Introduction à l'architecture Lakehouse 5 min

Lac Delta 10 minutes

Présentation de Databricks SQL Analytics 5 min

Démo Databricks SQL Analytics 20 min

Récapitulation et questions et réponses 15 minutes

Vous aimerez peut-être aussi