Académique Documents
Professionnel Documents
Culture Documents
Page 1
Page 2
Doug Bateman
Page 3
Doug Bateman
▪ Deux enfants
▪ 2 et 5 ans
▪ Pour le plaisir:
▪ Voile
/
▪ Escalade
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse
▪ Snowboard (mal)
▪ Échecs (mal)
Page 4
Objectifs du cours
3 Définir les fonctionnalités clés disponibles dans l'utilisateur Databricks SQL Analytics
interface.
Page 5
Activité
Bienvenue au cours
Lac Delta
Page 6
https://tinyurl.com/lakehouse-webinar
/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse
Page 7
Page 8
/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse
Page 9
/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse
Page 10
Entrepôts de données
ont été construits à cet effet
pour la BI et le reporting, BI Rapports
toutefois…
Page 11
Lacs de données /
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse
Page 12
Comment tirer le meilleur parti des deux mondes?
Entrepôts de données
Préparation des données etETL
Validation Données
Entrepôts /
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse
Page 13
Maison au bord du lac
Page 14
/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse
Résumé de Lakehouse
Un Lakehouse présente les caractéristiques clés suivantes:
● prise en charge de divers types et formats de données
● fiabilité et cohérence des données
● prise en charge de diverses charges de travail (BI, data science, machine
apprentissage et analyse)
● capacité à utiliser les outils BI directement sur les données sources
Page 15
Construire un Lakehouse
Les composants de base dont nous avons besoin pour construire un Lakehouse
Page 16
Lac Delta
Page 17
/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse
Page 18
Page 19
Page 20 /
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse
Page 21
Page 22
8. Mauvaises performances
Page 23 /
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse
Page 24
{
7. Problèmes de «trop de fichiers» ...
- 0002.json
8. Mauvaises performances -…
- 0010.parquet Ajouter file1.parquet
Page 25
{
- 0001.json
7. Problèmes de «trop de fichiers» Ajouter file3.parquet
- 0002.json ...
8. Mauvaises performances -… Supprimer file1.parquet
- 0010.parquet
9. Problèmes de qualité des données
/
Piste 26
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse
Page 27
Page 28
4. Opérations en temps réel difficiles • Toutes les métadonnées de Delta Lake stockées en ouvert
Format du parquet
5. Coûteux de conserver les versions des données historiques
• Certaines parties de celui-ci sont mises en cache et optimisées pour
accès rapide
6. Difficile de gérer de grandes métadonnées
• Les données et leurs métadonnées coexistent toujours.
7. Problèmes de «trop de fichiers» Pas besoin de synchroniser les données du catalogue <>
8. Mauvaises performances
/
Page 29
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse
4. Opérations en temps réel difficiles • Partitionnement: mise en page pour les requêtes typiques
• Saut de données: élaguez les fichiers en fonction
5. Coûteux de conserver les versions des données historiques statistiques sur les nombres
6. Difficile de gérer de grandes métadonnées • Ordre Z: mise en page pour optimiser plusieurs
Colonnes
7. Problèmes de «trop de fichiers»
8. Mauvaises performances
OPTIMISER les événements
ZORDER BY (eventType)
9. Problèmes de qualité des données
Piste 30
Piste 31
/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse
Piste 32
▪ Architecture Delta
▪ Couche de stockage Delta
▪ Delta Engine
Piste 33
Architecture delta
Bronze Argent Or
Diffusion /
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse
Piste 34
/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse
Piste 35
Structuré, semi-structuré et
Données non structurées
Piste 36
Transactionnel structuré
couche
Piste 37
Analyse SQL
/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse
Piste 38
Cadres
Ventes
Commercialisation
Données
analystes
La finance
Opérations
Piste 39
Piste 40
Interface utilisateur SQL native
/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse
Piste 41
Piste 42
Interface utilisateur SQL native
▪ Éditeur SQL familier
▪ Saisie automatique
▪ Visualisations intégrées
▪ Navigateur de données
/
Alertes automatiques
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse
▪
▪ Déclenchement basé sur
valeurs
▪ E-mail ou Slack
l'intégration
▪ Tableaux de bord
▪ Convertissez simplement les requêtes en
tableaux de bord
▪ Partager avec accès
Contrôler
Connecteurs intégrés pour la BI existante
Piste 43
outils
Piste 44
Piste 45
Piste 46
Installer &
Administration
/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse
Piste 47
Points de terminaison SQL
Piste 48
Historique des requêtes
Dépanner et déboguer
L'histoire est le point de départ de
comprendre / trier les erreurs et
les problèmes de performance. Aller dans les détails
Créez un profil de requête Spark si nécessaire.
Piste 49
Performance
/
24/02/2021 Introduction SQL Analytics sur l'architecture Lakehouse
Piste 50
Databricks
Analyse SQL
Client BI et SQL ODBC / JDBC Routage Mettre en doute Mettre en doute Lac DELTA
Connecteurs Conducteurs Un service Planification Exécution
DATABRICKS CONFIDENTIEL
Piste 51
Prix / performances jusqu'à 9 fois supérieurs
Piste 52
Activité Durée