Académique Documents
Professionnel Documents
Culture Documents
Pour cela vous disposez de fichier à disposition dans un datalake azure. Le format de
ces fichiers
Créer une zone bronze pour recueillir les données alimentées en 1 pour 1 (sans
transformation en provenance de nos différent applicatif. Cette zone servira
de zone de base pour les data scientist mais aussi elle permettra de conduire
la logique d’ingestion des données quotidienne. Cette zone sera directement
alimentée à partir des fichiers du datalake.
Proposer sous forme de schéma (draw io ou autre) une architecture qui détaille
quel type de composant est utilisée pour chaque zone.
2. Le client a émis la volonté d’être en capacité d’assurer lui-même le premier
niveau de maintenance, il vous a été demandé de choisir un outil de
transformation des données en mode graphique compatible avec le datalake
azure et avec le lakehouse « snowflake ». Installer l’outil matillion depuis
snowflake.
https://docs.snowflake.com/en/sql-reference/sql/create-warehouse
https://docs.snowflake.com/en/sql-reference/sql/create-database
https://docs.snowflake.com/en/sql-reference/sql/create-schema
La liste des villes de Californie vous a été fournie sous forme de fichier CSV par mail
par le métier. Ces données sont des données de référence qui ne sont pas ou peu
amener à changer. Choisir une méthode pour charger ce fichier dans le datalake et
déterminer l’emplacement le plus appropriée pour ce fichier.
Chargement des données depuis le datalake
1. Suivre la procédure pour créer un lien avec mon datalake azure afin de
permettre le chargement dans la zone bronze de snowflake des données en
provenance de mon datalake : https://docs.snowflake.com/fr/user-
guide/data-load-azure-config
STORAGE INTEGRATION
D’un stage qui pointe sur le conteneur raw
STORAGE_ALLOWED_LOCATIONS=
('azure://demoepsidl.blob.core.windows.net/raw/')
AZURE_TENANT_ID = d7c9c94d-28a2-4298-a72e-b1bee01d5b58
2. Lister le contenu de mon stage, et vérifier que vous avez bien accès à tous les
fichiers : https://docs.snowflake.com/en/sql-reference/sql/list
3. Créer une table externe nommée « ext-ref-vehicule » sur le schéma « ext » sur
les fichiers « all-vehicles-model » sans spécifier les colonnes
4. Créer une requête SQL simple sur votre table nouvellement créé en limitant la
volumétrie avec un top 5. Quelle est la structure de la table ?
5. Créer deux tables interne snowflake avec les schémas suivants :
Table Ref-vehicule
Colonne Typage
Make Varchar(50)
basemodel Varchar(50)
Table vehicule-population
Colonne Typage
VIN (1-10) Varchar(50)
County Varchar(50)
City Varchar(50)
State Varchar(50)
Postal Code Varchar(50)
Model Year Varchar(50)
Make Varchar(50)
Model Varchar(50)
Electric Vehicle Type Varchar(50)
Electric Range Varchar(50)
Table Ref-vehicule
https://docs.snowflake.com/en/sql-reference/sql/copy-into-table
Automatisation du chargement dans le bronze via Matillion
1. Créer une table technique contenant la liste des fichiers de type CSV à
charger. Choisir un emplacement adéquate pour la création de cette table.
Utiliser cette table dans matillion et créer une logique d’itération pour charger toutes
ces tables.
Table Iterator
Variables
Azure Blob Storage Load