Académique Documents
Professionnel Documents
Culture Documents
Dans cet exercice, nous allons explorer Azure Databricks. Nous utiliserons un script
fourni pour provisionner un espace de travail Azure Databricks dans un
abonnement Azure, puis utiliserons le portail Azure Databricks pour créer un
cluster Spark et effectuer des tâches courantes d'analyse de données.
Azure Databricks est une version basée sur Microsoft Azure de la plateforme
populaire open source Databricks. Un espace de travail Azure Databricks fournit un
point central pour la gestion des clusters, des données et des ressources Databricks
sur Azure.
Avant de démarrer
Vous aurez besoin d'un abonnement Azure dans lequel vous disposez d'un accès
de niveau administratif.
Dans cet exercice, vous utiliserez un script pour provisionner un nouvel espace de
travail Azure Databricks.
rm -r dp-000 -f
git clone https://github.com/MicrosoftLearning/mslearn-
databricks dp-000
5. Une fois le repo cloné, saisissez les commandes suivantes pour accéder au
dossier de ce lab et exécutez le script setup.ps1 qu'il contient :
cd dp-000/Allfiles/Labs/01
./setup.ps1
6. Si vous y êtes invité, choisissez l'abonnement que vous souhaitez utiliser
(cela ne se produira que si vous avez accès à plusieurs abonnements Azure).
7. Attendez que le script se termine - cela prend généralement environ 5
minutes, mais dans certains cas, cela peut prendre plus de temps.
8. Ouvrez le fichier setup.ps1 fourni dans le repo github et discutez du contenu
pour voir comment les ressources sont créées à l'aide de Powershell. Essayez
d'identifier les variables et les commandes Powershell qui peuvent être
utilisées pour interagir avec Azure.
9. Après l'exécution du script, identifiez dans quelle région les ressources ont
été créées.
Créer un cluster
Azure Databricks est une plateforme de traitement distribué qui utilise des clusters
Apache Spark pour traiter les données en parallèle sur plusieurs nœuds. Chaque
cluster se compose d'un nœud pilote pour coordonner le travail et de nœuds de
travail pour effectuer les tâches de traitement.
Remarque : dans cet exercice, vous allez créer un cluster à nœud unique pour
minimiser les ressources de calcul utilisées dans l'environnement de laboratoire
(dans lequel les ressources peuvent être limitées). Dans un environnement de
production, vous créez généralement un cluster avec plusieurs nœuds de travail.
10. Dans le portail Azure, examinez les services qui ont été créés après
l'exécution du script.
11. Accédez au groupe de ressources dp000-xxxxxxx qui a été créé par le script
que vous avez exécuté.
Remarque : Si une astuce s'affiche, utilisez le bouton Got it pour la fermer. Cela
s'applique à tous les futurs conseils qui peuvent être affichés lorsque vous
naviguez dans l'interface de l'espace de travail pour la première fois.
17. Dans la page New Cluster, créer un nouveau cluster avec la configuration
suivante selon la figure fournie:
o Cluster name: User Name’s cluster (the default cluster name)
o Cluster mode: Single Node
o Access mode (if prompted): Single user
o Databricks runtime version: 10.4 LTS (Scala 2.12, Spark 3.2.1)
o Use Photon Acceleration: Unselected
o Node type: Standard_DS3_v2
o Terminate after 30 minutes of inactivity
18. Attendez que le cluster soit crée ce qui peut prendre quelques minutes.
Remarque : Si votre cluster ne démarre pas, votre abonnement peut avoir un quota
insuffisant dans la région où votre espace de travail Azure Databricks est
provisionné. Si cela se produit, vous pouvez essayer de supprimer votre espace de
travail et d'en créer un nouveau dans une région différente. Vous pouvez spécifier
une région comme paramètre pour le script de configuration comme ceci :
./setup.ps1 eastus.
19. Dans la barre latérale, utilisez la tâche (+) Créer pour créer un bloc-notes avec
les propriétés suivantes :
o Name: Explore products
o Default language: Python
o Cluster: User Name’s cluster
20. Dans le bloc-notes Explore products, dans le menu File, sélectionnez Upload
Data.
21. Dans la boîte de dialogue Upload Data, notez le répertoire cible DBFS Target
Directory dans lequel le fichier sera téléchargé. Sélectionnez ensuite la zone
Files et dans la boîte de dialogue Open, dans la zone File, tapez
https://raw.githubusercontent.com/MicrosoftLearning/mslearn-
databricks/main/Allfiles/Labs/01/adventureworks/products.csv
22. Dans le volet Access files from notebooks, sélectionnez l'exemple de code
PySpark et copiez-le dans le presse-papiers. Vous l'utiliserez pour charger les
données du fichier dans un DataFrame. Sélectionnez ensuite Done.
23. Dans le bloc-notes Explore products, dans la cellule de code vide, collez le
code que vous avez copié ; qui devrait ressembler à ceci :
df1 = spark.read.format("csv").option("header",
"true").load("dbfs:/FileStore/shared_uploads/user@outlook.com/
products_1_.csv")
24. Utilisez l'option de menu ▸ Run Cell la cellule en haut à droite de la cellule
pour l'exécuter, en démarrant et en attachant le cluster si vous y êtes invité.
25. Attendez que la tâche Spark exécutée par le code se termine. Le code a créé
un objet dataframe nommé df1 à partir des données du fichier que vous avez
téléchargé.
26. Sous la cellule de code existante, utilisez l'icône + pour ajouter une nouvelle
cellule de code. Puis dans la nouvelle cellule, saisissez le code suivant:
display(df1)
27. Utiliser l’option ▸ Run Cell en haut à droite de la nouvelle cellule pou
l’exécuter. Le code va afficher le contenu de la dataframe qui devrait
ressembler à quelque chose du genre:
Alors que de nombreuses analyses de données sont à l'aise avec des langages
comme Python ou Scala pour travailler avec des données dans des fichiers, de
nombreuses solutions d'analyse de données sont construites sur des bases de
données relationnelles ; dans lequel les données sont stockées dans des tables et
manipulées à l'aide de SQL.
df1.write.saveAsTable("products")
32. Lorsque la cellule est terminée, ajoutez une nouvelle cellule en dessous avec
le code suivant :
%sql
Exécutez la nouvelle cellule, qui contient le code SQL pour renvoyer le nom et le
prix des produits de la catégorie Touring Bikes.
Il est important d'arrêter l'exécution du cluster afin que les ressources allouées
soient libérées et qu'aucune charge ne soit appliquée.
Supprimer les ressources Azure Databricks
Maintenant que vous avez fini d'explorer Azure Databricks, vous devez supprimer
les ressources que vous avez créées pour éviter des coûts Azure inutiles et libérer
de la capacité dans votre abonnement.