Vous êtes sur la page 1sur 9

Exercice - Explorer Azure Databricks

Dans cet exercice, nous allons explorer Azure Databricks. Nous utiliserons un script
fourni pour provisionner un espace de travail Azure Databricks dans un
abonnement Azure, puis utiliserons le portail Azure Databricks pour créer un
cluster Spark et effectuer des tâches courantes d'analyse de données.

Azure Databricks est une version basée sur Microsoft Azure de la plateforme
populaire open source Databricks. Un espace de travail Azure Databricks fournit un
point central pour la gestion des clusters, des données et des ressources Databricks
sur Azure.

Avant de démarrer

Vous aurez besoin d'un abonnement Azure dans lequel vous disposez d'un accès
de niveau administratif.

Provisionner un espace de travail Azure Databricks

Dans cet exercice, vous utiliserez un script pour provisionner un nouvel espace de
travail Azure Databricks.

1. Dans un navigateur Web, connectez-vous au portail Azure à l'adresse


https://portal.azure.com.
2. Utilisez le bouton [>_] à droite de la barre de recherche en haut de la page
pour créer un nouveau Cloud Shell dans le portail Azure, en sélectionnant un
environnement PowerShell et en créant un stockage si vous y êtes invité. Le
cloud shell fournit une interface de ligne de commande dans un volet au bas
du portail Azure, comme illustré ici :
3. Notez que vous pouvez redimensionner les dimensions du terminal en
faisant glisser la barre de séparation en haut du volet ou en utilisant les
icônes —, ◻ et X en haut à droite du volet pour réduire, agrandir et fermer
le volet.
4. 4. Dans le volet PowerShell, saisissez les commandes suivantes pour cloner
ce repo:

rm -r dp-000 -f
git clone https://github.com/MicrosoftLearning/mslearn-
databricks dp-000

5. Une fois le repo cloné, saisissez les commandes suivantes pour accéder au
dossier de ce lab et exécutez le script setup.ps1 qu'il contient :

cd dp-000/Allfiles/Labs/01
./setup.ps1
6. Si vous y êtes invité, choisissez l'abonnement que vous souhaitez utiliser
(cela ne se produira que si vous avez accès à plusieurs abonnements Azure).
7. Attendez que le script se termine - cela prend généralement environ 5
minutes, mais dans certains cas, cela peut prendre plus de temps.
8. Ouvrez le fichier setup.ps1 fourni dans le repo github et discutez du contenu
pour voir comment les ressources sont créées à l'aide de Powershell. Essayez
d'identifier les variables et les commandes Powershell qui peuvent être
utilisées pour interagir avec Azure.
9. Après l'exécution du script, identifiez dans quelle région les ressources ont
été créées.
Créer un cluster

Azure Databricks est une plateforme de traitement distribué qui utilise des clusters
Apache Spark pour traiter les données en parallèle sur plusieurs nœuds. Chaque
cluster se compose d'un nœud pilote pour coordonner le travail et de nœuds de
travail pour effectuer les tâches de traitement.

Remarque : dans cet exercice, vous allez créer un cluster à nœud unique pour
minimiser les ressources de calcul utilisées dans l'environnement de laboratoire
(dans lequel les ressources peuvent être limitées). Dans un environnement de
production, vous créez généralement un cluster avec plusieurs nœuds de travail.

10. Dans le portail Azure, examinez les services qui ont été créés après
l'exécution du script.

11. Accédez au groupe de ressources dp000-xxxxxxx qui a été créé par le script
que vous avez exécuté.

12. Séléctionner le service de resource databricksxxxxxxx pour Azure Databricks.

13. Dans la page Présentation de databricksxxxxxxx, utilisez le bouton Launch


Workspace pour ouvrir votre espace de travail Azure Databricks dans un
nouvel onglet de navigateur ; vous connecter si vous y êtes invité.

14. Si un What’s your current data project? message s'affiche, sélectionnez


Finish pour le fermer.
15. Affichez le portail de l'espace de travail Azure Databricks et notez que la
barre latérale sur le côté gauche contient des icônes pour les différentes
tâches que vous pouvez effectuer. La barre latérale se développe pour
afficher les noms des catégories de tâches.
16. 14. Sélectionnez la tâche (+) Create, puis sélectionnez Cluster.

Remarque : Si une astuce s'affiche, utilisez le bouton Got it pour la fermer. Cela
s'applique à tous les futurs conseils qui peuvent être affichés lorsque vous
naviguez dans l'interface de l'espace de travail pour la première fois.

17. Dans la page New Cluster, créer un nouveau cluster avec la configuration
suivante selon la figure fournie:
o Cluster name: User Name’s cluster (the default cluster name)
o Cluster mode: Single Node
o Access mode (if prompted): Single user
o Databricks runtime version: 10.4 LTS (Scala 2.12, Spark 3.2.1)
o Use Photon Acceleration: Unselected
o Node type: Standard_DS3_v2
o Terminate after 30 minutes of inactivity
18. Attendez que le cluster soit crée ce qui peut prendre quelques minutes.

Remarque : Si votre cluster ne démarre pas, votre abonnement peut avoir un quota
insuffisant dans la région où votre espace de travail Azure Databricks est
provisionné. Si cela se produit, vous pouvez essayer de supprimer votre espace de
travail et d'en créer un nouveau dans une région différente. Vous pouvez spécifier
une région comme paramètre pour le script de configuration comme ceci :
./setup.ps1 eastus.

Utiliser Spark pour analyser un fichier de données

Comme dans de nombreux environnements Spark, Databricks prend en charge


l'utilisation de blocs-notes ou Notebooks pour combiner des notes et des cellules
de code interactives que vous pouvez utiliser pour explorer des données.

19. Dans la barre latérale, utilisez la tâche (+) Créer pour créer un bloc-notes avec
les propriétés suivantes :
o Name: Explore products
o Default language: Python
o Cluster: User Name’s cluster
20. Dans le bloc-notes Explore products, dans le menu File, sélectionnez Upload
Data.
21. Dans la boîte de dialogue Upload Data, notez le répertoire cible DBFS Target
Directory dans lequel le fichier sera téléchargé. Sélectionnez ensuite la zone
Files et dans la boîte de dialogue Open, dans la zone File, tapez

https://raw.githubusercontent.com/MicrosoftLearning/mslearn-
databricks/main/Allfiles/Labs/01/adventureworks/products.csv

et sélectionnez Open. Ensuite, une fois le fichier téléchargé, sélectionnez Next.

Conseil : Si votre navigateur ou votre système d'exploitation ne prend pas en


charge la saisie d'une URL dans la zone Fichier, téléchargez le fichier CSV sur
votre ordinateur, puis téléchargez-le depuis le dossier local où vous l'avez
enregistré.

22. Dans le volet Access files from notebooks, sélectionnez l'exemple de code
PySpark et copiez-le dans le presse-papiers. Vous l'utiliserez pour charger les
données du fichier dans un DataFrame. Sélectionnez ensuite Done.
23. Dans le bloc-notes Explore products, dans la cellule de code vide, collez le
code que vous avez copié ; qui devrait ressembler à ceci :

df1 = spark.read.format("csv").option("header",
"true").load("dbfs:/FileStore/shared_uploads/user@outlook.com/
products_1_.csv")

24. Utilisez l'option de menu ▸ Run Cell la cellule en haut à droite de la cellule
pour l'exécuter, en démarrant et en attachant le cluster si vous y êtes invité.
25. Attendez que la tâche Spark exécutée par le code se termine. Le code a créé
un objet dataframe nommé df1 à partir des données du fichier que vous avez
téléchargé.
26. Sous la cellule de code existante, utilisez l'icône + pour ajouter une nouvelle
cellule de code. Puis dans la nouvelle cellule, saisissez le code suivant:

display(df1)
27. Utiliser l’option ▸ Run Cell en haut à droite de la nouvelle cellule pou
l’exécuter. Le code va afficher le contenu de la dataframe qui devrait
ressembler à quelque chose du genre:

ProductID ProductName Category ListPrice


771 Mountain-100 Silver, 38 Mountain Bikes 3399.9900
772 Mountain-100 Silver, 42 Mountain Bikes 3399.9900
… … … …

28. Au-dessus du tableau des résultats, sélectionnez + puis sélectionnez


Visualisation pour afficher l'éditeur de visualisation, puis appliquez les options
suivantes:
 Visualization type: Bar
 X Column: Category
 Y Column: Add a new column and select ProductID. Apply the Count
aggregation.

29. Enregistrez la visualisation et observez qu'elle s'affiche dans le bloc-notes,


comme ceci :
Créer et requêter une table de la base de données

Alors que de nombreuses analyses de données sont à l'aise avec des langages
comme Python ou Scala pour travailler avec des données dans des fichiers, de
nombreuses solutions d'analyse de données sont construites sur des bases de
données relationnelles ; dans lequel les données sont stockées dans des tables et
manipulées à l'aide de SQL.

30. Dans le bloc-notes Explore products, sous la sortie du graphique de la


cellule de code précédemment exécutée, utilisez l'icône + pour ajouter une
nouvelle cellule.
31. Saisissez et exécutez le code suivant dans la nouvelle cellule :

df1.write.saveAsTable("products")

32. Lorsque la cellule est terminée, ajoutez une nouvelle cellule en dessous avec
le code suivant :

%sql

SELECT ProductName, ListPrice


FROM products
WHERE Category = 'Touring Bikes';

Exécutez la nouvelle cellule, qui contient le code SQL pour renvoyer le nom et le
prix des produits de la catégorie Touring Bikes.

33. À l'aide de l'interface graphique, comment pouvez-vous télécharger toutes les


lignes du tableau résultant ?
34. Comment modifier la commande précédente pour imprimer le nombre total de
lignes renvoyées par la requête ?
35. Quelle requête SQL devons-nous utiliser pour sélectionner uniquement les
produits où ListPrice > 1000 ?
36. Quelle requête SQL devons-nous utiliser pour ordonner la table résultante par
ordre croissant.
37. Dans l'onglet de gauche, sélectionnez la tâche Data et vérifiez que la table
products a été créée dans la base de données par défaut nommée default.
38. En tant qu'utilisateur administrateur, vous pouvez gérer la capacité de vos
utilisateurs à parcourir les données dans le système de fichiers Databricks
(DBFS) à l'aide de l'interface de navigateur visuel. Pour cela, accédez à la admin
console, cliquez sur l'onglet Workspace Settings et dans la section Advanced,
cliquez sur DBFS File Browser.

Il est important d'arrêter l'exécution du cluster afin que les ressources allouées
soient libérées et qu'aucune charge ne soit appliquée.
Supprimer les ressources Azure Databricks

Maintenant que vous avez fini d'explorer Azure Databricks, vous devez supprimer
les ressources que vous avez créées pour éviter des coûts Azure inutiles et libérer
de la capacité dans votre abonnement.

39. Fermez l'onglet du navigateur de l'espace de travail Azure Databricks et


revenez au portail Azure.
40. Sur le portail Azure, sur la page Home, sélectionnez Resource groups.
41. Sélectionnez le groupe de ressources dp000-xxxxxxx (pas le groupe de
ressources gérées) et vérifiez qu'il contient votre espace de travail Azure
Databricks.
42. En haut de la page Overview de votre groupe de ressources, sélectionnez
Delete resource group.
43. Entrez le nom du groupe de ressources dp000-xxxxxxx pour confirmer que
vous souhaitez le supprimer, puis sélectionnez Delete.

Après quelques minutes, votre groupe de ressources et les groupes de ressources


d'espace de travail géré qui lui sont associés seront supprimés.

Vous aimerez peut-être aussi