Vous êtes sur la page 1sur 2

TD 1 : Traitement des données avec Spark

Exercice 1 :
Ecrire un programme python qui permet de :
❑ Créer une session Spark nommée « Magasin »
❑ Créer un RDD nommé « commande » partir d’un fichier « datasets/commandes.csv »
❑ Afficher les 10 premières commandes.
❑ Arrêter de la session Spark

Exercice 2 :
Soit le schéma de données suivant :
date,produit,montant,quantité
2024-01-01,Ordinateur portable,1200,2
2024-01-02,Smartphone,800,3
2024-01-03,Tablette,500,1
2024-01-04,Ordinateur portable,1500,2
2024-01-05,Smartphone,900,2

Ecrire un programme python qui permet de :


❑ Créer une session Spark nommée « Entreprise »
❑ Créer un DataFrame nommée « ventes » à partir d'un fichier CSV contenant des
données de ventes « /datasets/ventes.csv ».
❑ Affichez le schéma du DataFrame avec la méthode « printSchema() »
❑ Affichez les 5 premières ventes du DataFrame.
❑ Filtrer les ventes où le montant est supérieur à 1000.
❑ Calculez le montant total des ventes par produit.
❑ Trouvez le produit le plus vendu.
Exercice 3 :
Ecrire un programme python qui permet de :

❑ Créer une vue temporaire à partir du DataFrame nommée « ventes » chargé dans
l'exercice précédent.

Écrivez une requête SQL pour :

❑ Lister les produits et le montant de chaque produit.


❑ Afficher les produits dont le montant est supérieur à 3000.
❑ Calculer le montant total des ventes par produit.
❑ Calculer le montant total des ventes.
❑ Filtrer les ventes où le montant est supérieur à 1000 et trier par date.

Vous aimerez peut-être aussi