Vous êtes sur la page 1sur 2

Ecole Nationale d’Electronique et des Matière Big Data

Télécommunications de Sfax

DataFrame Spark Tutore

1. Télécharger les fichiers « database.txt », « iris num.csv », « Iris1.csv »,


« subscribers.json », « investors.parq » et placez le dans Dossier
Personnel
2. Lancer hadoop : ./start-hadoop.sh
3. Lancer Spark : pyspark
4. Créer rdd6 avec ces éléments : (allen,12),(emma,11),(allen,14)

5. Créer un dataframe df à partir de rdd6. Afficher le schéma du dataframe


ainsi que le contenu de df.
- Ajouter une liste de colonne à df. Afficher son schéma ainsi que son
contenu.
- Utiliser les deux instructions toDF et createDataFrame
6. Créer un dataframe df à partir du fihcier Iris1.csv. Utiliser spark.read.load
7. Afficher une description de df
8. Afficher le nombre d'éléments
9. Créer un dataframe df à partir du fichier iris num.csv. Utiliser
spark.read.load. Ajouter les titres des colonnes à un DF
10.Créer un dataframe df à partir du fichier Iris1.csv. Utiliser spark.read.csv
sans aucune option.
- vérifier son schéma ainsi que son contenu.
- Ajouter les options nécessaires pour corriger le chargement.
- Ecrire le résultat dans un fichier json
11.Créer un dataframe df1 à partir du fichier subscribers.json. Utiliser
spark.read.json.
- Afficher son schéma ainsi que son contenu.
- Ecrire le résultat dans un fichier csv avec titres des colonnes.
- Ecrire le résultat dans un fichier parquet.
- Comparer les tailles des deux fichiers
12.Créer un dataframe df2 à partir du fichier investors.parq. Utiliser
spark.read.parquet.
- Afficher son schéma ainsi que son contenu.
- Ecrire le résultat dans un fichier json
13.Dans df, afficher les fleurs dont petal_length>6
14.Afficher le nombre de fleurs dont petal_length>6
15.Afficher le nombre de fleurs dont petal_length>6 et sepal_length <8.
Ecrire le résultat dans un fichier json.
16.Afficher le nombre de fleurs par catégories

1
17.afficher les deux colonnes sepal_length et sepal_width
18.Afficher toutes les colonnes
19.Créer un DF dfSepal contenant les colonnes sepal_length, sepal_width et
species
20.Ajouter à dfSepal une colonne lenperwid, représentant la longueur par
rapport la largeur arrondi à 2 chiffres après le virgule. Appeler le nouveau
DF dfSepalLenWid.
21.Afficher le DF dfSepalLenWid en triant lenperwid en ordre croissant et en
utilisant la fonction sort().
22.Afficher le DF dfSepalLenWid en triant lenperwid en ordre décroissant et
en utilisant la fonction orderBy().
23.Afficher le DF dfSepalLenWid en triant lenperwid en ordre croissant et
species en ordre décroissant en utilisant la fonction orderBy().

24.Créer une table TIris à partir de df


25.Afficher les différents types des fleurs Iris
26.Afficher le nombre de fleurs par catégories
27.Charger les données à partir de sparkSQL

Vous aimerez peut-être aussi