Ch2 (Part 2)

1
République Algérienne Démocratique & Populaire

Ministère de l’Enseignement Supérieur & de la Recherche Scientifique
Ecole Supérieure en Informatique 08 mai 1945 de Sidi Bel Abbes
Année universitaire : 2023-2024 Semestre 1

3 SC : SIW & ISI Module : Big Data
2
Présentation
• SparkSQL rajoute une couche simili-SQL au dessus des RDD de Spark. Ça

s’appuie sur deux concepts :
 DataFrames : ce sont des tables SparkSQL : des données sous forme de
colonnes nommées. On peut les construire à partir de fichiers JSON, de RDD,
etc.
 RDDSchema : c'est la définition de la structure d'un DataFrame. C'est la liste
des colonnes et de leurs types. Un RDDSchema peut être défini à l'aide d'un
fichier JSON.
3
Début d’un programme
• Un programme pySparkSQL doit commencer par ceci :
from pyspark import SparkConf, SparkContext, SQLContext

from pyspark.sql.functions import *
nomappli = "essai1"
config = SparkConf().setAppName(nomappli)
sc = SparkContext(conf=config)#Ou sc = SparkContext.getOrCreate();
sqlContext = SQLContext(sc)
• sqlContext représente le contexte SparkSQL. C’est un objet qui possède

plusieurs méthodes dont celles qui créent des DataFrames et celles qui
permettent de lancer des requêtes SQL.
4
Créer un DataFrame à partir d’un fichier JSON
df = sqlContext.read.json("/content/fichier.json")
5
Créer un DataFrame à partir d’un RDD
• Il faut indiquer le schéma. Un schéma est une liste de StructField. Chacun est
un couple (nom, type) :
## création d'un RDD sur le fichier personnes.csv
fichier = sc.textFile("/content/personnes.csv")
tableau = fichier.map(lambda ligne: ligne.split(“,"))
## définition du schéma
champ0 = StructField("id", IntegerType())
champ1 = StructField("nom", StringType())
champ2 = StructField("prenom", StringType())
champ3 = StructField("age", IntegerType())
schema = StructType([champ0,champ1,champ2,champ3])
## création d'un DataFrame sur le RDD

personnes = sqlContext.createDataFrame(tableau, schema)
6
Créer un DataFrame à partir d’un RDD
• personnes est un DataFrame contenant les données et le schéma.

• Pour supprimer l’en-tête des données :
header = tableau.first() #extract header

tableau = tableau.filter(lambda row : row != header) #filter out header
• Pour changer le type de données :
p = personnes.withColumn("age", col("age").cast("Integer"))
7
Extraction d’informations d’un DataFrame
• La propriété columns retourne la liste des noms des colonnes :
print(personnes.columns)
8
Donner un nom de table SQL à un DataFrame
• Cela consiste à donner un nom désignant la future table SQL contenue dans le
DataFrame. C'est une opération nécessaire pour exécuter des requêtes SQL. En
effet, la variable personnes contenant le DataFrame ne connaît pas son propre
nom.
personnes.registerTempTable("personnes")
• Le DataFrame pourra être utilisé dans une requête SQL sous le nom personnes.
Il est donc commode de remettre le même nom que le DataFrame.
• Remarque: ce n’est qu’une table temporaire, elle disparaît à la fin du

programme.
9
Exemple de requête SQL
• Une fois que le DataFrame est rempli et nommé, on peut l’interroger. Il y a

plusieurs moyens. Le premier est d’écrire directement une requête SQL:
resultat = sqlContext.sql("SELECT nom FROM personnes")

for r in resultat.collect():
print(r.nom)
• Le résultat de la méthode sql est un nouveau DataFrame contenant le résultat

de la requête.
10
API SparkSQL
• Un autre moyen pour écrire des requêtes est d’appeler les méthodes de l’API
SparkSQL.
• L’API SparkSQL pour Python est très complète. Elle comprend plusieurs classes
ayant chacune de nombreuses méthodes :
 DataFrame représente une table de données relationnelles.
 Column représente une colonne d’un DataFrame.
 Row représente une ligne d’un DataFrame.
• Ces classes permettent d’écrire une requête SQL autrement qu’en SQL, à l’aide
d’appels de méthodes enchaînés.
11
Exemple de requête par l’API
• Soit une table de clients (idclient, nom) et une table d’achats (idachat, idclient,
montant).
• On veut afficher les noms des clients ayant fait au moins un achat d’un montant
supérieur à 30.
• En SQL, on écrit :
SELECT DISTINCT nom FROM achats JOIN clients

ON achats.idclient = clients.idclient
AND achats.montant > 30.0;
• En pySparkSQL :
resultat = achats.filter(achats.montant > 30.0) \

.join(clients, clients.idclient == achats.idclient) \
.select("nom") \
.distinct()
12
Classe DataFrame
• C’est la classe principale. Elle définit des méthodes à appliquer aux tables. Il y
en a quelques unes à connaître :
 filter(condition) retourne un nouveau DataFrame qui ne contient que les lignes
qui satisfont la condition. Cette condition peut être écrite dans une chaîne SQL
ou sous forme d'une condition Python.
resultat = achats.filter("montant > 30.0")

resultat = achats.filter(achats.montant > 30.0)
• Remarquer la différence de nommage des champs.

13
Méthodes de DataFrame
• count() retourne le nombre de n-uplets (lignes) du DataFrame concerné.

• distinct() retourne un nouveau DataFrame ne contenant que les n-uplets
distincts.
• limit(n) retourne un nouveau DataFrame ne contenant que les n premiers n-
uplets.
• join(autre, condition) fait une jointure entre self et autre sur la condition.
• collect() retourne le contenu de self sous forme d’une liste de Row. On peut
l’utiliser pour un affichage final.
14
• isin () : La fonction isin permet de filtrer les lignes d'un DataFrame en vérifiant
si la valeur d’une colonne donnée appartient une liste de valeurs spécifiée. Elle
renvoie un booléen indiquant si chaque ligne respecte la condition.
# PySpark isin()
listValues = ["Java","Scala"]
df.filter(df.languages.isin(listValues)).show()
from pyspark.sql.functions import col

df.filter(col("languages").isin(listValues)).show()
# Using IN operator
df.filter("languages in ('Java','Scala')" ).show()
15
• subtract() : La fonction subtract permet de soustraire les lignes d'un DataFrame

source par rapport à un autre DataFrame. Elle renvoie les lignes du premier
DataFrame qui ne sont pas présentes dans le deuxième.
• Exemple : Imaginons deux DataFrames, df1 et df2, et vous voulez obtenir les
lignes de df1 qui ne se trouvent pas dans df2. Vous pouvez utiliser la fonction
subtract comme suit :
diff_df = df1.subtract(df2)
• Dans diff_df, vous obtiendrez les lignes de df1 qui ne sont pas présentes dans
df2.
16
Agrégation
• groupBy(colonnes) regroupe les n-uplets qui ont la même valeur pour les
colonnes qui sont désignées par une chaîne SQL. Cette méthode retourne un
objet appelé GroupedData sur lequel on peut appliquer les méthodes
suivantes :
 count() : nombre d’éléments par groupe.
 avg(colonnes) : moyenne des colonnes par groupe.
 max(colonnes), min(colonnes) : max et min des colonnes par groupe.
 sum(colonnes) : addition des colonnes par groupe.
• Exemple :
X = achats.groupBy("idclient").sum("montant")
Y = achats.groupBy("idclient").count()
17
Classement
• sort(colonnes) classe les n-uplets de self selon les colonnes, dans l'ordre
croissant.
• Si on spécifie la colonne par un nom pyspark (table.champ, on peut lui
appliquer la méthode desc() pour classer dans l'ordre décroissant ;
• sinon, il faut employer la fonction desc(colonnes) pour classer dans l'ordre
décroissant.
• Exemple :
topa = achats.groupBy("idclient").sum("montant") \
.sort(desc("SUM(montant)")).first()
• La méthode first retourne le premier n-uplet de self.

18
Bibliographie
 Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, et Josh Wills, Advanced
Analytics with PySpark, O'REILLY, 2022
 Benjamin Renaut, Apache Spark – Présentation et architecture, Support de
Cours, 2020
 Hien Luu, Beginning Apache Spark 3, Apress, 2021
 Moussa Keita, Big Data and Technologies of Storage and Processing of Massive
Data, Rapport technique, 2021
 Bill Chambers et Matei Zaharia, Spark : The Definitive Guide, 2018
 ….
19
Merci pour votre attention

Ch2 (Part 2)

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Ch2 (Part 2)

Transféré par

Droits d'auteur :

Formats disponibles

1

République Algérienne Démocratique & Populaire

Année universitaire : 2023-2024 Semestre 1

• SparkSQL rajoute une couche simili-SQL au dessus des RDD de Spark. Ça

Début d’un programme

• Un programme pySparkSQL doit commencer par ceci :

from pyspark import SparkConf, SparkContext, SQLContext

• sqlContext représente le contexte SparkSQL. C’est un objet qui possède

Créer un DataFrame à partir d’un fichier JSON

Créer un DataFrame à partir d’un RDD

## création d'un DataFrame sur le RDD

Créer un DataFrame à partir d’un RDD

• personnes est un DataFrame contenant les données et le schéma.

header = tableau.first() #extract header

• Pour changer le type de données :

Extraction d’informations d’un DataFrame

• La propriété columns retourne la liste des noms des colonnes :

Donner un nom de table SQL à un DataFrame

• Remarque: ce n’est qu’une table temporaire, elle disparaît à la fin du

Exemple de requête SQL

• Une fois que le DataFrame est rempli et nommé, on peut l’interroger. Il y a

resultat = sqlContext.sql("SELECT nom FROM personnes")

• Le résultat de la méthode sql est un nouveau DataFrame contenant le résultat

Exemple de requête par l’API

SELECT DISTINCT nom FROM achats JOIN clients

resultat = achats.filter(achats.montant > 30.0) \

resultat = achats.filter("montant > 30.0")

• Remarquer la différence de nommage des champs.

• count() retourne le nombre de n-uplets (lignes) du DataFrame concerné.

from pyspark.sql.functions import col

• subtract() : La fonction subtract permet de soustraire les lignes d'un DataFrame

• La méthode first retourne le premier n-uplet de self.

Merci pour votre attention

Vous aimerez peut-être aussi