Académique Documents
Professionnel Documents
Culture Documents
- Les caractéristiques de
Pyspark .
- Pyspark avec python et
scala.
- Contenu du Pyspark.
- Sous-paquets Pyspark
(Pyspark subpackages)
- Les entreprises qui utilisent
Pyspark.
- Qu'est-ce que Pyspark ?
Pyspark est l'API Python pour supporter Apache Spark. PySpark fournit la
bibliothèque Py4j, avec l'aide de cette bibliothèque, Python peut être facilement
intégré à Apache Spark. PySpark joue un rôle essentiel lorsqu'il s'agit de travailler
avec un vaste ensemble de données ou de les analyser. Cette caractéristique de
PySpark en fait un outil très demandé par les ingénieurs de données.
- Les caractéristiques de Pyspark .
Calcul en mémoire
Évaluation
paresseuse
Partitionnement
Persistance
Fonctionnement à
gros grains
- Pyspark avec python et scala.
Les caractéristiques
Performance Python est plus lent que Scala Spark est écrit en Scala, il
lorsqu'il est utilisé avec spark s'intègre donc bien et est plus
rapide que Python.
Courbe Python a une syntaxe simple et, Scala a une syntaxe complexe et
d'apprentissage étant un langage de haut niveau, n'est donc pas facile à apprendre.
il est facile à apprendre.
Il s'agit d'opérations
Certaines opérations (telles que
(telles que reduce, first,
map, filter, join et union) sont
count) qui renvoient une
effectuées sur un RDD et
valeur après avoir
produisent un nouveau RDD
effectué un calcul sur un
contenant le résultat.
RDD.
Programme PySpark pour
retourner le nombre d'éléments
Créer un RDD PySpark dans le RDD
PySpark _StorageLevel
StorageLevel décide si le RDD doit être stocké dans la mémoire ou sur le disque,
ou les deux.
PySpark _ Dataframe
DataFrames dans PySpark est une collection distribuée de lignes avec des colonnes
nommées .
Caractéristiques des RDD :
Immuable par nature
Évaluation paresseuse
Distribution