Académique Documents
Professionnel Documents
Culture Documents
NEJJARI AMAL
MASTER IPS FSR
Contents
1. Objectif du TP : .............................................................................. 2
2. Importation de bibliothèques ........................................................ 2
3. Importation du Kmeans qui se trouve dans le module clustering
du bibliotheque pyspark.mllib et SparkContext et sparkConf pour
créer une instance spark (sc) ............................................................... 3
4. Présentation de l’ensemble de données Iris .................................. 3
5. Importation du dataset iris sous forme de RDD a l’aide de la
fonction textFile, et vérification des cinq premières lignes pour on
s’assure que les données sont chargées correctement. ...................... 3
6. Création d’une fonction error ........................................................ 4
7. Conclusion ..................................................................................... 5
1. Objectif du TP :
L’objectif de ce TP c’est de réaliser une classification au dataset iris en utilisant l’algorithme
kmeans sous Spark mllib.
2. Importation de bibliothèques
La bibliothèque NumPy vous permet d’effectuer des calculs numériques avec Python. Elle
introduit une gestion facile des tableaux de nombres.
sqrt() est une fonction intégrée dans le langage de programmation Python qui renvoie la
racine carrée de n’importe quel nombre.
Principal point d’entrée pour la fonctionnalité Spark. Un SparkContext représente la
connexion à un cluster Spark, et peut être utilisé pour créer des variables RDD et de diffusion
sur ce cluster.
Lorsque vous créez un nouveau SparkContext, au moins le nom du maître et de l’application
doit être défini, soit par les paramètres nommés ici ou par conf.
nous avons créé un contexte d’étincelles avec le maître local et iris_KMeans comme nom
d’application.
nous exécuterons la commande ci-dessous pour installer pyspark :
3. Importation du Kmeans qui se trouve dans le module clustering du
bibliotheque pyspark.mllib et SparkContext et sparkConf pour créer
une instance spark (sc)
Analyser les données en utilisant la fonction map où nous divisons les données en utilisant
le délimiteur ",".vérification du type de variable data_map .
Dans cette étape on va prendre juste les variables quand va utiliser pour la prédiction (length
and width of sepals and petals)