Vous êtes sur la page 1sur 6

Apache SparkMlLib

NEJJARI AMAL
MASTER IPS FSR
Contents

1. Objectif du TP : .............................................................................. 2
2. Importation de bibliothèques ........................................................ 2
3. Importation du Kmeans qui se trouve dans le module clustering
du bibliotheque pyspark.mllib et SparkContext et sparkConf pour
créer une instance spark (sc) ............................................................... 3
4. Présentation de l’ensemble de données Iris .................................. 3
5. Importation du dataset iris sous forme de RDD a l’aide de la
fonction textFile, et vérification des cinq premières lignes pour on
s’assure que les données sont chargées correctement. ...................... 3
6. Création d’une fonction error ........................................................ 4
7. Conclusion ..................................................................................... 5
1. Objectif du TP :
L’objectif de ce TP c’est de réaliser une classification au dataset iris en utilisant l’algorithme
kmeans sous Spark mllib.

2. Importation de bibliothèques
La bibliothèque NumPy vous permet d’effectuer des calculs numériques avec Python. Elle
introduit une gestion facile des tableaux de nombres.
sqrt() est une fonction intégrée dans le langage de programmation Python qui renvoie la
racine carrée de n’importe quel nombre.
Principal point d’entrée pour la fonctionnalité Spark. Un SparkContext représente la
connexion à un cluster Spark, et peut être utilisé pour créer des variables RDD et de diffusion
sur ce cluster.
Lorsque vous créez un nouveau SparkContext, au moins le nom du maître et de l’application
doit être défini, soit par les paramètres nommés ici ou par conf.
nous avons créé un contexte d’étincelles avec le maître local et iris_KMeans comme nom
d’application.
nous exécuterons la commande ci-dessous pour installer pyspark :
3. Importation du Kmeans qui se trouve dans le module clustering du
bibliotheque pyspark.mllib et SparkContext et sparkConf pour créer
une instance spark (sc)

4. Présentation de l’ensemble de données Iris


L’ensemble de données Iris a été initialement publié dans le référentiel UCI Machine
Learning : Iris Data Set. Cet ensemble de données 1936 est souvent utilisé pour tester des
algorithmes et des visualisations d’apprentissage automatique.
L’ensemble de données de l’iris contient trois variantes de la fleur de l’iris. Il contient 150
instances (ligne de l’ensemble de données). Chaque instance est composée de quatre
attributs pour décrire une fleur d’iris.
L’ensemble de données est étiqueté par le type de fleur. Ainsi pour quatre attributs
décrivant une fleur d’iris, nous saurons quelle variante il est

5. Importation du dataset iris sous forme de RDD a l’aide de la fonction


textFile, et vérification des cinq premières lignes pour on s’assure que
les données sont chargées correctement.

Analyser les données en utilisant la fonction map où nous divisons les données en utilisant
le délimiteur ",".vérification du type de variable data_map .
Dans cette étape on va prendre juste les variables quand va utiliser pour la prédiction (length
and width of sepals and petals)

6. Création d’une fonction error


Elle nous permet d’évaluer notre classification en utilisant WSSSE (Within Set Sum of
Squared Errors).
Répétition avec un certain nombre de clusters (classe) spécifiés dans une plage [1,4], et pour
chaque itération en calcule l’erreur quadratique, on va bien qu’avec trois classes on arrive à
minimiser l’erreur quadratique, error=83.71.
Réellement notre dataset contient trois types de rose iris (Iris setosa, Iris virginica et Iris
versicolor)
7. Conclusion
La majeure partie du travail dans un projet de ML implique la préparation de données, le
prétraitement, la compréhension de l’algorithme et l’évaluation. Ce TP reflète, plus
implement adapter l’algorithme k-means de Spark à l’ensemble de données .

Vous aimerez peut-être aussi