Vous êtes sur la page 1sur 8

Mahamat Taher Ali Medillaye

Cheikh Seyidi MOHAMED JEDOU

Mini Projet Introduction au Big Data analytics

NB : Pour la realisation de ce projet il faut au prealable avoir installer Docker

Contexte

Nous souhaitons faire de l’analytique pour mieux comprendre les films les mieux notés et ceux
moins bien appréciés. Pour cela nous allons utilisons les bibliothèques SparkSQL et Spark MLlib.

Vous devrez faire les tests sur un cluster Spark sous docker de 5 serveurs (1 maitre et 4 esclaves).

• Etape 1 : Description des différentes étapes d’implementation du cluster Spark de 5


noeuds sous docker

Pour creer nos 5 noeuds nous avons creer et configurer un contenaire Spark dans un environnement
ubuntu que nous avions telecharger depuis Docker hub

Nous allons un creer un reseau pour nos noeuds

Creons et lancons nos trois contenaires


Demarrons les services Spark

Verifions

NB : Nous nous sommes connectes au noeud master pour demarrer le service d’ou le
resultat de la commande jps

Pour demarrer les autres on fait pareil on se connecte au noeud escalve X puis on demarre le
service.
Exemple noeud esclave 3

Vous pouvez remarque en sortie nous avons worker au lieu de slave3 c’est parce que nous avons
creer un processus worker dans un fichier nomme slaves lors de la creation de notre contenaire qui
contient tous les noeuds Slaves
Conclusion : Nous avons configure cluster Spark de 5 nœuds sous Docker

• Etape 2 : Description et résultats du déploiement et des tests sur le cluster docker

Maintenant que notre cluster Spark est opérationnel, nous pouvons procéder aux tests et à l'analyse
des données.

NB : en raison de la taille tres tres grande de notre dataset et la contrainte de notre


ordinateur qui en manque d’espace nous avons choisi un echantillon de 1.8 Go parmi nos
datasets pour le projet.
Toute fois nous nous assurerons de refaire le projet en utilisant tous les datasets sur un autre
machine beaucoup plus performant

----D’abord nous allons charger notre dataset dans un emplacement accessible depuis notre cluster
Spark donc nous avons creer un dossier ali dans notre cluster master

Copions notre dataset de la machine locale vers notre contenaire master


----Chargeons notre dataset dans spark shell de scala :

Pour ce faire nous allons creer un fichier ChargementDataset dans lequel nous avons mis le
programme scala pour charger le dataset puis l’executer avec :load files.scala et
DataProcessing.runDataProcessing()

Analyse : pour repondre a ces differents questions nous allons creer un fichier scala dans lequel
nous mettons les code spark sql pour et ensuite nous allons les executer.
Voici nos differents fichiers : NombreAnotation.scala FilmMieuxNote.scala
FilmMoinsNote.scala GroupFilmscala

Voici le lien drive pour acceder aux differents codes :

https://drive.google.com/drive/folders/1dX7HjFMWhrracjap8Rilbh7DNw62poVL?usp=drive_link

Nous allons presenter uniquement les resultats dans la suite du document


1- Quel est le nombre de notations par film
2- Quel est le film le mieux noté
FilmMieuxNote.scala

Remarque : Pour l’execution nous avons nomme l'objet qui contient la méthode
runDataProcessing() par nommé FilmMieuxNote, et non DataProcessing

3- Quel est le film le moins bien noté


4- Fournir les différents groupes de films avec l’algorithme k-means de SparkMLlib

Le resultat est telecharger dans un fichir output qui se trouve dans root

Voici le lien drive pour acceder aux differents codes :


https://drive.google.com/drive/folders/1dX7HjFMWhrracjap8Rilbh7DNw62poVL?usp=drive_link

Vous aimerez peut-être aussi