Académique Documents
Professionnel Documents
Culture Documents
Contexte
Nous souhaitons faire de l’analytique pour mieux comprendre les films les mieux notés et ceux
moins bien appréciés. Pour cela nous allons utilisons les bibliothèques SparkSQL et Spark MLlib.
Vous devrez faire les tests sur un cluster Spark sous docker de 5 serveurs (1 maitre et 4 esclaves).
Verifions
NB : Nous nous sommes connectes au noeud master pour demarrer le service d’ou le
resultat de la commande jps
Pour demarrer les autres on fait pareil on se connecte au noeud escalve X puis on demarre le
service.
Exemple noeud esclave 3
Vous pouvez remarque en sortie nous avons worker au lieu de slave3 c’est parce que nous avons
creer un processus worker dans un fichier nomme slaves lors de la creation de notre contenaire qui
contient tous les noeuds Slaves
Conclusion : Nous avons configure cluster Spark de 5 nœuds sous Docker
Maintenant que notre cluster Spark est opérationnel, nous pouvons procéder aux tests et à l'analyse
des données.
----D’abord nous allons charger notre dataset dans un emplacement accessible depuis notre cluster
Spark donc nous avons creer un dossier ali dans notre cluster master
Pour ce faire nous allons creer un fichier ChargementDataset dans lequel nous avons mis le
programme scala pour charger le dataset puis l’executer avec :load files.scala et
DataProcessing.runDataProcessing()
Analyse : pour repondre a ces differents questions nous allons creer un fichier scala dans lequel
nous mettons les code spark sql pour et ensuite nous allons les executer.
Voici nos differents fichiers : NombreAnotation.scala FilmMieuxNote.scala
FilmMoinsNote.scala GroupFilmscala
https://drive.google.com/drive/folders/1dX7HjFMWhrracjap8Rilbh7DNw62poVL?usp=drive_link
Remarque : Pour l’execution nous avons nomme l'objet qui contient la méthode
runDataProcessing() par nommé FilmMieuxNote, et non DataProcessing
Le resultat est telecharger dans un fichir output qui se trouve dans root