Académique Documents
Professionnel Documents
Culture Documents
INTRODUCTION
PROBLEMATIQUE
SPARK
CONCLUSION
INTRODUCTION
Notre monde est actuellement confronté à une explosion de l’information. De nombreuses statistiques attestent de la
montée en puissance du phénomène Big Data car 90% des données dans le monde ont été produites durant ces deux
dernières années et le volume des données créé par les entreprises double toutes les 1,2 années
Face à cette croissance exponentielle du volume de données, les entreprises sont confrontées à certaines
problématiques qui sont celles de savoir comment collecter, stocker, analyser et exploiter ces grands volumes de
données pour créer de la valeur ajoutée. Tout l'enjeu, pour les entreprises et les administrations, consiste à ne pas
passer à côté d'informations précieuses noyées dans la masse. C'est là qu'intervient la technologie du "Big Data"
nous avons un site d'e-commerce qui offre des produits hétérogènes de différents Brand et
différentes catégories l'administration veut classer automatiquement un produit lors de son
insertion à la base de donnée dans la catégorie adéquate d'après son titre (en cas de l'absence de la
catégorie) de plus il souhaite analyser les commentaires des clients pour mètre à jour les ratings
de leurs produits
NETTOYAGE DES DONNES
DONNEES:
Les données sont sous forme de trois fichiers csv de structures differents ils contient les
informations suivants; Id de produit le titre de produit ,Brand ou manufacturer,prix ,stock
disponible,categorie,rating ,customer_reviews,reviews_date,reviews_customer....
COMPOSANTES SPARK:
RDD : Resilient Distributed Dataset
c'est une collection distribuée d'éléments en mémoire qui peut etre gérée en
paralléle .les donnée stockée sont en mode lecture selement ,il accept des données
structurés et non structurés
avantages de Spark
Partie théorique :
la classification c'est parmi les methode de l'apprentissage automatique supervisé dans ce type d'apprentissage on a un
ensemples de données composé de pair entré(Titre d'un produit) sorite(categorie du produit) la sortie prend des valeur
fini appelés classes ,les algorithmes de classification permettent de généraliser grace au données qu'on a afin de predire
la sortie des nouveaux exemples d'entrées.
l'algorithme de classification qu'on va utiliser est la logisticRegression multi- class base sur la regression lineare il
permet de trouver la fonction de prediction f(entré)=sortie en minimisant l'erreur entre la sortie predite et la vraie
valeur de la sortie qu'on a dans notre données d'entrainement
Classification des produits:
D'aprés les Titres des produits qu'on a on peut extraire des informations sur la categorie du
produits par exemples :
les mots web ,software,computer,intel,processor vont nous permettre de classer ces produits dans la
categorie saftware les mots mask,cream,beautys,skin vont nous permettre de classer les produits 3 et
4 dans la categories Skin Care
de meme pour les autres categoires
Classification des reviews:
Notre but est d'avoir apres analyser les review des clients le rating des produits
convenable pour chaque review:
produit_1: Very disappointed in the 2013 version . produit_2:Not Exactly Plug and
Play
produit_2:I love this no nonsense software . produit_3:Great recovery and boot disk
produit_4:Unbelievable Such a waste of time and money . produit_5:unhappy with
delivery
pour les mots very disappointed et not exactly nous permettre de donne le produit
rating 3. pour les mots love et great va nous permettre de donne le produit rating 5 . et
pour les mots unbelievable ,waste of time ,waste of money, unhappy donne le rating 1.
meme principe pour les autres
Partie pratique sur java
la bebliotheque MlLib de spark permet un implementation de plusieurs algorithme d'apprentissage automatique
puisque spark peut se connecter à plusieur Cluster Manager on va tester l'execution sur Local (Standalone
scheduler) qui sera lier à un interface swing et aprés on va tester l'execution de jar sur un cluster hadoop
la fonction predictCategorie :Ille prend le Titre de produit comme entré et retun la categorie
la fonction predictRating : Ille prend le commentaire comme entré et retun rating convenable
pour l'executer sur un cluster hadoop il faut changer le master par yarn et les paramétres de la fonction sont le
Path du fichier qui contien les Titres des produits à classifier sur hdfs et le fichier de sortie
INTERFACE
D'INTERACTION AVEC
L'UTILISATEUR
fonctionment :
dans cette interface l'utilisateur saisie les informations
concerenant le produit a ajouter. pour les champs product
title et categorie l'un des deux est obligatoire. donc il y a
deux scenarios possible:
1. En cas d'absence le champs categorie :
on fait appel a la fonction predictCategorie pour predire la
categorie correspondente utilisons le champs produt title.
interprétation :
on remarque que notre produit est bien classifier.
2.si utilisateur saisie categorie: les informations sera ajouter
dans un fichier qui contient les produits final directement.
getAvailableProduct :