Project Big Data

sommaire:
 INTRODUCTION
 PROBLEMATIQUE
 NETTOYAGE DES DONNEES
 SPARK
 CLASSIFICATION DES CATEGORIES ET DES REVIEW
 INTERFACE D'INTERACTION AVEC L'UTILISATEUR
 CONCLUSION
INTRODUCTION
Notre monde est actuellement confronté à une explosion de l’information. De nombreuses statistiques attestent de la
montée en puissance du phénomène Big Data car 90% des données dans le monde ont été produites durant ces deux
dernières années et le volume des données créé par les entreprises double toutes les 1,2 années
Face à cette croissance exponentielle du volume de données, les entreprises sont confrontées à certaines
problématiques qui sont celles de savoir comment collecter, stocker, analyser et exploiter ces grands volumes de
données pour créer de la valeur ajoutée. Tout l'enjeu, pour les entreprises et les administrations, consiste à ne pas
passer à côté d'informations précieuses noyées dans la masse. C'est là qu'intervient la technologie du "Big Data"
l 'objectif de ce projet est de mettre en œuvr e les technologies

de big data à fin de stocker et traiter les données concernant les
produits d'un site de e - commerce
Problématique
nous avons un site d'e-commerce qui offre des produits hétérogènes de différents Brand et
différentes catégories l'administration veut classer automatiquement un produit lors de son
insertion à la base de donnée dans la catégorie adéquate d'après son titre (en cas de l'absence de la
catégorie) de plus il souhaite analyser les commentaires des clients pour mètre à jour les ratings
de leurs produits
NETTOYAGE DES DONNES
DONNEES:
Les données sont sous forme de trois fichiers csv de structures differents ils contient les
informations suivants; Id de produit le titre de produit ,Brand ou manufacturer,prix ,stock
disponible,categorie,rating ,customer_reviews,reviews_date,reviews_customer....
NETTOYAGE PAR PENTAHODATAINTEGRATION
 supprimer les colonnes supplémentaires

 supprimer les ligne qui ne contient pas Le titre du produit
 supprimer les ligne qui ne contient pas La catégories dans les deux fichier premiers fichier
remplacer les catégories vide par "softeware' dans le troisième fichier(par ce que ce fichier
contient seulement les produits de type software
 supprimer les caractères spéciaux et les chiffres dans les colonnes Product Title et review
SPARK
Spark est une platforme de traitement distribué des données par lot ou streaming il peut traiter des
données stocker sur HDFS Base sql et Nosql et n'import qu'elle systeme de fichier
COMPOSANTES SPARK:
RDD : Resilient Distributed Dataset
c'est une collection distribuée d'éléments en mémoire qui peut etre gérée en
paralléle .les donnée stockée sont en mode lecture selement ,il accept des données
structurés et non structurés
avantages de Spark
 écrit des appliquation en java,scala ,python R ou sql

 les resultats sont stocker en RAM donc il sera plus rapide
 Tolerance aux Fautes grace à la structure de stockage RDD qui ne permet
de re-executer les traitement en cas de repture ou de probléme
 dans spark il y 'a les transformation et les actions les transformation ne
sont pas executer jusqu'a ce que une action est executer .
CLASSIFICATION DES CATEGORIES ET DES REVIEW :
Partie théorique :
la classification c'est parmi les methode de l'apprentissage automatique supervisé dans ce type d'apprentissage on a un
ensemples de données composé de pair entré(Titre d'un produit) sorite(categorie du produit) la sortie prend des valeur
fini appelés classes ,les algorithmes de classification permettent de généraliser grace au données qu'on a afin de predire
la sortie des nouveaux exemples d'entrées.
l'algorithme de classification qu'on va utiliser est la logisticRegression multi- class base sur la regression lineare il
permet de trouver la fonction de prediction f(entré)=sortie en minimisant l'erreur entre la sortie predite et la vraie
valeur de la sortie qu'on a dans notre données d'entrainement
Classification des produits:
D'aprés les Titres des produits qu'on a on peut extraire des informations sur la categorie du
produits par exemples :
Produit 1:Site Spinner Pro Professional Web Development Software:

Produit 2 : Mac OS X version 1063 Snow Leopard Mac computer with
an Intel processor required.
Produit 3 :whinsy activated charcoal face mask cream for deep cleansinghead
removal pack Produit
4: world beautys new natural skin whitening soap blackhead remover
les mots web ,software,computer,intel,processor vont nous permettre de classer ces produits dans la
categorie saftware les mots mask,cream,beautys,skin vont nous permettre de classer les produits 3 et
4 dans la categories Skin Care
de meme pour les autres categoires
Classification des reviews:
Notre but est d'avoir apres analyser les review des clients le rating des produits
convenable pour chaque review:
produit_1: Very disappointed in the 2013 version . produit_2:Not Exactly Plug and
Play
produit_2:I love this no nonsense software . produit_3:Great recovery and boot disk
produit_4:Unbelievable Such a waste of time and money . produit_5:unhappy with
delivery
pour les mots very disappointed et not exactly nous permettre de donne le produit
rating 3. pour les mots love et great va nous permettre de donne le produit rating 5 . et
pour les mots unbelievable ,waste of time ,waste of money, unhappy donne le rating 1.
meme principe pour les autres
Partie pratique sur java
la bebliotheque MlLib de spark permet un implementation de plusieurs algorithme d'apprentissage automatique
puisque spark peut se connecter à plusieur Cluster Manager on va tester l'execution sur Local (Standalone
scheduler) qui sera lier à un interface swing et aprés on va tester l'execution de jar sur un cluster hadoop
la fonction predictCategorie :Ille prend le Titre de produit comme entré et retun la categorie
la fonction predictRating : Ille prend le commentaire comme entré et retun rating convenable
indiquer que le programme sera executer en local

charger les données depuis les fichier csv et les stocker dans un variable de type Dataset c'est un cas particulier de la structure de
données RDD en plus des caractéristique de RDD cette structure organise les données dans un chéma (colonne nomée) déclarer
les variable de type :
 Tokenizer pour cree un list des words à partir du Titre
 StowordsRemover pour supprimer les noms qu'on les trouve sauvont dans les phrase comme for ,to,on,in
 CountVectorizer extrait les termes les plus fréquents d'une collection de textes et convertit ces termes en vecteurs de compte
de mots
 IDF Feature Extractors utilisé dans le text mining pour refléter l'importance d'un terme dans un document ou texte .
sur cluster hadoop
pour l'executer sur un cluster hadoop il faut changer le master par yarn et les paramétres de la fonction sont le
Path du fichier qui contien les Titres des produits à classifier sur hdfs et le fichier de sortie
INTERFACE
D'INTERACTION AVEC
L'UTILISATEUR
dans cette partie on vas voir un espace

d'administration des données concernant
les produits du site d'e-commerce.
interface Admin : cette interface permet a
l'utilisateur de faire multiple tache
comme ajouter ou bien modifier
getAvailableProduct . .
interface Ajouter
fonctionment :
dans cette interface l'utilisateur saisie les informations
concerenant le produit a ajouter. pour les champs product
title et categorie l'un des deux est obligatoire. donc il y a
deux scenarios possible:
1. En cas d'absence le champs categorie :
on fait appel a la fonction predictCategorie pour predire la
categorie correspondente utilisons le champs produt title.
interprétation :
on remarque que notre produit est bien classifier.
2.si utilisateur saisie categorie: les informations sera ajouter
dans un fichier qui contient les produits final directement.
getAvailableProduct :
selectionne tout les produits disponible en

stock
getBrandProduct :
sélectionner tout les produits d'une brand, c.-à-

d. il nous affiche un couple de brand et ces
produits
espace client :
cette interface permet au client de donne son

avis un produit, donc le client entrer le nom du
produit et un commentaire puis on appel la
fonction predictRating qui donne a le
commentaire un rating
interpretation :
on remarque que notre commentaire est bien
classifier il vas onregistrer dnas un fichier qui
contient produit commentaire et rating
conclusion:
À l'heure du Big Data, les sociétés collectent de plus en plus d'informations nous concernant et la mise en place
d'outils de classification basés sur des algorithmes de Machine Learning et text mining constituent une utilisation
plus que naturelle de ces données
Merci pour votre attention


Project Big Data

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Project Big Data

Transféré par

Droits d'auteur :

Formats disponibles

sommaire:

 NETTOYAGE DES DONNEES

 CLASSIFICATION DES CATEGORIES ET DES REVIEW

 INTERFACE D'INTERACTION AVEC L'UTILISATEUR

l 'objectif de ce projet est de mettre en œuvr e les technologies

NETTOYAGE PAR PENTAHODATAINTEGRATION

 supprimer les colonnes supplémentaires

 écrit des appliquation en java,scala ,python R ou sql

Produit 1:Site Spinner Pro Professional Web Development Software:

indiquer que le programme sera executer en local

dans cette partie on vas voir un espace

selectionne tout les produits disponible en

sélectionner tout les produits d'une brand, c.-à-

cette interface permet au client de donne son

Vous aimerez peut-être aussi