Académique Documents
Professionnel Documents
Culture Documents
Présenté par :
M. Gansané Sayoba
Juillet 2023
Sommair I. Problématique
Contexte
L’entreprise Place de Marché souhaite lancer une marketplace e-commerce.
Sur leur site, des vendeurs proposent des articles à des acheteurs en
postant une photo et une description..
Objectifs
Simplifier l’expérience utilisateur, améliorer la fiabilité, et automatiser les
traitements en vue d’un développement.
Missions
Méthodologie
Features extraction Réductio
et description n de Visualisati
Pré traitement Clustering Evaluation
Construction d’un vecteur dimensio on
numérique n
Bag of word :
Récupération count-vectorizer, TF-
Donnée
des tokens, IDF
s
nettoyage et
textuell Words embedding Calcul
création d’un
es word2vec, BERT, Algorithme de
vocabulaire TSNE à
USE de l’indice
ACP l’aide de
Bag of visual word : classificati de Rand
Récupération l’ACP
Donnée on K-means Ajusté
des images et ORB
s (ARI)
réduction de la Embedding :
images
taille CNN
Prétraitemen
t
Chargement du
dataset
(1050, 15)
Tf-idf l'importance d'un mot dans un document par rapport à une collection de
documents. Elle prend en compte la fréquence du mot dans le document
ainsi que la fréquence inverse du mot dans l'ensemble des documents.
Word2vec est une technique d'apprentissage automatique basée sur les réseaux de neurones, utilisée
Word2Vec pour apprendre des représentations vectorielles de mots à partir de grands corpus textuels. Ces vecteurs
peuvent être utilisés pour mesurer les similarités entre les mots,
Application Count-Vectorizer
La classification
comporte des
erreurs et les
catégories sont
mal attribuées
aux classes.
9/21 IV. Etude de faisabilité de la classification des
textes
IV
Application Tf-idf
meilleurs par
rapport à ceux de
count-vectorizer.
Les catégories
associées aux
Application Word2Vec
La performance
baisse de
nouveau. Les
catégories
attribuées.
11/2 IV. Etude de faisabilité de la classification des
1
textes
IV
Application Bert
La performance
continue de
baisser. Les
catégories sont
mal attribuées.
12/2 IV. Etude de faisabilité de la classification des
1
textes
IV
Application USE
Meilleure
classification
après le
TF-IDF. Le
principe
d’embedding
de meilleurs
13/2 IV. Etude de faisabilité de la classification des
1
textes
IV
Synthèse
CountVectorizer et
Tf-idf obtiennent un
mauvaise
classification.
Presqu’aucune
classée.
16/2 V. Etude de faisabilité de la classification des
1V
images
Application CNN
Meilleure
classification pour
les données
images. Les
catégories sont
assez bien
retrouvées avec
Classification
VI supervisée des
images avec la data
augmentation
17/2 VI. Classification supervisée des images avec la
1
data augmentation
VI
Classification
supervisée
Validation Test
• Pour la classification supervisée et le
Accuracy Accurac
y data augmentation. Un meilleur
CNN: VGG16 0,8175 0,9352 pourcentage de validation apparaît
Optimisation 0,8664 0,9095 pour la data augmentation.
VGG16 : Data
augmentation
Test API • L'API a été testée avec succès. Les
données recueillies montrent des
images et des valeurs manquantes.