GANSANE Sayoba 5 Presentation 072023

Soutenance du Projet 6
OpenClassrooms Place de marché
Présenté par :
M. Gansané Sayoba
THÈME: «Classifiez automatiquement des biens

de consommation»
Juillet 2023
Sommair I. Problématique
e II. Présentation des

données
III. Méthodologie
IV. Etude de faisabilité de la classification des

données textuelles
V. Etude de faisabilité de la classification des

données images
VI. Classification supervisée des images avec

la data augmentation
VII. Edamam Food and Grocery

Database API
VIII. Conclusion
I Problématique
1/21 I. Problématique
I
Contexte
 L’entreprise Place de Marché souhaite lancer une marketplace e-commerce.
Sur leur site, des vendeurs proposent des articles à des acheteurs en
postant une photo et une description..
Objectifs
 Simplifier l’expérience utilisateur, améliorer la fiabilité, et automatiser les
traitements en vue d’un développement.
Missions
 Étudier la faisabilité d’un moteur de classification d'articles, basé sur une

image ou une description, pour l'automatisation de l'attribution de la
catégorie de l'article.
Présentatio
II n des
données
2/21 II. Présentation des
II
données
Présentation global
1050 lignes et 15 Quelques colonnes

colonnes contiennent des données
bool(1), float(2), manquantes
object(12)
II
données
Présentation données
textuelles
Création de 2 Sous-catégories de produits depuis l’arbre des catégories

(1er et 2ème niveaux)
II
données
Présentation données
textuelles
1er niveau de catégorie 2ème niveau de
catégorie
Le 1er niveau de catégorie de produit sera utilisé pour la

suite de l’étude
III Méthodologie
5/21 III. Méthodologie
III
Méthodologie
Features extraction Réductio
et description n de Visualisati
Pré traitement Clustering Evaluation
Construction d’un vecteur dimensio on
numérique n
 Bag of word :
Récupération count-vectorizer, TF-
Donnée
des tokens, IDF
s
nettoyage et
textuell  Words embedding Calcul
création d’un
es word2vec, BERT, Algorithme de
vocabulaire TSNE à
USE de l’indice
ACP l’aide de
 Bag of visual word : classificati de Rand
Récupération l’ACP
Donnée on K-means Ajusté
des images et ORB
s (ARI)
réduction de la  Embedding :
images
taille CNN
Classification Supervisée et Data Augmentation

Après avoir démontré la faisabilité de regrouper automatiquement des produits de même catégorie, on
fera:
1.Une classification supervisée à partir des images des articles.
Etude de faisabilité
IV de la classification
des textes
6/21 IV. Etude de faisabilité de la classification des
textes
IV
Prétraitemen
t
Chargement du
dataset
(1050, 15)
Stop word Lower et Suppression des

Rétention de la Tokénisation Encodage des
Suppression stop Lemmatisation colonnes unitiles
première sous Retrait des catégories
word, Passage en en gardant
catégorie de caractères création de 07
ponctuation, mots minuscule et descriptions,
produits spéciaux labels
<= 2 lettres récupération des image et
racines des mots categorie
(1050, 4)
textes
IV
Présentation des méthodes de

classification
CountVectorizer est une méthode de représentation de texte qui transforme
CountVectorizer les documents en une représentation "bag-of-words" (sac de mots). Elle

compte le nombre d'occurrences de chaque mot dans chaque document et
crée une matrice où chaque ligne représente un document et chaque
colonne représente un mot
Tf- idf est une méthode de pondération de mots qui permet de refléter
Tf-idf l'importance d'un mot dans un document par rapport à une collection de
documents. Elle prend en compte la fréquence du mot dans le document
ainsi que la fréquence inverse du mot dans l'ensemble des documents.
Word2vec est une technique d'apprentissage automatique basée sur les réseaux de neurones, utilisée
Word2Vec pour apprendre des représentations vectorielles de mots à partir de grands corpus textuels. Ces vecteurs
peuvent être utilisés pour mesurer les similarités entre les mots,
BERT est basé sur une architecture de réseau de neurones appelée
BERT Transformer, il prend en compte le contexte des mots en utilisant une

attention bidirectionnelle. Il examine le contexte dans les deux sens. Cela
lui permet de mieux comprendre le sens des mots dans leur contexte et de
capturer les relations plus complexes entre les mots.
USE (Universal Sentence Encoder) est un modèle de représentation de
phrases pré-entraîné développé par Google. Il est entraîné sur de vastes
USE quantités de données textuelles provenant de diverses sources. Il apprend
à encoder les phrases de manière à ce que des phrases similaires aient
des représentations similaires dans l'espace vectoriel. USE peut capturer
des similitudes et des différences sémantiques entre des phrases, même
si elles sont formulées de manière différente.
textes
IV
Application Count-Vectorizer
Score ARI : 0,362
La classification
comporte des
erreurs et les
catégories sont
mal attribuées
aux classes.
textes
IV
Application Tf-idf
Score ARI : 0,46
Les résultats sont
meilleurs par
rapport à ceux de
count-vectorizer.
Les catégories
sont assez bien
associées aux
clusters avec cet

1
textes
IV
Application Word2Vec
Score ARI : 0,35
La performance
baisse de
nouveau. Les
catégories
proches sont mal
attribuées.
1
textes
IV
Application Bert
Score ARI : 0,33
La performance
continue de
baisser. Les
catégories sont
mal attribuées.
1
textes
IV
Application USE
Score ARI : 0,42
Meilleure
classification
après le
TF-IDF. Le
principe
d’embedding
obtient elle aussi
de meilleurs
1
textes
IV
Synthèse
CountVectorizer et
Tf-idf obtiennent un
meilleur score ARI.

Etude de faisabilité
V de la classification
images
14/2 V. Etude de faisabilité de la classification des
1V
images
Présentation des méthodes de
classification
ORB est un descripteur de caractéristiques largement utilisé dans le
domaine de la vision par ordinateur. Il combine les méthodes FAST et BRIEF
ORB pour détecter et décrire les points d'intérêt dans une image. FAST est utilisé
pour détecter rapidement les coins ou les points d'intérêt dans une image.
Ensuite, BRIEF est utilisé pour créer un descripteur binaire court pour
chaque point d'intérêt, ce qui le rend efficace en termes de stockage et de
calcul.
Le modèle CNN VGG16 est une architecture de réseau de neurones

convolutifs (CNN)
CNN Il se compose de 16 couches. Les 13 premières couches sont des couches

de convolution, qui sont responsables de l'extraction des caractéristiques
de l'image. Chaque couche de convolution utilise des petits filtres (3x3
pixels) pour analyser l'image et détecter des motifs spécifiques. Il utilise
des couches de convolution pour extraire les caractéristiques de l'image et
des couches entièrement connectées pour la classification finale.
1V
images
Application ORB
Score ARI : -0,0008
On obtient une très
mauvaise
classification.
Presqu’aucune
image n’est bien
classée.
1V
images
Application CNN
Score ARI : 0,4798
Meilleure
classification pour
les données
images. Les
catégories sont
assez bien
retrouvées avec
Classification
VI supervisée des
images avec la data
augmentation
17/2 VI. Classification supervisée des images avec la
1
data augmentation
VI
Classification supervisé : CNN

(VGG16)
18/2 VI. Classification supervisée des images avec la
1
data augmentation
VI
Optimisation CNN VGG16: Data

augmentation
Edamam Food and
VII Grocery Database
API
19/2
1II
V
VII. Edamam Food and Grocery Database API
VIII Conclusion
20/2 VIII. Conclusion
1
VIII
Classification non supervisée
Données model ARI

textes TfidfVectorizer 0.46 • Le moteur de
USE 0.42 classification est
CountVectorizer 0.36
possible.
BERT 0.33
Word2Vec 0.32 • Les résultats du score
ARI démontre de
Données model ARI meilleur résultat pour
images ORB -0.0008
une approche avec les
CNN : VGG16 0.47
algorithmes Tf-idf +
CNN.
21/2 VIII. Conclusion
1
VIII
Classification
supervisée
Validation Test
• Pour la classification supervisée et le
Accuracy Accurac
y data augmentation. Un meilleur
CNN: VGG16 0,8175 0,9352 pourcentage de validation apparaît
Optimisation 0,8664 0,9095 pour la data augmentation.
VGG16 : Data
augmentation
Test API • L'API a été testée avec succès. Les
données recueillies montrent des
images et des valeurs manquantes.
 Piste d’amélioration : Ajout du nom du produit. Demander à l’entreprise plus de

Merci pour votre
aimable attention

GANSANE Sayoba 5 Presentation 072023

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

GANSANE Sayoba 5 Presentation 072023

Transféré par

Droits d'auteur :

Formats disponibles

Soutenance du Projet 6

OpenClassrooms Place de marché

THÈME: «Classifiez automatiquement des biens

e II. Présentation des

IV. Etude de faisabilité de la classification des

V. Etude de faisabilité de la classification des

VI. Classification supervisée des images avec

VII. Edamam Food and Grocery

 Étudier la faisabilité d’un moteur de classification d'articles, basé sur une

1050 lignes et 15 Quelques colonnes

Création de 2 Sous-catégories de produits depuis l’arbre des catégories

Le 1er niveau de catégorie de produit sera utilisé pour la

Classification Supervisée et Data Augmentation

Stop word Lower et Suppression des

Présentation des méthodes de

CountVectorizer les documents en une représentation "bag-of-words" (sac de mots). Elle

BERT est basé sur une architecture de réseau de neurones appelée

BERT Transformer, il prend en compte le contexte des mots en utilisant une

Score ARI : 0,362

Score ARI : 0,46

Les résultats sont

sont assez bien

clusters avec cet

Score ARI : 0,35

proches sont mal

Score ARI : 0,33

Score ARI : 0,42

obtient elle aussi

meilleur score ARI.

Le modèle CNN VGG16 est une architecture de réseau de neurones

CNN Il se compose de 16 couches. Les 13 premières couches sont des couches

Score ARI : -0,0008

On obtient une très

image n’est bien

Score ARI : 0,4798

Classification supervisé : CNN

Optimisation CNN VGG16: Data

Classification non supervisée

Données model ARI

 Piste d’amélioration : Ajout du nom du produit. Demander à l’entreprise plus de

Vous aimerez peut-être aussi