Vous êtes sur la page 1sur 32

Soutenance du Projet 6

OpenClassrooms Place de marché

Présenté par :
M. Gansané Sayoba

THÈME: «Classifiez automatiquement des biens


de consommation»

Juillet 2023
Sommair I. Problématique

e II. Présentation des


données
III. Méthodologie

IV. Etude de faisabilité de la classification des


données textuelles

V. Etude de faisabilité de la classification des


données images

VI. Classification supervisée des images avec


la data augmentation

VII. Edamam Food and Grocery


Database API
VIII. Conclusion
I Problématique
1/21 I. Problématique
I

Contexte
 L’entreprise Place de Marché souhaite lancer une marketplace e-commerce.
Sur leur site, des vendeurs proposent des articles à des acheteurs en
postant une photo et une description..

Objectifs
 Simplifier l’expérience utilisateur, améliorer la fiabilité, et automatiser les
traitements en vue d’un développement.

Missions

 Étudier la faisabilité d’un moteur de classification d'articles, basé sur une


image ou une description, pour l'automatisation de l'attribution de la
catégorie de l'article.
Présentatio
II n des
données
2/21 II. Présentation des
II
données
Présentation global

1050 lignes et 15 Quelques colonnes


colonnes contiennent des données
bool(1), float(2), manquantes
object(12)
3/21 II. Présentation des
II
données
Présentation données
textuelles

Création de 2 Sous-catégories de produits depuis l’arbre des catégories


(1er et 2ème niveaux)
4/21 II. Présentation des
II
données
Présentation données
textuelles
1er niveau de catégorie 2ème niveau de
catégorie

Le 1er niveau de catégorie de produit sera utilisé pour la


suite de l’étude
III Méthodologie
5/21 III. Méthodologie
III

Méthodologie
Features extraction Réductio
et description n de Visualisati
Pré traitement Clustering Evaluation
Construction d’un vecteur dimensio on
numérique n
 Bag of word :
Récupération count-vectorizer, TF-
Donnée
des tokens, IDF
s
nettoyage et
textuell  Words embedding Calcul
création d’un
es word2vec, BERT, Algorithme de
vocabulaire TSNE à
USE de l’indice
ACP l’aide de
 Bag of visual word : classificati de Rand
Récupération l’ACP
Donnée on K-means Ajusté
des images et ORB
s (ARI)
réduction de la  Embedding :
images
taille CNN

Classification Supervisée et Data Augmentation


Après avoir démontré la faisabilité de regrouper automatiquement des produits de même catégorie, on
fera:
1.Une classification supervisée à partir des images des articles.
Etude de faisabilité
IV de la classification
des textes
6/21 IV. Etude de faisabilité de la classification des
textes
IV

Prétraitemen
t

Chargement du
dataset
(1050, 15)

Stop word Lower et Suppression des


Rétention de la Tokénisation Encodage des
Suppression stop Lemmatisation colonnes unitiles
première sous Retrait des catégories
word, Passage en en gardant
catégorie de caractères création de 07
ponctuation, mots minuscule et descriptions,
produits spéciaux labels
<= 2 lettres récupération des image et
racines des mots categorie
(1050, 4)
7/21 IV. Etude de faisabilité de la classification des
textes
IV

Présentation des méthodes de


classification
CountVectorizer est une méthode de représentation de texte qui transforme

CountVectorizer les documents en une représentation "bag-of-words" (sac de mots). Elle


compte le nombre d'occurrences de chaque mot dans chaque document et
crée une matrice où chaque ligne représente un document et chaque
colonne représente un mot
Tf- idf est une méthode de pondération de mots qui permet de refléter

Tf-idf l'importance d'un mot dans un document par rapport à une collection de
documents. Elle prend en compte la fréquence du mot dans le document
ainsi que la fréquence inverse du mot dans l'ensemble des documents.

Word2vec est une technique d'apprentissage automatique basée sur les réseaux de neurones, utilisée

Word2Vec pour apprendre des représentations vectorielles de mots à partir de grands corpus textuels. Ces vecteurs
peuvent être utilisés pour mesurer les similarités entre les mots,

BERT est basé sur une architecture de réseau de neurones appelée

BERT Transformer, il prend en compte le contexte des mots en utilisant une


attention bidirectionnelle. Il examine le contexte dans les deux sens. Cela
lui permet de mieux comprendre le sens des mots dans leur contexte et de
capturer les relations plus complexes entre les mots.
USE (Universal Sentence Encoder) est un modèle de représentation de
phrases pré-entraîné développé par Google. Il est entraîné sur de vastes
USE quantités de données textuelles provenant de diverses sources. Il apprend
à encoder les phrases de manière à ce que des phrases similaires aient
des représentations similaires dans l'espace vectoriel. USE peut capturer
des similitudes et des différences sémantiques entre des phrases, même
si elles sont formulées de manière différente.
8/21 IV. Etude de faisabilité de la classification des
textes
IV

Application Count-Vectorizer

Score ARI : 0,362

La classification

comporte des

erreurs et les

catégories sont

mal attribuées

aux classes.
9/21 IV. Etude de faisabilité de la classification des
textes
IV

Application Tf-idf

Score ARI : 0,46

Les résultats sont

meilleurs par

rapport à ceux de

count-vectorizer.

Les catégories

sont assez bien

associées aux

clusters avec cet


10/2 IV. Etude de faisabilité de la classification des
1
textes
IV

Application Word2Vec

Score ARI : 0,35

La performance

baisse de

nouveau. Les

catégories

proches sont mal

attribuées.
11/2 IV. Etude de faisabilité de la classification des
1
textes
IV

Application Bert

Score ARI : 0,33

La performance

continue de

baisser. Les

catégories sont

mal attribuées.
12/2 IV. Etude de faisabilité de la classification des
1
textes
IV

Application USE

Score ARI : 0,42

Meilleure

classification

après le

TF-IDF. Le

principe

d’embedding

obtient elle aussi

de meilleurs
13/2 IV. Etude de faisabilité de la classification des
1
textes
IV

Synthèse

CountVectorizer et

Tf-idf obtiennent un

meilleur score ARI.


Etude de faisabilité
V de la classification
images
14/2 V. Etude de faisabilité de la classification des
1V
images
Présentation des méthodes de
classification
ORB est un descripteur de caractéristiques largement utilisé dans le
domaine de la vision par ordinateur. Il combine les méthodes FAST et BRIEF
ORB pour détecter et décrire les points d'intérêt dans une image. FAST est utilisé
pour détecter rapidement les coins ou les points d'intérêt dans une image.
Ensuite, BRIEF est utilisé pour créer un descripteur binaire court pour
chaque point d'intérêt, ce qui le rend efficace en termes de stockage et de
calcul.

Le modèle CNN VGG16 est une architecture de réseau de neurones


convolutifs (CNN)

CNN Il se compose de 16 couches. Les 13 premières couches sont des couches


de convolution, qui sont responsables de l'extraction des caractéristiques
de l'image. Chaque couche de convolution utilise des petits filtres (3x3
pixels) pour analyser l'image et détecter des motifs spécifiques. Il utilise
des couches de convolution pour extraire les caractéristiques de l'image et
des couches entièrement connectées pour la classification finale.
15/2 V. Etude de faisabilité de la classification des
1V
images
Application ORB

Score ARI : -0,0008

On obtient une très

mauvaise

classification.

Presqu’aucune

image n’est bien

classée.
16/2 V. Etude de faisabilité de la classification des
1V
images
Application CNN

Score ARI : 0,4798

Meilleure

classification pour

les données

images. Les

catégories sont

assez bien

retrouvées avec
Classification
VI supervisée des
images avec la data
augmentation
17/2 VI. Classification supervisée des images avec la
1
data augmentation
VI

Classification supervisé : CNN


(VGG16)
18/2 VI. Classification supervisée des images avec la
1
data augmentation
VI

Optimisation CNN VGG16: Data


augmentation
Edamam Food and
VII Grocery Database
API
19/2
1II
V
VII. Edamam Food and Grocery Database API
VIII Conclusion
20/2 VIII. Conclusion
1
VIII

Classification non supervisée

Données model ARI


textes TfidfVectorizer 0.46 • Le moteur de
USE 0.42 classification est
CountVectorizer 0.36
possible.
BERT 0.33
Word2Vec 0.32 • Les résultats du score
ARI démontre de
Données model ARI meilleur résultat pour
images ORB -0.0008
une approche avec les
CNN : VGG16 0.47
algorithmes Tf-idf +
CNN.
21/2 VIII. Conclusion
1
VIII

Classification
supervisée
Validation Test
• Pour la classification supervisée et le
Accuracy Accurac
y data augmentation. Un meilleur
CNN: VGG16 0,8175 0,9352 pourcentage de validation apparaît
Optimisation 0,8664 0,9095 pour la data augmentation.
VGG16 : Data
augmentation
Test API • L'API a été testée avec succès. Les
données recueillies montrent des
images et des valeurs manquantes.

 Piste d’amélioration : Ajout du nom du produit. Demander à l’entreprise plus de


Merci pour votre
aimable attention

Vous aimerez peut-être aussi