Académique Documents
Professionnel Documents
Culture Documents
Analyse
exploratoire
Analyses univariées
Analyses multivariées Présenté par : Guy Anthony Nama Nyam
Conclusion
5 novembre 2019
1/38
Sommaire
Introduction
La source de
1 Introduction
donnée
Nettoyage de
la donnée 2 La source de donnée
Analyse
exploratoire
Analyses univariées
Analyses multivariées
3 Nettoyage de la donnée
Conclusion
4 Analyse exploratoire
5 Conclusion
2/38
Contexte
Nettoyage de
la donnée
• Toutes organisations(particuliers, entreprises) tirent profit
Analyse pour proposer de nombreux produits alimentaires.
exploratoire
Analyses univariées
Analyses multivariées
• La quantité d’information de part le nombre de produits
Conclusion
ainsi que leurs compositions devient rapidement une
difficulté pour les consommateurs finaux.
3/38
Source de données
• La source utilisée est la base Open Food Facts disponible
sous licence Open Database License.
Introduction
La source de
• Les contenus individuels de la base de données sont
donnée
disponibles sous la licence Database Contents License.
Nettoyage de
la donnée
• Les photos de produits sont disponibles sous la licence
Analyse
exploratoire Creative Commons Attribution Partage à l’identique.
Analyses univariées
Analyses multivariées
• Open Food Facts répertorie les produits alimentaires du
Conclusion
monde entier, tout le monde peut les utiliser pour tout
usage, et contribuer en y ajoutant des produits.
• Dans un premier temps, la suite de notre travail consistera
par décrire la source de données, suivi du nettoyage de la
donnée.
• Dans un second temps, de réaliser une analyse exploratoire,
de proposer une application et enfin nous conclurons.
4/38
Sommaire
Introduction
La source de
1 Introduction
donnée
Nettoyage de
la donnée 2 La source de donnée
Analyse
exploratoire
Analyses univariées
Analyses multivariées
3 Nettoyage de la donnée
Conclusion
4 Analyse exploratoire
5 Conclusion
5/38
Description du fichier de données
Introduction
• le type du fichier de données est un fichier .csv
La source de
donnée
• Le fichier utilisé est en.openfoodfacts.org.products.csv
Nettoyage de
la donnée de taille 1 922 868 Ko téléchargeable sur le site de Open
Analyse
exploratoire
food facts.
Analyses univariées
Analyses multivariées
6/38
Description des variables
Généralités sur les variables se terminant par :
• _t pour des dates au format UNIX timestamp, _datetime
Introduction
pour des dates au format iso8601
La source de
donnée • _100g pour le nombre de constituant en g dans 100g du
Nettoyage de
la donnée
produit, _{fr|en|..} le code de la langue sur 2 lettres
Analyse • _tags pour la liste des tags sur une variable pris par un
exploratoire
Analyses univariées produit donnée.
Analyses multivariées
Conclusion
Les variables sont séparés en 4 sections :
• Les informations générales sur la fiche du produit : nom,
date de modification, nom générique, etc..
• Un ensemble de tags : catégorie du produit, origine, etc.
• Les ingrédients composant les produits et leurs additifs
éventuels.
• Des informations nutritionnelles : quantité en grammes
d’un nutriment pour 100 grammes du produit.
7/38
Importation des données
• Afficher :
l’ensemble des variables - print(list(df.columns))
plusieurs colonnes - print(df[[’creator’,’product_name’]])
8/38
Importation des données
Analyse
exploratoire • La fonction df.isna() permet d’obtenir les valeurs
Analyses univariées
Analyses multivariées
manquantes(None ou Numpy.NaN). 8 variables entières
Conclusion renseignées dominées par les méta-données et 14 variables
sans informations.
9/38
Importation des données
• Le taux de valeurs manquantes de la donnée : 78.996%
Introduction
La source de
donnée
Nettoyage de
la donnée
Analyse
exploratoire
Analyses univariées
Analyses multivariées
10/38
Importation des données I
Conclusion
Hypothèse 1
Il y’a corrélation entre un élément principal et ses sous éléments
11/38
Importation des données II
Introduction
La source de
3 Ne pas prendre en compte la variable "sodium_100g"
donnée
Nettoyage de
Hypothèse 2
la donnée
Il y’a duplication d’information avec la variable "salt_100g"
Analyse
exploratoire
Analyses univariées
Analyses multivariées 4 Ramener à 100 les éléments supérieur à 100g car
Conclusion n’influence pas dans le calcul du nutriscore qui est connexe
à notre sujet d’application.
12/38
Importation des données
Conclusion
variables.
13/38
Sommaire
Introduction
La source de
1 Introduction
donnée
Nettoyage de
la donnée 2 La source de donnée
Analyse
exploratoire
Analyses univariées
Analyses multivariées
3 Nettoyage de la donnée
Conclusion
4 Analyse exploratoire
5 Conclusion
14/38
Détection d’erreurs
Analyse
exploratoire
Analyses univariées
Analyses multivariées
Conclusion
Introduction
La source de
donnée
Nettoyage de
la donnée
Analyse
exploratoire
Analyses univariées
• Aucune valeur aberrante pour nutriscore et nova groupe
Analyses multivariées
Conclusion
Introduction
La source de
donnée
Nettoyage de
la donnée
Analyse
exploratoire
Analyses univariées
Analyses multivariées
Conclusion
17/38
Traiter les valeurs manquantes
Introduction
La source de
donnée
• Remplacer les valeurs manquantes par le caractère
Nettoyage de
la donnée espace(" ") pour les données textes suivantes :
Analyse
exploratoire
"product_name", "brands", "ingredients_text".
Analyses univariées
Analyses multivariées
Conclusion
18/38
Traiter les données textes
La source de
donnée
Nettoyage de
la donnée
Analyse
exploratoire
Analyses univariées
Analyses multivariées
Conclusion
• Lemmatisation de la donnée texte : racinisation de
Snowball
19/38
Sommaire
Introduction 1 Introduction
La source de
donnée
Analyse
exploratoire 3 Nettoyage de la donnée
Analyses univariées
Analyses multivariées
Conclusion
4 Analyse exploratoire
Analyses univariées
Analyses multivariées
5 Conclusion
20/38
Description
Nettoyage de
la donnée
Analyse
exploratoire
Analyses univariées
Analyses multivariées
Conclusion
21/38
Description variable quantitative
Introduction
La source de
donnée
Nettoyage de
la donnée
• Distribution des observations
Analyse
exploratoire fonction dist_graph(feature, data=df)
Analyses univariées Distribution graphique d’une variable
Analyses multivariées
paramètre(s) feature : nom de la variable
Conclusion data : DataFrame
retour(s) aucun
22/38
Description variable quantitative
Conclusion
Hypothèse 3
On note la présence de valeurs aberrantes sur les variables
quantitatives précédentes
23/38
Description variable quantitative
• Test de Grubb sur les valeurs aberrantes visualisées.
fonction test_grubb(feature, data=df, confiance = 0.05)
test de Grubb sur les valeurs aberrantes Q3 + IQ
Introduction
paramètre(s) feature : la variable à tester
La source de
donnée
data : DataFrame
confiance : intervalle de confiance
Nettoyage de
la donnée retour(s) retourne la valeur aberrante minimale
Analyse
exploratoire
Analyses univariées
Analyses multivariées
Conclusion
Conclusion
Introduction
La source de
• Corrélation linéaire
donnée fonction data_pair_plot(data=df)
Nettoyage de
corrélation des variables quantitatives
la donnée paramètre(s) data : DataFrame
Analyse retour(s) aucun
exploratoire
Analyses univariées
Analyses multivariées
Conclusion
26/38
Corrélation de variables quantitatives
Introduction
La source de
donnée
Nettoyage de
la donnée
Analyse
exploratoire
Analyses univariées
Analyses multivariées
Conclusion
27/38
Corrélation entre variable qualitative et quantitative
• Corrélation linéaire(ANOVA)
Introduction
La source de
donnée
Nettoyage de
la donnée
Analyse
exploratoire
Analyses univariées
Analyses multivariées
Conclusion
28/38
Matrice de corrélation(heatmap)
Conclusion
29/38
Hypothèse 1
Introduction
La source de
donnée
Nettoyage de
la donnée
Analyse
exploratoire
Analyses univariées
Analyses multivariées
Conclusion
30/38
Hypothèse 2
Introduction
La source de
donnée
Conclusion
31/38
Sommaire
Introduction
La source de
1 Introduction
donnée
Nettoyage de
la donnée 2 La source de donnée
Analyse
exploratoire
Analyses univariées
Analyses multivariées
3 Nettoyage de la donnée
Conclusion
4 Analyse exploratoire
5 Conclusion
32/38
Interprétation des résultats
• La médiane des valeurs nutritionnelles des éléments du
nutriscore est inférieure à 10g, et les valeurs varient pour
Introduction
la plupart entre 0 et 40g.
La source de
donnée
Nettoyage de
• La plupart des produits à limiter(nutriscore e) à la
la donnée
consommation sont influencés principalement par le sucre
Analyse
exploratoire et les matières grasses.
Analyses univariées
Analyses multivariées
• On note tout de même la présence de l’élément
Conclusion nutritionnel protéine dans la plupart de ces produits qui
doit être en faible quantité vu que ça n’influence pas
beaucoup le nutriscore.
• Les produits à favoriser (nutriscore a et b) le doivent à la
présence des fibres et dans une moindre mesure aux
légumes et fruits.
• La faible relation entre le nutriscore et le nova groupe est
due au faible nombre d’observation commun.
33/38
Application sur le jeu de données
La source de
donnée
Nettoyage de
la donnée
Analyse
exploratoire
Analyses univariées
Analyses multivariées
Conclusion
• Ajout au "stopwords" de nltk pour le français les mots de
taille 1 du corpus
34/38
Application sur le jeu de données
Introduction
Nettoyage de
ingrédients).
la donnée
Analyse
exploratoire
Analyses univariées
Analyses multivariées • Algorithme de recommandation :
Conclusion fonction recommandation(product, nb = 10)
recommandation nb premiers produits
paramètre(s) product : nom du produit
nb : nombre de produits de recommandation
retour(s) aucun
35/38
Modèle K-NN
• Hyper-paramètre du modèle
Introduction
La source de
donnée
Nettoyage de
la donnée
Analyse
exploratoire
Analyses univariées
Analyses multivariées
Conclusion
36/38
Exemples de recommandations
Introduction
La source de
donnée
Nettoyage de
la donnée
Analyse
exploratoire
Analyses univariées
Analyses multivariées
Conclusion
37/38
Perspectives
Introduction
La source de
donnée
• Appliquer un algorithme de classification plus performant.
Nettoyage de
la donnée
Analyse
• Analyse des valeurs aberrantes des boites à moustaches
exploratoire
Analyses univariées
avec d’autres tests avancés à l’exemple des algorithmes de
Analyses multivariées
Isolation Forest
Conclusion
38/38