Académique Documents
Professionnel Documents
Culture Documents
Dmszine
Dmszine
des Systèmes
FOOD ANALYSIS
2021/2022
Contents
1 Compréhension du problème 1
1.1 Définition des objectifs du projet . . . . . . . . . . . . . . . . . . . . 1
1.2 Évaluation de la situation . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Définition des objectifs de l’exploration des données . . . . . . . . . . 2
1.3.1 Clustring . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3.2 K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
4 Modélisation 15
4.1 Sélection des techniques de modélisation . . . . . . . . . . . . . . . . 15
4.2 L’étude descriptive: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.3 Apprentissage supervisé . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.4 Le modèle réalisé: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.4.1 Arbre de décision . . . . . . . . . . . . . . . . . . . . . . . . . 22
5 Évaluation et Déploiement 26
5.1 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.1.1 Qualité du modèle . . . . . . . . . . . . . . . . . . . . . . . . 26
5.1.2 Amélioration . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.2 Déploiement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
List of Figures
5.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.2 Évaluation de l’arbre de décision . . . . . . . . . . . . . . . . . . . . . 28
5.3 Évaluation de l’arbre de décision . . . . . . . . . . . . . . . . . . . . . 29
5.4 Déploiement du modèle k-means dans un fichier EXCEL . . . . . . . 31
5.5 Exportation du fichier excel . . . . . . . . . . . . . . . . . . . . . . . 32
1
Remerciements
Compréhension du problème
des données des repas à consommer sont d’une grande importance. Le secteur de
la santé est en plein essor, notamment en ce qui concerne l’analyse des données
relatives à la santé. 39 % des adultes dans le monde et plus de 20 % des marocains
sont en sur-poids ou obèses.
1
Le sur-poids et l’obésité augmentent le risque de problèmes de santé, notamment
le diabète, l’hypertension et l’arthrose. La moitié des adultes marocains essaient de
perdre du poids chaque année. Le plus souvent, ils tentent de le faire en faisant plus
d’exercice et en mangeant moins, car un apport calorique net négatif est associé à
une perte de poids. Pour faciliter ce processus, de nombreuses personnes utilisent
des applications de suivi des calories. D’ici, nous sommes mené à réaliser une étude
ayant l’objectif suivant:
• Données: Pour établir notre étude, nous avons besoin d’une large base de
données contenant la recette, les différents ingrédients utilisés pour préparer
cette recette, et le nombre de calories figurant dans chaque aliment.
1.3.1 Clustring
une méthode d’analyse statistique utilisée pour organiser des données brutes en silos
homogènes. A l’intérieur de chaque grappe, les données sont regroupées selon une
caractéristique commune
1.3.2 K-means
Le partitionnement en k-moyennes est une méthode de partitionnement de données
et un problème d’optimisation combinatoire. Étant donnés des points et un entier
k, le problème est de diviser les points en k groupes, souvent appelés clusters, de
façon à minimiser une certaine fonction.
2
Chapter 2
3
2.2 Description des données
Il existe plusieurs façons de description des données. Notre descriptions est axée sur
la quantité et la qualité des données: le volume de données disponibles et l’état de
ces données. Ceci est résumé par le tableau suivant:
Nous procédons à détailler de plus nos données en précisant pour chacun les
noms d’attributs, leurs signification, et leurs types.
Ensuite, nous passons à examiner nos données.
4
Figure 2.4: visualisation des données avec l’outil SPSS modeler
5
2.3.1 Exploration de la colonne Calories
Nous réalisons l’histogramme ci-dessous pour analyser l’attribut "Calories":
Nous avons besoin d’examiner la qualité des données pour savoir si nous pouvons
les utiliser ou devons les changer.
6
2.4 Vérification de la qualité des données
Nous appliquons l’audit des données sur SPSS comme suit:
7
Il important d’assurer une bonne qualité de donnée avant de ne passer à la
réalisation du modèle.
8
Il y a un problème au niveau de la colonne "Calories". Cet attribut contient des
valeurs négatives, ce qui est absurde et doit être réglé. Le chapitre suivant prend en
compte ce problème.
9
Chapter 3
10
Figure 3.1: suppression des valeurs manquantes
11
3.1.2 Mesures erronées
Nous rectifions l’attribut "calories" comme suit:
12
3.2 Sélection des données
La collecte initiale de données réalisée dans la phase précédente nous offre plusieurs
attributs. Nous avons à choisir ceux les plus pertinents pour nos objectifs d’exploration
de données.
Nous disposons d’un jeu de données correcte et nous pouvons passer à la modélisa-
tion.
13
Figure 3.4: splitting de la base de données en testing et training sets.
on a divisé notre dataset en 80% pour la partie training et 20% pour la partie test.
14
Chapter 4
Modélisation
Le centre du projet est l’étape de la modélisation. Nous avons obtenir des résultats
qui devraient répondre à notre problématique.
Nous avons opté pour une étude supervisée et une autre non supérvisée. Pour
l’étude supervisée, nous avons utilisé les arbres de décisions et les réseaux de neu-
ronnes. Quant à l’etude non supérvisée, nous avons plusieurs méthodes de clustering
: méthode hiérarchiques, méthodes de partitionnement, méthodes mixtes et anal-
yse floue. Nous avons choisi de travailler avec l’algorithme de K-means : c’est une
méthode de partitionnement. Il permet de regrouper en K clusters distincts les ob-
servations du data set. Nous avons choisi K-means pour ces raisons :
• Simple et robuste.
15
Figure 4.1: ensemble des attributs du dataset
16
Voici les 5 clusters géneres par l’algorithme k-means, dont le plus grand par-
titionnement est de 27.6% Voici l’histogramme de deuxième cluster par rapport à
17
Figure 4.3: histogramme de 2eme cluster par rapport à l’attribut catégorie food
18
La visualisation de la distribution des catégories food par rapport aux 5 clusters
générés.
Figure 4.4: Distribution des différents clusters par rapport à catégorie food
19
4.3 Apprentissage supervisé
4.4 Le modèle réalisé:
Construction du modèle de notre étude d’apprentissage supervisé avec les deux méth-
odes arbres de décision et réseaux de neurones.
20
Découpage du dataset en deux: la première partie du training set de 80% et la
deuxième de 20%.
21
4.4.1 Arbre de décision
L’arbre construit du sommet label poursuit du food group ainsi que l’attribut calo-
ries.
22
le prédicteur le plus important c’est le foodgroup.
23
Voici la classification des labels.
24
Architecture de réseaux de neurones.
25
Chapter 5
Évaluation et Déploiement
5.1 Évaluation
5.1.1 Qualité du modèle
Évaluation des réseaux de neurones.
26
Figure 5.1
27
Figure 5.2: Évaluation de l’arbre de décision
28
Figure 5.3: Évaluation de l’arbre de décision
29
l’évaluation du k-means.
5.1.2 Amélioration
Pour améliorer notre projet, il sera préférable ré-exploration des données en ajoutant
des attributs qui peuvent données des résultats plus pertinents, ainsi que la réduction
du nombre clusters pour simplifier la classification
.
30
5.2 Déploiement
Déploiement du modèle k-means dans un fichier EXCEL. Exportation du fichier
excel.
31
Figure 5.5: Exportation du fichier excel
32
Conclusion