Dmszine

École Nationale Supérieure d’Informatique et d’Analyse
des Systèmes
PROJET DATA MINING
FOOD ANALYSIS
Réalisé par: Encadrante:

BATRANI Zohore PROF BENBRAHIM Houda
ERRACHIK Fatimaezzahra
JABRI Rim
OUALY Aymane
2021/2022
Contents
1 Compréhension du problème 1
1.1 Définition des objectifs du projet . . . . . . . . . . . . . . . . . . . . 1
1.2 Évaluation de la situation . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Définition des objectifs de l’exploration des données . . . . . . . . . . 2
1.3.1 Clustring . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3.2 K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Compréhension des données 3

2.1 Collecte des données . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Description des données . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3 Exploration des données . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3.1 Exploration de la colonne Calories . . . . . . . . . . . . . . . . 6
2.4 Vérification de la qualité des données . . . . . . . . . . . . . . . . . . 7
3 Préparation des données 10

3.1 Nettoyage des données . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.1.1 Les valeurs manquantes: . . . . . . . . . . . . . . . . . . . . . 10
3.1.2 Mesures erronées . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2 Sélection des données . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4 Modélisation 15
4.1 Sélection des techniques de modélisation . . . . . . . . . . . . . . . . 15
4.2 L’étude descriptive: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.3 Apprentissage supervisé . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.4 Le modèle réalisé: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.4.1 Arbre de décision . . . . . . . . . . . . . . . . . . . . . . . . . 22
5 Évaluation et Déploiement 26
5.1 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.1.1 Qualité du modèle . . . . . . . . . . . . . . . . . . . . . . . . 26
5.1.2 Amélioration . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.2 Déploiement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
List of Figures
1.1 l’équilibre alimentaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2.1 aperçu du fichier de données . . . . . . . . . . . . . . . . . . . . . . . 3

2.2 tableau descriptif du fichier . . . . . . . . . . . . . . . . . . . . . . . 4
2.3 détails des champs du fichiers . . . . . . . . . . . . . . . . . . . . . . 4
2.4 visualisation des données avec l’outil SPSS modeler . . . . . . . . . . 5
2.5 L’histogramme de la colonne calories . . . . . . . . . . . . . . . . . . 6
2.6 audit des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.7 la qualité des données . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.8 la mesure "calories" erronée . . . . . . . . . . . . . . . . . . . . . . . 9
3.1 suppression des valeurs manquantes . . . . . . . . . . . . . . . . . . . 11

3.2 rectification de la colonne "calories" . . . . . . . . . . . . . . . . . . . 12
3.3 modification de la colonne calories. . . . . . . . . . . . . . . . . . . . 13
3.4 splitting de la base de données en testing et training sets. . . . . . . . 14
4.1 ensemble des attributs du dataset . . . . . . . . . . . . . . . . . . . . 16

4.2 les 5 cluster generées . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.3 histogramme de 2eme cluster par rapport à l’attribut catégorie food . 18
4.4 Distribution des différents clusters par rapport à catégorie food . . . . 19
4.5 construction du modèle de prédiction . . . . . . . . . . . . . . . . . . 20
4.6 diviser le data(80% training, 20% test . . . . . . . . . . . . . . . . . . 21
4.7 Arbre de décision généré . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.8 graphe du prédicteur le plus important. . . . . . . . . . . . . . . . . . 23
4.9 Classification des labels . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.10 Architecture de réseaux de neurones . . . . . . . . . . . . . . . . . . . 25
5.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.2 Évaluation de l’arbre de décision . . . . . . . . . . . . . . . . . . . . . 28
5.3 Évaluation de l’arbre de décision . . . . . . . . . . . . . . . . . . . . . 29
5.4 Déploiement du modèle k-means dans un fichier EXCEL . . . . . . . 31
5.5 Exportation du fichier excel . . . . . . . . . . . . . . . . . . . . . . . 32
1
Remerciements
Les travaux de ce projet ont été effectuées, à l’école nationale d’informatique

et d’analyse de systèmes. Nous remercions par l’occasion professeur
BENBRAHIM Houda d’avoir mis à notre disposition les moyens néces-
saires pour mener à bien ce travail.
Sans sa rigueur scientifique, les nombreux échanges de vue fructueux
que nous avons eue, ce travail n’aurait pu être mené à bien. Nous avons
été très sensibles à ses qualités humaines et à l’atmosphère dans laquelle
nous avons travaillé qui nous ont permis d’être motivé pendant toute la
durée de ce travail. Qu’elle trouve l’expression de notre profonde recon-
naissance.
Nous remercions vivement Mr. JANATI MOHAMED coordinateur de la

filière e-Management et Business Intelligence. Il trouve ici l’expression
de toute notre gratitude.
Nous tenons à remercier, toute l’équipe Pédagogique de l’école nationale
d’informatique et d’analyse de systèmes.
Chapter 1
Compréhension du problème
Afin de garantir l’homogénéité de notre projet, la compréhension de notre problé-

matique s’avère une phase indispensable.
1.1 Définition des objectifs du projet

Aujourd’hui, le mode de vie "healthy" est la tendance. Cela revient à une prise de
conscience générale de la société moderne. De plus en plus, les personnes essaient
d’améliorer leur santé en s’exerçant régulièrement et en supervisant leurs habitudes
alimentaires.
Afin de satisfaire les besoins spécifiques de chaque individu, les conclusions tirées
Figure 1.1: l’équilibre alimentaire
des données des repas à consommer sont d’une grande importance. Le secteur de
la santé est en plein essor, notamment en ce qui concerne l’analyse des données
relatives à la santé. 39 % des adultes dans le monde et plus de 20 % des marocains
sont en sur-poids ou obèses.
1
Le sur-poids et l’obésité augmentent le risque de problèmes de santé, notamment
le diabète, l’hypertension et l’arthrose. La moitié des adultes marocains essaient de
perdre du poids chaque année. Le plus souvent, ils tentent de le faire en faisant plus
d’exercice et en mangeant moins, car un apport calorique net négatif est associé à
une perte de poids. Pour faciliter ce processus, de nombreuses personnes utilisent
des applications de suivi des calories. D’ici, nous sommes mené à réaliser une étude
ayant l’objectif suivant:
• Déterminer si un plat est "healthy" ou non.

Maintenant que nos objectifs sont clairement établis, passons à l’évaluation de la
situation actuelle.
1.2 Évaluation de la situation

Cette étape soulève les points suivants:
• Compétences: Il parait clairement que la réalisation de ce projet nécessite
la maîtrise des notions vu en cours de datamining, ainsi que savoir manipuler
l’outil SPSS modeler.
• Données: Pour établir notre étude, nous avons besoin d’une large base de
données contenant la recette, les différents ingrédients utilisés pour préparer
cette recette, et le nombre de calories figurant dans chaque aliment.
1.3 Définition des objectifs de l’exploration des don-

nées
Avec l’aide des connaissances acquises lors des séances de datamining, nous traduisons
les objectifs du projet établis en objectifs d’exploration de données:
• Utiliser les données pour générer un modèle de prédiction de la nature d’un
plat.
1.3.1 Clustring
une méthode d’analyse statistique utilisée pour organiser des données brutes en silos
homogènes. A l’intérieur de chaque grappe, les données sont regroupées selon une
caractéristique commune
1.3.2 K-means
Le partitionnement en k-moyennes est une méthode de partitionnement de données
et un problème d’optimisation combinatoire. Étant donnés des points et un entier
k, le problème est de diviser les points en k groupes, souvent appelés clusters, de
façon à minimiser une certaine fonction.
2
Chapter 2
Compréhension des données
Après la compréhension du problème vient la compréhension des données en main.
2.1 Collecte des données

Cette étape implique la méthode d’obtention des données et leurs chargement au
niveau de IBM SPSS modeler.
Pour la collecte des données nécessaires à notre modèle, nous avons utilisé plusieurs
outils de recherche de données, notamment la plate-forme KAGGLE connue pour
ces datasets riches et inépuisables. Nous nous sommes décidé sur un fichier répon-
dant à nos besoins.
Figure 2.1: aperçu du fichier de données
Nos besoins en matière de données couverts, nous passons maintenant à la de-

scription des données.
3
2.2 Description des données
Il existe plusieurs façons de description des données. Notre descriptions est axée sur
la quantité et la qualité des données: le volume de données disponibles et l’état de
ces données. Ceci est résumé par le tableau suivant:
Figure 2.2: tableau descriptif du fichier
Nous procédons à détailler de plus nos données en précisant pour chacun les
noms d’attributs, leurs signification, et leurs types.
Ensuite, nous passons à examiner nos données.
Figure 2.3: détails des champs du fichiers
2.3 Exploration des données

Nous pouvons directement explorer notre fichier car c’est un fichier excel, supporté
par SPSS modeler.
4
Figure 2.4: visualisation des données avec l’outil SPSS modeler
5
2.3.1 Exploration de la colonne Calories
Nous réalisons l’histogramme ci-dessous pour analyser l’attribut "Calories":
Figure 2.5: L’histogramme de la colonne calories
Nous avons besoin d’examiner la qualité des données pour savoir si nous pouvons
les utiliser ou devons les changer.
6
2.4 Vérification de la qualité des données
Nous appliquons l’audit des données sur SPSS comme suit:
Figure 2.6: audit des données
7
Il important d’assurer une bonne qualité de donnée avant de ne passer à la
réalisation du modèle.
Figure 2.7: la qualité des données
8
Il y a un problème au niveau de la colonne "Calories". Cet attribut contient des
valeurs négatives, ce qui est absurde et doit être réglé. Le chapitre suivant prend en
Figure 2.8: la mesure "calories" erronée
compte ce problème.
9
Chapter 3
Préparation des données
Dans ce chapitre, nous traitons la sélection des données, le nettoyage de données et

l’intégration des données. C’est une étape coûteuse et crucial pour la réussite du
projet.
3.1 Nettoyage des données

Dans cette étape, nous sommes mené à examiner en profondeur les erreurs au niveau
des attributs que nous avons choisi.
3.1.1 Les valeurs manquantes:

nous supprimons les données manquantes:
10
Figure 3.1: suppression des valeurs manquantes
11
3.1.2 Mesures erronées
Nous rectifions l’attribut "calories" comme suit:
Figure 3.2: rectification de la colonne "calories"
12
3.2 Sélection des données
La collecte initiale de données réalisée dans la phase précédente nous offre plusieurs
attributs. Nous avons à choisir ceux les plus pertinents pour nos objectifs d’exploration
de données.
Nous disposons d’un jeu de données correcte et nous pouvons passer à la modélisa-
tion.
Figure 3.3: modification de la colonne calories.
Nous avons divisé les calories en 5 classes de partitionnement.
13
Figure 3.4: splitting de la base de données en testing et training sets.
on a divisé notre dataset en 80% pour la partie training et 20% pour la partie test.
14
Chapter 4
Modélisation
Le centre du projet est l’étape de la modélisation. Nous avons obtenir des résultats
qui devraient répondre à notre problématique.
4.1 Sélection des techniques de modélisation

Il y’ a plusieurs types de modélisation. Le choix du modèle le plus adéquat sera
généralement basé sur les critères suivants :
• Les types de données disponibles pour l’exploration: Les champs intéressants

sont numériques
• Les objectifs de data mining:
Nous avons opté pour une étude supervisée et une autre non supérvisée. Pour
l’étude supervisée, nous avons utilisé les arbres de décisions et les réseaux de neu-
ronnes. Quant à l’etude non supérvisée, nous avons plusieurs méthodes de clustering
: méthode hiérarchiques, méthodes de partitionnement, méthodes mixtes et anal-
yse floue. Nous avons choisi de travailler avec l’algorithme de K-means : c’est une
méthode de partitionnement. Il permet de regrouper en K clusters distincts les ob-
servations du data set. Nous avons choisi K-means pour ces raisons :
• Simple et robuste.
• On définit nous même le nombre de clusters.
• Efficace : O(n.t.k) avec n : le nombre des objets, t : nombre des itérations et

k : le nombre des clusters.
4.2 L’étude descriptive:

Le type de données utilisées pour les clustring
15
Figure 4.1: ensemble des attributs du dataset
16
Voici les 5 clusters géneres par l’algorithme k-means, dont le plus grand par-
titionnement est de 27.6% Voici l’histogramme de deuxième cluster par rapport à
Figure 4.2: les 5 cluster generées
l’attribut "catégorie food".
17
Figure 4.3: histogramme de 2eme cluster par rapport à l’attribut catégorie food
18
La visualisation de la distribution des catégories food par rapport aux 5 clusters
générés.
Figure 4.4: Distribution des différents clusters par rapport à catégorie food
19
4.3 Apprentissage supervisé
4.4 Le modèle réalisé:
Construction du modèle de notre étude d’apprentissage supervisé avec les deux méth-
odes arbres de décision et réseaux de neurones.
Figure 4.5: construction du modèle de prédiction
20
Découpage du dataset en deux: la première partie du training set de 80% et la
deuxième de 20%.
Figure 4.6: diviser le data(80% training, 20% test
21
4.4.1 Arbre de décision
L’arbre construit du sommet label poursuit du food group ainsi que l’attribut calo-
ries.
Figure 4.7: Arbre de décision généré
22
le prédicteur le plus important c’est le foodgroup.
Figure 4.8: graphe du prédicteur le plus important.
23
Voici la classification des labels.
Figure 4.9: Classification des labels
24
Architecture de réseaux de neurones.
Figure 4.10: Architecture de réseaux de neurones
25
Chapter 5
Évaluation et Déploiement
5.1 Évaluation
5.1.1 Qualité du modèle
Évaluation des réseaux de neurones.
Évaluation de l’arbre de décision.
26
Figure 5.1
27
Figure 5.2: Évaluation de l’arbre de décision
28
Figure 5.3: Évaluation de l’arbre de décision
29
l’évaluation du k-means.
5.1.2 Amélioration
Pour améliorer notre projet, il sera préférable ré-exploration des données en ajoutant
des attributs qui peuvent données des résultats plus pertinents, ainsi que la réduction
du nombre clusters pour simplifier la classification
.
30
5.2 Déploiement
Déploiement du modèle k-means dans un fichier EXCEL. Exportation du fichier
Figure 5.4: Déploiement du modèle k-means dans un fichier EXCEL
excel.
31
Figure 5.5: Exportation du fichier excel
32
Conclusion
A travers ce projet, nous avons pu en effet consolider les connaissances

acquises et d’enrichir Notre expérience en matière de data mining. A
travers le sujet choisi "FOOD ANALYSIS", on constate que le date
mining peut etre appliqué dans tous les domaines et s’avère utile pour
tous les décideurs. Pour atteindre notre objectif nous avons mis en place
la démarche CRISP-DM ( CRoss Industry Standard Process for Data
Mining ). Il s’agit d’un modèle de processus de data mining qui décrit
une approche communément utilisée par les experts en data mining pour
résoudre les problèmes qui se posent ‘a eux.
Bibliographie
• https://www.ibm.com/docs/fr/SS3RA71 8.3.0/pdf /M odelerSP Onodes.pdf https

//www.ibm.com/f r − f r/products/spss − modeler/pricing
• https://www.ibm.com/docs/en/cloud-paks/cp-data/4.0?topic=modeling-
neural-net-node
• https://www.youtube.com/watch?v=mJjPVOP1QMMt=6494s

Dmszine

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Dmszine

Transféré par

Droits d'auteur :

Formats disponibles

École Nationale Supérieure d’Informatique et d’Analyse

PROJET DATA MINING

Réalisé par: Encadrante:

2 Compréhension des données 3

3 Préparation des données 10

1.1 l’équilibre alimentaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

2.1 aperçu du fichier de données . . . . . . . . . . . . . . . . . . . . . . . 3

3.1 suppression des valeurs manquantes . . . . . . . . . . . . . . . . . . . 11

4.1 ensemble des attributs du dataset . . . . . . . . . . . . . . . . . . . . 16

Les travaux de ce projet ont été effectuées, à l’école nationale d’informatique

Nous remercions vivement Mr. JANATI MOHAMED coordinateur de la

Afin de garantir l’homogénéité de notre projet, la compréhension de notre problé-

1.1 Définition des objectifs du projet

Figure 1.1: l’équilibre alimentaire

• Déterminer si un plat est "healthy" ou non.

1.2 Évaluation de la situation

1.3 Définition des objectifs de l’exploration des don-

Compréhension des données

Après la compréhension du problème vient la compréhension des données en main.

2.1 Collecte des données

Figure 2.1: aperçu du fichier de données

Nos besoins en matière de données couverts, nous passons maintenant à la de-

Figure 2.2: tableau descriptif du fichier

Figure 2.3: détails des champs du fichiers

2.3 Exploration des données

Figure 2.5: L’histogramme de la colonne calories

Figure 2.6: audit des données

Figure 2.7: la qualité des données

Figure 2.8: la mesure "calories" erronée

Préparation des données

Dans ce chapitre, nous traitons la sélection des données, le nettoyage de données et

3.1 Nettoyage des données

3.1.1 Les valeurs manquantes:

Figure 3.2: rectification de la colonne "calories"

Figure 3.3: modification de la colonne calories.

Nous avons divisé les calories en 5 classes de partitionnement.

4.1 Sélection des techniques de modélisation

• Les types de données disponibles pour l’exploration: Les champs intéressants

• Les objectifs de data mining:

• On définit nous même le nombre de clusters.

• Efficace : O(n.t.k) avec n : le nombre des objets, t : nombre des itérations et

4.2 L’étude descriptive:

Figure 4.2: les 5 cluster generées

l’attribut "catégorie food".

Figure 4.5: construction du modèle de prédiction

Figure 4.6: diviser le data(80% training, 20% test

Figure 4.7: Arbre de décision généré

Figure 4.8: graphe du prédicteur le plus important.

Figure 4.9: Classification des labels

Figure 4.10: Architecture de réseaux de neurones

Évaluation de l’arbre de décision.

Figure 5.4: Déploiement du modèle k-means dans un fichier EXCEL

A travers ce projet, nous avons pu en effet consolider les connaissances

• https://www.ibm.com/docs/fr/SS3RA71 8.3.0/pdf /M odelerSP Onodes.pdf https

Vous aimerez peut-être aussi