Vous êtes sur la page 1sur 38

École Nationale Supérieure d’Informatique et d’Analyse

des Systèmes

PROJET DATA MINING

FOOD ANALYSIS

Réalisé par: Encadrante:


BATRANI Zohore PROF BENBRAHIM Houda
ERRACHIK Fatimaezzahra
JABRI Rim
OUALY Aymane

2021/2022
Contents

1 Compréhension du problème 1
1.1 Définition des objectifs du projet . . . . . . . . . . . . . . . . . . . . 1
1.2 Évaluation de la situation . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Définition des objectifs de l’exploration des données . . . . . . . . . . 2
1.3.1 Clustring . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3.2 K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2 Compréhension des données 3


2.1 Collecte des données . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Description des données . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3 Exploration des données . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3.1 Exploration de la colonne Calories . . . . . . . . . . . . . . . . 6
2.4 Vérification de la qualité des données . . . . . . . . . . . . . . . . . . 7

3 Préparation des données 10


3.1 Nettoyage des données . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.1.1 Les valeurs manquantes: . . . . . . . . . . . . . . . . . . . . . 10
3.1.2 Mesures erronées . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2 Sélection des données . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4 Modélisation 15
4.1 Sélection des techniques de modélisation . . . . . . . . . . . . . . . . 15
4.2 L’étude descriptive: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.3 Apprentissage supervisé . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.4 Le modèle réalisé: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.4.1 Arbre de décision . . . . . . . . . . . . . . . . . . . . . . . . . 22

5 Évaluation et Déploiement 26
5.1 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.1.1 Qualité du modèle . . . . . . . . . . . . . . . . . . . . . . . . 26
5.1.2 Amélioration . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.2 Déploiement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
List of Figures

1.1 l’équilibre alimentaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

2.1 aperçu du fichier de données . . . . . . . . . . . . . . . . . . . . . . . 3


2.2 tableau descriptif du fichier . . . . . . . . . . . . . . . . . . . . . . . 4
2.3 détails des champs du fichiers . . . . . . . . . . . . . . . . . . . . . . 4
2.4 visualisation des données avec l’outil SPSS modeler . . . . . . . . . . 5
2.5 L’histogramme de la colonne calories . . . . . . . . . . . . . . . . . . 6
2.6 audit des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.7 la qualité des données . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.8 la mesure "calories" erronée . . . . . . . . . . . . . . . . . . . . . . . 9

3.1 suppression des valeurs manquantes . . . . . . . . . . . . . . . . . . . 11


3.2 rectification de la colonne "calories" . . . . . . . . . . . . . . . . . . . 12
3.3 modification de la colonne calories. . . . . . . . . . . . . . . . . . . . 13
3.4 splitting de la base de données en testing et training sets. . . . . . . . 14

4.1 ensemble des attributs du dataset . . . . . . . . . . . . . . . . . . . . 16


4.2 les 5 cluster generées . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.3 histogramme de 2eme cluster par rapport à l’attribut catégorie food . 18
4.4 Distribution des différents clusters par rapport à catégorie food . . . . 19
4.5 construction du modèle de prédiction . . . . . . . . . . . . . . . . . . 20
4.6 diviser le data(80% training, 20% test . . . . . . . . . . . . . . . . . . 21
4.7 Arbre de décision généré . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.8 graphe du prédicteur le plus important. . . . . . . . . . . . . . . . . . 23
4.9 Classification des labels . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.10 Architecture de réseaux de neurones . . . . . . . . . . . . . . . . . . . 25

5.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.2 Évaluation de l’arbre de décision . . . . . . . . . . . . . . . . . . . . . 28
5.3 Évaluation de l’arbre de décision . . . . . . . . . . . . . . . . . . . . . 29
5.4 Déploiement du modèle k-means dans un fichier EXCEL . . . . . . . 31
5.5 Exportation du fichier excel . . . . . . . . . . . . . . . . . . . . . . . 32

1
Remerciements

Les travaux de ce projet ont été effectuées, à l’école nationale d’informatique


et d’analyse de systèmes. Nous remercions par l’occasion professeur
BENBRAHIM Houda d’avoir mis à notre disposition les moyens néces-
saires pour mener à bien ce travail.
Sans sa rigueur scientifique, les nombreux échanges de vue fructueux
que nous avons eue, ce travail n’aurait pu être mené à bien. Nous avons
été très sensibles à ses qualités humaines et à l’atmosphère dans laquelle
nous avons travaillé qui nous ont permis d’être motivé pendant toute la
durée de ce travail. Qu’elle trouve l’expression de notre profonde recon-
naissance.

Nous remercions vivement Mr. JANATI MOHAMED coordinateur de la


filière e-Management et Business Intelligence. Il trouve ici l’expression
de toute notre gratitude.
Nous tenons à remercier, toute l’équipe Pédagogique de l’école nationale
d’informatique et d’analyse de systèmes.
Chapter 1

Compréhension du problème

Afin de garantir l’homogénéité de notre projet, la compréhension de notre problé-


matique s’avère une phase indispensable.

1.1 Définition des objectifs du projet


Aujourd’hui, le mode de vie "healthy" est la tendance. Cela revient à une prise de
conscience générale de la société moderne. De plus en plus, les personnes essaient
d’améliorer leur santé en s’exerçant régulièrement et en supervisant leurs habitudes
alimentaires.
Afin de satisfaire les besoins spécifiques de chaque individu, les conclusions tirées

Figure 1.1: l’équilibre alimentaire

des données des repas à consommer sont d’une grande importance. Le secteur de
la santé est en plein essor, notamment en ce qui concerne l’analyse des données
relatives à la santé. 39 % des adultes dans le monde et plus de 20 % des marocains
sont en sur-poids ou obèses.

1
Le sur-poids et l’obésité augmentent le risque de problèmes de santé, notamment
le diabète, l’hypertension et l’arthrose. La moitié des adultes marocains essaient de
perdre du poids chaque année. Le plus souvent, ils tentent de le faire en faisant plus
d’exercice et en mangeant moins, car un apport calorique net négatif est associé à
une perte de poids. Pour faciliter ce processus, de nombreuses personnes utilisent
des applications de suivi des calories. D’ici, nous sommes mené à réaliser une étude
ayant l’objectif suivant:

• Déterminer si un plat est "healthy" ou non.


Maintenant que nos objectifs sont clairement établis, passons à l’évaluation de la
situation actuelle.

1.2 Évaluation de la situation


Cette étape soulève les points suivants:
• Compétences: Il parait clairement que la réalisation de ce projet nécessite
la maîtrise des notions vu en cours de datamining, ainsi que savoir manipuler
l’outil SPSS modeler.

• Données: Pour établir notre étude, nous avons besoin d’une large base de
données contenant la recette, les différents ingrédients utilisés pour préparer
cette recette, et le nombre de calories figurant dans chaque aliment.

1.3 Définition des objectifs de l’exploration des don-


nées
Avec l’aide des connaissances acquises lors des séances de datamining, nous traduisons
les objectifs du projet établis en objectifs d’exploration de données:
• Utiliser les données pour générer un modèle de prédiction de la nature d’un
plat.

1.3.1 Clustring
une méthode d’analyse statistique utilisée pour organiser des données brutes en silos
homogènes. A l’intérieur de chaque grappe, les données sont regroupées selon une
caractéristique commune

1.3.2 K-means
Le partitionnement en k-moyennes est une méthode de partitionnement de données
et un problème d’optimisation combinatoire. Étant donnés des points et un entier
k, le problème est de diviser les points en k groupes, souvent appelés clusters, de
façon à minimiser une certaine fonction.

2
Chapter 2

Compréhension des données

Après la compréhension du problème vient la compréhension des données en main.

2.1 Collecte des données


Cette étape implique la méthode d’obtention des données et leurs chargement au
niveau de IBM SPSS modeler.
Pour la collecte des données nécessaires à notre modèle, nous avons utilisé plusieurs
outils de recherche de données, notamment la plate-forme KAGGLE connue pour
ces datasets riches et inépuisables. Nous nous sommes décidé sur un fichier répon-
dant à nos besoins.

Figure 2.1: aperçu du fichier de données

Nos besoins en matière de données couverts, nous passons maintenant à la de-


scription des données.

3
2.2 Description des données
Il existe plusieurs façons de description des données. Notre descriptions est axée sur
la quantité et la qualité des données: le volume de données disponibles et l’état de
ces données. Ceci est résumé par le tableau suivant:

Figure 2.2: tableau descriptif du fichier

Nous procédons à détailler de plus nos données en précisant pour chacun les
noms d’attributs, leurs signification, et leurs types.
Ensuite, nous passons à examiner nos données.

Figure 2.3: détails des champs du fichiers

2.3 Exploration des données


Nous pouvons directement explorer notre fichier car c’est un fichier excel, supporté
par SPSS modeler.

4
Figure 2.4: visualisation des données avec l’outil SPSS modeler

5
2.3.1 Exploration de la colonne Calories
Nous réalisons l’histogramme ci-dessous pour analyser l’attribut "Calories":

Figure 2.5: L’histogramme de la colonne calories

Nous avons besoin d’examiner la qualité des données pour savoir si nous pouvons
les utiliser ou devons les changer.

6
2.4 Vérification de la qualité des données
Nous appliquons l’audit des données sur SPSS comme suit:

Figure 2.6: audit des données

7
Il important d’assurer une bonne qualité de donnée avant de ne passer à la
réalisation du modèle.

Figure 2.7: la qualité des données

8
Il y a un problème au niveau de la colonne "Calories". Cet attribut contient des
valeurs négatives, ce qui est absurde et doit être réglé. Le chapitre suivant prend en

Figure 2.8: la mesure "calories" erronée

compte ce problème.

9
Chapter 3

Préparation des données

Dans ce chapitre, nous traitons la sélection des données, le nettoyage de données et


l’intégration des données. C’est une étape coûteuse et crucial pour la réussite du
projet.

3.1 Nettoyage des données


Dans cette étape, nous sommes mené à examiner en profondeur les erreurs au niveau
des attributs que nous avons choisi.

3.1.1 Les valeurs manquantes:


nous supprimons les données manquantes:

10
Figure 3.1: suppression des valeurs manquantes

11
3.1.2 Mesures erronées
Nous rectifions l’attribut "calories" comme suit:

Figure 3.2: rectification de la colonne "calories"

12
3.2 Sélection des données
La collecte initiale de données réalisée dans la phase précédente nous offre plusieurs
attributs. Nous avons à choisir ceux les plus pertinents pour nos objectifs d’exploration
de données.
Nous disposons d’un jeu de données correcte et nous pouvons passer à la modélisa-
tion.

Figure 3.3: modification de la colonne calories.

Nous avons divisé les calories en 5 classes de partitionnement.

13
Figure 3.4: splitting de la base de données en testing et training sets.

on a divisé notre dataset en 80% pour la partie training et 20% pour la partie test.

14
Chapter 4

Modélisation

Le centre du projet est l’étape de la modélisation. Nous avons obtenir des résultats
qui devraient répondre à notre problématique.

4.1 Sélection des techniques de modélisation


Il y’ a plusieurs types de modélisation. Le choix du modèle le plus adéquat sera
généralement basé sur les critères suivants :

• Les types de données disponibles pour l’exploration: Les champs intéressants


sont numériques

• Les objectifs de data mining:

Nous avons opté pour une étude supervisée et une autre non supérvisée. Pour
l’étude supervisée, nous avons utilisé les arbres de décisions et les réseaux de neu-
ronnes. Quant à l’etude non supérvisée, nous avons plusieurs méthodes de clustering
: méthode hiérarchiques, méthodes de partitionnement, méthodes mixtes et anal-
yse floue. Nous avons choisi de travailler avec l’algorithme de K-means : c’est une
méthode de partitionnement. Il permet de regrouper en K clusters distincts les ob-
servations du data set. Nous avons choisi K-means pour ces raisons :

• Simple et robuste.

• On définit nous même le nombre de clusters.

• Efficace : O(n.t.k) avec n : le nombre des objets, t : nombre des itérations et


k : le nombre des clusters.

4.2 L’étude descriptive:


Le type de données utilisées pour les clustring

15
Figure 4.1: ensemble des attributs du dataset

16
Voici les 5 clusters géneres par l’algorithme k-means, dont le plus grand par-
titionnement est de 27.6% Voici l’histogramme de deuxième cluster par rapport à

Figure 4.2: les 5 cluster generées

l’attribut "catégorie food".

17
Figure 4.3: histogramme de 2eme cluster par rapport à l’attribut catégorie food

18
La visualisation de la distribution des catégories food par rapport aux 5 clusters
générés.

Figure 4.4: Distribution des différents clusters par rapport à catégorie food

19
4.3 Apprentissage supervisé
4.4 Le modèle réalisé:
Construction du modèle de notre étude d’apprentissage supervisé avec les deux méth-
odes arbres de décision et réseaux de neurones.

Figure 4.5: construction du modèle de prédiction

20
Découpage du dataset en deux: la première partie du training set de 80% et la
deuxième de 20%.

Figure 4.6: diviser le data(80% training, 20% test

21
4.4.1 Arbre de décision
L’arbre construit du sommet label poursuit du food group ainsi que l’attribut calo-
ries.

Figure 4.7: Arbre de décision généré

22
le prédicteur le plus important c’est le foodgroup.

Figure 4.8: graphe du prédicteur le plus important.

23
Voici la classification des labels.

Figure 4.9: Classification des labels

24
Architecture de réseaux de neurones.

Figure 4.10: Architecture de réseaux de neurones

25
Chapter 5

Évaluation et Déploiement

5.1 Évaluation
5.1.1 Qualité du modèle
Évaluation des réseaux de neurones.

Évaluation de l’arbre de décision.

26
Figure 5.1

27
Figure 5.2: Évaluation de l’arbre de décision

28
Figure 5.3: Évaluation de l’arbre de décision

29
l’évaluation du k-means.

5.1.2 Amélioration
Pour améliorer notre projet, il sera préférable ré-exploration des données en ajoutant
des attributs qui peuvent données des résultats plus pertinents, ainsi que la réduction
du nombre clusters pour simplifier la classification
.

30
5.2 Déploiement
Déploiement du modèle k-means dans un fichier EXCEL. Exportation du fichier

Figure 5.4: Déploiement du modèle k-means dans un fichier EXCEL

excel.

31
Figure 5.5: Exportation du fichier excel

32
Conclusion

A travers ce projet, nous avons pu en effet consolider les connaissances


acquises et d’enrichir Notre expérience en matière de data mining. A
travers le sujet choisi "FOOD ANALYSIS", on constate que le date
mining peut etre appliqué dans tous les domaines et s’avère utile pour
tous les décideurs. Pour atteindre notre objectif nous avons mis en place
la démarche CRISP-DM ( CRoss Industry Standard Process for Data
Mining ). Il s’agit d’un modèle de processus de data mining qui décrit
une approche communément utilisée par les experts en data mining pour
résoudre les problèmes qui se posent ‘a eux.
Bibliographie

• https://www.ibm.com/docs/fr/SS3RA71 8.3.0/pdf /M odelerSP Onodes.pdf https


//www.ibm.com/f r − f r/products/spss − modeler/pricing
• https://www.ibm.com/docs/en/cloud-paks/cp-data/4.0?topic=modeling-
neural-net-node
• https://www.youtube.com/watch?v=mJjPVOP1QMMt=6494s

Vous aimerez peut-être aussi

  • Kjuyt
    Kjuyt
    Document64 pages
    Kjuyt
    ZOHORE BATRANI
    Pas encore d'évaluation
  • Cdxyt
    Cdxyt
    Document13 pages
    Cdxyt
    ZOHORE BATRANI
    Pas encore d'évaluation
  • Ecole Nationale Supérieure D'informatique Et D'analyse Des Systèmes
    Ecole Nationale Supérieure D'informatique Et D'analyse Des Systèmes
    Document2 pages
    Ecole Nationale Supérieure D'informatique Et D'analyse Des Systèmes
    ZOHORE BATRANI
    Pas encore d'évaluation
  • VFDC
    VFDC
    Document9 pages
    VFDC
    ZOHORE BATRANI
    Pas encore d'évaluation
  • Mlijh
    Mlijh
    Document11 pages
    Mlijh
    ZOHORE BATRANI
    Pas encore d'évaluation
  • Milkked
    Milkked
    Document19 pages
    Milkked
    ZOHORE BATRANI
    Pas encore d'évaluation
  • LIKORSD
    LIKORSD
    Document55 pages
    LIKORSD
    ZOHORE BATRANI
    Pas encore d'évaluation
  • Monday
    Monday
    Document9 pages
    Monday
    ZOHORE BATRANI
    Pas encore d'évaluation
  • Rapport IA
    Rapport IA
    Document19 pages
    Rapport IA
    ZOHORE BATRANI
    Pas encore d'évaluation
  • XCNBSD
    XCNBSD
    Document21 pages
    XCNBSD
    ZOHORE BATRANI
    Pas encore d'évaluation