Académique Documents
Professionnel Documents
Culture Documents
Présenté à
Maison du Nabeul
Par
Belaazi Nada
Licence Fondamentale
Spécialité :
Informatique et Multimédia
Sommaire
Chapitre I : Cadre générale du projet 4
Introduction 5
Présentation de l’entreprise 5
Présentation du sujet 6
1. Contexte 6
2. L’objectif 6
Chapitre II : Etat de l’art 7
1. R Langage 8
2. R Studio 8
5. IA 10
I. Analyse 12
1 .Dataset 12
2. Variable dépendante 14
3. Variable indépendante 14
4. Algorithme K-NN 14
2. Spliting the dataset into the Training set and Test set 15
3. Feature Scaling: 16
III Conclusion : 19
2
Liste des figures :
Figure 1 : Data-science 9
Figure 2 : Data-Mining 9
Figure 3 : Machine Learning 10
Figure 4 : Code dataset 13
Figure 5 : Dataset 14
Figure 6 : Training set 15
Figure 7: Test set 16
Figure 8 : Feature Scaling training set 17
Figure 9 : Feature test set 17
Figure 10 : Visualisation training set 18
Figure 11 : Visualisation test set 18
Figure 12 : visualisation training set (decision tree) 19
Figure 13 : Visualisation test set(decision tree) 19
3
Remerciement
Je tiens à remercier toutes les personnes qui ont contribué au succès de mon stage et qui
m'ont aidé lors de la rédaction de ce rapport.
Je tiens à remercier vivement mon maitre de stage, Mr Houcem Rezgi pour son accueil, le
temps passé ensemble et le partage de son expertise au quotidien. Grâce aussi à sa
confiance j'ai pu m'accomplir totalement dans mes missions. Il fut d'une aide précieuse
dans les moments les plus délicats.
Introduction générale :
L’apprentissage automatique est un sous-domaine de l’intelligence artificielle (IA). En
générale, On a l’impression de comprendre automatiquement la structure et l’intégration
dans les modèles qui peuvent être compris et utilisé par tout le monde.
Les algorithmes d’apprentissage automatique ont été mémorisés et analysés pour produire
des valeurs qui se situent dans une plage spécifique.
Ce rapport est composé de trois chapitres. Dans le premier chapitre nous présentons le
cadre générale du projet. Le second chapitre comporte une description des différents outils
qui peuvent être utilisé pour résoudre le problème de classification et quelque Notion de
base ... Et enfin, dans le dernier chapitre, nous présentons les étapes de nos démarches qui
résoudre le problème.
4
Chapitre I : Cadre générale du projet
5
Introduction : Ce chapitre introductif est consacré à la présentation de l’organisme
d’accueil ainsi que le cadre général du projet. Nous exposons, dans un premier temps, la
société Maison du web. Nous présentons par la suite les objectifs de notre travail.
Présentation de l’entreprise :
Maison de web est une société créée en mars 2012, la société Maison du Web est une
agence de communication tunisienne sise à Nabeul. Elle est spécialisée dans le
développement informatique orienté Web. La société est composée principalement de trois
services :
Présentation de sujet
Contexte : Ce projet consiste à classifier les acheteurs d’un produit selon deux axes
(salaire estimé et âge d’acheteur) en vue de résulter le public cible
6
Chapitre II : État de l'art
7
I. Environnement de travail, les outils utilisés :
1. R langage :
R est un langage de programmation et un logiciel libre destiné aux statistiques et à la
science des données soutenu par la R Foundation for Statistical Computing. R fait partie de
la liste des paquets GNU et est écrit en C, Fortran et R.
Le langage R est largement utilisé par les statisticiens, les data miners, data scientists
pour le développement de logiciels statistiques et l’analyse des données.
2. R studio :
RStudio est un environnement de développement gratuit, libre et multiplateforme pour R,
un langage de programmation utilisé pour le traitement de données et l’analyse statistique.
Il est disponible sous la licence libre AGPLv3, ou bien sous une licence commerciale,
soumise à un abonnement annuel.
RStudio est disponible en deux versions : RStudio Desktop, pour une exécution locale du
logiciel comme tout autre application, et RStudio Server qui, lancé sur un serveur Linux,
permet d'accéder à RStudio par un navigateur web.
La science des données est un "concept pour unifier les statistiques, l'analyse des données,
l'apprentissage automatique et les méthodes associées" afin de "comprendre et analyser les
phénomènes réels" avec des données. Il utilise des techniques et des théories issues de
nombreux domaines dans les domaines des mathématiques, de la statistique, de la science
de l'information et de l'informatique.
8
La science des données « Data-science » est un concept pour unifier les statistiques,
l'analyse des données, l'apprentissage automatique et les méthodes associées afin de
comprendre et analyser les phénomènes réels avec des données. Il utilise des techniques et
des théories issues de nombreux domaines dans les domaines des mathématiques, de la
statistique, de la science de l'information et de l'informatique.
Figure 1: Data-science
Figure 2: Data-Mining
9
Figure 3 : Machine Learning
Le principe :
5. L’intelligence artificielle :
Ainsi, l’intelligence artificielle est une chose qui fait un lien entre des données d’entrée et
de sortie. (Je lui donne du rouge et l’intelligence artificielle me rend du bleu par exemple.)
10
Chapitre III : Modélisation
11
I. Analyse :
1. Dataset :
Data est présent dans le fichier Data.csv dans le dossier ou le répertoire de travail en cours
(utilisez la commande setwd ("Emplacement actuel du Data.csv") pour définir le répertoire
de travail sur le répertoire en cours.)
*Import Dataset :
12
Figure 4 : code dataset
13
Figure 5 : Dataset
2. Variable dépendante :
*Salaire : variable continue qui exprime le salaire d'un employé.
*Age : variable continue qui exprime l’âge d’un employé.
*Purchased : variable continue qui exprime acheté de client.
3. Variable indépendante :
*Salaire : variable continue qui exprime le salaire d'un employé.
*Age : variable continue qui exprime l’âge d’un employé.
*Purchased: variable continue qui exprime acheté de client.
4. algorithme k-NN :
La méthode d’apprentissage utiliser pour résoudre le problème de classification est :
méthode des k plus proches voisins « K-NN » est une méthode d’apprentissage supervisé.
14
Les données catégoriques sont des données non numériques qui appartiennent à un
ensemble spécifique de catégories.
Par défaut, la fonction read.csv () dans R rend toutes les variables de chaîne sous forme de
variables catégorielles (facteur), mais supposons qu'il existe une colonne de nom dans
l'ensemble de données. Dans ce cas, nous n'en avons pas besoin en tant que variables
catégoriques. Donc on créer des variables spécifiques en tant que variables factorielles.
2. Spliting the dataset into the Training set and Test set :
15
Figure 7: test set
3. Feature Scaling:
La mise à l'échelle des fonctionnalités est nécessaire lorsque différentes fonctionnalités ont
des plages différentes, par exemple Age et Salaire
Ils ont des plages très différentes, mais lorsque nous formons un modèle, qui essaie
fondamentalement d’ajuster une ligne (en régression linéaire)
16
Figure 8 : training set
17
Figure 10: k-NN (training set)
Plot description:
*Le classificateur prédit que la région rouge est "Ne pas acheter"
*Le classificateur prédit que la région verte est "Acheter"
*Les points rouges sont ceux qui n'ont pas acheté
*Les points verts sont ceux qui ont réellement acheté.
*La ligne est la limite de prédiction.
Remarque :
On remarque les deux modèles (training set, test set) similaires, donc notre modèle a
probablement capturé la chimie et la physique essentielle du problème.
III. Conclusion :
Il existe d’autres méthodes d’apprentissages supervisé comme :
*Boosting
*Mélanges de lois
*Réseau de neurones
18
*arbre de décision
Dans cette partie, on va faire une comparaison entre deux algorithmes « k-NN » et
« decision_tree » et va voir celle qui donne des résultats meilleur pour la résolution
de problème de classification
On remarque les deux modèles (training set, test set) ne pas similaires.
En a constater en étudiant les deux algorithmes que le k-NN donne le meilleur résultat
suite a une série de tests.
19
20
21
22