Reservoir

PLAN DE TRAVAIL
INTRODUCTION
I- GENERALITE SUR LE MACHINE LEARNING

II- LANGUAGE SUPERVISE
1- TYPE D’ALGORITHME D’APPRENTISSAGE SUPERVISE
a- REGRESSION LINEAIRE
b- REGRESSION LOGISTIQUE
c- ARBRES DE CLASSIFICATION ET DE REGRESSION
d- K-NN
e- NAIVE BAYES CLASSIFIER
2- APPLICATION
CONCLUSION
1
INTRODUCTION
A la base, un ordinateur ne sait faire qu’une seule chose, des calculs, ce qui est bien
diffèrent de ce que nous savons faire : résoudre des problèmes, faire du vélo,
reconnaitre les objets que nous voyons autour de nous. Ainsi l’intelligence
artificielle représente l’ensemble des techniques qui cherchent à élaborer des
systèmes capables de simuler ce que les êtres humains font. Parmi ces techniques
on retrouve le machine Learning qui fonctionne tellement bien qu’il envahi notre
quotidien. Il consiste à écrire un programme qui apprend à faire une tache T lorsque
sa performance P s’améliore avec une expérience. Pour se faire, on utilise
couramment des algorithmes de Supervised Learning, Unsupervised Learning
Reinforcemenr Learning.
2
I- GENERALITE SUR MACHINE LEARNING
QU’EST-CE QUE LE MACHINE LEARNING?
Qu’est-ce qu’apprendre, comment apprend-on, et que cela signifie-t-il pour une machine ?
La question de l’apprentissage fascine les spécialistes de l’informatique et des
mathématiques tout autant que neurologues, pédagogues, philosophes ou artistes.
Une définition qui s’applique à un programme informatique comme à un robot, un animal

de compagnie ou un être humain est celle proposée par Fabien Benureau (2015) : «
L’apprentissage est une modification d’un comportement sur la base d’une expérience ».
Dans le cas d’un programme informatique, qui est celui qui nous intéresse dans cet ouvrage,
on parle d’apprentissage automatique, ou machine Learning, quand ce programme a la
capacité d’apprendre sans être programmé. Cette définition est celle donnée par Arthur
Samuel (1959). On peut ainsi opposer un programme classique, qui utilise une procédure et
les données qu’il reçoit en entrée pour produire en sortie des réponses, à un programme
d’apprentissage automatique, qui utilise les données et les réponses afin de produire la
procédure qui permet d’obtenir les secondes à partir des premières. 1.1.1 Pourquoi utiliser
le machine Learning ?
Le machine Learning peut servir à résoudre des problèmes
• que l’on ne sait pas résoudre (comme dans l’exemple de la prédiction d’achats ci-dessus);
• que l’on sait résoudre, mais dont on ne sait formaliser en termes algorithmiques comment
nous les résolvons (c’est le cas par exemple de la reconnaissance d’images ou de la
compréhension du langage naturel) ;
• que l’on sait résoudre, mais avec des procédures beaucoup trop gourmandes en ?ressources
informatiques (c’est le cas par exemple de la prédiction d’interactions entre molécules de
grande taille, pour lesquelles les simulations sont très lourdes). Le machine Learning est
donc utilisé quand les données sont abondantes (relativement), mais les connaissances peu
accessibles ou peu développées.
Ainsi, le machine Learning peut aussi aider les humains à apprendre : les modèles créés par
des algorithmes d’apprentissage peuvent révéler l’importance relative de certaines
informations ou la façon dont elles interagissent entre elles pour résoudre un problème
particulier. Dans l’exemple de la prédiction d’achats, comprendre le modèle peut nous
3
permettre d’analyser quelles caractéristiques des achats passés permettent de prédire ceux
à venir. Cet aspect du machine Learning est très utilisé dans la recherche scientifique : quels
gènes sont impliqués dans le développement d’un certain type de tumeur, et comment ?
Quelles régions d’une image cérébrale permettent de prédire un comportement ? Quelles
caractéristiques d’une molécule en font un bon médicament pour une indication particulière
? Quels aspects d’une image de télescope permettent d’y identifier un objet astronomique
particulier ?
Ingrédients du machine Learning
Le machine Learning repose sur deux piliers fondamentaux :
• d’une part, les données, qui sont les exemples à partir duquel l’algorithme va apprendre ;
• d’autre part, l’algorithme d’apprentissage, qui est la procédure que l’on fait tourner sur
ces données pour produire un modèle. On appelle entraînement le fait de faire tourner un
algorithme d’apprentissage sur un jeu de données.
Ces deux piliers sont aussi importants l’un que l’autre. D’une part, aucun algorithme
d’apprentissage ne pourra créer un bon modèle à partir de données qui ne sont pas
pertinentes – c’est le concept garbage in, garbage out qui stipule qu’un algorithme
d’apprentissage auquel on fournit des données de mauvaise qualité ne pourra rien en faire
d’autre que des prédictions de mauvaise qualité. D’autre part, un modèle appris avec un
algorithme inadapté sur des données pertinentes ne pourra pas être de bonne qualité.
II-LANGUAGE SUPERVISE
A priori, sans avoir de connaissance sur le sujet, machine Learning peut paraitre un sujet
insurmontable. Il faut savoir qu’il y a deux principales branches d’algos : supervisés et non
supervisés. Nous allons nous intéresser ici aux algos supervisé. L’apprentissage supervisé est
une tâche d’apprentissage automatique consistant à apprendre une fonction de prédiction à
partir d’exemples annotés, au contraire de l’apprentissage non supervisé. On distingue les
problèmes de régression des problèmes de classement. Ainsi, on considère que les problèmes
de prédiction d’une variable quantitative sont des problèmes de régression tandis que les
problèmes de prédiction d’une variable qualitative sont des problèmes de classification.
4
La machine Learning ou apprentissage automatique, est un élément principal quand il s’agit
d’intelligence artificielle. L’apprentissage automatique constitue une grande avancée des lors
que vous voulez créer une intelligence artificielle ou tentez simplement d’obtenir un aperçu de
toutes les données que vous avez collectées.
1- TYPES D’ALGORITHME D’APRENTISSAGE SUPERVISE

a – REGRESSION LINEAIRE
Dans cet article nous allons exposer 5 principaux algorithmes d’apprentissage supervisé. La
régression linéaire est l’un des algorithmes d’apprentissage supervisé les plus populaires. Il est
aussi simple et parmi les mieux compris en statistique et en apprentissage automatique.
La régression linéaire est un type d’analyse prédictive de base. Le concept général de la

régression est d’étudier deux questions.
-un ensemble de variables prédictives permet-il de prédire une variable de résultat ?
-quelles sont les variables les plus significatives et qui ont le plus d’impact sur la variable de
résultat ?
On utilise ces estimations de régression pour expliquer les relations entre variable dépendante
et une ou plusieurs variables indépendantes. La forme la plus simple de l’équation de régression
avec une variable dépendante est définie par la formule y=c+b*x avec y=variable dépendante
estimé.c=constante=coefficient de régression x=variable indépendante. On parle ici de
régression linéaire simple. Pour la régression linéaire multiple on écrira y=c+b*x1+…. +n*xn
avec x1 jusqu’à xn les variables indépendantes et b jusqu’à n les coefficients de régression
respectifs des variables.
5
FIGURE 1 : REGRESSION LINEAIRE
b - REGRESSION LOGISTIQUE
Les prédictions de régression linéaire sont des valeurs continues (températures en degrés), les
prévisions de régression logistique sont des valeurs discrètes, c’est-à-dire un ensemble fini de
valeurs (vrai ou faux par exemple). La régression logistique convient mieux à la classification
binaire. Par exemple, on peut considérer un ensemble de données ou y=0 ou 1 ou 1 représente
la classe par défaut. Pour illustrer on peut imaginer que l’on veuille prédire s’il pleuvra ou non.
On aura 1 pour s’il pleut et 0 le cas contraire.
Au contraire de la régression linéaire, la régression logistique, propose le résultat sous forme

de probabilités de classe par défaut. Le résultat appartient dont à l’intervalle 0 :1] c’est-à-dire
qu’l est compris entre 0 et 1. Vu qu’il s’agit d’une probabilité. La valeur y de sortie est générée
6
par la transformation de la valeur x, à l’aide de la fonction logistique h(x)=1/(1+e^-x). Un seuil
est ensuite appliqué pour forcer cette probabilité dans une classification binaire.
FIGURE 2 : REGRESSION LOGISTIQUE
c-ARBRES DE CLASSIFICATION ET DE REGRESSION
Les arbres de classification et de régression, aussi connus sous le nom de CART (classification
And Régression Tree) sont une forme simple d’arbres de décision. Cette structure n’utilise que
des algorithmes et des structures de données. Ces arbres n’ont que deux composantes :
-les nœuds de branchement, qui représentent une seule variable d’entrée et offrent un seul point
de partage sur la variable.
-les nœuds feuilles, qui représentent les deux variables de sortie.
A l’exécution de l’algorithme par la machine, la prédiction est faite en suivant les divisions du
nœud de branche jusqu’à atteindre un nœud. Les arbres de classification et de régression sont
faciles à apprendre et à utiliser, et précis pour toute une gamme de problèmes. Celles-ci sont
particulièrement rapides à mettre en œuvre car les données ne nécessitent aucune préparation
particulière.
7
FIGURE 3 : ARBRE DE CLASSIFICATION ET DE REGRESSION
d-K-NN
L’algorithme K-NN qui signifie k-voisins les plus proches utilise l’intégralité du data set en
tant qu’entrainement, au lieu de diviser se dernier en un training et testing set.
Quand un résultat est requis pour une nouvelle instance de données, l’algorithme KNN parcourt
l’intégralité du data set pour rechercher les k-instances les plus proches de la nouvelle instance
ou le nombre k d’instances les plus similaires au nouvel enregistrement, puis envoie la moyenne
des résultats. La classe à laquelle appartient cette instance si c’est un problème de classification.
L’utilisateur spécifie lui-même la valeur de k. La similarité entre les instances est calculée à
l’aide de mesures telles que la similarité entre les instances est calculée à l’aide de mesures
telles que la distance euclidienne et la distance de Hamming.
8
FIGURE 4 : KNN
e-NAIVE BAYES CLASSIFIER
Il serait difficile et pratiquement impossible de classer manuellement une page web. Un

document, un courrier électronique ou toute autre note textuelle volumineuse. C’est ici que
l’algorithme d’apprentissage automatique du classificateur Naïve bayes entre en scène. Un
classificateur est une fonction qui attribue la valeur d’un élément de population à l’une des
catégories disponibles. Par exemple, le filtrage du courrier indésirable est une application
populaire de l’algorithme Naïve Bayes. Filtre anti-spam ici, c’est un classificateur qui attribue
une étiquette « Spam » ou « pas de spam à tous les emails.
Naïve Bayes Classifier est l’une des méthodes d’apprentissage supervisé les plus populaires
parmi celle utilisant les similarités, qui s’appuie sur le populaire théorème de probabilité de
Bayes. En particulier pour la prédiction des maladies et la classification simple de mots basée
sur le théorème de probabilité de Bayes pour l’analyse subjective du contenu.
2- APPLICATION
Application de la régression linéaire
9
Le Dataset : La première étape d’un algorithme de Supervised Learning consiste donc à
importer un Dataset qui contient les exemples que la machine doit étudier.
Ce Dataset inclut toujours 2 types de variables :
Une variable objectif (target) y;
Une ou plusieurs variables caractéristiques (features) ;
FIGURE 5 : exemple de dataset

Le modèle c’est en quelque sorte le cœur de votre programme, c’est lui qui va effectuer la
tâche que vous cherchez à accomplir, par exemple reconnaître un animal sur une photo ou
prédire le prix d’un appartement.
FIGURE 6 : exemple de model

La Fonction coût : Pour que la machine trouve le meilleur modèle, il faut déjà qu’elle
puisse mesurer la performance d’un modèle donné.
L’Algorithme d’apprentissage : en Supervised Learning, la machine cherche les paramètres de
modèle qui minimisent la Fonction Coût. C’est ça qu’on appelle l’apprentissage. On pourrait
10
par exemple développer un algorithme qui tente au hasard plusieurs combinaisons de
paramètres, et qui retient la combinaison avec la Fonction Cout la plus faible. C’est un peu
comme organiser un concours d’archers pour ne garder que le meilleur.
Reconnaissance des formes cas de la classification
La reconnaissance de formes (ou parfois reconnaissance de motifs) est un ensemble de
techniques et méthodes visant à identifier des motifs informatiques à partir de données brutes
afin de prendre une décision dépendant de la catégorie attribuée à ce motif1. On considère que
c'est une branche de l'intelligence artificielle qui fait largement appel aux techniques
d'apprentissage automatique et aux statistiques.
Exemple d’application : reconnaissance faciale
Il s’agit d’une méthode d’identification biométrique qui utilise les mesures corporelles, dans ce
cas, le visage et la tête, afin de vérifier l’identité d’une personne grâce à sa disposition et ses
données biométriques faciales. La technologie recueille un ensemble de données biométriques
uniques auprès de chaque personne, associées à son visage et expression faciale afin
d’identifier, vérifier et/ou authentifier une personne.
La procédure requiert tout simplement l’usage d’un dispositif disposant de la technologie
photographique digitale aux effets de générer et d’obtenir les images et données nécessaires à
créer et enregistrer la structure faciale biométrique de la personne devant être identifiée.
L’objectif de la reconnaissance faciale consiste en, à partir d’une image entrante, trouver une
série de données appartenant au même visage dans un ensemble d’images d’apprentissage d’une
base de données.
CONCLUSION
En somme il était question pour nous de présenter les différents types d’algorithme
d’apprentissage supervisé d’une part, et d’autre part de présenter les applications dans
différents domaines. L’apprentissage est dit supervisé lorsque les données qui entrent dans le
processus sont déjà catégorisées et que les algorithmes doivent s’en servir pour prédire un
résultat en vue de pouvoir le faire plus tard lorsque les données ne seront plus catégorisées.
11

Reservoir

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Reservoir

Transféré par

Droits d'auteur :

Formats disponibles

PLAN DE TRAVAIL

I- GENERALITE SUR LE MACHINE LEARNING

QU’EST-CE QUE LE MACHINE LEARNING?

Une définition qui s’applique à un programme informatique comme à un robot, un animal

Le machine Learning peut servir à résoudre des problèmes

Ingrédients du machine Learning

Le machine Learning repose sur deux piliers fondamentaux :

1- TYPES D’ALGORITHME D’APRENTISSAGE SUPERVISE

La régression linéaire est un type d’analyse prédictive de base. Le concept général de la

-un ensemble de variables prédictives permet-il de prédire une variable de résultat ?

Au contraire de la régression linéaire, la régression logistique, propose le résultat sous forme

FIGURE 2 : REGRESSION LOGISTIQUE

c-ARBRES DE CLASSIFICATION ET DE REGRESSION

-les nœuds feuilles, qui représentent les deux variables de sortie.

e-NAIVE BAYES CLASSIFIER

Il serait difficile et pratiquement impossible de classer manuellement une page web. Un

FIGURE 5 : exemple de dataset

FIGURE 6 : exemple de model

Vous aimerez peut-être aussi