Day1 Intro Machine Learning

Introduction au Machine Learning Apprentissage supervisé
Introduction au Machine Learning
P. Njionou Sadjang?
patrick.njionou@aims-cameroon.org
? University of Douala/ AIMS Cameroon
Douala, May 2023

1 Introduction au Machine Learning
2 Apprentissage supervisé
1 Introduction au Machine Learning
2 Apprentissage supervisé
DAY 1
Motivations
Motivations
Nous, les êtres humains, sommes quotidiennement confronté à des
problèmes que nous cherchons à résoudre. Par exemple:
Comment construire un pont plus solide?
Comment augmenter nos bénéfices?
Comment éliminer le cancer?
Quelle route emprunter pour aller au travail?
Motivations
Motivations
Motivations
Motivations
Motivations
Motivations
Motivations
Motivations
Motivations
Motivations
Pour nous aider à résoudre nos problèmes, nous avons inventé

l’ordinateur qui permet de faire en quelques minutes des calculs
qui nous prendraient des millions d’années à effectuer.
Il faut néanmoins savoir qu’un ordinateur ne sait en réalité faire
que ce qu’une chose: effectuer les calculs qu’on lui donne.
Motivations
Motivations
A partir de là, 2 situations possibles se présentent:

On connait le calcul à effectuer pour résoudre notre problème.
Dans ce cas facile, on entre le cacul dans l’ordinateur, c’est ce
qu’on appelle la programmation, et l’ordinateur nous retourne le
résultat.
De manière générale, un programme informatique tente de
résoudre un problème pour lequel nous avons la solution. Par
exemple:
• Calculer la moyenne générale des étudiants
• Classer les étudiants selon leurs moyenne
• Résoudre une équation du second degré
• Déterminer la structure d’un pont
• ...
Motivations
Motivations

résultat.
exemple:
• ...
Motivations
Motivations

résultat.
exemple:
• ...
Motivations
Motivations

résultat.
exemple:
• ...
Motivations
Motivations

résultat.
exemple:
• ...
Motivations
Motivations

résultat.
exemple:
• ...
Motivations
Motivations

résultat.
exemple:
• ...
Motivations
Motivations

résultat.
exemple:
• ...
Motivations
Motivations
Pour certains problemes, nous ne connaissons pas de solution

exacte et donc nous ne pouvons pas écrire de programme
informatique. C’est comme vouloir poster une lettre que nous
n’aurions pas écrite. Par exemple
• reconnaître automatiquement des chiffres écris à la main à partir
d’images scannées
• reconnaitre un chat dans une image
• reconnaitre un visage sur une photo
• Prédire le cours de la Bourse
• Conduire une voiture
• Détecter des comportements frauduleux lors des transactions
financières en ligne.
• Estimer un taux de transformation sur un site marchand en
fonction du nobre de clics sur certaines pages
• Prédire les risques de non-solvabilité d’un client en fonction de ses
ressources et de son profil socioprofessionnel.
• Anticiper les intentions de réalisation d’un service en fonction des
activités d’un souscripteur.
Motivations
Motivations

Motivations
Motivations

Motivations
Motivations

Motivations
Motivations

Motivations
Motivations

Motivations
Motivations

Motivations
Motivations

Motivations
Motivations

Motivations
Motivations

Motivations
Motivations
Une des tâches essentielles du cerveau consiste à transformer des

informations en connaissances: identifier les lettres qui constituent
un texte, les assembler en mots et en phrases, en extraire un sens,
sont des activités qui nous paraissent naturelles une fois
l’apprentissage nécessaire accompli.
L’objectif de du ML est d’imiter, à l’aide d’algorithmes exécutés par
des ordinateurs, la capacité qu’ont les êtres vivants à apprendre par
l’exemple.
Motivations
Motivations
Ainsi, pour apprendre à un enfant la lecture des lettres ou des

chiffres, on lui présente des exemples de ceux-ci, écrits dans des
styles et avec des polices différents. On ne fournit généralement pas à
l’enfant une description analytique et discursive de la forme et de la
topologie des caractère: on se contente de lui montrer des exemples.
A la fin de l’apprentissage, on attend de l’enfant qu’il soit capable de
lire non seulement tous les chiffres et lettres qui lui ont été présentés
durant son apprentissage, mais également tous les chiffres et lettres
qu’il est susceptible de rencontrer: en d’autres termes, on attend de
lui qu’il ait une capacité de généralisation à partir des exemples qui
lui ont étés présentés.
Motivations
Définition du Machine Learning
Le Macine Learning consiste à laisser l’ordinateur apprendre quel

calcul effectuer, plutôt que de lui donner ce calcul (c’est-à-dire le
programmer explicitement).
C’est en tout cas la définition du Machine Learning selon son
inventeur Arthur Samuel, un mathématicien américain qui a
développé un programme pouvant apprendre tout seul comment
jouer aux Dames en 1959.
Motivations
Le Macine Learning consiste à laisser l’ordinateur apprendre quel

calcul effectuer, plutôt que de lui donner ce calcul (c’est-à-dire le
programmer explicitement).
C’est en tout cas la définition du Machine Learning selon son
inventeur Arthur Samuel, un mathématicien américain qui a
développé un programme pouvant apprendre tout seul comment
jouer aux Dames en 1959.
Motivations
Un autre américain du nom de Tom Mitchell donna en 1998 une

définition un peu plus moderne du Machine Learning en énonçant
qu’une machine apprend quand sa performance à faire une certaine
tâche s’améliore avec de nouvelles expériences.
Motivations

Définition
Le Machine Learning (ML) est un ensemble d’outils statistiques ou
géométriques et d’algorithmes informatiques qui permettent
d’automatiser la construction d’une fonction de prédiction f à partir
d’un ensemble d’observations que l’on appelle l’ensemble
d’apprentissage.
Le machine learning va nous servir à résoudre des problèmes:

• que l’on ne sait pas résoudre
• que l’on sait résoudre, mais dont on ne sait formaliser en termes
algorithmiques comment nous les résolvons (c’est le cas par
exemple de la reconnaissance d’images ou de la compréhension
du langage naturel);
• que l’on sait résoudre, mais avec des procédures beaucoup trop
gourmandes en ressources informatiques (c’est le cas par
exemple de la prédiction d’interactions entre molécules de grande
taille, pour lesquelles les simulations sont très lourdes).
Motivations

Définition
d’apprentissage.

Motivations

Définition
d’apprentissage.

Motivations

Définition
d’apprentissage.

Motivations

Définition
d’apprentissage.

Motivations
Un domaine pluri-disciplinaire
Le Machine Learning (apprentissage automatique) est à la croisée

de plusieurs disciplines:
• Les statistiques: pour l’inférence de modèles à partir de données.
• Les probabilités: pour modéliser l’aspect aléatoire inhérent aux
données et au problème d’apprentissage.
• L’optimisation: pour optimiser un critère de performance afin, soit
d’estimer des paramètres d’un modèle, soit de déterminer la
meilleure décision à prendre étant donnée une instance d’un
problème
• L’informatique: Puisqu’il s’agit de programmer des algortithems et
qu’en ML ceux-ci peuvent être de grande complexité et gourmans
en termes de ressources de calcul et de mémoire.
Motivations

problème
Motivations

problème
Motivations

problème
Motivations

problème
Motivations
ML et matières connexes
Quelques références et domaines d’application faisant intervenir

le ML.
• Les statistiques
• La fouille de données (Data Mining): lorsque les objets étudiés
sont stockés dans des bases de données volumineuses.
• La reconnaissance de form (RDF) (Pattern Recognition): Lorque
les objets concernés sont de type ”signal” comme les images, les
vidéos ou le son.
• Le traitement automatique du langage- TAL ( ”Natural Langage
Processing”, NLP): lorsque les problèmes concernent l’analyse
linguistique de textes.
• La science des données (”Data science”): approche(s)
pluri-disciplinaire pour l’extraction de connaissances à partir de
données hétérogènes.
• Les données massives (”Big data”): mettant l’accent sur les
problématiques ”4V” (volume, variété, vélocité, véracité) et des
éléments de solutions issus du stockage/calcul distribué.
Motivations

le ML.
vidéos ou le son.
Motivations

le ML.
vidéos ou le son.
Motivations

le ML.
vidéos ou le son.
Motivations

le ML.
vidéos ou le son.
Motivations

le ML.
vidéos ou le son.
Motivations

le ML.
vidéos ou le son.
Motivations
Les types de problèmes en ML
On distingue 4 grandes classes de problèmes de Machine Learning.

Apprentissage supervisé
Apprentissage non supervisé
Apprentissage semi-supervisé
Apprentissage par renforsement
Motivations

Motivations

Motivations

Motivations

Apprentissage supervisé L’apprentissage supervisé est peut-être

le type de problème de ML le plus facile à appréhender: son but
est d’apprendre à faire des prédictions , à partir d’une liste
d’exemples étiquetés, c’est-à-dire accompagnés de la valeur à
prédire. Les étiquettes servent de ”professeur” et supervisent
l’apprentissage de l’algorithme.
Apprentissage supervisé:
Définition: Apprentissage supervisé

On appelle apprentissage supervisé la branche du ML qui s’intéresse
aux problèmes pouvant être formalisés de la façon suivante: étant
données n observations {~x i }i =1,..,n décrites dans un espace X , et
leurs étiquettes {yi }i =1,..,n décrites dans un espace Y , on suppose
que les étiquettes peuvent être obtenues à partir des observations
grĉe à une fonction φ : X → Y fixe et inconnue:
yi = φ(~x i ) + ε i
où ε i est un bruit aléatoire. Il s’agit alors d’utiliser les données pour

déterminer une fonction f : X → Y telle que, pour tout couple
(~x , φ(~x )) ∈ X × Y , f (~x ) ≈ φ(~x ).
Apprentissage supervisé. Classification binaire

En géneral, l’espace dans lequel sont définies les données est le plus
souvent X = Rp . Nous verrons cependant aussi comment traiter
d’autres types de représentations, comme des variables binaires,
discrètes, catégoriques...
Classification binaire
Un problème d’apprentissage supervisé dans lequel l’espace des
étiquettes est binaire, autrement dit Y = {0, 1} est appelé un
problème de classification binaire.
Exemples
On a par exemple
Identifier si un email est un spam ou non
Identifier si un tableau a été peint par Picasso ou non
Identifier si une image contient ou non une girafe
Identifier si une molécule peut ou non traiter la dépression
Identifier si une transaction financière est frauduleuse ou non

Exemples
On a par exemple

Exemples
On a par exemple

Exemples
On a par exemple

Exemples
On a par exemple

Exemples
On a par exemple

Exemples
On a par exemple

Exemples
On a par exemple
Apprentissage supervisé. Classification multi-classe
Classification multi-classe
étiquettes est discret et fini, autrement dit Y = {1, 2, . . . , C } est
appelé un problème de classification multi-classe. C’est le nombre de
classes.
Exemples
Identifier en quelle langue un texte est écrit.
Identifier lequel des 10 chiffres arabes est un chiffre manuscrit
Identifier l’expression d’un visage parmi une liste prédéfinie de
possibilités (colère, tristesse, joie, ...).
Identifier à quelle espèce appartient une plante.
Identifier les objets présents sur une photographie.
classes.
Exemples
classes.
Exemples
classes.
Exemples
classes.
Exemples
classes.
Exemples
classes.
Exemples
Apprentissage supervisé: Régression
Régression
étiquettes est Y = R est appelé un problème de régression.
Exemples
Prédire le nombre de clics sur un lien
Prédire le nombre d’utilisateurs et utilisatrices d’un service en
ligne à un moment donné.
Prédire le prix d’une action en bourse
Prédire le rendement d’un plant de maïs.
Régression
Exemples
Régression
Exemples
Régression
Exemples
Régression
Exemples
Régression
Exemples
Dans le cadre de l’aprentissage non supervisé, les données ne sont
pas étiquetées. Il s’agit alors de modéliser les observations pour
mieux les comprendre.
Dans le cadre de l’aprentissage non supervisé, les données ne sont
pas étiquetées. Il s’agit alors de modéliser les observations pour
mieux les comprendre.
Définition
On appelle apprentissage non supervisé la branche du machine
learning qui s’intéresse aux problèmes pouvant être formalisés dans
la façon suivante: étant données n observations {~x i }i =1,...,n décrit
dans un espace X , il s’agit d’apprendre une fonction sur X qui vérifie
certaines propriétés.
Apprentissage non-supervisé: Clustering
Tout d’abord, le clustering, ou partitionnement, consiste à identifier

des groupes dans les donnée. Cela permet de comprendre leurs
caractéristiques générales, et éventuellement d’inférer les propriétés
d’une observation en fonction du groupe auquel elle appartient.
Partitionnement
On appelle partitionnement ou clustering un problème
d’apprentissage non supervisé pouvant être formalisé comme la
K
[
recherche d’une partition CK des n observations {~x i }i =1,...,n . Cette
k =1
partition doit être pertinente au vu d’un ou plusieurs critères à
préciser.
Exemples
La segmentation de marché consitte à identifier des groupes
d’usagers ou de clients ayant un comportement similaire. Cela
permet de mieux comprendre leur profil, et cibler une campagne
de publicité, des contenus ous des actions spécifiquement vers
certains groupes.
Partitionnement
K
[
k =1
préciser.
Exemples
certains groupes.
Partitionnement
K
[
k =1
préciser.
Exemples
certains groupes.
Exemples
La segmentation d’image consiste à identifier les pixels d’une
image appartenant à la même région.
La compression d’image peut être formulée comme un
problème de partitionnement consistant à regrouper des pixels
similaires pour ensuite les représenter plus efficacement.
Identifier des groupes parmi les patients présentant les mêmes
syntômes permet d’identifier des sous-types d’une maladie, qui
pouront alors être traités différemment.
Exemples
Exemples
Exemples
Apprentissage non-supervisé: Réduction de dimension
La réduction de dimension est une autre famille importante de

problèmes d’apprentissage non supervisé. Il s’agit de trouver une
représentation des données dans un espace de dimension plus faible
que celle de l’espace dans lequel elles sont représentées à l’origine.
Cela permet de réduire les temos de calcul et l’espace mémoire
nécessaire au stockage des données, mais aussi souvent d’améliorer
les performances d’un algorithme d’apprentissage supervisé entraîné
par la suite sur ces données.
Définition
On appelle réduction de la dimension un problème d’apprentissage
non supervisé pouvant être formalisé comme lar recherche d’un
espace Z de dimension plus faible que l’espace X dans lequel sont
représentées n observations {~x i }i =1,...,n . Les projections {~z i }i =1,...,n
des données sur Z doivent vérifier certaines propriétés à préciser.
Certaines méthodes de réduction de dimension sont supervisées: il

s’agit alors de trouver la représentation la plus pertinente pour
prédire une étiquette donnée.
Définition
On appelle réduction de la dimension un problème d’apprentissage
non supervisé pouvant être formalisé comme lar recherche d’un
espace Z de dimension plus faible que l’espace X dans lequel sont
représentées n observations {~x i }i =1,...,n . Les projections {~z i }i =1,...,n
des données sur Z doivent vérifier certaines propriétés à préciser.
Certaines méthodes de réduction de dimension sont supervisées: il

s’agit alors de trouver la représentation la plus pertinente pour
prédire une étiquette donnée.
Apprentissage non-supervisé: Estimation de densité
Enfin, une grande famille de problèmes d’apprentissage non

supervisé est en fait un problème traditionnel en statistiques : il s’agit
d’estimer une loi de probabilité en supposant que le jeu de données
en est un échantillon aléatoire.
Comme on peut s’en douter, l’apprentissage semi-supervisé consiste

à apprendre des étiquettes à partir d’un jeu de données partiellement
étiqueté. Le premier avantage de cette approche est qu’elle permet
d’éviter d’avoir à étiqueter l’intégralité des exemples d’apprentissage,
ce qui est pertinent quand il est facile d’accumuler des données mais
que leur étiquetage requiert une certaine quantité de travail humain.
Prenons par exemple la classification d’images: il est facile d’obtenir
une banque de données contenant des centaines de milliers d’images,
mais avoir pour chacune d’entre elles l’étiquette qui nous intéresse
peut requérir énormément de travail. De plus, les étiquettes données
par des humains sont susceptibles de reproduire des biais humains,
qu’un algorithme entièrement supervisé reproduira à son tour.
L’apprentissage semi-supervisé permet parfois d’éviter cet écueile.
Apprentissage par renforcement
Dans le cadre de l’apprentissage par renforcement, le système

d’apprentissage peut interafir avec son environnement et accomplir
des actions. En retour de ces actions, il obtient une récompense, qui
peut être positive si l’action était un bon choix, ou négative dans le
cas contraire. La récompense peut parfois venir après une longue
suite d’actions; c’est le cas par exemple pour un système apprenant à
jouer au go ou aux échecs. Ainsi, l’apprentissage consiste dans ce
cas à définir une politique, c’est-à-dire une stratégie permettant
d’obtenir systématiquement la meilleure récompense possible.
Les application principales de l’apprentissage par renforcement se
trouvent dans les jeux (échecs, go, etc) et la robotique.
Exercices
Exercice 1
Alice veut écrire un programme qui utilise la fréquence des mots
”science”, ”public”, ”accès”, ”université”, ’gouvernement”, ”financer”,
”éducation”, ”budget”, ”justice” et ”loi” pour déterminer si un article
traite ou non de politique scientifique. Elle a commencé par annoter
un millier d’articles selon leur sujet. Quel genre de problème
d’apprentissage automatique doit-elle résoudre?
Exercices
Exercice 2
Parmi les problèmes suivants, lesquels se prêtent bien à être traités
par le machine learning?
• Déterminer l’horaire optimal pour poster un contenu sur une
page web
• Déterminer le chemin le plus court entre deux noeuds dans un
graphe
• Prédire le nombre de vélos à mettre en location à chaque station
d’un système de location de vélos citadins.
• Evaluer le prix qu’un tableau de maître pourra atteindre lors
d’une vente aux enchères.
• Débruiter un signal radio.
Exercices
Exercice 3
Benjamin dispose de 10000 articles de journaux qu’il souhaite
classer oar leur thématique. Doit-il utiliser un algorithme supervisé
ou non supervisé?
Exercice 4
Les données de Cécile sont décrites par 10 variables. Elle aimerait
cependant les représenter sur un graphique en deux dimensions.
Quel type d’algoritheme d’apprentissage doit-elle utiliser?
Exercice 5
Elsa veut examiner ses spams pour déterminer s’il existe de
sous-types de spams. Quel type d’algorithme d’apprentissage doit-elle
utiliser?
Exercices
Exercice 3
ou non supervisé?
Exercice 4
Exercice 5
utiliser?
Exercices
Exercice 3
ou non supervisé?
Exercice 4
Exercice 5
utiliser?
Exercices
Exercice 6
David gère un outil qui permet d’organiser les liens HTML qui ont été
sauvegardés. Il souhaite suggérer des catégories auquelles affecter un
nouveau lien, en fonction des catégories déjà définies par l’ensemble
des utilisateurs du service. Quel type d’algorithme d’apprentissage
doit-il utiliser?
Un exemple avant de commencer
Un premier problème de machine learning
Direction TP.
Un exemple avant de commencer
Thank you for your attention!

Day1 Intro Machine Learning

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Day1 Intro Machine Learning

Transféré par

Droits d'auteur :

Formats disponibles

Introduction au Machine Learning Apprentissage supervisé

Introduction au Machine Learning

? University of Douala/ AIMS Cameroon

Douala, May 2023

1 Introduction au Machine Learning

1 Introduction au Machine Learning

Pour nous aider à résoudre nos problèmes, nous avons inventé

A partir de là, 2 situations possibles se présentent:

A partir de là, 2 situations possibles se présentent:

A partir de là, 2 situations possibles se présentent:

A partir de là, 2 situations possibles se présentent:

A partir de là, 2 situations possibles se présentent:

A partir de là, 2 situations possibles se présentent:

A partir de là, 2 situations possibles se présentent:

A partir de là, 2 situations possibles se présentent:

Pour certains problemes, nous ne connaissons pas de solution

Pour certains problemes, nous ne connaissons pas de solution

Pour certains problemes, nous ne connaissons pas de solution

Pour certains problemes, nous ne connaissons pas de solution

Pour certains problemes, nous ne connaissons pas de solution

Pour certains problemes, nous ne connaissons pas de solution

Pour certains problemes, nous ne connaissons pas de solution

Pour certains problemes, nous ne connaissons pas de solution

Pour certains problemes, nous ne connaissons pas de solution

Pour certains problemes, nous ne connaissons pas de solution

Une des tâches essentielles du cerveau consiste à transformer des

Ainsi, pour apprendre à un enfant la lecture des lettres ou des

Définition du Machine Learning

Le Macine Learning consiste à laisser l’ordinateur apprendre quel

Définition du Machine Learning

Le Macine Learning consiste à laisser l’ordinateur apprendre quel

Définition du Machine Learning

Un autre américain du nom de Tom Mitchell donna en 1998 une

Définition du Machine Learning

Le machine learning va nous servir à résoudre des problèmes:

Définition du Machine Learning

Le machine learning va nous servir à résoudre des problèmes:

Définition du Machine Learning

Le machine learning va nous servir à résoudre des problèmes:

Définition du Machine Learning

Le machine learning va nous servir à résoudre des problèmes:

Définition du Machine Learning

Le machine learning va nous servir à résoudre des problèmes:

Le Machine Learning (apprentissage automatique) est à la croisée

Le Machine Learning (apprentissage automatique) est à la croisée

Le Machine Learning (apprentissage automatique) est à la croisée

Le Machine Learning (apprentissage automatique) est à la croisée

Le Machine Learning (apprentissage automatique) est à la croisée

Quelques références et domaines d’application faisant intervenir

Quelques références et domaines d’application faisant intervenir

Quelques références et domaines d’application faisant intervenir

Quelques références et domaines d’application faisant intervenir

Quelques références et domaines d’application faisant intervenir

Quelques références et domaines d’application faisant intervenir

Quelques références et domaines d’application faisant intervenir

Les types de problèmes en ML

On distingue 4 grandes classes de problèmes de Machine Learning.

Les types de problèmes en ML

On distingue 4 grandes classes de problèmes de Machine Learning.

Les types de problèmes en ML

On distingue 4 grandes classes de problèmes de Machine Learning.

Les types de problèmes en ML

On distingue 4 grandes classes de problèmes de Machine Learning.

Les types de problèmes en ML