Vous êtes sur la page 1sur 106

Introduction au Machine Learning Apprentissage supervisé

Introduction au Machine Learning

P. Njionou Sadjang?
patrick.njionou@aims-cameroon.org

? University of Douala/ AIMS Cameroon

Douala, May 2023


Introduction au Machine Learning Apprentissage supervisé

1 Introduction au Machine Learning

2 Apprentissage supervisé
Introduction au Machine Learning Apprentissage supervisé

1 Introduction au Machine Learning

2 Apprentissage supervisé
Introduction au Machine Learning Apprentissage supervisé

DAY 1
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations
Nous, les êtres humains, sommes quotidiennement confronté à des
problèmes que nous cherchons à résoudre. Par exemple:
Comment construire un pont plus solide?
Comment augmenter nos bénéfices?
Comment éliminer le cancer?
Quelle route emprunter pour aller au travail?
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations
Nous, les êtres humains, sommes quotidiennement confronté à des
problèmes que nous cherchons à résoudre. Par exemple:
Comment construire un pont plus solide?
Comment augmenter nos bénéfices?
Comment éliminer le cancer?
Quelle route emprunter pour aller au travail?
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations
Nous, les êtres humains, sommes quotidiennement confronté à des
problèmes que nous cherchons à résoudre. Par exemple:
Comment construire un pont plus solide?
Comment augmenter nos bénéfices?
Comment éliminer le cancer?
Quelle route emprunter pour aller au travail?
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations
Nous, les êtres humains, sommes quotidiennement confronté à des
problèmes que nous cherchons à résoudre. Par exemple:
Comment construire un pont plus solide?
Comment augmenter nos bénéfices?
Comment éliminer le cancer?
Quelle route emprunter pour aller au travail?
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations
Nous, les êtres humains, sommes quotidiennement confronté à des
problèmes que nous cherchons à résoudre. Par exemple:
Comment construire un pont plus solide?
Comment augmenter nos bénéfices?
Comment éliminer le cancer?
Quelle route emprunter pour aller au travail?
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations

Pour nous aider à résoudre nos problèmes, nous avons inventé


l’ordinateur qui permet de faire en quelques minutes des calculs
qui nous prendraient des millions d’années à effectuer.
Il faut néanmoins savoir qu’un ordinateur ne sait en réalité faire
que ce qu’une chose: effectuer les calculs qu’on lui donne.
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations

A partir de là, 2 situations possibles se présentent:


On connait le calcul à effectuer pour résoudre notre problème.
Dans ce cas facile, on entre le cacul dans l’ordinateur, c’est ce
qu’on appelle la programmation, et l’ordinateur nous retourne le
résultat.
De manière générale, un programme informatique tente de
résoudre un problème pour lequel nous avons la solution. Par
exemple:
• Calculer la moyenne générale des étudiants
• Classer les étudiants selon leurs moyenne
• Résoudre une équation du second degré
• Déterminer la structure d’un pont
• ...
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations

A partir de là, 2 situations possibles se présentent:


On connait le calcul à effectuer pour résoudre notre problème.
Dans ce cas facile, on entre le cacul dans l’ordinateur, c’est ce
qu’on appelle la programmation, et l’ordinateur nous retourne le
résultat.
De manière générale, un programme informatique tente de
résoudre un problème pour lequel nous avons la solution. Par
exemple:
• Calculer la moyenne générale des étudiants
• Classer les étudiants selon leurs moyenne
• Résoudre une équation du second degré
• Déterminer la structure d’un pont
• ...
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations

A partir de là, 2 situations possibles se présentent:


On connait le calcul à effectuer pour résoudre notre problème.
Dans ce cas facile, on entre le cacul dans l’ordinateur, c’est ce
qu’on appelle la programmation, et l’ordinateur nous retourne le
résultat.
De manière générale, un programme informatique tente de
résoudre un problème pour lequel nous avons la solution. Par
exemple:
• Calculer la moyenne générale des étudiants
• Classer les étudiants selon leurs moyenne
• Résoudre une équation du second degré
• Déterminer la structure d’un pont
• ...
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations

A partir de là, 2 situations possibles se présentent:


On connait le calcul à effectuer pour résoudre notre problème.
Dans ce cas facile, on entre le cacul dans l’ordinateur, c’est ce
qu’on appelle la programmation, et l’ordinateur nous retourne le
résultat.
De manière générale, un programme informatique tente de
résoudre un problème pour lequel nous avons la solution. Par
exemple:
• Calculer la moyenne générale des étudiants
• Classer les étudiants selon leurs moyenne
• Résoudre une équation du second degré
• Déterminer la structure d’un pont
• ...
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations

A partir de là, 2 situations possibles se présentent:


On connait le calcul à effectuer pour résoudre notre problème.
Dans ce cas facile, on entre le cacul dans l’ordinateur, c’est ce
qu’on appelle la programmation, et l’ordinateur nous retourne le
résultat.
De manière générale, un programme informatique tente de
résoudre un problème pour lequel nous avons la solution. Par
exemple:
• Calculer la moyenne générale des étudiants
• Classer les étudiants selon leurs moyenne
• Résoudre une équation du second degré
• Déterminer la structure d’un pont
• ...
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations

A partir de là, 2 situations possibles se présentent:


On connait le calcul à effectuer pour résoudre notre problème.
Dans ce cas facile, on entre le cacul dans l’ordinateur, c’est ce
qu’on appelle la programmation, et l’ordinateur nous retourne le
résultat.
De manière générale, un programme informatique tente de
résoudre un problème pour lequel nous avons la solution. Par
exemple:
• Calculer la moyenne générale des étudiants
• Classer les étudiants selon leurs moyenne
• Résoudre une équation du second degré
• Déterminer la structure d’un pont
• ...
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations

A partir de là, 2 situations possibles se présentent:


On connait le calcul à effectuer pour résoudre notre problème.
Dans ce cas facile, on entre le cacul dans l’ordinateur, c’est ce
qu’on appelle la programmation, et l’ordinateur nous retourne le
résultat.
De manière générale, un programme informatique tente de
résoudre un problème pour lequel nous avons la solution. Par
exemple:
• Calculer la moyenne générale des étudiants
• Classer les étudiants selon leurs moyenne
• Résoudre une équation du second degré
• Déterminer la structure d’un pont
• ...
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations

A partir de là, 2 situations possibles se présentent:


On connait le calcul à effectuer pour résoudre notre problème.
Dans ce cas facile, on entre le cacul dans l’ordinateur, c’est ce
qu’on appelle la programmation, et l’ordinateur nous retourne le
résultat.
De manière générale, un programme informatique tente de
résoudre un problème pour lequel nous avons la solution. Par
exemple:
• Calculer la moyenne générale des étudiants
• Classer les étudiants selon leurs moyenne
• Résoudre une équation du second degré
• Déterminer la structure d’un pont
• ...
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations

Pour certains problemes, nous ne connaissons pas de solution


exacte et donc nous ne pouvons pas écrire de programme
informatique. C’est comme vouloir poster une lettre que nous
n’aurions pas écrite. Par exemple
• reconnaître automatiquement des chiffres écris à la main à partir
d’images scannées
• reconnaitre un chat dans une image
• reconnaitre un visage sur une photo
• Prédire le cours de la Bourse
• Conduire une voiture
• Détecter des comportements frauduleux lors des transactions
financières en ligne.
• Estimer un taux de transformation sur un site marchand en
fonction du nobre de clics sur certaines pages
• Prédire les risques de non-solvabilité d’un client en fonction de ses
ressources et de son profil socioprofessionnel.
• Anticiper les intentions de réalisation d’un service en fonction des
activités d’un souscripteur.
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations

Pour certains problemes, nous ne connaissons pas de solution


exacte et donc nous ne pouvons pas écrire de programme
informatique. C’est comme vouloir poster une lettre que nous
n’aurions pas écrite. Par exemple
• reconnaître automatiquement des chiffres écris à la main à partir
d’images scannées
• reconnaitre un chat dans une image
• reconnaitre un visage sur une photo
• Prédire le cours de la Bourse
• Conduire une voiture
• Détecter des comportements frauduleux lors des transactions
financières en ligne.
• Estimer un taux de transformation sur un site marchand en
fonction du nobre de clics sur certaines pages
• Prédire les risques de non-solvabilité d’un client en fonction de ses
ressources et de son profil socioprofessionnel.
• Anticiper les intentions de réalisation d’un service en fonction des
activités d’un souscripteur.
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations

Pour certains problemes, nous ne connaissons pas de solution


exacte et donc nous ne pouvons pas écrire de programme
informatique. C’est comme vouloir poster une lettre que nous
n’aurions pas écrite. Par exemple
• reconnaître automatiquement des chiffres écris à la main à partir
d’images scannées
• reconnaitre un chat dans une image
• reconnaitre un visage sur une photo
• Prédire le cours de la Bourse
• Conduire une voiture
• Détecter des comportements frauduleux lors des transactions
financières en ligne.
• Estimer un taux de transformation sur un site marchand en
fonction du nobre de clics sur certaines pages
• Prédire les risques de non-solvabilité d’un client en fonction de ses
ressources et de son profil socioprofessionnel.
• Anticiper les intentions de réalisation d’un service en fonction des
activités d’un souscripteur.
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations

Pour certains problemes, nous ne connaissons pas de solution


exacte et donc nous ne pouvons pas écrire de programme
informatique. C’est comme vouloir poster une lettre que nous
n’aurions pas écrite. Par exemple
• reconnaître automatiquement des chiffres écris à la main à partir
d’images scannées
• reconnaitre un chat dans une image
• reconnaitre un visage sur une photo
• Prédire le cours de la Bourse
• Conduire une voiture
• Détecter des comportements frauduleux lors des transactions
financières en ligne.
• Estimer un taux de transformation sur un site marchand en
fonction du nobre de clics sur certaines pages
• Prédire les risques de non-solvabilité d’un client en fonction de ses
ressources et de son profil socioprofessionnel.
• Anticiper les intentions de réalisation d’un service en fonction des
activités d’un souscripteur.
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations

Pour certains problemes, nous ne connaissons pas de solution


exacte et donc nous ne pouvons pas écrire de programme
informatique. C’est comme vouloir poster une lettre que nous
n’aurions pas écrite. Par exemple
• reconnaître automatiquement des chiffres écris à la main à partir
d’images scannées
• reconnaitre un chat dans une image
• reconnaitre un visage sur une photo
• Prédire le cours de la Bourse
• Conduire une voiture
• Détecter des comportements frauduleux lors des transactions
financières en ligne.
• Estimer un taux de transformation sur un site marchand en
fonction du nobre de clics sur certaines pages
• Prédire les risques de non-solvabilité d’un client en fonction de ses
ressources et de son profil socioprofessionnel.
• Anticiper les intentions de réalisation d’un service en fonction des
activités d’un souscripteur.
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations

Pour certains problemes, nous ne connaissons pas de solution


exacte et donc nous ne pouvons pas écrire de programme
informatique. C’est comme vouloir poster une lettre que nous
n’aurions pas écrite. Par exemple
• reconnaître automatiquement des chiffres écris à la main à partir
d’images scannées
• reconnaitre un chat dans une image
• reconnaitre un visage sur une photo
• Prédire le cours de la Bourse
• Conduire une voiture
• Détecter des comportements frauduleux lors des transactions
financières en ligne.
• Estimer un taux de transformation sur un site marchand en
fonction du nobre de clics sur certaines pages
• Prédire les risques de non-solvabilité d’un client en fonction de ses
ressources et de son profil socioprofessionnel.
• Anticiper les intentions de réalisation d’un service en fonction des
activités d’un souscripteur.
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations

Pour certains problemes, nous ne connaissons pas de solution


exacte et donc nous ne pouvons pas écrire de programme
informatique. C’est comme vouloir poster une lettre que nous
n’aurions pas écrite. Par exemple
• reconnaître automatiquement des chiffres écris à la main à partir
d’images scannées
• reconnaitre un chat dans une image
• reconnaitre un visage sur une photo
• Prédire le cours de la Bourse
• Conduire une voiture
• Détecter des comportements frauduleux lors des transactions
financières en ligne.
• Estimer un taux de transformation sur un site marchand en
fonction du nobre de clics sur certaines pages
• Prédire les risques de non-solvabilité d’un client en fonction de ses
ressources et de son profil socioprofessionnel.
• Anticiper les intentions de réalisation d’un service en fonction des
activités d’un souscripteur.
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations

Pour certains problemes, nous ne connaissons pas de solution


exacte et donc nous ne pouvons pas écrire de programme
informatique. C’est comme vouloir poster une lettre que nous
n’aurions pas écrite. Par exemple
• reconnaître automatiquement des chiffres écris à la main à partir
d’images scannées
• reconnaitre un chat dans une image
• reconnaitre un visage sur une photo
• Prédire le cours de la Bourse
• Conduire une voiture
• Détecter des comportements frauduleux lors des transactions
financières en ligne.
• Estimer un taux de transformation sur un site marchand en
fonction du nobre de clics sur certaines pages
• Prédire les risques de non-solvabilité d’un client en fonction de ses
ressources et de son profil socioprofessionnel.
• Anticiper les intentions de réalisation d’un service en fonction des
activités d’un souscripteur.
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations

Pour certains problemes, nous ne connaissons pas de solution


exacte et donc nous ne pouvons pas écrire de programme
informatique. C’est comme vouloir poster une lettre que nous
n’aurions pas écrite. Par exemple
• reconnaître automatiquement des chiffres écris à la main à partir
d’images scannées
• reconnaitre un chat dans une image
• reconnaitre un visage sur une photo
• Prédire le cours de la Bourse
• Conduire une voiture
• Détecter des comportements frauduleux lors des transactions
financières en ligne.
• Estimer un taux de transformation sur un site marchand en
fonction du nobre de clics sur certaines pages
• Prédire les risques de non-solvabilité d’un client en fonction de ses
ressources et de son profil socioprofessionnel.
• Anticiper les intentions de réalisation d’un service en fonction des
activités d’un souscripteur.
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations

Pour certains problemes, nous ne connaissons pas de solution


exacte et donc nous ne pouvons pas écrire de programme
informatique. C’est comme vouloir poster une lettre que nous
n’aurions pas écrite. Par exemple
• reconnaître automatiquement des chiffres écris à la main à partir
d’images scannées
• reconnaitre un chat dans une image
• reconnaitre un visage sur une photo
• Prédire le cours de la Bourse
• Conduire une voiture
• Détecter des comportements frauduleux lors des transactions
financières en ligne.
• Estimer un taux de transformation sur un site marchand en
fonction du nobre de clics sur certaines pages
• Prédire les risques de non-solvabilité d’un client en fonction de ses
ressources et de son profil socioprofessionnel.
• Anticiper les intentions de réalisation d’un service en fonction des
activités d’un souscripteur.
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations

Une des tâches essentielles du cerveau consiste à transformer des


informations en connaissances: identifier les lettres qui constituent
un texte, les assembler en mots et en phrases, en extraire un sens,
sont des activités qui nous paraissent naturelles une fois
l’apprentissage nécessaire accompli.
L’objectif de du ML est d’imiter, à l’aide d’algorithmes exécutés par
des ordinateurs, la capacité qu’ont les êtres vivants à apprendre par
l’exemple.
Introduction au Machine Learning Apprentissage supervisé

Motivations

Motivations

Ainsi, pour apprendre à un enfant la lecture des lettres ou des


chiffres, on lui présente des exemples de ceux-ci, écrits dans des
styles et avec des polices différents. On ne fournit généralement pas à
l’enfant une description analytique et discursive de la forme et de la
topologie des caractère: on se contente de lui montrer des exemples.
A la fin de l’apprentissage, on attend de l’enfant qu’il soit capable de
lire non seulement tous les chiffres et lettres qui lui ont été présentés
durant son apprentissage, mais également tous les chiffres et lettres
qu’il est susceptible de rencontrer: en d’autres termes, on attend de
lui qu’il ait une capacité de généralisation à partir des exemples qui
lui ont étés présentés.
Introduction au Machine Learning Apprentissage supervisé

Motivations

Définition du Machine Learning

Le Macine Learning consiste à laisser l’ordinateur apprendre quel


calcul effectuer, plutôt que de lui donner ce calcul (c’est-à-dire le
programmer explicitement).
C’est en tout cas la définition du Machine Learning selon son
inventeur Arthur Samuel, un mathématicien américain qui a
développé un programme pouvant apprendre tout seul comment
jouer aux Dames en 1959.
Introduction au Machine Learning Apprentissage supervisé

Motivations

Définition du Machine Learning

Le Macine Learning consiste à laisser l’ordinateur apprendre quel


calcul effectuer, plutôt que de lui donner ce calcul (c’est-à-dire le
programmer explicitement).
C’est en tout cas la définition du Machine Learning selon son
inventeur Arthur Samuel, un mathématicien américain qui a
développé un programme pouvant apprendre tout seul comment
jouer aux Dames en 1959.
Introduction au Machine Learning Apprentissage supervisé

Motivations

Définition du Machine Learning

Un autre américain du nom de Tom Mitchell donna en 1998 une


définition un peu plus moderne du Machine Learning en énonçant
qu’une machine apprend quand sa performance à faire une certaine
tâche s’améliore avec de nouvelles expériences.
Introduction au Machine Learning Apprentissage supervisé

Motivations

Définition du Machine Learning


Définition
Le Machine Learning (ML) est un ensemble d’outils statistiques ou
géométriques et d’algorithmes informatiques qui permettent
d’automatiser la construction d’une fonction de prédiction f à partir
d’un ensemble d’observations que l’on appelle l’ensemble
d’apprentissage.

Le machine learning va nous servir à résoudre des problèmes:


• que l’on ne sait pas résoudre
• que l’on sait résoudre, mais dont on ne sait formaliser en termes
algorithmiques comment nous les résolvons (c’est le cas par
exemple de la reconnaissance d’images ou de la compréhension
du langage naturel);
• que l’on sait résoudre, mais avec des procédures beaucoup trop
gourmandes en ressources informatiques (c’est le cas par
exemple de la prédiction d’interactions entre molécules de grande
taille, pour lesquelles les simulations sont très lourdes).
Introduction au Machine Learning Apprentissage supervisé

Motivations

Définition du Machine Learning


Définition
Le Machine Learning (ML) est un ensemble d’outils statistiques ou
géométriques et d’algorithmes informatiques qui permettent
d’automatiser la construction d’une fonction de prédiction f à partir
d’un ensemble d’observations que l’on appelle l’ensemble
d’apprentissage.

Le machine learning va nous servir à résoudre des problèmes:


• que l’on ne sait pas résoudre
• que l’on sait résoudre, mais dont on ne sait formaliser en termes
algorithmiques comment nous les résolvons (c’est le cas par
exemple de la reconnaissance d’images ou de la compréhension
du langage naturel);
• que l’on sait résoudre, mais avec des procédures beaucoup trop
gourmandes en ressources informatiques (c’est le cas par
exemple de la prédiction d’interactions entre molécules de grande
taille, pour lesquelles les simulations sont très lourdes).
Introduction au Machine Learning Apprentissage supervisé

Motivations

Définition du Machine Learning


Définition
Le Machine Learning (ML) est un ensemble d’outils statistiques ou
géométriques et d’algorithmes informatiques qui permettent
d’automatiser la construction d’une fonction de prédiction f à partir
d’un ensemble d’observations que l’on appelle l’ensemble
d’apprentissage.

Le machine learning va nous servir à résoudre des problèmes:


• que l’on ne sait pas résoudre
• que l’on sait résoudre, mais dont on ne sait formaliser en termes
algorithmiques comment nous les résolvons (c’est le cas par
exemple de la reconnaissance d’images ou de la compréhension
du langage naturel);
• que l’on sait résoudre, mais avec des procédures beaucoup trop
gourmandes en ressources informatiques (c’est le cas par
exemple de la prédiction d’interactions entre molécules de grande
taille, pour lesquelles les simulations sont très lourdes).
Introduction au Machine Learning Apprentissage supervisé

Motivations

Définition du Machine Learning


Définition
Le Machine Learning (ML) est un ensemble d’outils statistiques ou
géométriques et d’algorithmes informatiques qui permettent
d’automatiser la construction d’une fonction de prédiction f à partir
d’un ensemble d’observations que l’on appelle l’ensemble
d’apprentissage.

Le machine learning va nous servir à résoudre des problèmes:


• que l’on ne sait pas résoudre
• que l’on sait résoudre, mais dont on ne sait formaliser en termes
algorithmiques comment nous les résolvons (c’est le cas par
exemple de la reconnaissance d’images ou de la compréhension
du langage naturel);
• que l’on sait résoudre, mais avec des procédures beaucoup trop
gourmandes en ressources informatiques (c’est le cas par
exemple de la prédiction d’interactions entre molécules de grande
taille, pour lesquelles les simulations sont très lourdes).
Introduction au Machine Learning Apprentissage supervisé

Motivations

Définition du Machine Learning


Définition
Le Machine Learning (ML) est un ensemble d’outils statistiques ou
géométriques et d’algorithmes informatiques qui permettent
d’automatiser la construction d’une fonction de prédiction f à partir
d’un ensemble d’observations que l’on appelle l’ensemble
d’apprentissage.

Le machine learning va nous servir à résoudre des problèmes:


• que l’on ne sait pas résoudre
• que l’on sait résoudre, mais dont on ne sait formaliser en termes
algorithmiques comment nous les résolvons (c’est le cas par
exemple de la reconnaissance d’images ou de la compréhension
du langage naturel);
• que l’on sait résoudre, mais avec des procédures beaucoup trop
gourmandes en ressources informatiques (c’est le cas par
exemple de la prédiction d’interactions entre molécules de grande
taille, pour lesquelles les simulations sont très lourdes).
Introduction au Machine Learning Apprentissage supervisé

Motivations

Un domaine pluri-disciplinaire

Le Machine Learning (apprentissage automatique) est à la croisée


de plusieurs disciplines:
• Les statistiques: pour l’inférence de modèles à partir de données.
• Les probabilités: pour modéliser l’aspect aléatoire inhérent aux
données et au problème d’apprentissage.
• L’optimisation: pour optimiser un critère de performance afin, soit
d’estimer des paramètres d’un modèle, soit de déterminer la
meilleure décision à prendre étant donnée une instance d’un
problème
• L’informatique: Puisqu’il s’agit de programmer des algortithems et
qu’en ML ceux-ci peuvent être de grande complexité et gourmans
en termes de ressources de calcul et de mémoire.
Introduction au Machine Learning Apprentissage supervisé

Motivations

Un domaine pluri-disciplinaire

Le Machine Learning (apprentissage automatique) est à la croisée


de plusieurs disciplines:
• Les statistiques: pour l’inférence de modèles à partir de données.
• Les probabilités: pour modéliser l’aspect aléatoire inhérent aux
données et au problème d’apprentissage.
• L’optimisation: pour optimiser un critère de performance afin, soit
d’estimer des paramètres d’un modèle, soit de déterminer la
meilleure décision à prendre étant donnée une instance d’un
problème
• L’informatique: Puisqu’il s’agit de programmer des algortithems et
qu’en ML ceux-ci peuvent être de grande complexité et gourmans
en termes de ressources de calcul et de mémoire.
Introduction au Machine Learning Apprentissage supervisé

Motivations

Un domaine pluri-disciplinaire

Le Machine Learning (apprentissage automatique) est à la croisée


de plusieurs disciplines:
• Les statistiques: pour l’inférence de modèles à partir de données.
• Les probabilités: pour modéliser l’aspect aléatoire inhérent aux
données et au problème d’apprentissage.
• L’optimisation: pour optimiser un critère de performance afin, soit
d’estimer des paramètres d’un modèle, soit de déterminer la
meilleure décision à prendre étant donnée une instance d’un
problème
• L’informatique: Puisqu’il s’agit de programmer des algortithems et
qu’en ML ceux-ci peuvent être de grande complexité et gourmans
en termes de ressources de calcul et de mémoire.
Introduction au Machine Learning Apprentissage supervisé

Motivations

Un domaine pluri-disciplinaire

Le Machine Learning (apprentissage automatique) est à la croisée


de plusieurs disciplines:
• Les statistiques: pour l’inférence de modèles à partir de données.
• Les probabilités: pour modéliser l’aspect aléatoire inhérent aux
données et au problème d’apprentissage.
• L’optimisation: pour optimiser un critère de performance afin, soit
d’estimer des paramètres d’un modèle, soit de déterminer la
meilleure décision à prendre étant donnée une instance d’un
problème
• L’informatique: Puisqu’il s’agit de programmer des algortithems et
qu’en ML ceux-ci peuvent être de grande complexité et gourmans
en termes de ressources de calcul et de mémoire.
Introduction au Machine Learning Apprentissage supervisé

Motivations

Un domaine pluri-disciplinaire

Le Machine Learning (apprentissage automatique) est à la croisée


de plusieurs disciplines:
• Les statistiques: pour l’inférence de modèles à partir de données.
• Les probabilités: pour modéliser l’aspect aléatoire inhérent aux
données et au problème d’apprentissage.
• L’optimisation: pour optimiser un critère de performance afin, soit
d’estimer des paramètres d’un modèle, soit de déterminer la
meilleure décision à prendre étant donnée une instance d’un
problème
• L’informatique: Puisqu’il s’agit de programmer des algortithems et
qu’en ML ceux-ci peuvent être de grande complexité et gourmans
en termes de ressources de calcul et de mémoire.
Introduction au Machine Learning Apprentissage supervisé

Motivations

ML et matières connexes

Quelques références et domaines d’application faisant intervenir


le ML.
• Les statistiques
• La fouille de données (Data Mining): lorsque les objets étudiés
sont stockés dans des bases de données volumineuses.
• La reconnaissance de form (RDF) (Pattern Recognition): Lorque
les objets concernés sont de type ”signal” comme les images, les
vidéos ou le son.
• Le traitement automatique du langage- TAL ( ”Natural Langage
Processing”, NLP): lorsque les problèmes concernent l’analyse
linguistique de textes.
• La science des données (”Data science”): approche(s)
pluri-disciplinaire pour l’extraction de connaissances à partir de
données hétérogènes.
• Les données massives (”Big data”): mettant l’accent sur les
problématiques ”4V” (volume, variété, vélocité, véracité) et des
éléments de solutions issus du stockage/calcul distribué.
Introduction au Machine Learning Apprentissage supervisé

Motivations

ML et matières connexes

Quelques références et domaines d’application faisant intervenir


le ML.
• Les statistiques
• La fouille de données (Data Mining): lorsque les objets étudiés
sont stockés dans des bases de données volumineuses.
• La reconnaissance de form (RDF) (Pattern Recognition): Lorque
les objets concernés sont de type ”signal” comme les images, les
vidéos ou le son.
• Le traitement automatique du langage- TAL ( ”Natural Langage
Processing”, NLP): lorsque les problèmes concernent l’analyse
linguistique de textes.
• La science des données (”Data science”): approche(s)
pluri-disciplinaire pour l’extraction de connaissances à partir de
données hétérogènes.
• Les données massives (”Big data”): mettant l’accent sur les
problématiques ”4V” (volume, variété, vélocité, véracité) et des
éléments de solutions issus du stockage/calcul distribué.
Introduction au Machine Learning Apprentissage supervisé

Motivations

ML et matières connexes

Quelques références et domaines d’application faisant intervenir


le ML.
• Les statistiques
• La fouille de données (Data Mining): lorsque les objets étudiés
sont stockés dans des bases de données volumineuses.
• La reconnaissance de form (RDF) (Pattern Recognition): Lorque
les objets concernés sont de type ”signal” comme les images, les
vidéos ou le son.
• Le traitement automatique du langage- TAL ( ”Natural Langage
Processing”, NLP): lorsque les problèmes concernent l’analyse
linguistique de textes.
• La science des données (”Data science”): approche(s)
pluri-disciplinaire pour l’extraction de connaissances à partir de
données hétérogènes.
• Les données massives (”Big data”): mettant l’accent sur les
problématiques ”4V” (volume, variété, vélocité, véracité) et des
éléments de solutions issus du stockage/calcul distribué.
Introduction au Machine Learning Apprentissage supervisé

Motivations

ML et matières connexes

Quelques références et domaines d’application faisant intervenir


le ML.
• Les statistiques
• La fouille de données (Data Mining): lorsque les objets étudiés
sont stockés dans des bases de données volumineuses.
• La reconnaissance de form (RDF) (Pattern Recognition): Lorque
les objets concernés sont de type ”signal” comme les images, les
vidéos ou le son.
• Le traitement automatique du langage- TAL ( ”Natural Langage
Processing”, NLP): lorsque les problèmes concernent l’analyse
linguistique de textes.
• La science des données (”Data science”): approche(s)
pluri-disciplinaire pour l’extraction de connaissances à partir de
données hétérogènes.
• Les données massives (”Big data”): mettant l’accent sur les
problématiques ”4V” (volume, variété, vélocité, véracité) et des
éléments de solutions issus du stockage/calcul distribué.
Introduction au Machine Learning Apprentissage supervisé

Motivations

ML et matières connexes

Quelques références et domaines d’application faisant intervenir


le ML.
• Les statistiques
• La fouille de données (Data Mining): lorsque les objets étudiés
sont stockés dans des bases de données volumineuses.
• La reconnaissance de form (RDF) (Pattern Recognition): Lorque
les objets concernés sont de type ”signal” comme les images, les
vidéos ou le son.
• Le traitement automatique du langage- TAL ( ”Natural Langage
Processing”, NLP): lorsque les problèmes concernent l’analyse
linguistique de textes.
• La science des données (”Data science”): approche(s)
pluri-disciplinaire pour l’extraction de connaissances à partir de
données hétérogènes.
• Les données massives (”Big data”): mettant l’accent sur les
problématiques ”4V” (volume, variété, vélocité, véracité) et des
éléments de solutions issus du stockage/calcul distribué.
Introduction au Machine Learning Apprentissage supervisé

Motivations

ML et matières connexes

Quelques références et domaines d’application faisant intervenir


le ML.
• Les statistiques
• La fouille de données (Data Mining): lorsque les objets étudiés
sont stockés dans des bases de données volumineuses.
• La reconnaissance de form (RDF) (Pattern Recognition): Lorque
les objets concernés sont de type ”signal” comme les images, les
vidéos ou le son.
• Le traitement automatique du langage- TAL ( ”Natural Langage
Processing”, NLP): lorsque les problèmes concernent l’analyse
linguistique de textes.
• La science des données (”Data science”): approche(s)
pluri-disciplinaire pour l’extraction de connaissances à partir de
données hétérogènes.
• Les données massives (”Big data”): mettant l’accent sur les
problématiques ”4V” (volume, variété, vélocité, véracité) et des
éléments de solutions issus du stockage/calcul distribué.
Introduction au Machine Learning Apprentissage supervisé

Motivations

ML et matières connexes

Quelques références et domaines d’application faisant intervenir


le ML.
• Les statistiques
• La fouille de données (Data Mining): lorsque les objets étudiés
sont stockés dans des bases de données volumineuses.
• La reconnaissance de form (RDF) (Pattern Recognition): Lorque
les objets concernés sont de type ”signal” comme les images, les
vidéos ou le son.
• Le traitement automatique du langage- TAL ( ”Natural Langage
Processing”, NLP): lorsque les problèmes concernent l’analyse
linguistique de textes.
• La science des données (”Data science”): approche(s)
pluri-disciplinaire pour l’extraction de connaissances à partir de
données hétérogènes.
• Les données massives (”Big data”): mettant l’accent sur les
problématiques ”4V” (volume, variété, vélocité, véracité) et des
éléments de solutions issus du stockage/calcul distribué.
Introduction au Machine Learning Apprentissage supervisé

Motivations

Les types de problèmes en ML

On distingue 4 grandes classes de problèmes de Machine Learning.


Apprentissage supervisé
Apprentissage non supervisé
Apprentissage semi-supervisé
Apprentissage par renforsement
Introduction au Machine Learning Apprentissage supervisé

Motivations

Les types de problèmes en ML

On distingue 4 grandes classes de problèmes de Machine Learning.


Apprentissage supervisé
Apprentissage non supervisé
Apprentissage semi-supervisé
Apprentissage par renforsement
Introduction au Machine Learning Apprentissage supervisé

Motivations

Les types de problèmes en ML

On distingue 4 grandes classes de problèmes de Machine Learning.


Apprentissage supervisé
Apprentissage non supervisé
Apprentissage semi-supervisé
Apprentissage par renforsement
Introduction au Machine Learning Apprentissage supervisé

Motivations

Les types de problèmes en ML

On distingue 4 grandes classes de problèmes de Machine Learning.


Apprentissage supervisé
Apprentissage non supervisé
Apprentissage semi-supervisé
Apprentissage par renforsement
Introduction au Machine Learning Apprentissage supervisé

Motivations

Les types de problèmes en ML

On distingue 4 grandes classes de problèmes de Machine Learning.


Apprentissage supervisé
Apprentissage non supervisé
Apprentissage semi-supervisé
Apprentissage par renforsement
Introduction au Machine Learning Apprentissage supervisé

Apprentissage supervisé

Les types de problèmes en ML

Apprentissage supervisé L’apprentissage supervisé est peut-être


le type de problème de ML le plus facile à appréhender: son but
est d’apprendre à faire des prédictions , à partir d’une liste
d’exemples étiquetés, c’est-à-dire accompagnés de la valeur à
prédire. Les étiquettes servent de ”professeur” et supervisent
l’apprentissage de l’algorithme.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage supervisé

Apprentissage supervisé:

Définition: Apprentissage supervisé


On appelle apprentissage supervisé la branche du ML qui s’intéresse
aux problèmes pouvant être formalisés de la façon suivante: étant
données n observations {~x i }i =1,..,n décrites dans un espace X , et
leurs étiquettes {yi }i =1,..,n décrites dans un espace Y , on suppose
que les étiquettes peuvent être obtenues à partir des observations
grĉe à une fonction φ : X → Y fixe et inconnue:

yi = φ(~x i ) + ε i

où ε i est un bruit aléatoire. Il s’agit alors d’utiliser les données pour


déterminer une fonction f : X → Y telle que, pour tout couple
(~x , φ(~x )) ∈ X × Y , f (~x ) ≈ φ(~x ).
Introduction au Machine Learning Apprentissage supervisé

Apprentissage supervisé

Apprentissage supervisé. Classification binaire


En géneral, l’espace dans lequel sont définies les données est le plus
souvent X = Rp . Nous verrons cependant aussi comment traiter
d’autres types de représentations, comme des variables binaires,
discrètes, catégoriques...
Classification binaire
Un problème d’apprentissage supervisé dans lequel l’espace des
étiquettes est binaire, autrement dit Y = {0, 1} est appelé un
problème de classification binaire.

Exemples
On a par exemple
Identifier si un email est un spam ou non
Identifier si un tableau a été peint par Picasso ou non
Identifier si une image contient ou non une girafe
Identifier si une molécule peut ou non traiter la dépression
Identifier si une transaction financière est frauduleuse ou non
Introduction au Machine Learning Apprentissage supervisé

Apprentissage supervisé

Apprentissage supervisé. Classification binaire


En géneral, l’espace dans lequel sont définies les données est le plus
souvent X = Rp . Nous verrons cependant aussi comment traiter
d’autres types de représentations, comme des variables binaires,
discrètes, catégoriques...
Classification binaire
Un problème d’apprentissage supervisé dans lequel l’espace des
étiquettes est binaire, autrement dit Y = {0, 1} est appelé un
problème de classification binaire.

Exemples
On a par exemple
Identifier si un email est un spam ou non
Identifier si un tableau a été peint par Picasso ou non
Identifier si une image contient ou non une girafe
Identifier si une molécule peut ou non traiter la dépression
Identifier si une transaction financière est frauduleuse ou non
Introduction au Machine Learning Apprentissage supervisé

Apprentissage supervisé

Apprentissage supervisé. Classification binaire


En géneral, l’espace dans lequel sont définies les données est le plus
souvent X = Rp . Nous verrons cependant aussi comment traiter
d’autres types de représentations, comme des variables binaires,
discrètes, catégoriques...
Classification binaire
Un problème d’apprentissage supervisé dans lequel l’espace des
étiquettes est binaire, autrement dit Y = {0, 1} est appelé un
problème de classification binaire.

Exemples
On a par exemple
Identifier si un email est un spam ou non
Identifier si un tableau a été peint par Picasso ou non
Identifier si une image contient ou non une girafe
Identifier si une molécule peut ou non traiter la dépression
Identifier si une transaction financière est frauduleuse ou non
Introduction au Machine Learning Apprentissage supervisé

Apprentissage supervisé

Apprentissage supervisé. Classification binaire


En géneral, l’espace dans lequel sont définies les données est le plus
souvent X = Rp . Nous verrons cependant aussi comment traiter
d’autres types de représentations, comme des variables binaires,
discrètes, catégoriques...
Classification binaire
Un problème d’apprentissage supervisé dans lequel l’espace des
étiquettes est binaire, autrement dit Y = {0, 1} est appelé un
problème de classification binaire.

Exemples
On a par exemple
Identifier si un email est un spam ou non
Identifier si un tableau a été peint par Picasso ou non
Identifier si une image contient ou non une girafe
Identifier si une molécule peut ou non traiter la dépression
Identifier si une transaction financière est frauduleuse ou non
Introduction au Machine Learning Apprentissage supervisé

Apprentissage supervisé

Apprentissage supervisé. Classification binaire


En géneral, l’espace dans lequel sont définies les données est le plus
souvent X = Rp . Nous verrons cependant aussi comment traiter
d’autres types de représentations, comme des variables binaires,
discrètes, catégoriques...
Classification binaire
Un problème d’apprentissage supervisé dans lequel l’espace des
étiquettes est binaire, autrement dit Y = {0, 1} est appelé un
problème de classification binaire.

Exemples
On a par exemple
Identifier si un email est un spam ou non
Identifier si un tableau a été peint par Picasso ou non
Identifier si une image contient ou non une girafe
Identifier si une molécule peut ou non traiter la dépression
Identifier si une transaction financière est frauduleuse ou non
Introduction au Machine Learning Apprentissage supervisé

Apprentissage supervisé

Apprentissage supervisé. Classification binaire


En géneral, l’espace dans lequel sont définies les données est le plus
souvent X = Rp . Nous verrons cependant aussi comment traiter
d’autres types de représentations, comme des variables binaires,
discrètes, catégoriques...
Classification binaire
Un problème d’apprentissage supervisé dans lequel l’espace des
étiquettes est binaire, autrement dit Y = {0, 1} est appelé un
problème de classification binaire.

Exemples
On a par exemple
Identifier si un email est un spam ou non
Identifier si un tableau a été peint par Picasso ou non
Identifier si une image contient ou non une girafe
Identifier si une molécule peut ou non traiter la dépression
Identifier si une transaction financière est frauduleuse ou non
Introduction au Machine Learning Apprentissage supervisé

Apprentissage supervisé

Apprentissage supervisé. Classification binaire


En géneral, l’espace dans lequel sont définies les données est le plus
souvent X = Rp . Nous verrons cependant aussi comment traiter
d’autres types de représentations, comme des variables binaires,
discrètes, catégoriques...
Classification binaire
Un problème d’apprentissage supervisé dans lequel l’espace des
étiquettes est binaire, autrement dit Y = {0, 1} est appelé un
problème de classification binaire.

Exemples
On a par exemple
Identifier si un email est un spam ou non
Identifier si un tableau a été peint par Picasso ou non
Identifier si une image contient ou non une girafe
Identifier si une molécule peut ou non traiter la dépression
Identifier si une transaction financière est frauduleuse ou non
Introduction au Machine Learning Apprentissage supervisé

Apprentissage supervisé

Apprentissage supervisé. Classification binaire


En géneral, l’espace dans lequel sont définies les données est le plus
souvent X = Rp . Nous verrons cependant aussi comment traiter
d’autres types de représentations, comme des variables binaires,
discrètes, catégoriques...
Classification binaire
Un problème d’apprentissage supervisé dans lequel l’espace des
étiquettes est binaire, autrement dit Y = {0, 1} est appelé un
problème de classification binaire.

Exemples
On a par exemple
Identifier si un email est un spam ou non
Identifier si un tableau a été peint par Picasso ou non
Identifier si une image contient ou non une girafe
Identifier si une molécule peut ou non traiter la dépression
Identifier si une transaction financière est frauduleuse ou non
Introduction au Machine Learning Apprentissage supervisé

Apprentissage supervisé

Apprentissage supervisé. Classification multi-classe

Classification multi-classe
Un problème d’apprentissage supervisé dans lequel l’espace des
étiquettes est discret et fini, autrement dit Y = {1, 2, . . . , C } est
appelé un problème de classification multi-classe. C’est le nombre de
classes.

Exemples
Identifier en quelle langue un texte est écrit.
Identifier lequel des 10 chiffres arabes est un chiffre manuscrit
Identifier l’expression d’un visage parmi une liste prédéfinie de
possibilités (colère, tristesse, joie, ...).
Identifier à quelle espèce appartient une plante.
Identifier les objets présents sur une photographie.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage supervisé

Apprentissage supervisé. Classification multi-classe

Classification multi-classe
Un problème d’apprentissage supervisé dans lequel l’espace des
étiquettes est discret et fini, autrement dit Y = {1, 2, . . . , C } est
appelé un problème de classification multi-classe. C’est le nombre de
classes.

Exemples
Identifier en quelle langue un texte est écrit.
Identifier lequel des 10 chiffres arabes est un chiffre manuscrit
Identifier l’expression d’un visage parmi une liste prédéfinie de
possibilités (colère, tristesse, joie, ...).
Identifier à quelle espèce appartient une plante.
Identifier les objets présents sur une photographie.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage supervisé

Apprentissage supervisé. Classification multi-classe

Classification multi-classe
Un problème d’apprentissage supervisé dans lequel l’espace des
étiquettes est discret et fini, autrement dit Y = {1, 2, . . . , C } est
appelé un problème de classification multi-classe. C’est le nombre de
classes.

Exemples
Identifier en quelle langue un texte est écrit.
Identifier lequel des 10 chiffres arabes est un chiffre manuscrit
Identifier l’expression d’un visage parmi une liste prédéfinie de
possibilités (colère, tristesse, joie, ...).
Identifier à quelle espèce appartient une plante.
Identifier les objets présents sur une photographie.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage supervisé

Apprentissage supervisé. Classification multi-classe

Classification multi-classe
Un problème d’apprentissage supervisé dans lequel l’espace des
étiquettes est discret et fini, autrement dit Y = {1, 2, . . . , C } est
appelé un problème de classification multi-classe. C’est le nombre de
classes.

Exemples
Identifier en quelle langue un texte est écrit.
Identifier lequel des 10 chiffres arabes est un chiffre manuscrit
Identifier l’expression d’un visage parmi une liste prédéfinie de
possibilités (colère, tristesse, joie, ...).
Identifier à quelle espèce appartient une plante.
Identifier les objets présents sur une photographie.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage supervisé

Apprentissage supervisé. Classification multi-classe

Classification multi-classe
Un problème d’apprentissage supervisé dans lequel l’espace des
étiquettes est discret et fini, autrement dit Y = {1, 2, . . . , C } est
appelé un problème de classification multi-classe. C’est le nombre de
classes.

Exemples
Identifier en quelle langue un texte est écrit.
Identifier lequel des 10 chiffres arabes est un chiffre manuscrit
Identifier l’expression d’un visage parmi une liste prédéfinie de
possibilités (colère, tristesse, joie, ...).
Identifier à quelle espèce appartient une plante.
Identifier les objets présents sur une photographie.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage supervisé

Apprentissage supervisé. Classification multi-classe

Classification multi-classe
Un problème d’apprentissage supervisé dans lequel l’espace des
étiquettes est discret et fini, autrement dit Y = {1, 2, . . . , C } est
appelé un problème de classification multi-classe. C’est le nombre de
classes.

Exemples
Identifier en quelle langue un texte est écrit.
Identifier lequel des 10 chiffres arabes est un chiffre manuscrit
Identifier l’expression d’un visage parmi une liste prédéfinie de
possibilités (colère, tristesse, joie, ...).
Identifier à quelle espèce appartient une plante.
Identifier les objets présents sur une photographie.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage supervisé

Apprentissage supervisé. Classification multi-classe

Classification multi-classe
Un problème d’apprentissage supervisé dans lequel l’espace des
étiquettes est discret et fini, autrement dit Y = {1, 2, . . . , C } est
appelé un problème de classification multi-classe. C’est le nombre de
classes.

Exemples
Identifier en quelle langue un texte est écrit.
Identifier lequel des 10 chiffres arabes est un chiffre manuscrit
Identifier l’expression d’un visage parmi une liste prédéfinie de
possibilités (colère, tristesse, joie, ...).
Identifier à quelle espèce appartient une plante.
Identifier les objets présents sur une photographie.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage supervisé

Apprentissage supervisé: Régression

Régression
Un problème d’apprentissage supervisé dans lequel l’espace des
étiquettes est Y = R est appelé un problème de régression.

Exemples
Prédire le nombre de clics sur un lien
Prédire le nombre d’utilisateurs et utilisatrices d’un service en
ligne à un moment donné.
Prédire le prix d’une action en bourse
Prédire le rendement d’un plant de maïs.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage supervisé

Apprentissage supervisé: Régression

Régression
Un problème d’apprentissage supervisé dans lequel l’espace des
étiquettes est Y = R est appelé un problème de régression.

Exemples
Prédire le nombre de clics sur un lien
Prédire le nombre d’utilisateurs et utilisatrices d’un service en
ligne à un moment donné.
Prédire le prix d’une action en bourse
Prédire le rendement d’un plant de maïs.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage supervisé

Apprentissage supervisé: Régression

Régression
Un problème d’apprentissage supervisé dans lequel l’espace des
étiquettes est Y = R est appelé un problème de régression.

Exemples
Prédire le nombre de clics sur un lien
Prédire le nombre d’utilisateurs et utilisatrices d’un service en
ligne à un moment donné.
Prédire le prix d’une action en bourse
Prédire le rendement d’un plant de maïs.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage supervisé

Apprentissage supervisé: Régression

Régression
Un problème d’apprentissage supervisé dans lequel l’espace des
étiquettes est Y = R est appelé un problème de régression.

Exemples
Prédire le nombre de clics sur un lien
Prédire le nombre d’utilisateurs et utilisatrices d’un service en
ligne à un moment donné.
Prédire le prix d’une action en bourse
Prédire le rendement d’un plant de maïs.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage supervisé

Apprentissage supervisé: Régression

Régression
Un problème d’apprentissage supervisé dans lequel l’espace des
étiquettes est Y = R est appelé un problème de régression.

Exemples
Prédire le nombre de clics sur un lien
Prédire le nombre d’utilisateurs et utilisatrices d’un service en
ligne à un moment donné.
Prédire le prix d’une action en bourse
Prédire le rendement d’un plant de maïs.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage supervisé

Apprentissage supervisé: Régression

Régression
Un problème d’apprentissage supervisé dans lequel l’espace des
étiquettes est Y = R est appelé un problème de régression.

Exemples
Prédire le nombre de clics sur un lien
Prédire le nombre d’utilisateurs et utilisatrices d’un service en
ligne à un moment donné.
Prédire le prix d’une action en bourse
Prédire le rendement d’un plant de maïs.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage non supervisé

Les types de problèmes en ML

Apprentissage supervisé
Apprentissage non supervisé
Dans le cadre de l’aprentissage non supervisé, les données ne sont
pas étiquetées. Il s’agit alors de modéliser les observations pour
mieux les comprendre.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage non supervisé

Les types de problèmes en ML

Apprentissage supervisé
Apprentissage non supervisé
Dans le cadre de l’aprentissage non supervisé, les données ne sont
pas étiquetées. Il s’agit alors de modéliser les observations pour
mieux les comprendre.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage non supervisé

Les types de problèmes en ML

Définition
On appelle apprentissage non supervisé la branche du machine
learning qui s’intéresse aux problèmes pouvant être formalisés dans
la façon suivante: étant données n observations {~x i }i =1,...,n décrit
dans un espace X , il s’agit d’apprendre une fonction sur X qui vérifie
certaines propriétés.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage non supervisé

Apprentissage non-supervisé: Clustering

Tout d’abord, le clustering, ou partitionnement, consiste à identifier


des groupes dans les donnée. Cela permet de comprendre leurs
caractéristiques générales, et éventuellement d’inférer les propriétés
d’une observation en fonction du groupe auquel elle appartient.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage non supervisé

Apprentissage non-supervisé: Clustering

Partitionnement
On appelle partitionnement ou clustering un problème
d’apprentissage non supervisé pouvant être formalisé comme la
K
[
recherche d’une partition CK des n observations {~x i }i =1,...,n . Cette
k =1
partition doit être pertinente au vu d’un ou plusieurs critères à
préciser.

Exemples
La segmentation de marché consitte à identifier des groupes
d’usagers ou de clients ayant un comportement similaire. Cela
permet de mieux comprendre leur profil, et cibler une campagne
de publicité, des contenus ous des actions spécifiquement vers
certains groupes.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage non supervisé

Apprentissage non-supervisé: Clustering

Partitionnement
On appelle partitionnement ou clustering un problème
d’apprentissage non supervisé pouvant être formalisé comme la
K
[
recherche d’une partition CK des n observations {~x i }i =1,...,n . Cette
k =1
partition doit être pertinente au vu d’un ou plusieurs critères à
préciser.

Exemples
La segmentation de marché consitte à identifier des groupes
d’usagers ou de clients ayant un comportement similaire. Cela
permet de mieux comprendre leur profil, et cibler une campagne
de publicité, des contenus ous des actions spécifiquement vers
certains groupes.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage non supervisé

Apprentissage non-supervisé: Clustering

Partitionnement
On appelle partitionnement ou clustering un problème
d’apprentissage non supervisé pouvant être formalisé comme la
K
[
recherche d’une partition CK des n observations {~x i }i =1,...,n . Cette
k =1
partition doit être pertinente au vu d’un ou plusieurs critères à
préciser.

Exemples
La segmentation de marché consitte à identifier des groupes
d’usagers ou de clients ayant un comportement similaire. Cela
permet de mieux comprendre leur profil, et cibler une campagne
de publicité, des contenus ous des actions spécifiquement vers
certains groupes.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage non supervisé

Apprentissage non-supervisé: Clustering

Exemples
La segmentation d’image consiste à identifier les pixels d’une
image appartenant à la même région.
La compression d’image peut être formulée comme un
problème de partitionnement consistant à regrouper des pixels
similaires pour ensuite les représenter plus efficacement.
Identifier des groupes parmi les patients présentant les mêmes
syntômes permet d’identifier des sous-types d’une maladie, qui
pouront alors être traités différemment.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage non supervisé

Apprentissage non-supervisé: Clustering

Exemples
La segmentation d’image consiste à identifier les pixels d’une
image appartenant à la même région.
La compression d’image peut être formulée comme un
problème de partitionnement consistant à regrouper des pixels
similaires pour ensuite les représenter plus efficacement.
Identifier des groupes parmi les patients présentant les mêmes
syntômes permet d’identifier des sous-types d’une maladie, qui
pouront alors être traités différemment.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage non supervisé

Apprentissage non-supervisé: Clustering

Exemples
La segmentation d’image consiste à identifier les pixels d’une
image appartenant à la même région.
La compression d’image peut être formulée comme un
problème de partitionnement consistant à regrouper des pixels
similaires pour ensuite les représenter plus efficacement.
Identifier des groupes parmi les patients présentant les mêmes
syntômes permet d’identifier des sous-types d’une maladie, qui
pouront alors être traités différemment.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage non supervisé

Apprentissage non-supervisé: Clustering

Exemples
La segmentation d’image consiste à identifier les pixels d’une
image appartenant à la même région.
La compression d’image peut être formulée comme un
problème de partitionnement consistant à regrouper des pixels
similaires pour ensuite les représenter plus efficacement.
Identifier des groupes parmi les patients présentant les mêmes
syntômes permet d’identifier des sous-types d’une maladie, qui
pouront alors être traités différemment.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage non supervisé

Apprentissage non-supervisé: Réduction de dimension

La réduction de dimension est une autre famille importante de


problèmes d’apprentissage non supervisé. Il s’agit de trouver une
représentation des données dans un espace de dimension plus faible
que celle de l’espace dans lequel elles sont représentées à l’origine.
Cela permet de réduire les temos de calcul et l’espace mémoire
nécessaire au stockage des données, mais aussi souvent d’améliorer
les performances d’un algorithme d’apprentissage supervisé entraîné
par la suite sur ces données.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage non supervisé

Apprentissage non-supervisé: Réduction de dimension

Définition
On appelle réduction de la dimension un problème d’apprentissage
non supervisé pouvant être formalisé comme lar recherche d’un
espace Z de dimension plus faible que l’espace X dans lequel sont
représentées n observations {~x i }i =1,...,n . Les projections {~z i }i =1,...,n
des données sur Z doivent vérifier certaines propriétés à préciser.

Certaines méthodes de réduction de dimension sont supervisées: il


s’agit alors de trouver la représentation la plus pertinente pour
prédire une étiquette donnée.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage non supervisé

Apprentissage non-supervisé: Réduction de dimension

Définition
On appelle réduction de la dimension un problème d’apprentissage
non supervisé pouvant être formalisé comme lar recherche d’un
espace Z de dimension plus faible que l’espace X dans lequel sont
représentées n observations {~x i }i =1,...,n . Les projections {~z i }i =1,...,n
des données sur Z doivent vérifier certaines propriétés à préciser.

Certaines méthodes de réduction de dimension sont supervisées: il


s’agit alors de trouver la représentation la plus pertinente pour
prédire une étiquette donnée.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage non supervisé

Apprentissage non-supervisé: Estimation de densité

Enfin, une grande famille de problèmes d’apprentissage non


supervisé est en fait un problème traditionnel en statistiques : il s’agit
d’estimer une loi de probabilité en supposant que le jeu de données
en est un échantillon aléatoire.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage semi-supervisé

Les types de problèmes en ML

Apprentissage supervisé
Apprentissage non supervisé
Apprentissage semi-supervisé
Introduction au Machine Learning Apprentissage supervisé

Apprentissage semi-supervisé

Les types de problèmes en ML

Apprentissage supervisé
Apprentissage non supervisé
Apprentissage semi-supervisé
Introduction au Machine Learning Apprentissage supervisé

Apprentissage semi-supervisé

Les types de problèmes en ML

Apprentissage supervisé
Apprentissage non supervisé
Apprentissage semi-supervisé
Introduction au Machine Learning Apprentissage supervisé

Apprentissage semi-supervisé

Apprentissage semi-supervisé

Comme on peut s’en douter, l’apprentissage semi-supervisé consiste


à apprendre des étiquettes à partir d’un jeu de données partiellement
étiqueté. Le premier avantage de cette approche est qu’elle permet
d’éviter d’avoir à étiqueter l’intégralité des exemples d’apprentissage,
ce qui est pertinent quand il est facile d’accumuler des données mais
que leur étiquetage requiert une certaine quantité de travail humain.
Prenons par exemple la classification d’images: il est facile d’obtenir
une banque de données contenant des centaines de milliers d’images,
mais avoir pour chacune d’entre elles l’étiquette qui nous intéresse
peut requérir énormément de travail. De plus, les étiquettes données
par des humains sont susceptibles de reproduire des biais humains,
qu’un algorithme entièrement supervisé reproduira à son tour.
L’apprentissage semi-supervisé permet parfois d’éviter cet écueile.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage par renforcement

Apprentissage par renforcement

Dans le cadre de l’apprentissage par renforcement, le système


d’apprentissage peut interafir avec son environnement et accomplir
des actions. En retour de ces actions, il obtient une récompense, qui
peut être positive si l’action était un bon choix, ou négative dans le
cas contraire. La récompense peut parfois venir après une longue
suite d’actions; c’est le cas par exemple pour un système apprenant à
jouer au go ou aux échecs. Ainsi, l’apprentissage consiste dans ce
cas à définir une politique, c’est-à-dire une stratégie permettant
d’obtenir systématiquement la meilleure récompense possible.
Les application principales de l’apprentissage par renforcement se
trouvent dans les jeux (échecs, go, etc) et la robotique.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage par renforcement

Exercices

Exercice 1
Alice veut écrire un programme qui utilise la fréquence des mots
”science”, ”public”, ”accès”, ”université”, ’gouvernement”, ”financer”,
”éducation”, ”budget”, ”justice” et ”loi” pour déterminer si un article
traite ou non de politique scientifique. Elle a commencé par annoter
un millier d’articles selon leur sujet. Quel genre de problème
d’apprentissage automatique doit-elle résoudre?
Introduction au Machine Learning Apprentissage supervisé

Apprentissage par renforcement

Exercices

Exercice 2
Parmi les problèmes suivants, lesquels se prêtent bien à être traités
par le machine learning?
• Déterminer l’horaire optimal pour poster un contenu sur une
page web
• Déterminer le chemin le plus court entre deux noeuds dans un
graphe
• Prédire le nombre de vélos à mettre en location à chaque station
d’un système de location de vélos citadins.
• Evaluer le prix qu’un tableau de maître pourra atteindre lors
d’une vente aux enchères.
• Débruiter un signal radio.
Introduction au Machine Learning Apprentissage supervisé

Apprentissage par renforcement

Exercices

Exercice 3
Benjamin dispose de 10000 articles de journaux qu’il souhaite
classer oar leur thématique. Doit-il utiliser un algorithme supervisé
ou non supervisé?

Exercice 4
Les données de Cécile sont décrites par 10 variables. Elle aimerait
cependant les représenter sur un graphique en deux dimensions.
Quel type d’algoritheme d’apprentissage doit-elle utiliser?

Exercice 5
Elsa veut examiner ses spams pour déterminer s’il existe de
sous-types de spams. Quel type d’algorithme d’apprentissage doit-elle
utiliser?
Introduction au Machine Learning Apprentissage supervisé

Apprentissage par renforcement

Exercices

Exercice 3
Benjamin dispose de 10000 articles de journaux qu’il souhaite
classer oar leur thématique. Doit-il utiliser un algorithme supervisé
ou non supervisé?

Exercice 4
Les données de Cécile sont décrites par 10 variables. Elle aimerait
cependant les représenter sur un graphique en deux dimensions.
Quel type d’algoritheme d’apprentissage doit-elle utiliser?

Exercice 5
Elsa veut examiner ses spams pour déterminer s’il existe de
sous-types de spams. Quel type d’algorithme d’apprentissage doit-elle
utiliser?
Introduction au Machine Learning Apprentissage supervisé

Apprentissage par renforcement

Exercices

Exercice 3
Benjamin dispose de 10000 articles de journaux qu’il souhaite
classer oar leur thématique. Doit-il utiliser un algorithme supervisé
ou non supervisé?

Exercice 4
Les données de Cécile sont décrites par 10 variables. Elle aimerait
cependant les représenter sur un graphique en deux dimensions.
Quel type d’algoritheme d’apprentissage doit-elle utiliser?

Exercice 5
Elsa veut examiner ses spams pour déterminer s’il existe de
sous-types de spams. Quel type d’algorithme d’apprentissage doit-elle
utiliser?
Introduction au Machine Learning Apprentissage supervisé

Apprentissage par renforcement

Exercices

Exercice 6
David gère un outil qui permet d’organiser les liens HTML qui ont été
sauvegardés. Il souhaite suggérer des catégories auquelles affecter un
nouveau lien, en fonction des catégories déjà définies par l’ensemble
des utilisateurs du service. Quel type d’algorithme d’apprentissage
doit-il utiliser?
Introduction au Machine Learning Apprentissage supervisé

Un exemple avant de commencer

Un premier problème de machine learning

Direction TP.
Introduction au Machine Learning Apprentissage supervisé

Un exemple avant de commencer

Thank you for your attention!

Vous aimerez peut-être aussi