CM1 Intro

Introduction à
l’apprentissage Machine
Introduction
Faten Chakchouk
Enseignant - Chercheur
Plan
◉ C’est quoi l’apprentissage automatique ou Machine Learning ?
◉ Apprentissage Supervisé
◉ Apprentissage Non Supervisé
◉ Apprentissage par renforcement

Apprentissage Machine : Qu’est ce que c’est ?
Qu’est-ce qu’apprendre ?
Comment apprend-on ?
Que cela signifie-t-il pour une machine ?
Oui, je peux aussi

Je peux tout apprendre
apprendre à partir de
à partir de mes
données passées à
expériences.
l’aide de l'apprentissage
Est-ce ton cas ?
automatique.
Machine Learning : Définition formelle
≪ Machine learning is the field of study that gives computers

the ability to learn without being explicitly programmed. ≫
Arthur Samuel, 1959
≪ L’apprentissage automatique est la discipline

donnant aux ordinateurs la capacité d’apprendre
sans qu’ils soient explicitement programmés. ≫
Arthur Samuel, 1959
Arthur Samuel (1901-1990) est

un pionnier américain de
l’intelligence artificielle, du jeu
sur ordinateur et du machine
learning
Comment ML fonctionne ?
. . . « without being explicitly programmed »
Chien
Règles à
implémenter pour
...
reconnaitre les
objets dans les
images Chat
Extraction de
caractéristiques
• Beaucoup de règles à implémenter

• Les règles dépendent des données : Pas
génériques
Chien
...
Chat
Extraction de Modèle /Algorithmes

caractéristiques Machine Learning
• Construire un modèle qui regarde toutes

les caractéristiques des images
• Il détecte/reconnait sans être

explicitement programmé
Données
Ordinateur Sortie/résultat
Programme
VS
Données
Programme
Ordinateur Modèle
Sortie/résultat
Pourquoi utiliser la machine learning ?
Exemple 1
Il suffit d’appliquer un algorithme
Une entreprise souhaite connaitre le montant
classique, à savoir une simple addition :
total dépensé par un client ou une cliente à
un algorithme d’apprentissage n’est
partir de ses factures.
pas nécessaire.
Exemple 2 Si nous disposons de l’historique

d’achat d’un grand nombre
On souhaite utiliser ces factures pour
d’individus : Utiliser un algorithme de
déterminer quels produits le client est le plus
machine Learning prédictif nous
susceptible d’acheter dans un mois
permettant d’apporter une réponse à
cette question.
Le machine Learning est utilisé quand les données sont abondantes,

mais les connaissances peu accessibles ou peu développées.
Exemples d’ applications..
Systèmes de recommandation
Système de recommandation - Séjour touristique
Prédire la satisfaction voyageur, une première étape dans

la construction d’un assistant intelligent pour la
préparation de voyage.
Améliorer/Raffiner les résultats des moteurs de

Détection de spams
recherche
Google utilise l’ Apprentissage Automatique
Regroupement d’items
Iphoto Apple
Machine Learning : Autre Définition plus formelle
« Étant donné une tâche T et une mesure de performance P, on

dit qu’un programme informatique apprend à partir d’une
expérience E si les résultats obtenus sur T, mesurés par P,
s’améliorent avec l’expérience E.»
Tom Mitchell, 1997
Exemple 1 : Jouer aux jeux d’échecs.
E = l’expérience de jouer plusieurs parties

T = tâche de jouer une partie
P = Probabilité que le programme gagne la partie
Machine Learning : Autre Définition plus formelle
« Étant donné une tâche T et une mesure de performance P, on

dit qu’un programme informatique apprend à partir d’une
expérience E si les résultats obtenus sur T, mesurés par P,
s’améliorent avec l’expérience E.»
Tom Mitchell, 1997
Exemple 2 : Détection de spams
T = Identifier parmi les nouveaux e-mails ceux qui sont frauduleux,
E = Les données d’entrainement (ou apprentissage)
P = Le pourcentage de courriels correctement classés.

Algorithme ML et données
L’Apprentissage machine
Les données
algorithme d’apprentissage
• Préparer les données afin

d’éliminer les données
aberrantes,
• Gérer les données manquantes,
• Choisir une représentation
pertinente, etc.
Les données
Les données peuvent être vues comme une

collection d’objets (enregistrements) et leurs
attributs.
◉ Un attribut est une propriété et ou une

caractéristique de l’objet.
◉ Un ensemble d’attributs décrit un
objet.
les attributs sont aussi appelées descripteurs,

variables, prédicteurs, ou caractéristiques
Les données
◉ La valeur d’un attribut est un nombre ou un symbole.

◉ Ne pas confondre attribut et valeur
Quantitative (numérique, exprime Qualititative

• Variable ordinale (classement à un
une quantité) concours, échelle de satisfaction
• Discrète (nombre d’étudiants) client)
• Variable nominale (couleur de
• Continue (longueur) yeux, diplôme obtenu, sexe)
Algorithme ML : Connaissances Extraites
L’Apprentissage machine
Les données
algorithme d’apprentissage
• Préparer les données afin Connaissances sous la forme de modèles ML

d’éliminer les données permettant de
aberrantes,
• Gérer les données manquantes, • décrire le comportement actuel des
• Choisir une représentation données et/ou
pertinente, etc.
• prédire le comportement futur des
données.
Types d’approches de Machine Learning
Trois approches principales :
§ Supervisées
§ Non supervisées
§ Par renforcement
https://www.groupe-hli.com/machine-learning-dans-industrie/
Apprentissage supervisé
Superviser un modèle d’apprentissage machine : « Enseigner le modèle »
Superviser l’apprentissage de la machine en lui montrant des exemples (des données)

de la tâche qu’elle doit réaliser
Objectif : être capable de prédire des instances futures
Nous enseignons le modèle en le formant avec des données provenant d'un jeu de
données étiqueté.
Apprendre le modèle à partir de données étiquetées Attributs
Id F1 F2 F3 F4 F5 F6 F7 F8 F9 Class
1000025 5 1 1 1 2 1 3 1 1 Bénigne
1015425 3 1 1 1 2 2 3 1 1 Bénigne Labels

étiquettes
1017122 8 10 10 8 7 10 9 7 1 Maligne
Variables
1041801 5 3 3 3 2 3 4 4 1 Maligne
cibles
1043999 1 1 1 1 2 3 3 1 1 Bénigne
1044572 8 7 5 10 7 9 5 5 4 Maligne
1047630 7 4 6 4 6 1 4 3 1 Maligne
1048672 4 1 1 1 2 1 2 1 1 Bénigne Observation
1049815 4 1 1 1 2 1 3 1 1 Bénigne Exemple
1050670 10 7 7 6 4 10 4 1 2 Maligne Echantillon
1050718 6 1 1 1 2 1 3 1 1 Bénigne
Entité
Numérique
Variable cible nominale
Classification vs régression
La classification est la prédiction d'une La régression est la prédiction d'une

étiquette de classe discrète ou d'une valeur continue
catégorie.
Y1
X1
Exemple de régression : Prédire l'émission de CO2 d’une nouvelle voiture
FUEL FUEL
FUELCONSUMPTI
ENGINESIZE CYLINDERS CONSUMPTION CONSUMPTION CO2 EMISSIONS
ON_COMB
CITY HWY
0 2.0 4 9.9 6.7 8.5 196
1 2.4 4 11.2 7.7 9.6 221
2 1.5 4 6.0 5.8 5.9 136
3 3.5 6 12.7 9.1 11.1 255
4 3.5 6 12.1 8.7 10.6 244
5 3.5 6 11.9 7.7 10.0 230
6 3.5 6 11.8 8.1 10.1 232
7 3.7 6 12.8 9.0 11.1 255
8 3.7 6 13.4 9.5 11.6 267

Apprentissage supervisé : Comment fonctionne t-il ?
1. Dataset labélisé (étiqueté)

2. Développer un Modèle (paramètres)
3. Développer une Fonction Coût qui mesure les erreurs entre le modèle et les
outputs fournis par le Dataset
4. Développer un Algorithme d’apprentissage pour trouver les paramètres du
modèle qui minimisent la Fonction Coût
Apprentissage supervisé : Comment fonctionne t-il ?
Data processing
Data processing
Nguyen, Dong & Nguyen, Canh & Duong-Ba, Thuan & Nguyen, Hung & Nguyen, Anh & Trần, Tuấn. (2017). Joint network
coding and machine learning for error-prone wireless broadcast
Apprentissage supervisé : Formulation
𝑋= (𝑥1,…,𝑥𝑁) : vecteur de valeurs

N : la taille du jeu de test
U = (u1,…,u𝑁) : valeur supervisée ou réponse supervisée
S = (xi ; ui ) i:1..N : la base d’apprentissage
(xi ; ui ) : un couple / un échantillon
f: Xà U : fonction d’apprentissage ou le modèle
Le but d’un algorithme d’apprentissage supervisé sera donc

d’approcher cette fonction f, uniquement à partir des exemples
d’apprentissage et en cherchant une association (loi de dépendance)
entre X et U.
Apprentissage supervisé : QCM
Vous dirigez une entreprise et vous souhaitez développer des algorithmes d'apprentissage
pour résoudre chacun de ces deux problèmes.
Problème 1 : Vous avez un large stock d'articles identiques. Vous voulez prédire
combien de ces articles seront vendus au cours des 3 prochains mois.
Problème 2: Vous souhaitez qu'un logiciel examine les comptes individuels des
clients et détermine pour chaque compte s'il a été piraté ou compromis..
Faut-il les appréhender comme des problèmes de classification ou de régression ?
q Traitez les deux comme des problèmes de classification.

q Traiter le problème 1 comme un problème de classification, le problème
2 comme un problème de régression.
q Traiter le problème 1 comme un problème de régression, le problème 2
comme un problème de classification.
q Traiter les deux problèmes comme des problèmes de régression.
Vous dirigez une entreprise et vous souhaitez développer des algorithmes d'apprentissage
pour résoudre chacun de ces deux problèmes.
Problème 1 : Vous avez un large stock d'articles identiques. Vous voulez prédire
combien de ces articles seront vendus au cours des 3 prochains mois.
Problème 2: Vous souhaitez qu'un logiciel examine les comptes individuels des
clients et détermine pour chaque compte s'il a été piraté ou compromis..
Faut-il les appréhender comme des problèmes de classification ou de régression ?
q Traitez les deux comme des problèmes de classification.

q Traiter le problème 1 comme un problème de classification, le problème
2 comme un problème de régression.
q Traiter le problème 1 comme un problème de régression, le problème 2
comme un problème de classification.
q Traiter les deux problèmes comme des problèmes de régression.
Quelles sont les techniques de l’apprentissage supervisé ?
Régression : Vrai Faux
Classification : Vrai Faux
Clustering : Vrai Faux

Quelles sont les techniques de l’apprentissage supervisé ?
Régression : Vrai Faux
Classification : Vrai Faux
Clustering : Vrai Faux

Apprentissage NON supervisé
Clustering ou regroupement
Apprentissage NON supervisé : Exemples
Analyse de réseaux sociaux Segmentation du marché

Apprentissage NON supervisé
o Le modèle va travailler seul pour découvrir des informations qui peuvent ne

pas être visibles à l'œil humain.
o L’algorithme non supervisé s'entraîne sur le jeu de données et tire des

conclusions sur les données non étiquetées.
A partir de l’échantillon d’apprentissage S = {(xi)}1,n non

étiqueté, on cherche des régularités sous-jacentes :
• Sous forme d’une fonction

• Sous forme d’un modèle complexe
afin de résumer, détecter des régularités, …

Apprentissage NON supervisé : Exercice
Parmi les exemples suivants, quels sont qui peuvent être résolus en adoptant
une approche non supervisée ?
q Etant donné un ensemble de courriels étiquetés spam/non-

spam, apprendre un filtre anti-spam.
q Etant donné un ensemble d’articles dans le net, grouper les

articles ayant le même sujet.
q Etant donné un ensemble de patients identifiés diabétiques ou
non, apprenez à classer de nouveaux patients : diabétiques ou
pas
Apprentissage NON supervisé : Exercice
Parmi les exemples suivants, quels sont qui peuvent être résolus en adoptant une
approche non supervisée ?
q Etant donné un ensemble de courriels étiquetés spam/non-spam,

apprendre un filtre anti-spam.
q Etant donné un ensemble d’articles dans le net, grouper les articles
ayant le même sujet.
q Etant donné un ensemble de patients identifiés diabétiques ou non,
apprenez à classer de nouveaux patients : diabétiques ou pas
Apprentissage NON supervisé : Exercices bilan
1. L'apprentissage supervisé traite des données non étiquetées, tandis que

l'apprentissage non supervisé traite des données étiquetées. Vrai. Faux
2. La "régression" en Machine Learning est une famille qui sont utilisés pour :
q Prédire une valeur continue ; par exemple prédire le prix d'une maison en
fonction de ses caractéristiques.
q Prédire la classe/catégorie d'un cas ; par exemple, une cellule est bénigne ou
maligne, ou un client va se désabonner ou non.
q Trouver des éléments/événements qui coïncident souvent ; par exemple, des
articles d'épicerie qui sont généralement achetés ensemble par un client.
3. Supposons que vous travaillez sur les prévisions météorologiques et que vous
utilisez un algorithme d'apprentissage pour prédire la température de demain (en
degrés Celsius/Fahrenheit).
Traiteriez-vous cela comme un problème de classification ou de régression ?
q Classification
q Régression
1. L'apprentissage supervisé traite des données non étiquetées, tandis que

l'apprentissage non supervisé traite des données étiquetées. Vrai. Faux
2. La "régression" en Machine Learning est une famille qui sont utilisés pour :
q Prédire une valeur continue ; par exemple prédire le prix d'une maison en
fonction de ses caractéristiques.
q Prédire la classe/catégorie d'un cas ; par exemple, une cellule est bénigne
ou maligne, ou un client va se désabonner ou non.
q Trouver des éléments/événements qui coïncident souvent ; par exemple,
des articles d'épicerie qui sont généralement achetés ensemble par un
client.
Supposons que vous travaillez sur les prévisions météorologiques et que vous utilisez un
algorithme d'apprentissage pour prédire la température de demain (en degrés
Celsius/Fahrenheit).
Traiteriez-vous cela comme un problème de classification ou de régression ?
q Classification
q Régression
Certains des problèmes cités ci-dessous sont mieux traités en utilisant un algorithme d'apprentissage
supervisé, et les autres avec un algorithme d'apprentissage non supervisé.
Auxquels des problèmes suivants appliqueriez-vous l'apprentissage supervisé ? Dans chaque cas, on suppose
qu'un ensemble de données approprié est disponible pour que votre algorithme puisse apprendre.
q A partir de données historiques sur l'âge et la taille des enfants, prévoyez la taille des
enfants en fonction de leur âge.
q A partir de 50 articles écrits par des auteurs masculins et 50 articles écrits par des auteurs
féminins, apprendre à prédire le sexe de l'auteur d'un nouveau manuscrit (lorsque l'identité
de cet auteur est inconnue).
q Prendre un recueil de 1000 essais écrits sur l'économie américaine, et trouver un moyen de
regrouper automatiquement ces essais en un petit nombre de groupes d'essais qui sont
d'une certaine manière "similaires" ou "connexes".
q Examiner une grande collection d'e-mails connus pour être des spams, afin de découvrir
s'il existe des sous-types de spams.
Certains des problèmes cités ci-dessous sont mieux traités en utilisant un algorithme d'apprentissage
supervisé, et les autres avec un algorithme d'apprentissage non supervisé.
Auxquels des problèmes suivants appliqueriez-vous l'apprentissage supervisé ? Dans chaque cas, on suppose
qu'un ensemble de données approprié est disponible pour que votre algorithme puisse apprendre.
q A partir de données historiques sur l'âge et la taille des enfants, prévoyez la taille des
enfants en fonction de leur âge.
q A partir de 50 articles écrits par des auteurs masculins et 50 articles écrits par des auteurs
féminins, apprendre à prédire le sexe de l'auteur d'un nouveau manuscrit (lorsque l'identité
de cet auteur est inconnue).
q Prendre un recueil de 1000 essais écrits sur l'économie américaine, et trouver un moyen de
regrouper automatiquement ces essais en un petit nombre de groupes d'essais qui sont
d'une certaine manière "similaires" ou "connexes".
q Examiner une grande collection d'e-mails connus pour être des spams, afin de découvrir
s'il existe des sous-types de spams.
Apprentissage par renforcement
https://eduscol.education.fr/sti/sites/eduscol.education.fr.sti/files/ressources/pedagogiques/14756/14756-introduction-
lapprentissage-par-renforcement-ensps.pdf
Références
https://univ.scholarvox.com/reader/docid/889064
49/page/1?searchterm=Machine%20learning%20wi
th%20python
https://univ.scholarvox.com/reader/docid/8891484
6/page/38?searchterm=Machine%20learning%20w
ith%20python
Coursera online : Apprentissage automatique

https://www.coursera.org/learn/machine-learning
https://campus.datacamp.com/
Références
1. Openclassroom: Use Python Libraries for Data Science
2. Aurélien Géron, Machine Learning avec Scikit-Learn – Mise en œuvre et cas
concrets, Dunod, 2 édition,2019.
3. Sarah Guido ,Andreas Müller, Introduction to Machine Learning with Python, A
Guide for Data Scientists, O’ReillyMedia,2016
4. Scikit-Learn: https://scikit-learn.org/stable/
5. Kaggle : https://www.kaggle.com/

CM1 Intro

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

CM1 Intro

Transféré par

Droits d'auteur :

Formats disponibles

Introduction à

◉ C’est quoi l’apprentissage automatique ou Machine Learning ?

◉ Apprentissage Non Supervisé

◉ Apprentissage par renforcement

Que cela signifie-t-il pour une machine ?

Oui, je peux aussi

≪ Machine learning is the field of study that gives computers

≪ L’apprentissage automatique est la discipline

Arthur Samuel, 1959

Arthur Samuel (1901-1990) est

• Beaucoup de règles à implémenter

Extraction de Modèle /Algorithmes

• Construire un modèle qui regarde toutes

• Il détecte/reconnait sans être

Exemple 2 Si nous disposons de l’historique

Le machine Learning est utilisé quand les données sont abondantes,

Système de recommandation - Séjour touristique

Prédire la satisfaction voyageur, une première étape dans

Améliorer/Raffiner les résultats des moteurs de

« Étant donné une tâche T et une mesure de performance P, on

Exemple 1 : Jouer aux jeux d’échecs.

E = l’expérience de jouer plusieurs parties

« Étant donné une tâche T et une mesure de performance P, on

Exemple 2 : Détection de spams

T = Identifier parmi les nouveaux e-mails ceux qui sont frauduleux,

E = Les données d’entrainement (ou apprentissage)

P = Le pourcentage de courriels correctement classés.

• Préparer les données afin

Les données peuvent être vues comme une

◉ Un attribut est une propriété et ou une

les attributs sont aussi appelées descripteurs,

◉ La valeur d’un attribut est un nombre ou un symbole.

Quantitative (numérique, exprime Qualititative

• Préparer les données afin Connaissances sous la forme de modèles ML

Trois approches principales :

Superviser un modèle d’apprentissage machine : « Enseigner le modèle »

Superviser l’apprentissage de la machine en lui montrant des exemples (des données)

Objectif : être capable de prédire des instances futures

1015425 3 1 1 1 2 2 3 1 1 Bénigne Labels

La classification est la prédiction d'une La régression est la prédiction d'une

0 2.0 4 9.9 6.7 8.5 196

1 2.4 4 11.2 7.7 9.6 221

2 1.5 4 6.0 5.8 5.9 136

3 3.5 6 12.7 9.1 11.1 255

4 3.5 6 12.1 8.7 10.6 244

5 3.5 6 11.9 7.7 10.0 230

6 3.5 6 11.8 8.1 10.1 232

7 3.7 6 12.8 9.0 11.1 255

8 3.7 6 13.4 9.5 11.6 267

1. Dataset labélisé (étiqueté)

𝑋= (𝑥1,…,𝑥𝑁) : vecteur de valeurs

Le but d’un algorithme d’apprentissage supervisé sera donc

Faut-il les appréhender comme des problèmes de classification ou de régression ?

q Traitez les deux comme des problèmes de classification.

Faut-il les appréhender comme des problèmes de classification ou de régression ?

q Traitez les deux comme des problèmes de classification.

Quelles sont les techniques de l’apprentissage supervisé ?

Régression : Vrai Faux

Classification : Vrai Faux

Clustering : Vrai Faux

Quelles sont les techniques de l’apprentissage supervisé ?

Régression : Vrai Faux

Classification : Vrai Faux