Vous êtes sur la page 1sur 115

I-MACHINE LEARNING

II-RÉGRESSION
III-Classication
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING

Chapitre 1: INTRODUCTION A L'APPRENTISSAGE


AUTOMATIQUE

Ghislain PANDRY
Chercheur, Traitement du signal

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication I-1 : Dénition
IV- KNN I-2 : Problèmes de l'apprentissage automatique
V-SVM Linéaires
VI-DEEP LEARNING

I-1-1 : Dénition I.A


En fait il n'existe pas vraiment de dénition exacte de l'IA.
Néanmoins Peter Novig et Stuart Russel dans leur ouvrage
"Articial Intelligence : A Modern Approach " Edition Pearson -
4ème édition 2020, propose de décrire l'IA comme l'étude et la
conception d'agents intelligents.
I-1-2 : Agent Intelligent
Un agent est une entité autonome capable de percevoir son
environnement grâce à des capteurs, d'agir sur celui-ci grâce à des
eecteurs. L'agent est qualié d'intelligent s'il est en mesure
d'analyser, d'apprendre, et de prendre des décisions.
Un agent apprend s'il améliore ses performances pour résoudre une
tâche donnée avec le nombre d'exemples observés de cette tâche.
Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE
I-MACHINE LEARNING
II-RÉGRESSION
III-Classication I-1 : Dénition
IV- KNN I-2 : Problèmes de l'apprentissage automatique
V-SVM Linéaires
VI-DEEP LEARNING

Exemple
Chatbot, voiture autonome, système de diagnostic médical, système
de reconnaissance d'images, robot humanoïde etc

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication I-1 : Dénition
IV- KNN I-2 : Problèmes de l'apprentissage automatique
V-SVM Linéaires
VI-DEEP LEARNING

I-1-3 : Apprentissage Automatique


L'apprentissage automatique est une discipline qui consiste à
appliquer des algorithmes à des jeux de données an d'en extraire
des modèles.
Faire "apprendre" à une machine est un processus qui s'appelle 
machine learning  en anglais, que nous traduisons en français par
apprentissage automatique. Les méthodes employées pour
l'apprentissage font appel à des sous-domaines de la science des
données (Data Science).

I-1-4 : Dénition : Apprentissage Automatique


L'apprentissage automatique est donc un domaine de l'intelligence
articielle qui fait référence à un ensemble de méthodes
algorithmiques qui "apprennent" à partir de données.
Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE
I-MACHINE LEARNING
II-RÉGRESSION
III-Classication I-1 : Dénition
IV- KNN I-2 : Problèmes de l'apprentissage automatique
V-SVM Linéaires
VI-DEEP LEARNING

Composants de l'apprentissage
Un problème d'apprentissage fait intervenir trois composants
essentiels :
La tâche à résoudre (classier des champignons, ordonner des
lms, jouer au Go, etc.)
Les exemples de la tâche (champignons classés, lms ordonnés
selon utilisateur, etc.)
La mesure de performance (nombre d'erreurs, distance entre
ordres, etc.)
En apprentissage supervisé, les exemples sont des instances de la
tâche étiquetées par leur solution.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication I-1 : Dénition
IV- KNN I-2 : Problèmes de l'apprentissage automatique
V-SVM Linéaires
VI-DEEP LEARNING

Apprentissage Oine
L'apprentissage se déroule en deux parties distinctes :
La phase d'entraînement : l'agent apprend une tâche à partir
d'une série d'exemples ;
La phase de test : Les performances de l'agent sont mesurées
sur une nouvelle série d'exemples.
Apprentissage Oine
L'apprentissage se déroule de manière continue en tours. Durant
chaque tour,
L'agent reçoit un exemple non étiqueté (ex : un champignon)
L'agent prédit sa solution (ex : je crois qu'il est comestible)
L'agent reçoit la réponse (ex : en fait, il est toxique) et mesure
sa performance jusqu'à présent.
Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE
I-MACHINE LEARNING
II-RÉGRESSION
III-Classication I-1 : Dénition
IV- KNN I-2 : Problèmes de l'apprentissage automatique
V-SVM Linéaires
VI-DEEP LEARNING

I-1-5 :Types d'apprentissage automatique


Il existe trois grandes familles d'apprentissage automatique :
l'apprentissage supervisé, l'apprentissage semi supervisé et
l'apprentissage non-supervisé.
Apprentissage supervisé
Les algorithmes d'apprentissage supervisé nécessitent la présence de
données étiquetées (données de sortie). L'apprentissage consiste
alors à modéliser la relation qui existe entre les données d'entrées
(les caractéristiques ou features en anglais) et les données de sortie
(étiquettes ou labels en anglais). Le modèle sert ensuite à prédire la
sortie pour de nouvelles entrées, de nouveaux exemples.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication I-1 : Dénition
IV- KNN I-2 : Problèmes de l'apprentissage automatique
V-SVM Linéaires
VI-DEEP LEARNING

Apprentissage non supervisé


La technique de l'apprentissage non supervisé consiste à entraîner
des modèles, sans réaliser d'étiquetage manuel ou automatique des
données au préalable. Les algorithmes regroupent les données en
fonction de leur similitude, sans aucune intervention humaine.
Apprentissage semi supervisé
L'apprentissage semi-supervisé est une classe de techniques
d'apprentissage automatique qui utilise un ensemble de données
étiquetées et non étiquetées. Il se situe ainsi entre l'apprentissage
supervisé qui n'utilise que des données étiquetées et l'apprentissage
non supervisé qui n'utilise que des données non étiquetées.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication I-1 : Dénition
IV- KNN I-2 : Problèmes de l'apprentissage automatique
V-SVM Linéaires
VI-DEEP LEARNING

I-2-1 : Régression
La régression permet la prédiction de réponses continues.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication I-1 : Dénition
IV- KNN I-2 : Problèmes de l'apprentissage automatique
V-SVM Linéaires
VI-DEEP LEARNING

I-2-2 : Classication
La classication permet de classer des éléments dans des catégories
discrètes connues.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication I-1 : Dénition
IV- KNN I-2 : Problèmes de l'apprentissage automatique
V-SVM Linéaires
VI-DEEP LEARNING

I-2-2 : Clustering
Le clustering permet d'identier des groupes, des associations dans
les jeux de données.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION II-1 : Dénition de la régression
III-Classication II-2 : Régression linéaire simple
IV- KNN II-3 : Qualité de la prédiction
V-SVM Linéaires
VI-DEEP LEARNING

II-1-1 : Dénition
En sciences statistiques ou encore en apprentissage automatique, le
terme régression fait référence aux techniques d'estimation de la
relation entre des variables quantitatives : une variable dépendante
ou expliquée et une ou plusieurs variables indépendantes ou
explicatives. C'est donc une méthode de modélisation d'une
réponse, la variable dépendante ou expliquée, en fonction de
prédicteurs, les variables indépendantes. La régression est très
largement utilisée pour :
Expliquer ou quantier une relation entre des variables ;
Réaliser des prédictions de réponses continues à partir de
données.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION II-1 : Dénition de la régression
III-Classication II-2 : Régression linéaire simple
IV- KNN II-3 : Qualité de la prédiction
V-SVM Linéaires
VI-DEEP LEARNING

II-1-2 : Types de régression


Il existe diérents types de régression : la régression linéaire et non
linéaire, la régression simple et multivariables.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION II-1 : Dénition de la régression
III-Classication II-2 : Régression linéaire simple
IV- KNN II-3 : Qualité de la prédiction
V-SVM Linéaires
VI-DEEP LEARNING

II-2-1 : Régression linéaire simple


Un problème de régression linéaire simple a pour objectif de faire
passer une droite entre ces points. La relation entre la variable
dépendante y (le prix) et la variable indépendante x (la supercie)
sera modélisée par une droite d'équation : y = ax + b.
L'objectif est donc la détermination des coecients (a et b) de
cette expression pour que le modèle s'ajuste au mieux au nuage de
points.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION II-1 : Dénition de la régression
III-Classication II-2 : Régression linéaire simple
IV- KNN II-3 : Qualité de la prédiction
V-SVM Linéaires
VI-DEEP LEARNING

Méthode des moindres carrés


L'objectif de la régression linéaire est de trouver le meilleur modèle
qui décrit la variable dépendante en fonction de la variable ou des
variables indépendantes. Une méthode pour ajuster au mieux le
modèle est de calculer la somme des erreurs quadratiques, c'est à
dire la somme des erreurs entre les valeurs courantes et prédites de
la variable dépendante, et d'élever cette somme au carré (Sum of
Squared Errors : SSE en anglais) :SSE = ni= (yi − ybi )
P 2
1

yi est la valeur courante de la variable dépendante correspondant y


au i eme élément sur n
ybi est la valeur prédite de la variable dépendante correspondant y
au élément sur n

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION II-1 : Dénition de la régression
III-Classication II-2 : Régression linéaire simple
IV- KNN II-3 : Qualité de la prédiction
V-SVM Linéaires
VI-DEEP LEARNING

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION II-1 : Dénition de la régression
III-Classication II-2 : Régression linéaire simple
IV- KNN II-3 : Qualité de la prédiction
V-SVM Linéaires
VI-DEEP LEARNING

Minimisation
En remplaçant ybi par son expression, on va chercher à minimiser la
somme des erreurs quadratiques, c'est la méthode des moindres
carrés ordinaires :
Pn
min i=1 (yi − (b + ax))2
a,b (1)

Nous pouvons exprimer b et a en remarquant que les minima sont


obtenus en écrivant que la dérivée de la somme des erreurs par
rapport à chacun des paramètres est nulle :

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION II-1 : Dénition de la régression
III-Classication II-2 : Régression linéaire simple
IV- KNN II-3 : Qualité de la prédiction
V-SVM Linéaires
VI-DEEP LEARNING

II-3-1 : coecient de détermination et coecient de corrélation


Il existe diérents critères pour dénir la qualité de la prédiction. Le
but de la régression est de construire un modèle de prédiction ane
y = ax + b .
Pour apprécier la qualité de ce modèle, il convient de construire
x = a y + b . En eet la prédiction sera parfaite si les deux
′ ′

modèles sont l'inverse′ l'un de l'autre. Ce qui donnerait un produit


des pentes unitaire aa = 1.
On appelle ce produit coecient de détermination, noté R . Ce 2

coecient varie entre 0 et 1. Plus la valeur est proche de 1,


meilleure est la qualité de la prédiction.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication III-1 : Classication
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING

III-1-1 :Dénition
Dans un problème de classication, l'objectif est de classer un objet
en cherchant à prédire la valeur d'une variable discrète qualitative
ou quantitative. Par exemple on cherchera à savoir :
si un risque cardiovasculaire y est possible (y = 1)ou pas
(y = 0) en fonction de l'âge (X ) et du poids (X ) d'un
1 2

patient, y est la variable expliquée (ici binaire) et X puis X 1 2

sont les variables explicatives.


si il y a risque de rupture (y = 1)ou pas (y = 0) d'une pièce
mécanique en fonction de défauts mesurés,(X , X , · · · , Xn )
1 2

si il y a risque de panne pour un moteur en fonction de


grandeurs mesurées,
Si un courriel reçu est un spam ou pas,
Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE
I-MACHINE LEARNING
II-RÉGRESSION
III-Classication III-1 : Classication
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING

III-1-1 :Dénition bis


En apprentissage automatique, le rôle d'un classieur est de classer
dans des classes les données possédant des propriétés similaires,
mesurées sur des observations. Un classieur linéaire est un type
particulier de classieur, dont la décision s'obtient par combinaison
linéaire des échantillons.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication III-1 : Classication
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING

III-1-2 : La régression logistique binaire : un classieur linéaire


La régression logistique binaire fait partie de la famille des modèles
linéaires généralisés tout comme la régression linéaire. La régression
logistique est aussi une technique prédictive. Elle vise à construire
un modèle permettant de prédire les valeurs prises par une variable
cible qualitative le plus souvent binaire, dans ce cas on parle de
régression logistique binaire.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication III-1 : Classication
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING

une seule variable explicative et une variable expliquée binaire

L'objectif est de proposer un modèle de classication au moyen


d'une régression logistique binaire, c'est un dire un modèle qui
puisse prédire la classe d'appartenance d'un échantillon.
Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE
I-MACHINE LEARNING
II-RÉGRESSION
III-Classication III-1 : Classication
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication III-1 : Classication
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING

Une approche probabiliste : logit

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication III-1 : Classication
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING

Une approche probabiliste : logit (suite)

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication III-1 : Classication
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication IV-1 : Dénition
IV- KNN IV-2 : Malédiction de la dimensionnalité
V-SVM Linéaires
VI-DEEP LEARNING

Problème des méthodes paramétriques


L'un des problèmes avec les méthodes par fonctions noyau provient
de ce que leur taille est xe. Si celle-ci est trop grande
l'approximation peut être trop lissée par rapport à la réalité. Si elle
trop petite l'estimation dans des régions de faible densité peut être
nulle ou très cette taille soit fonction de la position dans l espace
X . C'est ce que réalise la méthode KNN.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication IV-1 : Dénition
IV- KNN IV-2 : Malédiction de la dimensionnalité
V-SVM Linéaires
VI-DEEP LEARNING

IV-1-1 :Dénition
KNN est un algorithme d'apprentissage non-paramétrique. Il est
non-paramétrique parce
qu'il n'y a pas d'hypothèse pour la distribution sous-jacente
des données ;
la structure du modèle est déterminée à partir de l'ensemble de
données ;
cela sera très utile dans la pratique où la plupart des ensembles
de données du monde réel ne suivent pas les hypothèses
théoriques mathématiques.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication IV-1 : Dénition
IV- KNN IV-2 : Malédiction de la dimensionnalité
V-SVM Linéaires
VI-DEEP LEARNING

IV-2-1 : Problème de dimension


KNN réussit mieux avec un petit nombre de caractéristiques
qu'un grand nombre ;
Lorsque le nombre de caractéristiques augmente ceci nécessite
plus de données ;
L'augmentation des dimensions conduit au problème du
sur-apprentissage (overtting) ;
Pour éviter l'overtting, les données devront croître de façon
exponentielle à mesure que vous augmentez le nombre de
dimensions dont les solutions sont l'analyse en composantes
principales et une approche de feature selection ;
Des recherches ont montré que avec de grandes dimensions la
distance euclidienne n'est pas utile on peut utiliser d'autres
mesures telles que le cosinus.
Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE
I-MACHINE LEARNING
II-RÉGRESSION
III-Classication IV-1 : Dénition
IV- KNN IV-2 : Malédiction de la dimensionnalité
V-SVM Linéaires
VI-DEEP LEARNING

Dissimilarité : Distance
Une mesure de distance (âge, poids, taille, etc.) est une
dissimilarité, mais l'inverse n'est pas nécessairement vrai.
Propriété d'une distance :
d(x, y ) ≥ 0
d(x, y ) = 0 ssi x = y
d(x, y ) = d(y , x)
d(x, z) ≤ d(x, y ) + d(y , z)

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication IV-1 : Dénition
IV- KNN IV-2 : Malédiction de la dimensionnalité
V-SVM Linéaires
VI-DEEP LEARNING

Mesures de distance
Soit i et j deux objets p-dimensionnels dénis par p attributs
quantitatifs comme suit i = (xi , xi , · · · , xip ) et
1 2

j = (xj 1 , xj 2 , · · · , xjp )
distance de Minkowski :d(i, j) =q
p
(| xi 1 − xj 1 |q + | xi 2 − xj 2 |q + · · · + | xip − xjp |q )

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication IV-1 : Dénition
IV- KNN IV-2 : Malédiction de la dimensionnalité
V-SVM Linéaires
VI-DEEP LEARNING

IV-1-2 : Algorithme de KNN


K est le nombre de voisins les plus proches. Le nombre de voisins
est le facteur déterminant de base. K est généralement un nombre
impair si le nombre de classes est 2. Lorsque K = 1, on parle de
l'algorithme du voisin le plus proche. Lorsque K > 1, il faut trouver
les K points les plus proches de P et ensuite classer P par vote
1 1

majoritaire de ses K voisins. Chaque voisin vote pour sa classe et la


classe avec le plus de votes est prise comme prédiction. Pour
trouver les points similaires les plus proches, il faut calculer la
distance entre les observations en utilisant des mesures de distance
telles que :
la distance euclidienne
la distance de Hamming
la distance de Manhattan
la distance de Minkowski
Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE
I-MACHINE LEARNING
II-RÉGRESSION
III-Classication IV-1 : Dénition
IV- KNN IV-2 : Malédiction de la dimensionnalité
V-SVM Linéaires
VI-DEEP LEARNING

Choix de K
Dans la problématique de l'apprentissage, le nombre m est ni ; il
faut alors trouver un compromis entre une valeur faible de k , qui
semble moins favorable, et une valeur exagérément grande. Diverses
considérations théoriques et expérimentales mènent à l'heuristique
suivante : choisir k autour de m/C où m/C est le nombre moyen
p

de points d'apprentissage par classe.


De manière pratique on choisit K comme un nombre impair si
le nombre de classes est paire.
On peut également vérier en générant le modèle sur
diérentes valeur de K et vérier leurs performances
essayer la méthode de ELbow

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication SVM Linéaire (CAS SÉPARABLE)
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING

On donne un ensemble d'apprentissage {(xi , yi )}i= ,...,n où xi ∈ X


1

avec X = Rd et yi ∈ {−1, +1}. Dans un problème de classication


à deux classes, le but est (en utilisant les données d'apprentissage
{(xi , yi )}i= ,...,n bien sûr) de chercher une fonction f : X → R qui
1

permet de prédire si un nouvel exemple x ∈ X appartient à la classe


-1 ou à la classe +1.
Le principe est de séparer l'espace de descripteurs X :
X = {x ∈ X |f (x) > 0} ∪ {x ∈ X |f (x) < 0}. Si f (x) > 0 alors x
est aecté à la classe +1, si f (x) < 0 alors x est aecté à la classe
-1, et si f (x) = 0 alors x se trouve sur la  surface de séparation 
entre les deux classes et le classieurs ne peut pas l'aecter à l'une
des classes.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication SVM Linéaire (CAS SÉPARABLE)
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication SVM Linéaire (CAS SÉPARABLE)
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING

Séparateurs à vaste marge


Pour un problème de classication linéaire on suppose que les deux
classes (-1 et +1) sont séparables par un hyperplan. On considère
X = Rd et donc un vecteur x à d composantes numériques
x = (x , . . . , xd ). Un hyperplan f (x) = ni= wi xi + b = ⟨w , x⟩ + b .
P
1 1

où w est le vecteur orthogonal à l'hyperplan et b est le


déplacement par rapport à l'origine.
⟨·, ·⟩ est le produit scalaire usuel en ⟨x, y ⟩ = di= xi yi
P
1

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication SVM Linéaire (CAS SÉPARABLE)
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING

Problème de choix

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication SVM Linéaire (CAS SÉPARABLE)
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING

Réponse
Pour juger la qualité d'un hyperplan en tant que séparateur on
utilise la distance entre les exemples d'apprentissage et ce
séparateur. Plus précisément, la  marge  d'un problème
d'apprentissage est dénie comme la distance entre le plus proche
exemple d'apprentissage et l'hyperplan de séparation. Pour un
hyperplan H on a : Marge(H) = minxi d(xi , H)

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication SVM Linéaire (CAS SÉPARABLE)
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING

Réponse

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication SVM Linéaire (CAS SÉPARABLE)
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING

Réponse

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication SVM Linéaire (CAS SÉPARABLE)
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING

vecteurs de support
Les éléments de la classe 1 les plus proches de ce séparateur se
trouvent à la même distance du séparateur que les éléments les plus
proches de la classe 2 (cette distance est égale à la marge). Ces
éléments, soit d'une classe soit de l'autre, s'appellent  vecteurs de
support .

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication SVM Linéaire (CAS SÉPARABLE)
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING

vecteurs de support (SUITE)


Intuitivement, ce sont les vecteurs de support qui déterminent le
séparateur, par l'intermédiaire de la fonction distance et de leur
conguration géométrique. Une fois le séparateur f (x) trouvé, la
classication d'un nouvel exemple se fait par une simple décision à
seuil zéro :
f (x) = 0 : l'élément se trouve sur la frontière de séparation,
pas de décision ;
f (x) > 0 : classe 1 ;
f (x) < 0 : classe 0.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication SVM Linéaire (CAS SÉPARABLE)
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING

On suppose d'abord que les données d'apprentissage sont


linéairement séparables, c'est à dire qu'il existe un hyperplan qui
sépare les données sans erreur. Dans ce cas, on cherche l'hyperplan
de marge maximale :
f (x) = ⟨w , x⟩ + b = w ⊤ x + b (2)

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication SVM Linéaire (CAS SÉPARABLE)
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING

Si xs est un vecteur de support et H = {x|w ⊤ x + b = 0}, alors la


marge est donnée par :

Marge = 2d(x, H) = 2 |w ||wxs ||+ b|



(3)

On utilise cette quantité pour des raisons de simplicité de l'écriture


des équations plus tard, mais ceci ne change en rien le problème
d'optimisation (maximiser la marge ou deux fois la marge conduit à
la même solution).

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication SVM Linéaire (CAS SÉPARABLE)
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING

Les paramètres w et b ne sont pas uniques, kw et kb donnent la


même surface de séparation :
kw ⊤ x + kb = k(w ⊤ x + b) = 0 (4)
On impose alors la condition de normalisation |w ⊤ xs + b| = 1 pour
les vecteurs de support xs , ce qui conduit à :
Marge = 2 ||w ||
(5)

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Diérence entre estimation ou apprentissage


Tradition statistique / estimation :
Notion de modèle centrale avec une nalité explicative
Cherche à approcher la réalité, modèle éventuellement basé sur
une théorie physique, économique,
Interprétation du rôle de chaque variable explicative
prépondérante dans la démarche.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Diérence entre estimation ou apprentissage


Apprentissage : l'objectif est essentiellement la prédiction,
meilleur modèle n'est pas nécessairement celui qui ajusterait le
mieux le vrai modèle.
cadre théorique est diérent et les majorations d'erreur
requièrent une autre approche : choix basés sur des critères de
qualité de prédiction
l'interprétabilité passe au deuxième plan.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Réseau de neurones
Un réseau neuronal est un système inspirée du fonctionnement des
neurones biologiques qui a une propension naturelle à stocker des
connaissances et à les rendre utilisables. Il présente les
connaissances acquises par le réseau à travers un processus
d'apprentissage. En général, un réseau de neurones est constitué
d'un ensemble de neurones inter-connectés interagissant de manière
non linéaire. La sortie de chaque neurone est une combinaison non
linéaire de ses entrées et qui est dénie en fonction de la nature et
de la structure du réseau.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Dénition : Réseaux Neurones


Les réseaux neurones sont basés sur un ensemble d'unités
connectées (neurones), qui, tout comme les synapses d'un cerveau,
peuvent transmettre un signal à d'autres neurones, de sorte que,
agissant comme des cellules cérébrales interconnectées, ils peuvent
apprendre et prendre des décisions de manière plus humaine..

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Dénition 2 :Réseaux Neurones


Les réseaux de neurones multi-couches (ou perceptrons) dénissent
une classe de fonctions dont l'intérêt est de pouvoir approcher
n'importe quelle fonction continue à support compact.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Neurone
Un neurone à p entrées est une fonction f : Rp+1 × Rp → R dénie
par :
g :R→R
W ∈ Rp+1 , W = (ω1 , · · · , ω3 )
x ∈ Rp , f (W , x) = g ( pi=1 ωi xi + ωp+1 ) avec
P
x = (x1 , · · · , xp )
Cette dénition est inspirée du neurone biologique, les poids jouant
le rôle de synapses, le vecteur x celui des entrées et W celui des
coecients ou poids. Le coecient ωp+ est appelé le biais et
1

souvent noté b. La fonction g est appelée fonction de transfert ou


fonction de seuil.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Neurone Simple

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Une couche de neurones


Une couche de neurones représente la juxtaposition de plusieurs
neurones partageant les mêmes entrées mais ayant chacun leur
propre vecteur de coecients et leur propre sortie.
Soit p et n deux entiers naturels, on note
W ∈ R(p+ )n = (W , · · · , Wn ) avec ∀i ∈ {1, · · · , n}, Wi ∈ Rp+ .
1
1
1

Une couche de n neurones et p entrées est une fonction :


F : R(p+ )n × Rp → Rn vériant :
1

∀i ∈ {1, · · · , n}, fi est un neurone ;


∀W ∈ Rn(p+ ) × R, F (W , x) = (f (W , x), · · · , fn (Wn , x)).
1
1 1

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Diérentes types d'architectures pour les réseaux neuronaux


Les perceptrons multicouches : les plus vieux et les plus simples
Les réseaux neuronaux convolutifs : très performants pour le
traitement d'image
Les réseaux neuronaux récurrents, utiles pour les données
séquentielles (textes ou séries temporelles)
Tous sont basés sur des cascades profondes de couches
Requiert des algorithmes d'optimisation intelligent
(stochastiques en général), une initialisation minutieuse et un
choix malin de structure.
Résultats impressionnants mais peu de justications théoriques
pour l'instant

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Le perceptron simple est un modèle de prédiction (supervisé)


linéaire.

Combinaison linéaire de x ∈ R d avec les poids ω 1 ; · · · ; ωd et un


biais b.
Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE
I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

U
n neurone est une application non linéaire en ses paramètres qui, à
un vecteur x d'entrée associe une sortie f (x). Plus précisément, le
j ime neurone articiel fj s'écrit :
r =1
(6)
X
fj (x) = ϕ(< wj , x >= wjr x r
p

Les quantités wj = (wj , · · · , wjp ) pondèrent les variables d'entrée


1

(x , · · · , x p ). Où bj est appelé le biais du neurone j , ϕ est est


1

appelée fonction d'activation.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Naissance du MLP
Lorsque nous parlons de perceptrons multicouches ou de réseaux de
neurones, nous faisons référence au type de réseau de neurones le
plus simple et le plus courant . Les MLP ont été initialement
inspirés par le Perceptron , un algorithme d' apprentissage
automatique supervisé pour la classication binaire. Le Perceptron
n'était capable que de gérer des données séparables linéairement,
c'est pourquoi la perception multicouche a été introduite pour
surmonter cette limitation. Le réseau MLP est le réseau de neurone
le plus utilisé. Cela est du à sa capacité d'apprendre de l'ensemble
des données d'entraînement et à son ecacité à résoudre des
problèmes de classication non linéaire et de reconnaissance de
formes.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Dénition MLP
Un MLP est un réseau neuronal capable de gérer à la fois des
données séparables linéairement et non linéairement séparables. Il
appartient à une classe de réseaux de neurones connus sous le nom
de réseaux de neurones feed-forward, qui connectent les neurones
d'une couche à la couche suivante de manière directe sans aucune
boucle.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Caractéristiques MLP
Un MLP est un réseau de neurones articiels et se compose donc
de neurones interconnectés qui traitent les données à travers trois
couches ou plus. La structure de base d'un MLP consiste en une
couche d'entrée, une ou plusieurs couches cachées et une couche de
sortie, une fonction d'activation et un ensemble de poids et biais. Il
n'y a pas de neurone articiel dans la couche d'entrée du MLP. Les
données entrent dans le réseau via la couche d'entrée, traversent les
couches cachées et dénissent par sortir du réseau par la couche de
sortie. L'architecture de ce réseau est illustrée par la Fig.60

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Figure  Architecture d'un réseau de neurone MLP

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

N
(W ((j − 1)N + i) × xi ) + B(j) (7)
X
yj =
i=1

avec (W ((j − 1)N + i) le poids de la i th entrée au j th j neurone


caché. B(j) est le biais de la i th neurone caché avec
j = 1, 2, · · · , H . La sortie de chaque neurone caché est alors donnée
en appliquant une fonction d'activation sigmoïde par Eq(8) par
exemple, et la classe d'appartenance est obtenu via l'équation
Eq(??), avec m = 1, 2, · · · , k classes. Des fonctions d'activation
linéaires sont appliquées pour chaque neurone de sortie.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

1
Yj = σ(yj ) = (8)
1 + e −yj

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Ce réseau est composé d'une couche d'entrée, d'une couche de


sortie et d'une couche cachée inter-connectées avec des poids
initialisés aléatoirement. Autrement dit, la couche d'entrée ne
représente que l'étape d'association de l'entrée avec la couche
cachée de traitement. Le processus d'apprentissage de réseau de
neurone MLP se compose de deux grandes étapes.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

La première étape consiste en une propagation directe de


l'information à partir de la couche d'entrée, vers les couche cachée
jusqu'à la couche de sortie. La deuxième étape consiste en une
comparaison entre le résultat trouvé avec le réseau de neurone et
celui attendu. Lorsque la diérence est grande, l'erreur sera
rétropropagée et sera distribuée à chaque n÷ud de chaque couche.
Une mise à jour des poids est réalisée en se basant sur
l'optimisation du gradient descendant. La mise à jour des poids est
faite avec l'équation (9) dénie par :

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

df (ω)
ωt = ωt−1 − α (9)

Le processus de correction pondérée continuera à mettre à jour les
poids du modèle avec les autres données de la base d'apprentissage.
La formation du réseau se poursuivra jusqu'à ce que l'erreur nale
atteigne une plage acceptable ou atteigne une valeur prédéterminée
de temps d'apprentissage.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Dénition : Deep Learning


Le Deep Learning est un type d'apprentissage automatique qui
imite la façon dont les humains acquièrent certains types de
connaissances, et il est devenu plus populaire au l des ans par
rapport aux modèles standard. Alors que les algorithmes
traditionnels sont linéaires, les modèles d'apprentissage en
profondeur, généralement des réseaux de neurones, sont empilés
dans une hiérarchie de complexité et d'abstraction croissantes (d'où
le profond dans l'apprentissage en profondeur).

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Composition
Les briques élémentaires du Deep Learning sont les réseaux
neuronaux. Ces briques sont combinées pour former des réseaux de
neurones profonds.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Fonctions d'activation
Les fonctions d'activation introduisent une étape supplémentaire à
chaque couche lors de la propagation vers l'avant, mais son calcul
en vaut la peine.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Remarques
Supposons que nous ayons un réseau de neurones fonctionnant sans
les fonctions d'activation. Dans ce cas, chaque neurone n'eectuera
qu'une transformation linéaire sur les entrées en utilisant les poids
et les biais. C'est parce que peu importe le nombre de couches
cachées que nous attachons dans le réseau neuronal ; toutes les
couches se comporteront de la même manière car la composition de
deux fonctions linéaires est elle-même une fonction linéaire. Bien
que le réseau de neurones devienne plus simple, l'apprentissage de
toute tâche complexe est impossible, et notre modèle ne serait
qu'un modèle de régression linéaire.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Vanish gradiant
Comme la fonction sigmoïde, certaines fonctions d'activation
écrasent un grand espace d'entrée dans un petit espace de sortie
entre 0 et 1.
Par conséquent, un changement important dans l'entrée de la
fonction sigmoïde entraînera un petit changement dans la sortie.
Par conséquent, la dérivée devient petite. Pour les réseaux peu
profonds avec seulement quelques couches qui utilisent ces
activations, ce n'est pas un gros problème.
Cependant, lorsque plusieurs couches sont utilisées, le gradient peut
être trop petit pour que l'entraînement fonctionne ecacement.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Explosion du gradient
L'explosion du grandient est un problème où des gradients d'erreur
importants s'accumulent et entraînent de très grandes mises à jour
des poids du modèle de réseau neuronal pendant la formation.
Un réseau instable peut se produire lorsque les gradients explosent
et que l'apprentissage ne peut pas être terminé.
Les valeurs des poids peuvent également devenir si importantes
qu'elles débordent et se traduisent par des valeurs appelées NaN.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Fonction de Heaviside
La fonction de Heaviside dépend d'une valeur seuil qui décide si un
neurone doit être activé ou non.
L'entrée fournie à la fonction d'activation est comparée à un certain
seuil ; si l'entrée est supérieure à celle-ci, alors le neurone est activé,
sinon il est désactivé, ce qui signie que sa sortie n'est pas
transmise à la couche cachée suivante.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Limites
Voici quelques-unes des limitations de la fonction d'étape binaire :
Il ne peut pas fournir de sorties multi-valeurs, par exemple, il
ne peut pas être utilisé pour des problèmes de classication
multi-classes ;
Le gradient de la fonction échelon est nul, ce qui gêne le
processus de rétropropagation.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Fonction d'activation linéaire


La fonction d'activation linéaire, également connue sous le nom de
"pas d'activation" ou "fonction d'identité", est celle où l'activation
est proportionnelle à l'entrée.
La fonction ne fait rien à la somme pondérée de l'entrée, elle
retourne simplement la valeur qui lui a été donnée.
f (x) = x (10)

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Remarque
Une fonction d'activation linéaire présente deux problèmes
majeurs :
Il n'est pas possible d'utiliser la rétropropagation car la dérivée
de la fonction est une constante et n'a aucun rapport avec
l'entrée x.
Toutes les couches du réseau neuronal s'eondreront en une
seule si une fonction d'activation linéaire est utilisée. Quel que
soit le nombre de couches du réseau de neurones, la dernière
couche sera toujours une fonction linéaire de la première
couche. Donc, essentiellement, une fonction d'activation
linéaire transforme le réseau de neurones en une seule couche.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Fonction d'activation sigmoïde / logistique


Cette fonction prend n'importe quelle valeur réelle en entrée et
génère des valeurs comprises entre 0 et 1.
Plus l'entrée est grande (plus positive), plus la valeur de sortie sera
proche de 1, tandis que plus l'entrée est petite (plus négative), plus
la sortie sera proche de 0, comme indiqué ci-dessous.
1
f (x) = = σ(x) (11)
1 + ex

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Remarque 1
La fonction d'activation sigmoïde/logistique est l'une des fonctions
les plus utilisées :
Il est couramment utilisé pour les modèles où nous devons
prédire la probabilité en tant que sortie. Étant donné que la
probabilité de quoi que ce soit n'existe qu'entre 0 et 1, le
sigmoïde est le bon choix en raison de sa plage.
La fonction est diérentiable et fournit un gradient lisse,
c'est-à-dire qu'elle empêche les sauts dans les valeurs de sortie.
Ceci est représenté par une forme en S de la fonction
d'activation sigmoïde.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Remarque 2
La gure ci-dessus, les valeurs de gradient ne sont signicatives que
pour la plage -3 à 3, et le graphique devient beaucoup plus plat
dans d'autres régions.
Cela implique que pour des valeurs supérieures à 3 ou inférieures à
-3, la fonction aura de très petits gradients. Lorsque la valeur du
gradient approche de zéro, le réseau cesse d'apprendre et soure du
problème du "vanish gradient" .

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

tangente hyperbolique
La fonction Tanh est très similaire à la fonction d'activation
sigmoïde/logistique, et a même la même forme en S avec une
diérence de plage de sortie de -1 à 1. Dans Tanh, plus l'entrée est
grande (plus positive), plus la valeur de sortie est proche. sera à 1,
alors que plus l'entrée est petite (plus négative), plus la sortie sera
proche de -1.
e x − e −x
f (x) = x −x
(12)
e +e

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Remarque
Les avantages de l'utilisation de cette fonction d'activation sont :
La sortie de la fonction d'activation de tanh est centrée sur
zéro ; par conséquent, nous pouvons facilement mapper les
valeurs de sortie comme fortement négatives, neutres ou
fortement positives.
Habituellement utilisé dans les couches cachées d'un réseau de
neurones car ses valeurs se situent entre -1 et 1 ; par
conséquent, la moyenne de la couche cachée s'avère être 0 ou
très proche de celle-ci. Cela aide à centrer les données et
facilite beaucoup l'apprentissage de la couche suivante.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Remarque
bien que sigmoïde et tanh soient tous deux confrontés à un
problème de "vanish gradient", tanh est centré sur zéro et les
gradients ne sont pas limités à se déplacer dans une certaine
direction. Par conséquent, en pratique, la non-linéarité tanh est
toujours préférée à la non-linéarité sigmoïde.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Fonction Softmax
La fonction Softmax est décrite comme une combinaison de
plusieurs sigmoïdes.
Il calcule les probabilités relatives. Semblable à la fonction
d'activation sigmoïde/logistique, la fonction SoftMax renvoie la
probabilité de chaque classe.
Elle est le plus souvent utilisée comme fonction d'activation de la
dernière couche du réseau de neurones dans le cas d'une
classication multi-classes.
exp(xi )
f (x) = P (13)
j exp(xj )

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Swish
C'est une fonction développée par des chercheurs de Google.
Swish correspond ou surpasse systématiquement la fonction
d'activation ReLU sur les réseaux profonds appliqués à divers
domaines diciles tels que la classication des images , la
traduction automatique, etc.
x
f (x) = (14)
1 + e −x

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Remarque
Voici quelques avantages de la fonction d'activation Swish par
rapport à ReLU :
Swish est une fonction lisse qui signie qu'elle ne change pas
brusquement de direction comme le fait ReLU près de x = 0.
Au contraire, elle se plie en douceur de 0 vers des valeurs < 0,
puis vers le haut.
Les petites valeurs négatives ont été mises à zéro dans la
fonction d'activation ReLU. Cependant, ces valeurs négatives
peuvent toujours être pertinentes pour capturer les modèles
sous-jacents aux données. Les grandes valeurs négatives sont
mises à zéro pour des raisons de rareté, ce qui en fait une
situation gagnant-gagnant.
La fonction swish étant non monotone améliore l'expression
des données d'entrée et du poids
Ghislain PANDRY
à apprendre.
Chapitre 1: INTRODUCTION A L'APPRE
I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

ReLU
ReLU signie unité linéaire rectiée.
Bien qu'il donne l'impression d'une fonction linéaire, ReLU a une
fonction dérivée et permet la rétropropagation tout en le rendant
simultanément ecace en termes de calcul.
Le problème ici est que la fonction ReLU n'active pas tous les
neurones en même temps.
Les neurones ne seront désactivés que si la sortie de la
transformation linéaire est inférieure à 0.
f (x) = max(0, x) (15)

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Remarque
Les avantages de l'utilisation de ReLU comme fonction d'activation
sont les suivants :
Étant donné que seul un certain nombre de neurones sont
activés, la fonction ReLU est beaucoup plus ecace en termes
de calcul par rapport aux fonctions sigmoïde et tanh.
ReLU accélère la convergence de la descente de gradient vers
le minimum global de la fonction de perte en raison de sa
propriété linéaire et non saturante.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Remarque : Problème Dying Relu


Le côté négatif du graphique rend la valeur de gradient nulle. Pour
cette raison, pendant le processus de rétropropagation, les poids et
les biais de certains neurones ne sont pas mis à jour. Cela peut
créer des neurones morts qui ne sont jamais activés. Toutes les
valeurs d'entrée négatives deviennent immédiatement nulles, ce qui
diminue la capacité du modèle à s'adapter ou à s'entraîner
correctement à partir des données.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Leaky ReLU Function


Leaky ReLU est une version améliorée de la fonction ReLU pour
résoudre le problème Dying ReLU car il a une petite pente positive
dans la zone négative.
f (x) = max(0.1x, x) (16)

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Remarque
Les avantages de Leaky ReLU sont les mêmes que ceux de ReLU,
en plus du fait qu'il permet la rétropropagation, même pour les
valeurs d'entrée négatives.
En faisant cette modication mineure pour les valeurs d'entrée
négatives, le gradient du côté gauche du graphique s'avère être une
valeur non nulle. Par conséquent, nous ne rencontrerions plus de
neurones morts dans cette région.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Remarque
Les limitations auxquelles cette fonction est confrontée incluent :
Les prédictions peuvent ne pas être cohérentes pour les valeurs
d'entrée négatives.
Le gradient pour les valeurs négatives est une petite valeur qui
rend l'apprentissage des paramètres du modèle chronophage.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Parametric ReLU Function


ReLU paramétrique est une autre variante de ReLU qui vise à
résoudre le problème du gradient devenant nul pour la moitié
gauche de l'axe.
Cette fonction fournit la pente de la partie négative de la fonction
comme argument a. En eectuant la rétropropagation, la valeur la
plus appropriée de a est apprise.
f (x) = max(ax; x) (17)
où a est le paramètre de pente pour les valeurs négatives.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Remarque
La fonction ReLU paramétrée est utilisée lorsque la fonction ReLU
qui fuit ne parvient toujours pas à résoudre le problème des
neurones morts et que les informations pertinentes ne sont pas
transmises avec succès à la couche suivante.
La limitation de cette fonction est qu'elle peut fonctionner
diéremment pour diérents problèmes en fonction de la valeur du
paramètre de pente a.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Fonction d'unités linéaires exponentielles (ELU)


L'unité linéaire exponentielle, ou ELU en abrégé, est également une
variante de ReLU qui modie la pente de la partie négative de la
fonction.
ELU utilise une courbe logarithmique pour dénir les valeurs
négatives contrairement aux fonctions( fuites ReLU et Parametric
x si x ≥ 0
ReLU avec une ligne droite. f (x) =
α(e − 1) sinon x < 0
x

1 si x ≥ 0
(
sa dérivée est : f ′ (x) =
f (x) + α sinon x < 0

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Remarque
ELU est une alternative solide pour ReLU en raison des avantages
suivants :
ELU devient lisse lentement jusqu'à ce que sa sortie soit égale
à −α alors que RELU se lisse fortement.
Évite le problème ReLU mort en introduisant une courbe
logarithmique pour les valeurs négatives d'entrée. Cela aide le
réseau à pousser les pondérations et les biais dans la bonne
direction.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Remarque
Les limitations de la fonction ELU sont les suivantes :
Il augmente le temps de calcul en raison de l'opération
exponentielle incluse ;
Aucun apprentissage de la valeur 'α' n'a lieu ;
Problème de gradient explosif.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Scaled Exponential Linear Unit (SELU)


SELU a été déni dans les réseaux auto-normalisants et prend en
charge la normalisation interne, ce qui signie que chaque couche
préserve la moyenne et la variance des couches précédentes. SELU
permet cette normalisation en ajustant la moyenne et la variance.
SELU a des valeurs positives et négatives pour décaler la moyenne,
ce qui était impossible pour la fonction d'activation ReLU car elle
ne peut pas produire de valeurs négatives.
Les gradients peuvent être utilisés pour ajuster la variance. La
fonction d'activation a besoin d'une région avec un gradient
supérieur à un
( pour l'augmenter.
x si x ≥ 0
f (α, x) = λ
α(e − 1) sinon x < 0
x

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Remarque
Le principal avantage de SELU par rapport à ReLU :
La normalisation interne est plus rapide que la normalisation
externe, ce qui signie que le réseau converge plus rapidement.
SELU est une fonction d'activation relativement récente et a
besoin de plus d'articles sur des architectures telles que les
CNN et les RNN, où elle est relativement explorée.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Choix d'une fonction d'activation


Vous devez faire correspondre votre fonction d'activation pour
votre couche de sortie en fonction du type de problème de
prédiction que vous résolvez, en particulier du type de variable
prédite. En règle générale, vous pouvez commencer par utiliser la
fonction d'activation ReLU, puis passer à d'autres fonctions
d'activation si ReLU ne fournit pas de résultats optimaux.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE


I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Choix d'une fonction d'activation : quelques directives mais pas


obligatoires (Couche cachée)
1 La fonction d'activation ReLU ne doit être utilisée que dans les

couches cachées ;
2 Les fonctions Sigmoïde/Logistique et Tanh ne doivent pas être

utilisées dans les couches cachées car elles rendent le modèle


plus sensible aux problèmes pendant la formation (en raison de
la disparition des gradients) ;
3 La fonction Swish est utilisée dans les réseaux de neurones

ayant une profondeur supérieure à 40 couches.


La fonction d'activation utilisée dans les couches cachées est
généralement choisie en fonction du type d'architecture de réseau
neuronal.
Convolutional Neural Network (CNN) : Fonction d'activation ReLU.
Réseau de neurones Ghislain
récurrent : Fonction
PANDRY
d'activation
Chapitre Tanh et/ouA L'APPRE
1: INTRODUCTION
I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING

Choix d'une fonction d'activation : quelques directives mais pas


obligatoires (couche de sorties)
1 Régression - Fonction d'activation linéaire

2 Classication binaire - Fonction d'activation

sigmoïde/logistique
3 Classication multiclasse-Softmax

4 Classication multilabel-Sigmoïde

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Vous aimerez peut-être aussi