Introduction Apprentissage Automatique

I-MACHINE LEARNING
II-RÉGRESSION
III-Classication
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING
Chapitre 1: INTRODUCTION A L'APPRENTISSAGE

AUTOMATIQUE
Ghislain PANDRY
Chercheur, Traitement du signal
Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

I-MACHINE LEARNING
II-RÉGRESSION
III-Classication I-1 : Dénition
IV- KNN I-2 : Problèmes de l'apprentissage automatique
V-SVM Linéaires
VI-DEEP LEARNING
I-1-1 : Dénition I.A

En fait il n'existe pas vraiment de dénition exacte de l'IA.
Néanmoins Peter Novig et Stuart Russel dans leur ouvrage
"Articial Intelligence : A Modern Approach " Edition Pearson -
4ème édition 2020, propose de décrire l'IA comme l'étude et la
conception d'agents intelligents.
I-1-2 : Agent Intelligent
Un agent est une entité autonome capable de percevoir son
environnement grâce à des capteurs, d'agir sur celui-ci grâce à des
eecteurs. L'agent est qualié d'intelligent s'il est en mesure
d'analyser, d'apprendre, et de prendre des décisions.
Un agent apprend s'il améliore ses performances pour résoudre une
tâche donnée avec le nombre d'exemples observés de cette tâche.
I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Exemple
Chatbot, voiture autonome, système de diagnostic médical, système
de reconnaissance d'images, robot humanoïde etc

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
I-1-3 : Apprentissage Automatique

L'apprentissage automatique est une discipline qui consiste à
appliquer des algorithmes à des jeux de données an d'en extraire
des modèles.
Faire "apprendre" à une machine est un processus qui s'appelle
machine learning en anglais, que nous traduisons en français par
apprentissage automatique. Les méthodes employées pour
l'apprentissage font appel à des sous-domaines de la science des
données (Data Science).
I-1-4 : Dénition : Apprentissage Automatique

L'apprentissage automatique est donc un domaine de l'intelligence
articielle qui fait référence à un ensemble de méthodes
algorithmiques qui "apprennent" à partir de données.
I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Composants de l'apprentissage
Un problème d'apprentissage fait intervenir trois composants
essentiels :
La tâche à résoudre (classier des champignons, ordonner des
lms, jouer au Go, etc.)
Les exemples de la tâche (champignons classés, lms ordonnés
selon utilisateur, etc.)
La mesure de performance (nombre d'erreurs, distance entre
ordres, etc.)
En apprentissage supervisé, les exemples sont des instances de la
tâche étiquetées par leur solution.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Apprentissage Oine
L'apprentissage se déroule en deux parties distinctes :
La phase d'entraînement : l'agent apprend une tâche à partir
d'une série d'exemples ;
La phase de test : Les performances de l'agent sont mesurées
sur une nouvelle série d'exemples.
Apprentissage Oine
L'apprentissage se déroule de manière continue en tours. Durant
chaque tour,
L'agent reçoit un exemple non étiqueté (ex : un champignon)
L'agent prédit sa solution (ex : je crois qu'il est comestible)
L'agent reçoit la réponse (ex : en fait, il est toxique) et mesure
sa performance jusqu'à présent.
I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
I-1-5 :Types d'apprentissage automatique

Il existe trois grandes familles d'apprentissage automatique :
l'apprentissage supervisé, l'apprentissage semi supervisé et
l'apprentissage non-supervisé.
Apprentissage supervisé
Les algorithmes d'apprentissage supervisé nécessitent la présence de
données étiquetées (données de sortie). L'apprentissage consiste
alors à modéliser la relation qui existe entre les données d'entrées
(les caractéristiques ou features en anglais) et les données de sortie
(étiquettes ou labels en anglais). Le modèle sert ensuite à prédire la
sortie pour de nouvelles entrées, de nouveaux exemples.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Apprentissage non supervisé

La technique de l'apprentissage non supervisé consiste à entraîner
des modèles, sans réaliser d'étiquetage manuel ou automatique des
données au préalable. Les algorithmes regroupent les données en
fonction de leur similitude, sans aucune intervention humaine.
Apprentissage semi supervisé
L'apprentissage semi-supervisé est une classe de techniques
d'apprentissage automatique qui utilise un ensemble de données
étiquetées et non étiquetées. Il se situe ainsi entre l'apprentissage
supervisé qui n'utilise que des données étiquetées et l'apprentissage
non supervisé qui n'utilise que des données non étiquetées.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
I-2-1 : Régression
La régression permet la prédiction de réponses continues.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
I-2-2 : Classication
La classication permet de classer des éléments dans des catégories
discrètes connues.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
I-2-2 : Clustering
Le clustering permet d'identier des groupes, des associations dans
les jeux de données.

I-MACHINE LEARNING
II-RÉGRESSION II-1 : Dénition de la régression
III-Classication II-2 : Régression linéaire simple
IV- KNN II-3 : Qualité de la prédiction
V-SVM Linéaires
VI-DEEP LEARNING
II-1-1 : Dénition
En sciences statistiques ou encore en apprentissage automatique, le
terme régression fait référence aux techniques d'estimation de la
relation entre des variables quantitatives : une variable dépendante
ou expliquée et une ou plusieurs variables indépendantes ou
explicatives. C'est donc une méthode de modélisation d'une
réponse, la variable dépendante ou expliquée, en fonction de
prédicteurs, les variables indépendantes. La régression est très
largement utilisée pour :
Expliquer ou quantier une relation entre des variables ;
Réaliser des prédictions de réponses continues à partir de
données.

I-MACHINE LEARNING
V-SVM Linéaires
VI-DEEP LEARNING
II-1-2 : Types de régression

Il existe diérents types de régression : la régression linéaire et non
linéaire, la régression simple et multivariables.

I-MACHINE LEARNING
V-SVM Linéaires
VI-DEEP LEARNING
II-2-1 : Régression linéaire simple

Un problème de régression linéaire simple a pour objectif de faire
passer une droite entre ces points. La relation entre la variable
dépendante y (le prix) et la variable indépendante x (la supercie)
sera modélisée par une droite d'équation : y = ax + b.
L'objectif est donc la détermination des coecients (a et b) de
cette expression pour que le modèle s'ajuste au mieux au nuage de
points.

I-MACHINE LEARNING
V-SVM Linéaires
VI-DEEP LEARNING
Méthode des moindres carrés

L'objectif de la régression linéaire est de trouver le meilleur modèle
qui décrit la variable dépendante en fonction de la variable ou des
variables indépendantes. Une méthode pour ajuster au mieux le
modèle est de calculer la somme des erreurs quadratiques, c'est à
dire la somme des erreurs entre les valeurs courantes et prédites de
la variable dépendante, et d'élever cette somme au carré (Sum of
Squared Errors : SSE en anglais) :SSE = ni= (yi − ybi )
P 2
1
yi est la valeur courante de la variable dépendante correspondant y

au i eme élément sur n
ybi est la valeur prédite de la variable dépendante correspondant y
au élément sur n

I-MACHINE LEARNING
V-SVM Linéaires
VI-DEEP LEARNING

I-MACHINE LEARNING
V-SVM Linéaires
VI-DEEP LEARNING
Minimisation
En remplaçant ybi par son expression, on va chercher à minimiser la
somme des erreurs quadratiques, c'est la méthode des moindres
carrés ordinaires :
Pn
min i=1 (yi − (b + ax))2
a,b (1)
Nous pouvons exprimer b et a en remarquant que les minima sont

obtenus en écrivant que la dérivée de la somme des erreurs par
rapport à chacun des paramètres est nulle :

I-MACHINE LEARNING
V-SVM Linéaires
VI-DEEP LEARNING
II-3-1 : coecient de détermination et coecient de corrélation

Il existe diérents critères pour dénir la qualité de la prédiction. Le
but de la régression est de construire un modèle de prédiction ane
y = ax + b .
Pour apprécier la qualité de ce modèle, il convient de construire
x = a y + b . En eet la prédiction sera parfaite si les deux
′ ′
modèles sont l'inverse′ l'un de l'autre. Ce qui donnerait un produit

des pentes unitaire aa = 1.
On appelle ce produit coecient de détermination, noté R . Ce 2
coecient varie entre 0 et 1. Plus la valeur est proche de 1,

meilleure est la qualité de la prédiction.

I-MACHINE LEARNING
II-RÉGRESSION
III-Classication III-1 : Classication
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING
III-1-1 :Dénition
Dans un problème de classication, l'objectif est de classer un objet
en cherchant à prédire la valeur d'une variable discrète qualitative
ou quantitative. Par exemple on cherchera à savoir :
si un risque cardiovasculaire y est possible (y = 1)ou pas
(y = 0) en fonction de l'âge (X ) et du poids (X ) d'un
1 2
patient, y est la variable expliquée (ici binaire) et X puis X 1 2
sont les variables explicatives.

si il y a risque de rupture (y = 1)ou pas (y = 0) d'une pièce
mécanique en fonction de défauts mesurés,(X , X , · · · , Xn )
1 2
si il y a risque de panne pour un moteur en fonction de

grandeurs mesurées,
Si un courriel reçu est un spam ou pas,
I-MACHINE LEARNING
II-RÉGRESSION
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING
III-1-1 :Dénition bis

En apprentissage automatique, le rôle d'un classieur est de classer
dans des classes les données possédant des propriétés similaires,
mesurées sur des observations. Un classieur linéaire est un type
particulier de classieur, dont la décision s'obtient par combinaison
linéaire des échantillons.

I-MACHINE LEARNING
II-RÉGRESSION
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING
III-1-2 : La régression logistique binaire : un classieur linéaire

La régression logistique binaire fait partie de la famille des modèles
linéaires généralisés tout comme la régression linéaire. La régression
logistique est aussi une technique prédictive. Elle vise à construire
un modèle permettant de prédire les valeurs prises par une variable
cible qualitative le plus souvent binaire, dans ce cas on parle de
régression logistique binaire.

I-MACHINE LEARNING
II-RÉGRESSION
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING
une seule variable explicative et une variable expliquée binaire
L'objectif est de proposer un modèle de classication au moyen

d'une régression logistique binaire, c'est un dire un modèle qui
puisse prédire la classe d'appartenance d'un échantillon.
I-MACHINE LEARNING
II-RÉGRESSION
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING

I-MACHINE LEARNING
II-RÉGRESSION
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING
Une approche probabiliste : logit

I-MACHINE LEARNING
II-RÉGRESSION
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING
Une approche probabiliste : logit (suite)

I-MACHINE LEARNING
II-RÉGRESSION
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING

I-MACHINE LEARNING
II-RÉGRESSION
III-Classication IV-1 : Dénition
IV- KNN IV-2 : Malédiction de la dimensionnalité
V-SVM Linéaires
VI-DEEP LEARNING
Problème des méthodes paramétriques

L'un des problèmes avec les méthodes par fonctions noyau provient
de ce que leur taille est xe. Si celle-ci est trop grande
l'approximation peut être trop lissée par rapport à la réalité. Si elle
trop petite l'estimation dans des régions de faible densité peut être
nulle ou très cette taille soit fonction de la position dans l espace
X . C'est ce que réalise la méthode KNN.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
IV-1-1 :Dénition
KNN est un algorithme d'apprentissage non-paramétrique. Il est
non-paramétrique parce
qu'il n'y a pas d'hypothèse pour la distribution sous-jacente
des données ;
la structure du modèle est déterminée à partir de l'ensemble de
données ;
cela sera très utile dans la pratique où la plupart des ensembles
de données du monde réel ne suivent pas les hypothèses
théoriques mathématiques.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
IV-2-1 : Problème de dimension

KNN réussit mieux avec un petit nombre de caractéristiques
qu'un grand nombre ;
Lorsque le nombre de caractéristiques augmente ceci nécessite
plus de données ;
L'augmentation des dimensions conduit au problème du
sur-apprentissage (overtting) ;
Pour éviter l'overtting, les données devront croître de façon
exponentielle à mesure que vous augmentez le nombre de
dimensions dont les solutions sont l'analyse en composantes
principales et une approche de feature selection ;
Des recherches ont montré que avec de grandes dimensions la
distance euclidienne n'est pas utile on peut utiliser d'autres
mesures telles que le cosinus.
I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Dissimilarité : Distance
Une mesure de distance (âge, poids, taille, etc.) est une
dissimilarité, mais l'inverse n'est pas nécessairement vrai.
Propriété d'une distance :
d(x, y ) ≥ 0
d(x, y ) = 0 ssi x = y
d(x, y ) = d(y , x)
d(x, z) ≤ d(x, y ) + d(y , z)

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Mesures de distance
Soit i et j deux objets p-dimensionnels dénis par p attributs
quantitatifs comme suit i = (xi , xi , · · · , xip ) et
1 2
j = (xj 1 , xj 2 , · · · , xjp )
distance de Minkowski :d(i, j) =q
p
(| xi 1 − xj 1 |q + | xi 2 − xj 2 |q + · · · + | xip − xjp |q )

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
IV-1-2 : Algorithme de KNN

K est le nombre de voisins les plus proches. Le nombre de voisins
est le facteur déterminant de base. K est généralement un nombre
impair si le nombre de classes est 2. Lorsque K = 1, on parle de
l'algorithme du voisin le plus proche. Lorsque K > 1, il faut trouver
les K points les plus proches de P et ensuite classer P par vote
1 1
majoritaire de ses K voisins. Chaque voisin vote pour sa classe et la

classe avec le plus de votes est prise comme prédiction. Pour
trouver les points similaires les plus proches, il faut calculer la
distance entre les observations en utilisant des mesures de distance
telles que :
la distance euclidienne
la distance de Hamming
la distance de Manhattan
la distance de Minkowski
I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Choix de K
Dans la problématique de l'apprentissage, le nombre m est ni ; il
faut alors trouver un compromis entre une valeur faible de k , qui
semble moins favorable, et une valeur exagérément grande. Diverses
considérations théoriques et expérimentales mènent à l'heuristique
suivante : choisir k autour de m/C où m/C est le nombre moyen
p
de points d'apprentissage par classe.

De manière pratique on choisit K comme un nombre impair si
le nombre de classes est paire.
On peut également vérier en générant le modèle sur
diérentes valeur de K et vérier leurs performances
essayer la méthode de ELbow

I-MACHINE LEARNING
II-RÉGRESSION
III-Classication SVM Linéaire (CAS SÉPARABLE)
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING
On donne un ensemble d'apprentissage {(xi , yi )}i= ,...,n où xi ∈ X

1
avec X = Rd et yi ∈ {−1, +1}. Dans un problème de classication

à deux classes, le but est (en utilisant les données d'apprentissage
{(xi , yi )}i= ,...,n bien sûr) de chercher une fonction f : X → R qui
1
permet de prédire si un nouvel exemple x ∈ X appartient à la classe

-1 ou à la classe +1.
Le principe est de séparer l'espace de descripteurs X :
X = {x ∈ X |f (x) > 0} ∪ {x ∈ X |f (x) < 0}. Si f (x) > 0 alors x
est aecté à la classe +1, si f (x) < 0 alors x est aecté à la classe
-1, et si f (x) = 0 alors x se trouve sur la surface de séparation
entre les deux classes et le classieurs ne peut pas l'aecter à l'une
des classes.

I-MACHINE LEARNING
II-RÉGRESSION
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING

I-MACHINE LEARNING
II-RÉGRESSION
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING
Séparateurs à vaste marge

Pour un problème de classication linéaire on suppose que les deux
classes (-1 et +1) sont séparables par un hyperplan. On considère
X = Rd et donc un vecteur x à d composantes numériques
x = (x , . . . , xd ). Un hyperplan f (x) = ni= wi xi + b = ⟨w , x⟩ + b .
P
1 1
où w est le vecteur orthogonal à l'hyperplan et b est le

déplacement par rapport à l'origine.
⟨·, ·⟩ est le produit scalaire usuel en ⟨x, y ⟩ = di= xi yi
P
1

I-MACHINE LEARNING
II-RÉGRESSION
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING
Problème de choix

I-MACHINE LEARNING
II-RÉGRESSION
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING
Réponse
Pour juger la qualité d'un hyperplan en tant que séparateur on
utilise la distance entre les exemples d'apprentissage et ce
séparateur. Plus précisément, la marge d'un problème
d'apprentissage est dénie comme la distance entre le plus proche
exemple d'apprentissage et l'hyperplan de séparation. Pour un
hyperplan H on a : Marge(H) = minxi d(xi , H)

I-MACHINE LEARNING
II-RÉGRESSION
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING
Réponse

I-MACHINE LEARNING
II-RÉGRESSION
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING
Réponse

I-MACHINE LEARNING
II-RÉGRESSION
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING
vecteurs de support
Les éléments de la classe 1 les plus proches de ce séparateur se
trouvent à la même distance du séparateur que les éléments les plus
proches de la classe 2 (cette distance est égale à la marge). Ces
éléments, soit d'une classe soit de l'autre, s'appellent vecteurs de
support .

I-MACHINE LEARNING
II-RÉGRESSION
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING
vecteurs de support (SUITE)

Intuitivement, ce sont les vecteurs de support qui déterminent le
séparateur, par l'intermédiaire de la fonction distance et de leur
conguration géométrique. Une fois le séparateur f (x) trouvé, la
classication d'un nouvel exemple se fait par une simple décision à
seuil zéro :
f (x) = 0 : l'élément se trouve sur la frontière de séparation,
pas de décision ;
f (x) > 0 : classe 1 ;
f (x) < 0 : classe 0.

I-MACHINE LEARNING
II-RÉGRESSION
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING
On suppose d'abord que les données d'apprentissage sont

linéairement séparables, c'est à dire qu'il existe un hyperplan qui
sépare les données sans erreur. Dans ce cas, on cherche l'hyperplan
de marge maximale :
f (x) = ⟨w , x⟩ + b = w ⊤ x + b (2)

I-MACHINE LEARNING
II-RÉGRESSION
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING
Si xs est un vecteur de support et H = {x|w ⊤ x + b = 0}, alors la

marge est donnée par :
Marge = 2d(x, H) = 2 |w ||wxs ||+ b|

⊤
(3)
On utilise cette quantité pour des raisons de simplicité de l'écriture

des équations plus tard, mais ceci ne change en rien le problème
d'optimisation (maximiser la marge ou deux fois la marge conduit à
la même solution).

I-MACHINE LEARNING
II-RÉGRESSION
IV- KNN
V-SVM Linéaires
VI-DEEP LEARNING
Les paramètres w et b ne sont pas uniques, kw et kb donnent la

même surface de séparation :
kw ⊤ x + kb = k(w ⊤ x + b) = 0 (4)
On impose alors la condition de normalisation |w ⊤ xs + b| = 1 pour
les vecteurs de support xs , ce qui conduit à :
Marge = 2 ||w ||
(5)

I-MACHINE LEARNING
II-RÉGRESSION
III-Classication VI-1 : Perceptron simple
IV- KNN VI-2 : Perceptron multicouche
V-SVM Linéaires
VI-DEEP LEARNING
Diérence entre estimation ou apprentissage

Tradition statistique / estimation :
Notion de modèle centrale avec une nalité explicative
Cherche à approcher la réalité, modèle éventuellement basé sur
une théorie physique, économique,
Interprétation du rôle de chaque variable explicative
prépondérante dans la démarche.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Diérence entre estimation ou apprentissage

Apprentissage : l'objectif est essentiellement la prédiction,
meilleur modèle n'est pas nécessairement celui qui ajusterait le
mieux le vrai modèle.
cadre théorique est diérent et les majorations d'erreur
requièrent une autre approche : choix basés sur des critères de
qualité de prédiction
l'interprétabilité passe au deuxième plan.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Réseau de neurones
Un réseau neuronal est un système inspirée du fonctionnement des
neurones biologiques qui a une propension naturelle à stocker des
connaissances et à les rendre utilisables. Il présente les
connaissances acquises par le réseau à travers un processus
d'apprentissage. En général, un réseau de neurones est constitué
d'un ensemble de neurones inter-connectés interagissant de manière
non linéaire. La sortie de chaque neurone est une combinaison non
linéaire de ses entrées et qui est dénie en fonction de la nature et
de la structure du réseau.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Dénition : Réseaux Neurones

Les réseaux neurones sont basés sur un ensemble d'unités
connectées (neurones), qui, tout comme les synapses d'un cerveau,
peuvent transmettre un signal à d'autres neurones, de sorte que,
agissant comme des cellules cérébrales interconnectées, ils peuvent
apprendre et prendre des décisions de manière plus humaine..

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Dénition 2 :Réseaux Neurones

Les réseaux de neurones multi-couches (ou perceptrons) dénissent
une classe de fonctions dont l'intérêt est de pouvoir approcher
n'importe quelle fonction continue à support compact.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Neurone
Un neurone à p entrées est une fonction f : Rp+1 × Rp → R dénie
par :
g :R→R
W ∈ Rp+1 , W = (ω1 , · · · , ω3 )
x ∈ Rp , f (W , x) = g ( pi=1 ωi xi + ωp+1 ) avec
P
x = (x1 , · · · , xp )
Cette dénition est inspirée du neurone biologique, les poids jouant
le rôle de synapses, le vecteur x celui des entrées et W celui des
coecients ou poids. Le coecient ωp+ est appelé le biais et
1
souvent noté b. La fonction g est appelée fonction de transfert ou

fonction de seuil.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Neurone Simple

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Une couche de neurones

Une couche de neurones représente la juxtaposition de plusieurs
neurones partageant les mêmes entrées mais ayant chacun leur
propre vecteur de coecients et leur propre sortie.
Soit p et n deux entiers naturels, on note
W ∈ R(p+ )n = (W , · · · , Wn ) avec ∀i ∈ {1, · · · , n}, Wi ∈ Rp+ .
1
1
1
Une couche de n neurones et p entrées est une fonction :

F : R(p+ )n × Rp → Rn vériant :
1
∀i ∈ {1, · · · , n}, fi est un neurone ;

∀W ∈ Rn(p+ ) × R, F (W , x) = (f (W , x), · · · , fn (Wn , x)).
1
1 1

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Diérentes types d'architectures pour les réseaux neuronaux

Les perceptrons multicouches : les plus vieux et les plus simples
Les réseaux neuronaux convolutifs : très performants pour le
traitement d'image
Les réseaux neuronaux récurrents, utiles pour les données
séquentielles (textes ou séries temporelles)
Tous sont basés sur des cascades profondes de couches
Requiert des algorithmes d'optimisation intelligent
(stochastiques en général), une initialisation minutieuse et un
choix malin de structure.
Résultats impressionnants mais peu de justications théoriques
pour l'instant

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Le perceptron simple est un modèle de prédiction (supervisé)

linéaire.
Combinaison linéaire de x ∈ R d avec les poids ω 1 ; · · · ; ωd et un

biais b.
I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
U
n neurone est une application non linéaire en ses paramètres qui, à
un vecteur x d'entrée associe une sortie f (x). Plus précisément, le
j ime neurone articiel fj s'écrit :
r =1
(6)
X
fj (x) = ϕ(< wj , x >= wjr x r
p
Les quantités wj = (wj , · · · , wjp ) pondèrent les variables d'entrée

1
(x , · · · , x p ). Où bj est appelé le biais du neurone j , ϕ est est

1
appelée fonction d'activation.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Naissance du MLP
Lorsque nous parlons de perceptrons multicouches ou de réseaux de
neurones, nous faisons référence au type de réseau de neurones le
plus simple et le plus courant . Les MLP ont été initialement
inspirés par le Perceptron , un algorithme d' apprentissage
automatique supervisé pour la classication binaire. Le Perceptron
n'était capable que de gérer des données séparables linéairement,
c'est pourquoi la perception multicouche a été introduite pour
surmonter cette limitation. Le réseau MLP est le réseau de neurone
le plus utilisé. Cela est du à sa capacité d'apprendre de l'ensemble
des données d'entraînement et à son ecacité à résoudre des
problèmes de classication non linéaire et de reconnaissance de
formes.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Dénition MLP
Un MLP est un réseau neuronal capable de gérer à la fois des
données séparables linéairement et non linéairement séparables. Il
appartient à une classe de réseaux de neurones connus sous le nom
de réseaux de neurones feed-forward, qui connectent les neurones
d'une couche à la couche suivante de manière directe sans aucune
boucle.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Caractéristiques MLP
Un MLP est un réseau de neurones articiels et se compose donc
de neurones interconnectés qui traitent les données à travers trois
couches ou plus. La structure de base d'un MLP consiste en une
couche d'entrée, une ou plusieurs couches cachées et une couche de
sortie, une fonction d'activation et un ensemble de poids et biais. Il
n'y a pas de neurone articiel dans la couche d'entrée du MLP. Les
données entrent dans le réseau via la couche d'entrée, traversent les
couches cachées et dénissent par sortir du réseau par la couche de
sortie. L'architecture de ce réseau est illustrée par la Fig.60

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Figure Architecture d'un réseau de neurone MLP

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
N
(W ((j − 1)N + i) × xi ) + B(j) (7)
X
yj =
i=1
avec (W ((j − 1)N + i) le poids de la i th entrée au j th j neurone

caché. B(j) est le biais de la i th neurone caché avec
j = 1, 2, · · · , H . La sortie de chaque neurone caché est alors donnée
en appliquant une fonction d'activation sigmoïde par Eq(8) par
exemple, et la classe d'appartenance est obtenu via l'équation
Eq(??), avec m = 1, 2, · · · , k classes. Des fonctions d'activation
linéaires sont appliquées pour chaque neurone de sortie.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
1
Yj = σ(yj ) = (8)
1 + e −yj

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Ce réseau est composé d'une couche d'entrée, d'une couche de

sortie et d'une couche cachée inter-connectées avec des poids
initialisés aléatoirement. Autrement dit, la couche d'entrée ne
représente que l'étape d'association de l'entrée avec la couche
cachée de traitement. Le processus d'apprentissage de réseau de
neurone MLP se compose de deux grandes étapes.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
La première étape consiste en une propagation directe de

l'information à partir de la couche d'entrée, vers les couche cachée
jusqu'à la couche de sortie. La deuxième étape consiste en une
comparaison entre le résultat trouvé avec le réseau de neurone et
celui attendu. Lorsque la diérence est grande, l'erreur sera
rétropropagée et sera distribuée à chaque n÷ud de chaque couche.
Une mise à jour des poids est réalisée en se basant sur
l'optimisation du gradient descendant. La mise à jour des poids est
faite avec l'équation (9) dénie par :

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
df (ω)
ωt = ωt−1 − α (9)
dω
Le processus de correction pondérée continuera à mettre à jour les
poids du modèle avec les autres données de la base d'apprentissage.
La formation du réseau se poursuivra jusqu'à ce que l'erreur nale
atteigne une plage acceptable ou atteigne une valeur prédéterminée
de temps d'apprentissage.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Dénition : Deep Learning

Le Deep Learning est un type d'apprentissage automatique qui
imite la façon dont les humains acquièrent certains types de
connaissances, et il est devenu plus populaire au l des ans par
rapport aux modèles standard. Alors que les algorithmes
traditionnels sont linéaires, les modèles d'apprentissage en
profondeur, généralement des réseaux de neurones, sont empilés
dans une hiérarchie de complexité et d'abstraction croissantes (d'où
le profond dans l'apprentissage en profondeur).

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Composition
Les briques élémentaires du Deep Learning sont les réseaux
neuronaux. Ces briques sont combinées pour former des réseaux de
neurones profonds.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Fonctions d'activation
Les fonctions d'activation introduisent une étape supplémentaire à
chaque couche lors de la propagation vers l'avant, mais son calcul
en vaut la peine.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Remarques
Supposons que nous ayons un réseau de neurones fonctionnant sans
les fonctions d'activation. Dans ce cas, chaque neurone n'eectuera
qu'une transformation linéaire sur les entrées en utilisant les poids
et les biais. C'est parce que peu importe le nombre de couches
cachées que nous attachons dans le réseau neuronal ; toutes les
couches se comporteront de la même manière car la composition de
deux fonctions linéaires est elle-même une fonction linéaire. Bien
que le réseau de neurones devienne plus simple, l'apprentissage de
toute tâche complexe est impossible, et notre modèle ne serait
qu'un modèle de régression linéaire.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Vanish gradiant
Comme la fonction sigmoïde, certaines fonctions d'activation
écrasent un grand espace d'entrée dans un petit espace de sortie
entre 0 et 1.
Par conséquent, un changement important dans l'entrée de la
fonction sigmoïde entraînera un petit changement dans la sortie.
Par conséquent, la dérivée devient petite. Pour les réseaux peu
profonds avec seulement quelques couches qui utilisent ces
activations, ce n'est pas un gros problème.
Cependant, lorsque plusieurs couches sont utilisées, le gradient peut
être trop petit pour que l'entraînement fonctionne ecacement.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Explosion du gradient
L'explosion du grandient est un problème où des gradients d'erreur
importants s'accumulent et entraînent de très grandes mises à jour
des poids du modèle de réseau neuronal pendant la formation.
Un réseau instable peut se produire lorsque les gradients explosent
et que l'apprentissage ne peut pas être terminé.
Les valeurs des poids peuvent également devenir si importantes
qu'elles débordent et se traduisent par des valeurs appelées NaN.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Fonction de Heaviside
La fonction de Heaviside dépend d'une valeur seuil qui décide si un
neurone doit être activé ou non.
L'entrée fournie à la fonction d'activation est comparée à un certain
seuil ; si l'entrée est supérieure à celle-ci, alors le neurone est activé,
sinon il est désactivé, ce qui signie que sa sortie n'est pas
transmise à la couche cachée suivante.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Limites
Voici quelques-unes des limitations de la fonction d'étape binaire :
Il ne peut pas fournir de sorties multi-valeurs, par exemple, il
ne peut pas être utilisé pour des problèmes de classication
multi-classes ;
Le gradient de la fonction échelon est nul, ce qui gêne le
processus de rétropropagation.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Fonction d'activation linéaire

La fonction d'activation linéaire, également connue sous le nom de
"pas d'activation" ou "fonction d'identité", est celle où l'activation
est proportionnelle à l'entrée.
La fonction ne fait rien à la somme pondérée de l'entrée, elle
retourne simplement la valeur qui lui a été donnée.
f (x) = x (10)

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Remarque
Une fonction d'activation linéaire présente deux problèmes
majeurs :
Il n'est pas possible d'utiliser la rétropropagation car la dérivée
de la fonction est une constante et n'a aucun rapport avec
l'entrée x.
Toutes les couches du réseau neuronal s'eondreront en une
seule si une fonction d'activation linéaire est utilisée. Quel que
soit le nombre de couches du réseau de neurones, la dernière
couche sera toujours une fonction linéaire de la première
couche. Donc, essentiellement, une fonction d'activation
linéaire transforme le réseau de neurones en une seule couche.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Fonction d'activation sigmoïde / logistique

Cette fonction prend n'importe quelle valeur réelle en entrée et
génère des valeurs comprises entre 0 et 1.
Plus l'entrée est grande (plus positive), plus la valeur de sortie sera
proche de 1, tandis que plus l'entrée est petite (plus négative), plus
la sortie sera proche de 0, comme indiqué ci-dessous.
1
f (x) = = σ(x) (11)
1 + ex

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Remarque 1
La fonction d'activation sigmoïde/logistique est l'une des fonctions
les plus utilisées :
Il est couramment utilisé pour les modèles où nous devons
prédire la probabilité en tant que sortie. Étant donné que la
probabilité de quoi que ce soit n'existe qu'entre 0 et 1, le
sigmoïde est le bon choix en raison de sa plage.
La fonction est diérentiable et fournit un gradient lisse,
c'est-à-dire qu'elle empêche les sauts dans les valeurs de sortie.
Ceci est représenté par une forme en S de la fonction
d'activation sigmoïde.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Remarque 2
La gure ci-dessus, les valeurs de gradient ne sont signicatives que
pour la plage -3 à 3, et le graphique devient beaucoup plus plat
dans d'autres régions.
Cela implique que pour des valeurs supérieures à 3 ou inférieures à
-3, la fonction aura de très petits gradients. Lorsque la valeur du
gradient approche de zéro, le réseau cesse d'apprendre et soure du
problème du "vanish gradient" .

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
tangente hyperbolique
La fonction Tanh est très similaire à la fonction d'activation
sigmoïde/logistique, et a même la même forme en S avec une
diérence de plage de sortie de -1 à 1. Dans Tanh, plus l'entrée est
grande (plus positive), plus la valeur de sortie est proche. sera à 1,
alors que plus l'entrée est petite (plus négative), plus la sortie sera
proche de -1.
e x − e −x
f (x) = x −x
(12)
e +e

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Remarque
Les avantages de l'utilisation de cette fonction d'activation sont :
La sortie de la fonction d'activation de tanh est centrée sur
zéro ; par conséquent, nous pouvons facilement mapper les
valeurs de sortie comme fortement négatives, neutres ou
fortement positives.
Habituellement utilisé dans les couches cachées d'un réseau de
neurones car ses valeurs se situent entre -1 et 1 ; par
conséquent, la moyenne de la couche cachée s'avère être 0 ou
très proche de celle-ci. Cela aide à centrer les données et
facilite beaucoup l'apprentissage de la couche suivante.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Remarque
bien que sigmoïde et tanh soient tous deux confrontés à un
problème de "vanish gradient", tanh est centré sur zéro et les
gradients ne sont pas limités à se déplacer dans une certaine
direction. Par conséquent, en pratique, la non-linéarité tanh est
toujours préférée à la non-linéarité sigmoïde.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Fonction Softmax
La fonction Softmax est décrite comme une combinaison de
plusieurs sigmoïdes.
Il calcule les probabilités relatives. Semblable à la fonction
d'activation sigmoïde/logistique, la fonction SoftMax renvoie la
probabilité de chaque classe.
Elle est le plus souvent utilisée comme fonction d'activation de la
dernière couche du réseau de neurones dans le cas d'une
classication multi-classes.
exp(xi )
f (x) = P (13)
j exp(xj )

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Swish
C'est une fonction développée par des chercheurs de Google.
Swish correspond ou surpasse systématiquement la fonction
d'activation ReLU sur les réseaux profonds appliqués à divers
domaines diciles tels que la classication des images , la
traduction automatique, etc.
x
f (x) = (14)
1 + e −x

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Remarque
Voici quelques avantages de la fonction d'activation Swish par
rapport à ReLU :
Swish est une fonction lisse qui signie qu'elle ne change pas
brusquement de direction comme le fait ReLU près de x = 0.
Au contraire, elle se plie en douceur de 0 vers des valeurs < 0,
puis vers le haut.
Les petites valeurs négatives ont été mises à zéro dans la
fonction d'activation ReLU. Cependant, ces valeurs négatives
peuvent toujours être pertinentes pour capturer les modèles
sous-jacents aux données. Les grandes valeurs négatives sont
mises à zéro pour des raisons de rareté, ce qui en fait une
situation gagnant-gagnant.
La fonction swish étant non monotone améliore l'expression
des données d'entrée et du poids
Ghislain PANDRY
à apprendre.
Chapitre 1: INTRODUCTION A L'APPRE
I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
ReLU
ReLU signie unité linéaire rectiée.
Bien qu'il donne l'impression d'une fonction linéaire, ReLU a une
fonction dérivée et permet la rétropropagation tout en le rendant
simultanément ecace en termes de calcul.
Le problème ici est que la fonction ReLU n'active pas tous les
neurones en même temps.
Les neurones ne seront désactivés que si la sortie de la
transformation linéaire est inférieure à 0.
f (x) = max(0, x) (15)

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Remarque
Les avantages de l'utilisation de ReLU comme fonction d'activation
sont les suivants :
Étant donné que seul un certain nombre de neurones sont
activés, la fonction ReLU est beaucoup plus ecace en termes
de calcul par rapport aux fonctions sigmoïde et tanh.
ReLU accélère la convergence de la descente de gradient vers
le minimum global de la fonction de perte en raison de sa
propriété linéaire et non saturante.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Remarque : Problème Dying Relu

Le côté négatif du graphique rend la valeur de gradient nulle. Pour
cette raison, pendant le processus de rétropropagation, les poids et
les biais de certains neurones ne sont pas mis à jour. Cela peut
créer des neurones morts qui ne sont jamais activés. Toutes les
valeurs d'entrée négatives deviennent immédiatement nulles, ce qui
diminue la capacité du modèle à s'adapter ou à s'entraîner
correctement à partir des données.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Leaky ReLU Function

Leaky ReLU est une version améliorée de la fonction ReLU pour
résoudre le problème Dying ReLU car il a une petite pente positive
dans la zone négative.
f (x) = max(0.1x, x) (16)

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Remarque
Les avantages de Leaky ReLU sont les mêmes que ceux de ReLU,
en plus du fait qu'il permet la rétropropagation, même pour les
valeurs d'entrée négatives.
En faisant cette modication mineure pour les valeurs d'entrée
négatives, le gradient du côté gauche du graphique s'avère être une
valeur non nulle. Par conséquent, nous ne rencontrerions plus de
neurones morts dans cette région.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Remarque
Les limitations auxquelles cette fonction est confrontée incluent :
Les prédictions peuvent ne pas être cohérentes pour les valeurs
d'entrée négatives.
Le gradient pour les valeurs négatives est une petite valeur qui
rend l'apprentissage des paramètres du modèle chronophage.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Parametric ReLU Function

ReLU paramétrique est une autre variante de ReLU qui vise à
résoudre le problème du gradient devenant nul pour la moitié
gauche de l'axe.
Cette fonction fournit la pente de la partie négative de la fonction
comme argument a. En eectuant la rétropropagation, la valeur la
plus appropriée de a est apprise.
f (x) = max(ax; x) (17)
où a est le paramètre de pente pour les valeurs négatives.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Remarque
La fonction ReLU paramétrée est utilisée lorsque la fonction ReLU
qui fuit ne parvient toujours pas à résoudre le problème des
neurones morts et que les informations pertinentes ne sont pas
transmises avec succès à la couche suivante.
La limitation de cette fonction est qu'elle peut fonctionner
diéremment pour diérents problèmes en fonction de la valeur du
paramètre de pente a.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Fonction d'unités linéaires exponentielles (ELU)

L'unité linéaire exponentielle, ou ELU en abrégé, est également une
variante de ReLU qui modie la pente de la partie négative de la
fonction.
ELU utilise une courbe logarithmique pour dénir les valeurs
négatives contrairement aux fonctions( fuites ReLU et Parametric
x si x ≥ 0
ReLU avec une ligne droite. f (x) =
α(e − 1) sinon x < 0
x
1 si x ≥ 0
(
sa dérivée est : f ′ (x) =
f (x) + α sinon x < 0

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Remarque
ELU est une alternative solide pour ReLU en raison des avantages
suivants :
ELU devient lisse lentement jusqu'à ce que sa sortie soit égale
à −α alors que RELU se lisse fortement.
Évite le problème ReLU mort en introduisant une courbe
logarithmique pour les valeurs négatives d'entrée. Cela aide le
réseau à pousser les pondérations et les biais dans la bonne
direction.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Remarque
Les limitations de la fonction ELU sont les suivantes :
Il augmente le temps de calcul en raison de l'opération
exponentielle incluse ;
Aucun apprentissage de la valeur 'α' n'a lieu ;
Problème de gradient explosif.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Scaled Exponential Linear Unit (SELU)

SELU a été déni dans les réseaux auto-normalisants et prend en
charge la normalisation interne, ce qui signie que chaque couche
préserve la moyenne et la variance des couches précédentes. SELU
permet cette normalisation en ajustant la moyenne et la variance.
SELU a des valeurs positives et négatives pour décaler la moyenne,
ce qui était impossible pour la fonction d'activation ReLU car elle
ne peut pas produire de valeurs négatives.
Les gradients peuvent être utilisés pour ajuster la variance. La
fonction d'activation a besoin d'une région avec un gradient
supérieur à un
( pour l'augmenter.
x si x ≥ 0
f (α, x) = λ
α(e − 1) sinon x < 0
x

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Remarque
Le principal avantage de SELU par rapport à ReLU :
La normalisation interne est plus rapide que la normalisation
externe, ce qui signie que le réseau converge plus rapidement.
SELU est une fonction d'activation relativement récente et a
besoin de plus d'articles sur des architectures telles que les
CNN et les RNN, où elle est relativement explorée.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Choix d'une fonction d'activation

Vous devez faire correspondre votre fonction d'activation pour
votre couche de sortie en fonction du type de problème de
prédiction que vous résolvez, en particulier du type de variable
prédite. En règle générale, vous pouvez commencer par utiliser la
fonction d'activation ReLU, puis passer à d'autres fonctions
d'activation si ReLU ne fournit pas de résultats optimaux.

I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Choix d'une fonction d'activation : quelques directives mais pas

obligatoires (Couche cachée)
1 La fonction d'activation ReLU ne doit être utilisée que dans les
couches cachées ;
2 Les fonctions Sigmoïde/Logistique et Tanh ne doivent pas être
utilisées dans les couches cachées car elles rendent le modèle

plus sensible aux problèmes pendant la formation (en raison de
la disparition des gradients) ;
3 La fonction Swish est utilisée dans les réseaux de neurones
ayant une profondeur supérieure à 40 couches.

La fonction d'activation utilisée dans les couches cachées est
généralement choisie en fonction du type d'architecture de réseau
neuronal.
Convolutional Neural Network (CNN) : Fonction d'activation ReLU.
Réseau de neurones Ghislain
récurrent : Fonction
PANDRY
d'activation
Chapitre Tanh et/ouA L'APPRE
1: INTRODUCTION
I-MACHINE LEARNING
II-RÉGRESSION
V-SVM Linéaires
VI-DEEP LEARNING
Choix d'une fonction d'activation : quelques directives mais pas

obligatoires (couche de sorties)
1 Régression - Fonction d'activation linéaire
2 Classication binaire - Fonction d'activation
sigmoïde/logistique
3 Classication multiclasse-Softmax
4 Classication multilabel-Sigmoïde

Introduction Apprentissage Automatique

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Introduction Apprentissage Automatique

Transféré par

Droits d'auteur :

Formats disponibles

I-MACHINE LEARNING

Chapitre 1: INTRODUCTION A L'APPRENTISSAGE

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

I-1-1 : Dénition I.A

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

I-1-3 : Apprentissage Automatique

I-1-4 : Dénition : Apprentissage Automatique

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

I-1-5 :Types d'apprentissage automatique

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Apprentissage non supervisé

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

II-1-2 : Types de régression

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

II-2-1 : Régression linéaire simple

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Méthode des moindres carrés

yi est la valeur courante de la variable dépendante correspondant y

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Nous pouvons exprimer b et a en remarquant que les minima sont

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

II-3-1 : coecient de détermination et coecient de corrélation

modèles sont l'inverse′ l'un de l'autre. Ce qui donnerait un produit

coecient varie entre 0 et 1. Plus la valeur est proche de 1,

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

patient, y est la variable expliquée (ici binaire) et X puis X 1 2

sont les variables explicatives.

si il y a risque de panne pour un moteur en fonction de

III-1-1 :Dénition bis

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

III-1-2 : La régression logistique binaire : un classieur linéaire

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

une seule variable explicative et une variable expliquée binaire

L'objectif est de proposer un modèle de classication au moyen

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Une approche probabiliste : logit

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Une approche probabiliste : logit (suite)

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Problème des méthodes paramétriques

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

IV-2-1 : Problème de dimension

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

IV-1-2 : Algorithme de KNN

majoritaire de ses K voisins. Chaque voisin vote pour sa classe et la

de points d'apprentissage par classe.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

On donne un ensemble d'apprentissage {(xi , yi )}i= ,...,n où xi ∈ X

avec X = Rd et yi ∈ {−1, +1}. Dans un problème de classication

permet de prédire si un nouvel exemple x ∈ X appartient à la classe

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Séparateurs à vaste marge

où w est le vecteur orthogonal à l'hyperplan et b est le

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

I-1-1 : Dénition I.A

I-1-4 : Dénition : Apprentissage Automatique

II-3-1 : coecient de détermination et coecient de corrélation

coecient varie entre 0 et 1. Plus la valeur est proche de 1,

III-1-1 :Dénition bis

III-1-2 : La régression logistique binaire : un classieur linéaire

L'objectif est de proposer un modèle de classication au moyen

avec X = Rd et yi ∈ {−1, +1}. Dans un problème de classication

Diérence entre estimation ou apprentissage

Diérence entre estimation ou apprentissage

Dénition : Réseaux Neurones

Dénition 2 :Réseaux Neurones

Diérentes types d'architectures pour les réseaux neuronaux

Figure Architecture d'un réseau de neurone MLP

Dénition : Deep Learning