Académique Documents
Professionnel Documents
Culture Documents
4 ML Réseaux de Neurones
4 ML Réseaux de Neurones
LN3 GLSI
masmoudi.imene@gmail.com 1
OBJECTIFS
2
INTRODUCTION
3
INTRODUCTION
4
2- RÉSEAUX DE NEURONES ARTIFICIELS
5
DÉFINITION
6
DOMAINES D’APPLICATION
7
2- RÉSEAUX DE NEURONES ARTIFICIELS
8
NEURONE BIOLOGIQUE
9
NEURONE BIOLOGIQUE
10
NEURONE BIOLOGIQUE
2.3 EXEMPLE
12
prix PRÉDICTION PRIX DE MAISON
Taille Maison
13
PRÉDICTION PRIX DE MAISON
ReLu
prix
Taille Maison
14
PRÉDICTION PRIX DE MAISON
ReLu
prix
y
x prix
Taille maison
Taille Maison
15
PRÉDICTION PRIX DE MAISON
Nbr
chambres
16
PRÉDICTION PRIX DE MAISON
Nbr
chambres proximité
Emplacement
17
PRÉDICTION PRIX DE MAISON
Nbr
chambres proximité
Emplacement
Luxe
éducation
18
PRÉDICTION PRIX DE MAISON
Nbr
chambres proximité
prix
Emplacement
Luxe
éducation
19
PRÉDICTION PRIX DE MAISON
Taille maison 𝑥1
Nbr chambres 𝑥2
prix
Emplacement 𝑥3
Luxe 𝑥4
20
PRÉDICTION PRIX DE MAISON
Taille maison 𝑥1
Nbr chambres 𝑥2
prix
Emplacement 𝑥3
Luxe 𝑥4
X y
21
PRÉDICTION PRIX DE MAISON
Taille maison 𝑥1
Nbr chambres 𝑥2
prix
Emplacement 𝑥3
Luxe 𝑥4
X Couches cachées y
22
3- STRUCTURE ET FONCTIONNEMENT
23
STRUCTURE D’UN PERCEPTRON
25
PERCEPTRON SIMPLE
26
FONCTION D’ACTIVATION
• Une fonction d’activation permet de faire des transformations sur les signaux émis
par les neurones.
• Les fonctions d'activation non linéaires réduisent la valeur de sortie d'un neurone le
plus souvent sous forme d'une simple probabilité.
• Elle est généralement une fonction non linéaire. Elle permet de séparer les données
non linéairement séparables.
28
FONCTION D’ACTIVATION
29
FONCTION D’ACTIVATION
Fonction Sigmoïde
30
FONCTION D’ACTIVATION
31
FONCTION D’ACTIVATION
Fonction Heaviside
32
FONCTION D’ACTIVATION
Fonctions ReLU
• n entrées x1, …, xn
x1 b
• n coefficients synaptiques w1, …, wn w1
w2 σ
• fonction d’activation x2 ∑wixi p
Exemple : Heaviside
wn
• un seuil b (biais)
xn
• une sortie prédiction p
p = 1 si ∑wixi >= b
p = 0 sinon 34
PERCEPTRON LINÉAIRE À SEUIL
x0=1
Une autre représentation :
w0 = -b
x1
• On représente le biais comme une entrée w1
supplémentaire x0 = 1, x2
w2
∑wixi σ p
• Répéter :
x1 w0 = -b
• Prendre un exemple (X, y) de la base D w1
• Calculer la prédiction p du réseau pour l ’entrée X
x2 w2 σ
•Mettre à jour les poids : ∑wixi p
• Pour i de 0 à n :
• wi = wi + ε ∗ (y − p) ∗ xi wn
• Fin Pour
xn 36
•Fin Répéter
APPRENTISSAGE : ALGORITHME DU PERCEPTRON
Exercice:
• σ Fonction d’activation Heaviside
x0
• Seuil d’apprentissage ε = 0.1 w0
• Les poids synaptiques initialement : w1
x1
w0 = 0 ; w1 = 0 ; w2 = 0 ∑wixi σ
p
• Données d’apprentissage w2
x2
x1 x2 y
1 1 1
2 0.4 0
0 1 1
37
APPRENTISSAGE : ALGORITHME DU PERCEPTRON
X Entrées X
39
APPRENTISSAGE : DESCENTE DU GRADIENT
Principe de la Régression linéaire :
Moindre carrés .
E(W) = 1/2 σ𝐷(𝑦 − 𝑝) 2 .
• Problème : trouver W qui minimise E(W).
⇒ Méthode du gradient. Entrées X
40
APPRENTISSAGE : DESCENTE DU GRADIENT
La méthode du gradient
• Pour mettre à jours les valeurs des poids synaptiques pour chaque valeur
d’entrée xi, on adopte la formule suivante :
𝜕 𝐸(𝑊)
∆𝑤𝑖 = − 𝜀 ∗ = 𝜀 σ𝐷 𝑥𝑖 ∗ (𝑦 − 𝑝) ∗ 𝜎 ′ (𝑋. 𝑊)
𝜕 𝑤𝑖
41
APPRENTISSAGE : DESCENTE DU GRADIENT
42
APPRENTISSAGE : DESCENTE DU GRADIENT
43
APPRENTISSAGE : DESCENTE DU GRADIENT
44
APPRENTISSAGE : DESCENTE DU GRADIENT
xn
45
APPRENTISSAGE : DESCENTE DU GRADIENT
• Initialiser aléatoirement les coefficients wi.
• Répéter :
• Pout tout i :
• ∆wi = 0
•Fin Pour
•Pour tout exemple (X, y) dans D
• Calculer la prédiction p du réseau pour l ’entrée X
• Pout tout i :
• ∆wi = ∆wi + ε ∗ (y − p) ∗ xi ∗ σ’(X.W)
• Fin Pour
•Fin Pour
•Pour tout i :
• wi = wi + ∆wi
•Fin Pour 46
2- STRUCTURE ET FONCTIONNEMENT
47
STRUCTURE MULTI-COUCHES
• C0 : couche d ’entrée ⇒
les variables d ’entrée
• Cq : couche de sortie •
C1, …, Cq-1 : les couches cachées
C0 C1 C2 C3 C4
Exemple de réseau à 4 couches
48
STRUCTURE MULTI-COUCHES
• Succ(i) : ensemble des cellules qui prennent comme entrée la sortie de la cellule i.
• Pred(i) : ensemble des cellules dont la sortie est une entrée de la cellule i.
50
APPRENTISSAGE : RÉTRO PROPAGATION DU GRADIENT
• Initialiser aléatoirement les coefficients wij
• Répéter
• Prendre un exemple (X, y) de D
• Calculer la sortie p
• Pour toute cellule de sortie i
• ∆i = σ‘(pi) ∗ (yi − pi)
• Fin Pour
• Pour chaque couche de q − 1 à 1
• Pour chaque cellule i de la couche courante
• ∆i = σ’(pi) ∗ σ𝑘 ∈ 𝑆𝑢𝑐𝑐(𝑖)(∆𝑘 ∗ 𝑤𝑖𝑘)
• Fin Pour
•Fin Pour
• Pour tout poids wij
• wij = wij + ε ∗ ∆j ∗ xij
• Fin Pour
51
• Fin Répéter
APPRENTISSAGE MULTI-COUCHES
Remarques :
• Perceptron Multi-Couches = généralisation du perceptron et de la règle de
descente du gradient.
• Dans la pratique : garder une partie de la base d’apprentissage pour
évaluer la qualité du réseau
80 % de la base pour l’apprentissage
20 % restant de la base pour l’évaluation de la qualité
• Le nombre de couches cachées et le nombre de neurones par couche ont une
influence sur la qualité de l’apprentissage.
52
APPRENTISSAGE MULTI-COUCHES
1
Sigmoid σ(x) = 1+ 𝑒 −𝑥
et σ′ (𝑥) = σ x ∗ (1 − σ(x))
53
APPRENTISSAGE MULTI-COUCHES
54
APPRENTISSAGE MULTI-COUCHES
57