Académique Documents
Professionnel Documents
Culture Documents
l’apprentissage supervisé
Ricco RAKOTOMALALA
Entrées X2 0
Descripteurs a2
d(X )
−∞ +∞
a3
X3
1.5
1.3
X1 X2 Y 1.1
0.9
1
0 0 0 0.7
0.5
0 1 0
0.3
1 0 0 0.1
-0.1
1 1 1 -0.3
-0.5
-0.5 0 0.5 1 1.5
Données
Représentation dans le plan
Principales étapes :
a j ← a j + ∆a j
6
Force du signal
2
avec
0
1
∆a j = η ( y − yˆ )x j
-0.5 0 0.5 1 1.5
Erreur
-2
Détermine s’il
faut réagir ou
-4 Constante d’apprentissage non
Détermine l’amplitude de l’apprentissage
-6
Quelle est la bonne valeur ?
Trop petit lenteur de convergence
Trop grand oscillation
En général autour de 0.05 ~ 0.15 (0.1 dans notre exemple)
1
0
-0.5 0 0.5 1 1.5
-2
-4
-6
1
0
-0.5 0 0.5 1 1.5
-2
-4
-6
x0 = 1 ∆a0 = 0.1 × (0 )× 1 = 0
− 0.1×1+ 0.1× 0 + 0.05×1 = −0.05
∆a1 = 0.1 × (0 ) × 0 = 0
x = 0
1
⇒ yˆ = 0 ∆a = 0.1 × (0 ) × 1 = 0
x2 = 1 2
y = 0
Pas de correction ici ? Pourquoi ?
Voir sa position dans le plan !
4
Remarque : Que se passe-t-il si on repasse l’individu (x1=1 ; x2=0) ?
1 Convergence ?
0
-0.5 0 0.5 1 1.5
(1) Plus aucune correction effectuée en passant tout le
-2
monde
(2) L’erreur globale ne diminue plus « significativement »
-4
(3) Les poids sont stables
(4) On fixe un nombre maximum d’itérations
-6
(5) On fixe une erreur minimale à atteindre
1 1
0
0
d(X )
−∞ +∞ d(X )
−∞ +∞
1
g (v ) =
1 + e −v
v = d(X )
La régle de décision devient : Si g(v) > 0.5 Alors Y=1 Sinon Y=0
X0=1
a0
X1 Sortie du réseau
a1 yˆ = g (v) = f [d ( x)]
X2
a2
a3
X3
E =
1
∑ ( y (ω ) − yˆ (ω ) )
2 ω ∈Ω
∂E
Optimisation : dérivation de la = −∑ [ y (ω ) − yˆ (ω )] × g '[v(ω )] × x j (ω )
fonction objectif par rapport
aux coefficients
∂a j i
yk = 1 ssi y = yk
ŷ1
(2) « Output » pour chaque sortie
X0=1
yˆ k = g[vk ]
X1
ŷ2 avec vk = a0,k + a1,k x1 +L+ aJ ,k xJ
X2
(3) P(Y/X) P(Y = yk / X ) ∝ g[vk ]
X3 ŷ3
(4) Règle de décision
2 ω k =1
Equipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 13
Pratique du Perceptron (Démo sur les cancers du sein)
Évolution
erreur
Poids
1.5
1.3
X1 X2 Y 1.1
1
0 0 0 0.9
Non séparable linéairement
0.7
(1) 1 0 1
0.3
0.1
- 0.1
1
1 1 0 - 0.3
- 0.5
X0=1
X0=1
Sortie de la C.Cachée
1
X0=1 u 1 = g ( v1 ) =
X0=1 1 + e − v1
1
u 2 = g (v2 ) =
X1 1 + e − v2
1
yˆ = g ( z ) =
1 + e−z
X0=1
X0=1
X1
X3
Correction des poids synaptiques
menant à la couche de sortie
-11.32
-38.95
X2 17.68
u1 vs. u2
Control variable : Y
1
u2 negatif
positif
0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1
x1
• « Neural network »
Tutorial slides of Andrew Morre
http://www.autonlab.org/tutorials/neural.html
• « Machine Learning »
Tom Mitchell, Ed. Mc Graw-Hill International, 1997.