2 Neurone For Mel

Les rseaux de neurones pour lapprentissage
ESSEC, le 28 Juin 2002

Rseaux de neurones artificiels

le neurone formel

S. Canu,
laboratoire PSI, INSA de Rouen
quipe systmes dinformation pour
lenvironnement

asi.insa-rouen.fr/~scanu
ESSEC, le 28 Juin 2002 Le neurone biologique
ESSEC, le 28 Juin 2002 Le neurone formel
ESSEC, le 28 Juin 2002 Le neurone formel
ESSEC, le 28 Juin 2002 Phydsiologie
0 ' : dcision de frontire ,
...
...
,
...
...
te) (croix ver 0
rouges) (ronds 0
linaire dcision de rgle
0 : linaire dcision de frontire
tiques) caractris ( R dans valeurs v.a.
1 1
1
1
1
= +
(
(
(
(
(
(
(
(
(
(
(
(
s +
> +
= +
=
=
=
b x w
w
w
w
w
x
x
x
x
b x w
b x w
b x w
d X
d
j
d
j
d
j
j j
d
j
j j
d
j
j j
d
Discrimination Linaire
+
+
+
+
+
+
+
+
+
+
+
+
+
Codage {-1,1}, fonction de dcision de type heaviside
Gomtrie : illustration dans R
2

0 ' = + A b x w
w

x
( )
w
b x w
x dist
+
= A
'
,
1
w
b
2
w
b
( ) b x w sign x D + = ' ) (
0 ' < +b x w
0 ' > +b x w
|
.
|
\
|
= |
.
|
\
|
=
2
1
2
1
,
x
x
x
w
w
w
A =
= + = + A e
dcision de frontire la orthogonal est 0 ) ( '
0 ' et 0 ' et si
w y x w
b y w b x w y x
w
b
d =
-2 -1 0 1 2 3 4
-3
-2
-1
0
1
2
3
Estimation... et rve
-3 -2 -1 0 1 2 3
-3
-2
-1
0
1
2
3
Discrimination de deux classes gausi nnes
-
0
.
8
-
0
.
6
-
0
.
6
-
0
.
6
-
0
.
4
-
0
.
4
-
0
.
4
-
0
.
2
-
0
.
2
-
0
.
2

0

0

0
.
2

0
.
2

0
.
2

0
.
2

0
.
2

0
.
4

0
.
4

0
.
4

0
.
4

0
.
6

0
.
6
0.6

0
.
8
Cas gaussien multidimensionnel
( )
( )
( ) ( )
( )
( )
( ) ( )

2
1
2 ,

2
1
1 ,
2
1
2
1
1
1
'
2
1
2 / 1 2 /
'
2
1
2 / 1 2 /

t
t
E
E
E
=
E
=
x x
d
X
x x
d
X
e x f
e x f
2

Le Discriminateur
de Bayes
est linaire...
-2 0 2 4 6
-4
-2
0
2
4
6
classe 1
classe 2
estimation
bayes
Moindres carrs
( )
( )
( )
( )
( ) y X X X W
y XW X
W
W J
x X b w W y XW
y b x w b w J
b x w x D y x D D J
n
i
i i
i
n
i
i i
' '
0 ' 2 0
) (
) 1 , ( et , avec
' ) , (
' ) ( et ) ( ) (
1
2
1
2
1
2
=
=
=
= =
c
c
= = =
+ =
+ = =
X = [x1 ; x2];
X = [X ones(length(X),1)];
yi = [ones(length(x1),1) ; -ones(length(x2),1)];

W = (X'*X)\(X'*yi);
west = W(1:2);
best = W(3);
-2 0 2 4 6 8 10
-4
-3
-2
-1
0
1
2
3
4
5
6
classe 1
classe 2
estimation
bayes
Rsistance aux outliers
Moindre carrs stochastiques
ADALINE (Widrow Hoff 1960)
( ) ( )
( ) ( )
( ) ( ) ( )
( ) ( )
( )
( ) ( ) ( )X WX y WX
W
WX
y WX
W
W J
x X b w W y WX
y b x w b w J
b x w x D y x D D J
n
i
i
n
i
i
n
i
i
n
i
i i
i
n
i
i i
' 2
2
) (
) 1 , ( et , avec
' ) , (
' ) ( et ) ( ) (
1
1
1
2
1
2
1
2

=
=
=
=
=
=
c
c
=
c
c
= = =
+ =
+ = =
A =
=
c
c
old new
init
W W
W
W
J

que..... tant
: itrative mthode ! impossible 0
plus*) volue n' cout le ou classs, mals des reste (*il
Algorithme itratif de gradient
= A
Le gradient est orthogonal aux lignes
d iso cot : argument la Taylor
Algorithme de gradient : illustration
dans le plan w
1
,w
2

+
Minimum du cot Lignes d iso-cot :
J(W) = constante
Direction du gradient
J(W)
w
1
w
2
3 solutions
( ) ( ) ( )
( ) ( )
( ) ( )
( ) ( ) ( )
sigmoide) fonction la (
) ( ) ( avec ' 2
) (
signe fonction la approche qui drivable fonction une est
2
) (
PERCEPTRON : 1 '
2
) (
ADALINE : linaire ion approximat
' 2
) (
: gradient le
1
1
1
1
x th x x Wx y Wx
W
W J
x y Wx
W
W J
x y Wx
W
W J
x Wx y Wx
W
W J
i i
n
i
i i
i
n
i
i i
i
n
i
i i
i i
n
i
i i
= =
c
c
=
c
c
=
=
c
c
=
c
c
=
=
=
=

LE NEURONE FORMEL
Algorithme itratif
nbitemax = 50;
k=0;
while ((cout > 0) & (k<nbitemax))
K=K+1;
ind = randperm(length(X));
for i=1:length(X)
Dir = (sign(X(ind(i),:)*W)-yi(ind(i)))*X(ind(i),:);
W = W - pas*Dir';
end

cout = sum(abs(sign(X*W)-yi));
disp([k cout]);

end
Stabilisation du cot (erreur relative)
Randomisation (ok si n grand)
valuation du cot : n oprations
-6 -4 -2 0 2 4 6 8 10
-4
-3
-2
-1
0
1
2
3
4
5
6
ADALINE, a marche...
-2 -1 0 1 2 3 4 5 6
-3
-2
-1
0
1
2
3
ADALINE des fois
a ne marche pas
Solution au sens des moindres carrs
-6 -4 -2 0 2 4 6 8 10
-4
-3
-2
-1
0
1
2
3
4
5
6
Le Perceptron, des fois
a ne marche pas...
...Quand les exemples ne sont pas linairement sparables
ESSEC, le 28 Juin 2002 Rgle du perceptron
(Rosenblatt 1958)
codage
( ) ( )
+
=
<
>
=
c
c
=
= =
= =
=
c
c
c
c
=
class bien ' si
class mal ' si '
0 si '
0 si 0
) (
1 ' et
1 si '
1 si '
codage

) (
) (
i old
i i old
new
i i
i
i
i i i
i i i
i i i
old new
x w
x x w
w
Wx x
Wx
W
W J
y
y x x
y x x
x y Wx
W
W J
W
W J
w w

(Rosenblatt 1958)
Pas de fonction cot minimise
preuve de convergence
(dans le cas linairement sparable)
| |
modif) de (nombre
avec min
0 , 1
) (hypothse monde le bien tout classe qui un vecteur soit
class mal est ou fois de nombre le avec
0
1
*
1
* *
*
*
1

= =
=
= > =
> e
=
=
+ =
n
i
i
i
i
n
i
i i
i
i i
n
i
i i
init
i old new
m M w x M w x m ww
w x n i
w
x m x m w
w
x w w


(Rosenblatt 1958)
( )
' ' '
' ' ' : 2 et 1
max avec : 2
itrations aprs donc et
max

2
avec min : 1
2
2
2
*
2
2
* 2
2
2
2
2
2
2 2
2
2
2
2
2
2 2
1
*
1
* *
Mk w M k
Mc w w ww M c
x c Mc w
M
x w w
x w
x w x w w
m M w x M w x m ww
x w w
i
i
i
i
old new
i old
i old i old new
n
i
i
i
i
n
i
i i
i old new
s s
s s s
= s
s
+ s
+ + =
= > =
+ =

= =

Convergence des algorithmes de gradient
converge algorithme l' Alors
convexe cout
0 lim et lim si
) (
1
2
1
1
= =
c
c
=

=

=

+
k
j
k
k
k
j
k
k
k k k
W
W J
w w


Performances des algorithmes linaires
( )
( )
( )
2 / 2 *
* * *
1
) (
2
1 2 )
(
, / 2 1 , , de jointe loi la
) ( ) ( min arg
cout son et monde) (du linaire r classifieu meilleur
) ( min arg

empirique risque du on minimisati
exemples
1
) (
: erreurs des frquence : age apprentiss d' erreur
) ( ) (
: erreur d' probabilit erreur
c c
c
c
n d
D
emp
D
n
i
y x D emp
d
e
d
n
e J D J P
d n n d Y X
D J J D J D
D J D
n I
n
D J
R X Y X D P D J
i i
=
=
|
|
.
|
\
|
+ |
.
|
\
|
s + >
> > >
= =
=
=
e = =
=
Thorme (Vapnik & Chervonenkis, 1974)

Performances des algorithmes linaires
( )
( )
2 / 2 *
* * *
2
1 2 )
(
, / 2 1 , , de jointe loi la
) ( ) ( min arg
cout son et monde) (du linaire r classifieu meilleur
) ( min arg
: empirique risque du on minimisati

dimension en exemples
c c
c
c
n d
D
emp
D
e
d
n
e J D J P
d n n d Y X
D J J D J D
D J D
d n
|
|
.
|
\
|
+ |
.
|
\
|
s + >
> > >
= =
=
Thorme (Vapnik & Chervonenkis, 1974)
Probabilit
derreur
risque
empirique
Maldiction
de la dimensionnalit
Asymptotiquement
jouable
prcision
borne
ESSEC, le 28 Juin 2002 Conclusion
Neurone formel = Modle linraire

Estimation des paramtres
directe
rapide - n
3

itrative
lent - apprentissage au coup par coup
OCR : n=10
6

2 Neurone For Mel

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

2 Neurone For Mel

Transféré par

Droits d'auteur :

Formats disponibles

Les rseaux de neurones pour lapprentissage

ESSEC, le 28 Juin 2002

Les rseaux de neurones pour lapprentissage

Les rseaux de neurones pour lapprentissage

Les rseaux de neurones pour lapprentissage

Les rseaux de neurones pour lapprentissage

Thorme (Vapnik & Chervonenkis, 1974)

: empirique risque du on minimisati

Vous aimerez peut-être aussi