Vous êtes sur la page 1sur 25

Les rseaux de neurones pour lapprentissage

ESSEC, le 28 Juin 2002


Rseaux de neurones artificiels

le neurone formel

S. Canu,
laboratoire PSI, INSA de Rouen
quipe systmes dinformation pour
lenvironnement

asi.insa-rouen.fr/~scanu
Les rseaux de neurones pour lapprentissage
ESSEC, le 28 Juin 2002 Le neurone biologique
Les rseaux de neurones pour lapprentissage
ESSEC, le 28 Juin 2002 Le neurone formel
Les rseaux de neurones pour lapprentissage
ESSEC, le 28 Juin 2002 Le neurone formel
Les rseaux de neurones pour lapprentissage
ESSEC, le 28 Juin 2002 Phydsiologie
Les rseaux de neurones pour lapprentissage
ESSEC, le 28 Juin 2002
0 ' : dcision de frontire ,
...
...
,
...
...
te) (croix ver 0
rouges) (ronds 0
linaire dcision de rgle
0 : linaire dcision de frontire
tiques) caractris ( R dans valeurs v.a.
1 1
1
1
1
= +
(
(
(
(
(
(

(
(
(
(
(
(

s +
> +
= +

=
=
=
b x w
w
w
w
w
x
x
x
x
b x w
b x w
b x w
d X
d
j
d
j
d
j
j j
d
j
j j
d
j
j j
d
Discrimination Linaire
+
+
+
+
+
+
+
+
+
+
+
+
+
Codage {-1,1}, fonction de dcision de type heaviside
Les rseaux de neurones pour lapprentissage
ESSEC, le 28 Juin 2002
Gomtrie : illustration dans R
2

0 ' = + A b x w
w


x
( )
w
b x w
x dist
+
= A
'
,
1
w
b

2
w
b

( ) b x w sign x D + = ' ) (
0 ' < +b x w
0 ' > +b x w
|
.
|

\
|
= |
.
|

\
|
=
2
1
2
1
,
x
x
x
w
w
w

A =
= + = + A e
dcision de frontire la orthogonal est 0 ) ( '
0 ' et 0 ' et si
w y x w
b y w b x w y x
w
b
d =
Les rseaux de neurones pour lapprentissage
ESSEC, le 28 Juin 2002
-2 -1 0 1 2 3 4
-3
-2
-1
0
1
2
3
Estimation... et rve
Les rseaux de neurones pour lapprentissage
ESSEC, le 28 Juin 2002
-3 -2 -1 0 1 2 3
-3
-2
-1
0
1
2
3
Discrimination de deux classes gausi nnes
-
0
.
8
-
0
.
6
-
0
.
6
-
0
.
6
-
0
.
4
-
0
.
4
-
0
.
4
-
0
.
2
-
0
.
2
-
0
.
2



0



0

0
.
2

0
.
2

0
.
2

0
.
2

0
.
2

0
.
4

0
.
4

0
.
4

0
.
4

0
.
6

0
.
6
0.6

0
.
8
Cas gaussien multidimensionnel
( )
( )
( ) ( )
( )
( )
( ) ( )

2
1
2 ,

2
1
1 ,
2
1
2
1
1
1
'
2
1
2 / 1 2 /
'
2
1
2 / 1 2 /


t
t
E
E

E
=
E
=
x x
d
X
x x
d
X
e x f
e x f

2

Le Discriminateur
de Bayes
est linaire...
Les rseaux de neurones pour lapprentissage
ESSEC, le 28 Juin 2002
-2 0 2 4 6
-4
-2
0
2
4
6
classe 1
classe 2
estimation
bayes
Moindres carrs
( )
( )
( )
( )
( ) y X X X W
y XW X
W
W J
x X b w W y XW
y b x w b w J
b x w x D y x D D J
n
i
i i
i
n
i
i i
' '
0 ' 2 0
) (
) 1 , ( et , avec
' ) , (
' ) ( et ) ( ) (
1
2
1
2
1
2

=
=
=
= =
c
c
= = =
+ =
+ = =

X = [x1 ; x2];
X = [X ones(length(X),1)];
yi = [ones(length(x1),1) ; -ones(length(x2),1)];

W = (X'*X)\(X'*yi);
west = W(1:2);
best = W(3);
Les rseaux de neurones pour lapprentissage
ESSEC, le 28 Juin 2002
-2 0 2 4 6 8 10
-4
-3
-2
-1
0
1
2
3
4
5
6
classe 1
classe 2
estimation
bayes
Rsistance aux outliers
Les rseaux de neurones pour lapprentissage
ESSEC, le 28 Juin 2002
Moindre carrs stochastiques
ADALINE (Widrow Hoff 1960)
( ) ( )
( ) ( )
( ) ( ) ( )
( ) ( )
( )
( ) ( ) ( )X WX y WX
W
WX
y WX
W
W J
x X b w W y WX
y b x w b w J
b x w x D y x D D J
n
i
i
n
i
i
n
i
i
n
i
i i
i
n
i
i i
' 2
2
) (
) 1 , ( et , avec
' ) , (
' ) ( et ) ( ) (
1
1
1
2
1
2
1
2

=
=
=
=
=
=
c
c
=
c
c
= = =
+ =
+ = =
A =
=
c
c

old new
init
W W
W
W
J

que..... tant
: itrative mthode ! impossible 0
plus*) volue n' cout le ou classs, mals des reste (*il
Algorithme itratif de gradient
= A
Les rseaux de neurones pour lapprentissage
ESSEC, le 28 Juin 2002
Le gradient est orthogonal aux lignes
d iso cot : argument la Taylor
Algorithme de gradient : illustration
dans le plan w
1
,w
2

+
Minimum du cot Lignes d iso-cot :
J(W) = constante
Direction du gradient
J(W)
w
1
w
2
Les rseaux de neurones pour lapprentissage
ESSEC, le 28 Juin 2002
3 solutions
( ) ( ) ( )
( ) ( )
( ) ( )
( ) ( ) ( )
sigmoide) fonction la (
) ( ) ( avec ' 2
) (
signe fonction la approche qui drivable fonction une est
2
) (
PERCEPTRON : 1 '
2
) (
ADALINE : linaire ion approximat
' 2
) (
: gradient le
1
1
1
1
x th x x Wx y Wx
W
W J
x y Wx
W
W J
x y Wx
W
W J
x Wx y Wx
W
W J
i i
n
i
i i
i
n
i
i i
i
n
i
i i
i i
n
i
i i
= =
c
c
=
c
c
=
=
c
c
=
c
c

=
=
=
=


LE NEURONE FORMEL
Les rseaux de neurones pour lapprentissage
ESSEC, le 28 Juin 2002
Algorithme itratif
nbitemax = 50;
k=0;
while ((cout > 0) & (k<nbitemax))
K=K+1;
ind = randperm(length(X));
for i=1:length(X)
Dir = (sign(X(ind(i),:)*W)-yi(ind(i)))*X(ind(i),:);
W = W - pas*Dir';
end

cout = sum(abs(sign(X*W)-yi));
disp([k cout]);

end
Stabilisation du cot (erreur relative)
Randomisation (ok si n grand)
valuation du cot : n oprations
Les rseaux de neurones pour lapprentissage
ESSEC, le 28 Juin 2002
-6 -4 -2 0 2 4 6 8 10
-4
-3
-2
-1
0
1
2
3
4
5
6
ADALINE, a marche...
Les rseaux de neurones pour lapprentissage
ESSEC, le 28 Juin 2002
-2 -1 0 1 2 3 4 5 6
-3
-2
-1
0
1
2
3
ADALINE des fois
a ne marche pas
Solution au sens des moindres carrs
Les rseaux de neurones pour lapprentissage
ESSEC, le 28 Juin 2002
-6 -4 -2 0 2 4 6 8 10
-4
-3
-2
-1
0
1
2
3
4
5
6
Le Perceptron, des fois
a ne marche pas...
...Quand les exemples ne sont pas linairement sparables
Les rseaux de neurones pour lapprentissage
ESSEC, le 28 Juin 2002 Rgle du perceptron
(Rosenblatt 1958)
codage
( ) ( )

+
=

<
>
=
c
c
=

= =
= =
=
c
c
c
c
=
class bien ' si
class mal ' si '
0 si '
0 si 0
) (
1 ' et
1 si '
1 si '
codage

) (
) (
i old
i i old
new
i i
i
i
i i i
i i i
i i i
old new
x w
x x w
w
Wx x
Wx
W
W J
y
y x x
y x x
x y Wx
W
W J
W
W J
w w

Les rseaux de neurones pour lapprentissage


ESSEC, le 28 Juin 2002 Rgle du perceptron
(Rosenblatt 1958)
Pas de fonction cot minimise
preuve de convergence
(dans le cas linairement sparable)
| |
modif) de (nombre
avec min
0 , 1
) (hypothse monde le bien tout classe qui un vecteur soit
class mal est ou fois de nombre le avec
0
1
*
1
* *
*
*
1

= =
=
= > =
> e
=
=
+ =
n
i
i
i
i
n
i
i i
i
i i
n
i
i i
init
i old new
m M w x M w x m ww
w x n i
w
x m x m w
w
x w w

Les rseaux de neurones pour lapprentissage


ESSEC, le 28 Juin 2002 Rgle du perceptron
(Rosenblatt 1958)
( )
' ' '
' ' ' : 2 et 1
max avec : 2
itrations aprs donc et
max

2
avec min : 1
2
2
2
*
2
2
* 2
2
2
2
2
2
2 2
2
2
2
2
2
2 2
1
*
1
* *
Mk w M k
Mc w w ww M c
x c Mc w
M
x w w
x w
x w x w w
m M w x M w x m ww
x w w
i
i
i
i
old new
i old
i old i old new
n
i
i
i
i
n
i
i i
i old new
s s
s s s
= s
s
+ s
+ + =
= > =
+ =

= =

Les rseaux de neurones pour lapprentissage


ESSEC, le 28 Juin 2002
Convergence des algorithmes de gradient
converge algorithme l' Alors
convexe cout
0 lim et lim si
) (
1
2
1
1
= =
c
c
=

=

=

+
k
j
k
k
k
j
k
k
k k k
W
W J
w w

Les rseaux de neurones pour lapprentissage


ESSEC, le 28 Juin 2002
Performances des algorithmes linaires
( )
( )
( )
2 / 2 *
* * *
1
) (
2
1 2 )

(
, / 2 1 , , de jointe loi la
) ( ) ( min arg
cout son et monde) (du linaire r classifieu meilleur
) ( min arg


empirique risque du on minimisati
exemples
1
) (
: erreurs des frquence : age apprentiss d' erreur
) ( ) (
: erreur d' probabilit erreur
c c
c
c
n d
D
emp
D
n
i
y x D emp
d
e
d
n
e J D J P
d n n d Y X
D J J D J D
D J D
n I
n
D J
R X Y X D P D J
i i

=
=
|
|
.
|

\
|
+ |
.
|

\
|
s + >
> > >
= =
=
=
e = =
=

Thorme (Vapnik & Chervonenkis, 1974)


Les rseaux de neurones pour lapprentissage
ESSEC, le 28 Juin 2002
Performances des algorithmes linaires
( )
( )
2 / 2 *
* * *
2
1 2 )

(
, / 2 1 , , de jointe loi la
) ( ) ( min arg
cout son et monde) (du linaire r classifieu meilleur
) ( min arg

: empirique risque du on minimisati


dimension en exemples
c c
c
c
n d
D
emp
D
e
d
n
e J D J P
d n n d Y X
D J J D J D
D J D
d n

|
|
.
|

\
|
+ |
.
|

\
|
s + >
> > >
= =
=
Thorme (Vapnik & Chervonenkis, 1974)
Probabilit
derreur
risque
empirique
Maldiction
de la dimensionnalit
Asymptotiquement
jouable
prcision
borne
Les rseaux de neurones pour lapprentissage
ESSEC, le 28 Juin 2002 Conclusion
Neurone formel = Modle linraire

Estimation des paramtres
directe
rapide - n
3

itrative
lent - apprentissage au coup par coup
OCR : n=10
6

Vous aimerez peut-être aussi