Académique Documents
Professionnel Documents
Culture Documents
Propagao do sinal
Retro-propagao do erro
Camada
de entrada
Teoria de
anlise numrica
Aproximao
de funes
u1
b1
f1
y2
W2
u2
b2
f2
y3
W3
u3
f3
b3
Retro-propagao
das sensibilidades
.
f1
.
f2
(W2)T
Camada
de sada
Treinamento:
y1
Segunda
camada
escondida
W1
Primeira
camada
escondida
Taxa de
convergncia
Motivao
Estmulo inicial
Potencial de aplicao na anlise e sntese de problemas nolineares
Aplicao de redes MLP a problemas de mundo real
Garantia de
convergncia
Introduo (motivao)
Redes de mltiplas camadas
Algoritmo de retropropagao
Treinamento e critrios de parada
Superfcies de erro e mnimos locais
Abordagem (forma de anlise)
Aproximao de funes
Algoritmos de otimizao
Detalhes de implementao e variaes
Taxas de aprendizagem globais
Algoritmos
Exemplos de aplicao
Critrios de parada:
.
f3
(W3)T
2 (y s)
||J()|| < 1
J() < 2
J() < 3
Outras funes de custo
Srie de Taylor
F (x) = F (x*) + F (x)T
Critrios de parada
|| J( )|| = 0
m n im o
gl ob a l da
s u p erfcie
d e e rro
F ( x ) =
F ( x)
x1
d e s eja d o
Mnimos locais
-5
-10
Mnimo local
-15
-20
Mnimo global
-2
-1.5
-1
-0.5
0.5
1.5
1
(x x*) + ( x x*)T 2 F (x)T
2
F ( x) K
F ( x)
x2
xn
x = x*
(x x*) + ...
2
F ( x)
x1xn
2
2
F
F
x
x
L
(
)
(
)
x2xn
x22
M
M
2
2
F ( x) L
F
x
(
)
2
xn x2
xn
2
F ( x)
2
x1
2
F ( x)
2 F (x) = x2x1
M
2
F ( x)
xn x1
10
x = x*
2
F ( x) L
x1x2
Mnimos
Local:
F ( x) = cos( x)
1 2 1 4
x +
x +L
2
24
Global:
cos(x)
2
F4(x)
-1
-1
F0(x)
10
F2(x)
-5
-10
-2
-6
-3
-2
-6
Mnimo local
-3
-15
Mnimo global
-20
-2
-1.5
-1
-0.5
0.5
1.5
10
0.55
v02
0.5
0.45
0.4
w01
w11
v11
y
w12
0.3
0
10
15
20
25
30
11
v21
0.35
0.25
v01
35
40
45
12
Plat
15
10
10
10
Vales
-2
10
10
0
-5
15
0
10
-6
0
5
-4
15
10
0.5
0
15
-5
-5
Mnimo local
1.5
Mnimo global
10
-10
-10
Superfcie do erro quadrtico e seu contorno em relao aos pesos v11 e w11
-8
-5
-5
-8
-6
-4
-2
-5
-10
10
-10
Superfcie do erro quadrtico e seu contorno em relao aos limiares v01 e w01
13
14
Aproximao de funes
Abordagem
Representar o treinamento sob a forma de
aproximao de funes
minimizao de um
funcional de erro (J)
Aproximao quadrtica do funcional J (Taylor)
Aproximar: g(.): X m r
Modelo: g (., ) :X P r, onde P (P finito)
Dados: {(xl , sl )}lN=1 amostrados da forma
s l = g (x l ) + l
Jquad() = J (i ) + J (i )T ( i ) + ( i )T 2 J (i )( i )
vetor gradiente
J () matriz hessiana
Nvel de aproximao:
J ()
2
J ( )
Objetivo: * = arg min
P
Processo iterativo de soluo:
J () =
1
N
l =1
Erros:
i+1 = i + idi ,
representao (bias)
generalizao (varincia)
otimizao
15
16
Algoritmos de otimizao
Algoritmos de otimizao
Algoritmo padro (BP)
Mtodo do gradiente (GRAD)
Mtodo de Newton (MN)
Mtodo de Levenberg-Marquardt (LM)
1a ordem
ESTRATGIAS DE TREINAMENTO
2a
ordem
1a ORDEM
SEM DIFERENCIAO
2a ORDEM
EMPRICOS
2a ordem
(grad. conjugado)
GA
SA
BP
GRAD
CG
N-LM
FR
PR
OSS
QN
QP
MOD .
2a ordem
(quase-Newton)
SCG
DFP
BFGS
2a ordem
17
18
Complexidade Computacional
flops/iterao
passo fixo
i+1 = i + .di +.i1,
i 0
momento
J ()
d=
J ()
i+1 = i i
J (i )
J (i )
19
i +1 = i + d i + i 1 + i 2 ,
i0
1
3
xi ,n x i
xi =
1
N
n=1 xi,n
N
1
N
( xi,n xi,n ) 2
N 1 n=1
i =
Boa
GRAD
(N l + P)
(2P + N)
Boa
NM
(NP + 3P2)
(2P + N + P2)
Pobre
LM
(NP + 2P2)
(2P + N + P2)
Pobre
DFP
(NP + P2)
(2P + N + P2)
Pobre
BFGS
(NP + P2)
(2P + N + P2)
Pobre
OSS
(NP + 2P)
(3P + N)
Mdia
PR
(NP + 2P)
(3P + N)
Mdia
FR
(NP + 2P)
(3P + N)
Mdia
SCGM
(NP + P)
(3P + N)
Mdia
QUICK
(NP + 2P)
(3P + N )
Mdia
21
Algoritmos de otimizao
5
20
1 + e x
(2P + N)
paralelizabilidade
(N l)
Reinicializao
do algoritmo
Memria
BP
Detalhes de implementao/Variaes
tanh(x)
l: nmero de unidades na
camada intermediria
4
3.5
X2
X2
2
2
1.5
T A X A S D E A PR E N D IZ A G E M G L O B A IS
3
2.5
(139)
GRAD
1
0.5
0
0
2
X1
X1
(1)
MN
3.5
SIM PL E S
IN T E R V A L O D E
IN C E R T E Z A S
Determinao da taxa
Busca inexata
2.5
X2 3
X2 2
1.5
1
0.5
0
BUSC A
D E T E R M IN A O
(F IX A /D E C R E S CE NT E )
2
X1
(9)
GC
(13)
DFP
1
0
3
X1
simples
M IN IM IZ A O
D A FU N O
Busca exata
mtodo de Fibonacci
mtodo da Seo urea
mtodo da Falsa Posio
23
24
Algoritmos
Busca Simples
( )
( )
1.5
2.1.
i = tr i
2.2.
ip+1 = i i
0.5
0
10
5
10
0
-5
3. i ip
-5
-10
J ( i )
J ( i )
0
-10
Falsa posio
2. Enquanto
i - i 1
dN faa:
i
2.1. i +1 = i J ( i ).
i 1 i
J ( i 1 ) J ( i )
25
26
Taxa de Aprendizagem
5 1
= 0.618 - razo urea
2
3. =
0.4
4. 1 = a1 + (1 )(b1 a1 ) e 1 = a1 + (b1 a1 )
0.35
5. J(1) e J(1)
0.3
a1 - b1
6. Enquanto
Alfa
0.25
f
6.1.1.
0.2
0.15
0.1
Faa:
ai+1 = i e bi+1 = bi
J(i+1)
6.1.2.
0.05
0
dN faa:
6.1. Se J(i) > J(i), v para 6.1.1; e se J(i) J(i), v para 6.1.2
10
15
20
25
30
35
pocas
Faa:
ai+1 = ai e bi+1 = i
J(i+1)
27
28
Avaliaes
6
Valor da funo
5
4
3
2
5
4
3
2
-1
-1
2
Pontos no inte rvalo
(20)
Fibonacci
Avaliaes
20
2
Pontos no inte rvalo
(20)
Seo urea
15
Valor da funo
Valor da funo
Avaliaes
10
29
Exemplo 4:
(6)
Falsa posio
0
0
2
3
Pontos no intervalo
30
Exemplo 2 entradas
Exemplo 2 entradas
Parmetros:
1
.SSE SSE = EQM 2 .np
np
POCAS
||J()||
T(seg.)
flops 106
BP
1083
1.1706
208.25
369.99
GRAD
408
1.3187
82.26
155.18
FR
89
6.9876
94.01
168.64
PR
95
4.1929
108.31
182.46
OSS
87
6.3663
101.60
170.36
SCGM
35
7.3035
47.77
96.47
DFP
57
6.7290
94.01
168.64
BFGS
47
4.5784
50.20
99.86
31
32
Exemplo 2 entradas
Exemplo 2 entradas
Comportamento do SSE (soma dos erros quadrticos)
250
200
150
100
50
10
350
BP
300
GRAD
250
FR
200
PR
150
OSS
100
SCGM
Tem po (seg.)
Legenda:
GRAD
BPM
10
PR
FR
2
10
BFGS
DFP
DFP
50
SSE
400
BFGS
SCGM
10
Flops(xe6)
OSS
10
20
40
60
80
100
Epochs
33
34
Referncias (I)
Barnard, E., Optimization for Training Neural Nets, IEEE Trans. on Neural
Networks, vol. 3, n 2, 1992.
Battiti, R., First- and Second-Order Methods for Learning: Between Steepest
Descent and Newtons Method, Neural Computation, vol. 4, pp. 141-166, 1992.
Battiti, R., Learning with First, Second, and no Derivatives: A Case Study in
High Energy Physics, Neurocomputing, NEUCOM 270, vol. 6, pp. 181-206,
1994, URL: ftp:// ftp.cis.ohio-state.edu/pub/neuroprose/ battiti.neuro-hep.ps.Z.
Castro, L.N., Anlise e Sntese de Estratgias de Aprendizagem para redes
Neurais Artificiais, Tese de Mestrado, FEEC/UNICAMP, Outubro de 1998.
Fahlman, S.E., An Empirical Study of Learning Speed in Back-Propagation
Networks, Technical Report, September 1988, URL: ftp://archive.cis.ohiostate.edu/pub/neuroprose/ fahlman.quickprop-tr.ps.Z
Fiesler, E., Comparing Parameterless Learning Rate Adaptation Methods,
Proceedings of the ICNN97, pp. 1082-1087, 1997.
Finschi, L., An Implementation of the Levenberg-Marquardt Algorithm,
Technical Report, April 1996, URL:
http://www.ifor.math.ethz.ch/staff/finschi/Papers/ LevMar.ps.gz.
Groot, C. de & Wrtz, D., Plain Backpropagation and Advanced Optimization
Algorithms: A Comparative Study, NEUCOM 291, vol. 6, pp.153-161, 1994. 35
Referncias (II)
Referncias (III)