Topico6 07 Comp1

Tpicos
TCNICAS DE OTIMIZAO NONOLINEAR IRRESTRITA APLICADAS AO

TREINAMENTO DE REDES NEURAIS
DE MLTIPLAS CAMADAS
Material Complementar ao Tpico 6 do

Curso IA353 1s2007
IA353 - Redes Neurais
Leandro Nunes de Castro
Fernando Jos Von Zuben
FEEC/Unicamp 2001
Propagao do sinal
Retro-propagao do erro
Camada
de entrada
Teoria de
anlise numrica
Aproximao
de funes
reas de atuao cientfica a serem abrangidas
u1
b1
f1
y2
W2
u2
b2
f2
y3
W3
u3
Local (on-line): atualizao imediatamente aps a

apresentao de cada amostra.
Em lote (off-line, batch): atualizao aps a
apresentao de todo o conjunto de dados.
f3
b3
Retro-propagao
das sensibilidades
.
f1
.
f2
(W2)T
Camada
de sada
Treinamento:
y1
Segunda
camada
escondida
Treinamento e critrios de parada
Propagao dos sinais
W1
Primeira
camada
escondida
Abordagem matricial para o algoritmo de

retro-propagao (backpropagation)
x
Taxa de
convergncia
Utilizao de tcnicas de otimizao no-linear irrestrita para

o treinamento de redes do tipo MLP
Teoria de
otimizao
Redes de mltiplas camadas

MLP - Multilayer Perceptron
Motivao
Estmulo inicial
Potencial de aplicao na anlise e sntese de problemas nolineares
Aplicao de redes MLP a problemas de mundo real
Garantia de
convergncia
Introduo (motivao)
Redes de mltiplas camadas
Algoritmo de retropropagao
Treinamento e critrios de parada
Superfcies de erro e mnimos locais
Abordagem (forma de anlise)
Aproximao de funes
Algoritmos de otimizao
Detalhes de implementao e variaes
Taxas de aprendizagem globais
Algoritmos
Exemplos de aplicao
Critrios de parada:
.
f3
(W3)T
2 (y s)
||J()|| < 1
J() < 2
J() < 3
Outras funes de custo
Superfcies de erro e mnimos locais (I)

x0
Srie de Taylor
F (x) = F (x*) + F (x)T
Critrios de parada
|| J( )|| = 0
m n im o
gl ob a l da
s u p erfcie
d e e rro

F ( x ) =
F ( x)
x1
d e s eja d o
Mnimos locais
-5
-10
Mnimo local
-15
-20
Mnimo global
-2
-1.5
-1
-0.5
0.5
1.5
1
(x x*) + ( x x*)T 2 F (x)T
2
F ( x) K
F ( x)
x2
xn
x = x*
(x x*) + ...
2
F ( x)
x1xn
2
2
F
F
x
x
L
(
)
(
)
x2xn
x22
M
M
2
2
F ( x) L
F
x
(
)
2
xn x2
xn
2
F ( x)
2
x1
2

F ( x)
2 F (x) = x2x1
M
2

F ( x)
xn x1
10
x = x*
2
F ( x) L
x1x2
Mnimos
Aproximao em Taylor - Exemplo
Local:
F ( x) = cos( x)
O ponto x* um mnimo local de F(x)

se existe um escalar > 0,
tal que F(x*) < F(x + x) para todo
x tal que 0 < ||x|| < .
Expanso em Taylor para F(x) em torno do ponto x = 0:

F ( x) = 1
1 2 1 4
x +
x +L
2
24
Global:
cos(x)
O ponto x* um mnimo global nico

de F(x) se F(x*) < F(x + x) para
todo x 0.
2
F4(x)
-1
-1
F0(x)
10
F2(x)
-5
-10
-2
-6
-3
-2
-6
Mnimo local
-3
-15
Mnimo global
-20
Exemplos de comportamento local
-2
-1.5
-1
-0.5
0.5
1.5
10
Superfcies de erro e mnimos locais (II)

0.75
0.7
0.65
0.6
0.55
v02
0.5
0.45
0.4
w01
w11
v11
y
w12
0.3
0
10
15
20
25
30
Funo a ser aproximada
11
v21
0.35
0.25
v01
35
40
45
Rede para aproximao
12
Superfcies de erro e mnimos locais (III)
Superfcies de erro e mnimos locais (IV)
Plat
15
10
10
10
Vales
-2
10
10
0
-5
15
0
10
-6
0
5
-4
15
10
0.5
0
15
-5
-5
Mnimo local
1.5
Mnimo global
10
-10
-10
Superfcie do erro quadrtico e seu contorno em relao aos pesos v11 e w11
-8
-5
-5
-8
-6
-4
-2
-5
-10
10
-10
Superfcie do erro quadrtico e seu contorno em relao aos limiares v01 e w01
13
14
Aproximao de funes
Abordagem
Representar o treinamento sob a forma de
aproximao de funes
minimizao de um
funcional de erro (J)
Aproximao quadrtica do funcional J (Taylor)
Aproximar: g(.): X m r
Modelo: g (., ) :X P r, onde P (P finito)
Dados: {(xl , sl )}lN=1 amostrados da forma
s l = g (x l ) + l
Jquad() = J (i ) + J (i )T ( i ) + ( i )T 2 J (i )( i )
* P tal que dist(g(.), g (., *)) dist(g(.), g (., ) ), para todo

P
vetor gradiente
J () matriz hessiana
Nvel de aproximao:
J ()
2
J ( )
Objetivo: * = arg min
P
Processo iterativo de soluo:
J () =
1
N
Otimizao: * = arg minP J ()

i 0
l =1
Erros:
i+1 = i + idi ,
( g (x) g (x, ))2
representao (bias)
generalizao (varincia)
otimizao
15
16
Algoritmo padro (BP)
Mtodo do gradiente (GRAD)
Mtodo de Newton (MN)
Mtodo de Levenberg-Marquardt (LM)
1a ordem
ESTRATGIAS DE TREINAMENTO
2a
ordem
1a ORDEM
SEM DIFERENCIAO
2a ORDEM
EMPRICOS
Mtodo do gradiente conjugado (GC)

Mtodo de Fletcher & Reeves (FR)
Mtodo de Polak-Ribire (PR)
2a ordem
(grad. conjugado)
GA
SA
BP
GRAD
CG
N-LM
FR
PR
OSS
QN
QP
MOD .
Gradiente conjugado escalonado (SCG)

Davidon-Fletcher-Powell (DFP)
Broyden-Fletcher-Goldfarb-Shanno (BFGS)
One-Step Secant (OSS)
2a ordem
(quase-Newton)
SCG
DFP
BFGS
2a ordem
17
18
Complexidade Computacional
Mtodos de 1a ordem (I)
P: graus de liberdade do modelo

N: nmero de amostras
Algoritmo padro (BP)
flops/iterao
passo fixo
i+1 = i + .di +.i1,
i 0
momento
Mtodo do gradiente (GRAD)

Busca simples do passo
J ()
d=
J ()
i+1 = i i
J (i )
J (i )
19
Os mtodos de segunda ordem (QN & GC) foram

projetados para problemas quadrticos
Busca
unidimensional
i +1 = i + d i + i 1 + i 2 ,
i0
1
3
xi ,n x i
xi =
1
N
n=1 xi,n
N
1
N
( xi,n xi,n ) 2
N 1 n=1
i =
Boa
GRAD
(N l + P)
(2P + N)
Boa
NM
(NP + 3P2)
(2P + N + P2)
Pobre
LM
(NP + 2P2)
(2P + N + P2)
Pobre
DFP
(NP + P2)
(2P + N + P2)
Pobre
BFGS
(NP + P2)
(2P + N + P2)
Pobre
OSS
(NP + 2P)
(3P + N)
Mdia
PR
(NP + 2P)
(3P + N)
Mdia
FR
(NP + 2P)
(3P + N)
Mdia
SCGM
(NP + P)
(3P + N)
Mdia
QUICK
(NP + 2P)
(3P + N )
Mdia
mtodo do gradiente (GRAD)

mtodo de Newton (MN)
mtodo de Davidon-Fletcher-Powell (DFP)
mtodo de gradiente conjugado (GC)
22
21
5
20
Minimizar: f (x1, x2) = (x1 2)4 +(x1 2x2)2

Mnimo: f (2, 1) = 0
Ponto inicial: (x1, x2) = (0, 0)
Estratgias:
1 + e x
Normalizao dos dados de entrada:

x i ,n =
(2P + N)
Variao do ganho da funo de ativao:

f ( x) =
paralelizabilidade
(N l)
Exemplo 2: Propriedades de convergncia
Reinicializao
do algoritmo
Momento de segunda ordem:
Memria
BP
Algoritmos de otimizao no-linear

irrestrita
Detalhes de implementao/Variaes
tanh(x)
l: nmero de unidades na
camada intermediria
Taxas de Aprendizagem Globais (I)
4
3.5
X2
X2
2
2
1.5
T A X A S D E A PR E N D IZ A G E M G L O B A IS
3
2.5
(139)
GRAD
1
0.5
0
0
2
X1
X1
(1)
MN
3.5
SIM PL E S
IN T E R V A L O D E
IN C E R T E Z A S
Determinao da taxa
Busca inexata
2.5
X2 3
X2 2
1.5
1
0.5
0
BUSC A
D E T E R M IN A O
(F IX A /D E C R E S CE NT E )
2
X1
(9)
GC
(13)
DFP
1
0
3
X1
simples
M IN IM IZ A O
D A FU N O
Busca exata
mtodo de Fibonacci
mtodo da Seo urea
mtodo da Falsa Posio
23
24
Taxas de Aprendizagem Globais (II)
Algoritmos
Busca Simples
( )
1. i = t a i ; ip+1 = i i J ( i ) ; calcule J ip+ 1

J ( i )
( )
1.5
2. Enquanto J ip+ 1 J(i) faa:
2.1.
i = tr i
2.2.
ip+1 = i i
0.5
0
10
5
10
0
-5
3. i ip
-5
-10
J ( i )
J ( i )
0
-10
4. Teste a condio de parada.
Garantia de ajustes minimizantes

Encontrar um valor timo para i (0, ]
Subproblema: min J(i + idi)
i( 0, ]
Busca unidimensional: d P fixo
Falsa posio
1. Escolha um valor arbitrrio para dN (critrio de parada)
2. Enquanto
i - i 1
dN faa:
i
2.1. i +1 = i J ( i ).
i 1 i
J ( i 1 ) J ( i )
3. Teste a condio de parada
25
Taxas de Aprendizagem Globais (III)
26
Algoritmos - Seo urea

1. (a1, b1) - intervalo inicial de incertezas
Exemplo 3: Busca simples
2. Escolha um valor arbitrrio para dN (critrio de parada)
Taxa de Aprendizagem
5 1
= 0.618 - razo urea
2
3. =
0.4
4. 1 = a1 + (1 )(b1 a1 ) e 1 = a1 + (b1 a1 )
0.35
5. J(1) e J(1)
0.3
a1 - b1
6. Enquanto
Alfa
0.25
f
6.1.1.
0.2
0.15
0.1
Faa:
ai+1 = i e bi+1 = bi
i+1 = i e i+1 = ai +1 + (bi +1 ai +1 )
J(i+1)
6.1.2.
0.05
0
dN faa:
6.1. Se J(i) > J(i), v para 6.1.1; e se J(i) J(i), v para 6.1.2
10
15
20
25
30
35
pocas
Faa:
ai+1 = ai e bi+1 = i
i+1 = i e i+1 = ai +1 + (1 )(bi +1 ai +1 )
J(i+1)
7. Teste a condio de parada
27
28
Taxas de Aprendizagem Globais (V)
Taxas de Aprendizagem Globais (IV)
Avaliaes
6
Valor da funo
Problema: min f(xi + idi) s.a. (0, 1]

Onde: f (x1, x2) =(x1 2)4 +(x1 2x2)2
Mnimo: f (2, 1) = 0
Ponto inicial: (x1, x2) = (0, 0) e d = [1, -1]
Estratgias:
5
4
3
2
5
4
3
2
-1
-1
2
Pontos no inte rvalo
(20)
Fibonacci
Avaliaes
20
2
Pontos no inte rvalo
(20)
Seo urea
15
mtodo da Seo urea (GOLD)

mtodo de Fibonacci (FIB)
mtodo da Falsa Posio (FP)
Valor da funo
Valor da funo
Exemplo 4: Reduo do intervalo de incertezas
Avaliaes
10
29
Exemplo 4:
(6)
Falsa posio
0
0
2
3
Pontos no intervalo
30
Exemplo 2 entradas
Exemplo 2 entradas
Atualizao em lote: 625 amostras

EQM =
Parmetros:
1
.SSE SSE = EQM 2 .np
np
nh = 10; minerr = 0.64; maxep = 1000; val = 0.5;

dn = 0.001; cm = 0.9;
POCAS
||J()||
T(seg.)
flops 106
BP
1083
1.1706
208.25
369.99
GRAD
408
1.3187
82.26
155.18
FR
89
6.9876
94.01
168.64
PR
95
4.1929
108.31
182.46
OSS
87
6.3663
101.60
170.36
SCGM
35
7.3035
47.77
96.47
DFP
57
6.7290
94.01
168.64
BFGS
47
4.5784
50.20
99.86
31
32
Exemplo 2 entradas
Exemplo 2 entradas
Comportamento do SSE (soma dos erros quadrticos)
250
200
150
100
50
10
350
BP
300
GRAD
250
FR
200
PR
150
OSS
100
SCGM
Tem po (seg.)
Legenda:
GRAD
BPM
10
PR
FR
2
10
BFGS
DFP
DFP
50
SSE
400
BFGS
SCGM
10
Flops(xe6)
OSS
10
20
40
60
80
100
Epochs
33
34
Referncias (I)
Barnard, E., Optimization for Training Neural Nets, IEEE Trans. on Neural
Networks, vol. 3, n 2, 1992.
Battiti, R., First- and Second-Order Methods for Learning: Between Steepest
Descent and Newtons Method, Neural Computation, vol. 4, pp. 141-166, 1992.
Battiti, R., Learning with First, Second, and no Derivatives: A Case Study in
High Energy Physics, Neurocomputing, NEUCOM 270, vol. 6, pp. 181-206,
1994, URL: ftp:// ftp.cis.ohio-state.edu/pub/neuroprose/ battiti.neuro-hep.ps.Z.
Castro, L.N., Anlise e Sntese de Estratgias de Aprendizagem para redes
Neurais Artificiais, Tese de Mestrado, FEEC/UNICAMP, Outubro de 1998.
Fahlman, S.E., An Empirical Study of Learning Speed in Back-Propagation
Networks, Technical Report, September 1988, URL: ftp://archive.cis.ohiostate.edu/pub/neuroprose/ fahlman.quickprop-tr.ps.Z
Fiesler, E., Comparing Parameterless Learning Rate Adaptation Methods,
Proceedings of the ICNN97, pp. 1082-1087, 1997.
Finschi, L., An Implementation of the Levenberg-Marquardt Algorithm,
Technical Report, April 1996, URL:
http://www.ifor.math.ethz.ch/staff/finschi/Papers/ LevMar.ps.gz.
Groot, C. de & Wrtz, D., Plain Backpropagation and Advanced Optimization
Algorithms: A Comparative Study, NEUCOM 291, vol. 6, pp.153-161, 1994. 35
Referncias (II)
Haygan, M.T., Training Feedforward Networks with the Marquardt

Algorithm, IEEE Trans. on Neural Networks, vol. 5, n 6, pp. 989-993, 1994.
Jacobs, R.A., Increased Rates of Convergence Through Learning Rate
Adaptation, Neural Networks, vol. 1, pp. 295-307, 1988, URL:
http://www.cs.umass.edu/Dienst/UI/2.0/Describe/ncstrl.umassa_cs %2fUMCS-1987-117
Jondarr, C.G.H., Back Propagation Family Album, Technical Report
C/TR96-5, 1996, URL:
ftp://ftp.mpce.mq.edu.au/pub/comp/techreports/96C005.gibb.ps.
Joost, M. & Schiffman, W., Speeding Up Backpropagation Algorithms by
Using Cross-Entropy Combined With Pattern Normalization, International
Journal of Uncertainty, Fuzzyness and Knowledge-Based Systems, 1993, URL:
http://www.uni-koblenz.de/~schiff/ cenprop_eng.ps.gz
Moller, M.F., A Scaled Conjugate Gradient Algorithm for Fast Supervised
Learning, Neural Networks, vol. 6, pp. 525-533, 1993.
Pearlmutter, B.A., Fast Exact Calculation by the Hessian, Neural
Computation, vol. 6, pp. 147-160, 1994, URL: ftp://ftp.cis.ohiostate.edu/pub/neuroprose/pearlmutter. hessian.ps.Z.
36
Referncias (III)
Shepherd, A.J., Second-Order Methods for Neural Networks Fast and

Reliable Methods for Multi-Layer Perceptrons, Springer, 1997.
Shewchuk, J.R., An Introduction to the Conjugate Gradient Method Without
the Agonizing Pain, Technical Report, 1994, URL: http://www.cs.cmu.edu/
afs/cs/project/quake/public/papers/painless-conjugate-gradient.ps.
Schiffman, W., Joost, M., & Werner, R., Optimization of the
Backpropagation Algorithm for Training Multilayer Perceptrons, Technical
Report, 1994, URL: ftp://archive.cis.ohio-state.edu/pub/neuroprose/schiff.
bp_speedup.ps.Z.
Stger, F., & Agarwal, M., Three Methods to Speed up the Training of
Feedforward and Feedback Perceptrons, Neural Networks, vol. 10, n 8, pp.
1435-1443, 1997.
Van Der Smagt, P., P, Minimization Methods for Training Feedforward
Neural networks, Neural Networks, vol 1, n 7, 1994, URL:
http://www.op.dlr.de/~smagt/ papers/SmaTB92.ps.gz
Von Zuben, F.J., Modelos Paramtricos e No-Paramtricos de Redes
neurais Artificiais e Aplicaes, Tese de Doutorado, Faculdade de
Engenharia Eltrica, Unicamp, 1996.
37

Topico6 07 Comp1

Transféré par

Informations du document

Description originale:

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Topico6 07 Comp1

Transféré par

Droits d'auteur :

Formats disponibles

Tpicos

TCNICAS DE OTIMIZAO NONOLINEAR IRRESTRITA APLICADAS AO

Material Complementar ao Tpico 6 do

reas de atuao cientfica a serem abrangidas

Local (on-line): atualizao imediatamente aps a

Treinamento e critrios de parada

Propagao dos sinais

Abordagem matricial para o algoritmo de

Utilizao de tcnicas de otimizao no-linear irrestrita para

Redes de mltiplas camadas

Superfcies de erro e mnimos locais (I)

Aproximao em Taylor - Exemplo

O ponto x* um mnimo local de F(x)

Expanso em Taylor para F(x) em torno do ponto x = 0:

O ponto x* um mnimo global nico

Exemplos de comportamento local

Superfcies de erro e mnimos locais (II)

Funo a ser aproximada

Rede para aproximao

Superfcies de erro e mnimos locais (III)

Superfcies de erro e mnimos locais (IV)

* P tal que dist(g(.), g (., *)) dist(g(.), g (., ) ), para todo

Otimizao: * = arg minP J ()

( g (x) g (x, ))2

Mtodo do gradiente conjugado (GC)

Gradiente conjugado escalonado (SCG)

Mtodos de 1a ordem (I)

P: graus de liberdade do modelo

Algoritmo padro (BP)

Mtodo do gradiente (GRAD)

Os mtodos de segunda ordem (QN & GC) foram

mtodo do gradiente (GRAD)

Minimizar: f (x1, x2) = (x1 2)4 +(x1 2x2)2

Normalizao dos dados de entrada:

Variao do ganho da funo de ativao:

Exemplo 2: Propriedades de convergncia

Momento de segunda ordem:

Algoritmos de otimizao no-linear

Taxas de Aprendizagem Globais (I)

Taxas de Aprendizagem Globais (II)

1. i = t a i ; ip+1 = i i J ( i ) ; calcule J ip+ 1

2. Enquanto J ip+ 1 J(i) faa:

4. Teste a condio de parada.

Garantia de ajustes minimizantes

1. Escolha um valor arbitrrio para dN (critrio de parada)

3. Teste a condio de parada

Taxas de Aprendizagem Globais (III)

Algoritmos - Seo urea

Exemplo 3: Busca simples

2. Escolha um valor arbitrrio para dN (critrio de parada)

i+1 = i e i+1 = ai +1 + (bi +1 ai +1 )

i+1 = i e i+1 = ai +1 + (1 )(bi +1 ai +1 )

7. Teste a condio de parada

Taxas de Aprendizagem Globais (V)

Taxas de Aprendizagem Globais (IV)

Problema: min f(xi + idi) s.a. (0, 1]

mtodo da Seo urea (GOLD)

Exemplo 4: Reduo do intervalo de incertezas

Atualizao em lote: 625 amostras

nh = 10; minerr = 0.64; maxep = 1000; val = 0.5;

Haygan, M.T., Training Feedforward Networks with the Marquardt

Shepherd, A.J., Second-Order Methods for Neural Networks Fast and