Vous êtes sur la page 1sur 7

Tpicos

TCNICAS DE OTIMIZAO NONOLINEAR IRRESTRITA APLICADAS AO


TREINAMENTO DE REDES NEURAIS
DE MLTIPLAS CAMADAS

Material Complementar ao Tpico 6 do


Curso IA353 1s2007
IA353 - Redes Neurais
Leandro Nunes de Castro
Fernando Jos Von Zuben
FEEC/Unicamp 2001

Propagao do sinal
Retro-propagao do erro
Camada
de entrada

Teoria de
anlise numrica

Aproximao
de funes

reas de atuao cientfica a serem abrangidas

u1

b1

f1

y2

W2

u2

b2

f2

y3

W3

u3

Local (on-line): atualizao imediatamente aps a


apresentao de cada amostra.
Em lote (off-line, batch): atualizao aps a
apresentao de todo o conjunto de dados.

f3

b3

Retro-propagao
das sensibilidades

.
f1

.
f2
(W2)T

Camada
de sada

Treinamento:
y1

Segunda
camada
escondida

Treinamento e critrios de parada

Propagao dos sinais

W1

Primeira
camada
escondida

Abordagem matricial para o algoritmo de


retro-propagao (backpropagation)
x

Taxa de
convergncia

Utilizao de tcnicas de otimizao no-linear irrestrita para


o treinamento de redes do tipo MLP
Teoria de
otimizao

Redes de mltiplas camadas


MLP - Multilayer Perceptron

Motivao
Estmulo inicial
Potencial de aplicao na anlise e sntese de problemas nolineares
Aplicao de redes MLP a problemas de mundo real
Garantia de
convergncia

Introduo (motivao)
Redes de mltiplas camadas
Algoritmo de retropropagao
Treinamento e critrios de parada
Superfcies de erro e mnimos locais
Abordagem (forma de anlise)
Aproximao de funes
Algoritmos de otimizao
Detalhes de implementao e variaes
Taxas de aprendizagem globais
Algoritmos
Exemplos de aplicao

Critrios de parada:

.
f3

(W3)T

2 (y s)

||J()|| < 1
J() < 2
J() < 3
Outras funes de custo

Superfcies de erro e mnimos locais (I)


x0

Srie de Taylor
F (x) = F (x*) + F (x)T

Critrios de parada
|| J( )|| = 0

m n im o
gl ob a l da
s u p erfcie
d e e rro


F ( x ) =
F ( x)
x1

d e s eja d o

Mnimos locais

-5

-10

Mnimo local

-15

-20

Mnimo global
-2

-1.5

-1

-0.5

0.5

1.5

1
(x x*) + ( x x*)T 2 F (x)T
2

F ( x) K
F ( x)
x2
xn

x = x*

(x x*) + ...

2
F ( x)
x1xn

2
2
F
F
x
x
L
(
)
(
)

x2xn
x22

M
M

2
2

F ( x) L
F
x
(
)
2

xn x2
xn

2
F ( x)

2
x1
2

F ( x)

2 F (x) = x2x1

M
2

F ( x)
xn x1

10

x = x*

2
F ( x) L
x1x2

Mnimos

Aproximao em Taylor - Exemplo

Local:

F ( x) = cos( x)

O ponto x* um mnimo local de F(x)


se existe um escalar > 0,
tal que F(x*) < F(x + x) para todo
x tal que 0 < ||x|| < .

Expanso em Taylor para F(x) em torno do ponto x = 0:


F ( x) = 1

1 2 1 4
x +
x +L
2
24

Global:

cos(x)

O ponto x* um mnimo global nico


de F(x) se F(x*) < F(x + x) para
todo x 0.

2
F4(x)

-1

-1

F0(x)

10

F2(x)

-5

-10

-2
-6

-3

-2
-6

Mnimo local

-3

-15

Mnimo global

-20

Exemplos de comportamento local

-2

-1.5

-1

-0.5

0.5

1.5

10

Superfcies de erro e mnimos locais (II)


0.75
0.7
0.65
0.6

0.55

v02

0.5
0.45

0.4

w01
w11

v11

y
w12

0.3
0

10

15

20

25

30

Funo a ser aproximada

11

v21

0.35

0.25

v01

35

40

45

Rede para aproximao

12

Superfcies de erro e mnimos locais (III)

Superfcies de erro e mnimos locais (IV)

Plat

15

10
10
10

Vales

-2

10

10

0
-5

15

0
10

-6

0
5

-4

15
10

0.5

0
15

-5
-5

Mnimo local

1.5

Mnimo global

10

-10
-10

Superfcie do erro quadrtico e seu contorno em relao aos pesos v11 e w11

-8

-5

-5

-8

-6

-4

-2

-5
-10

10

-10

Superfcie do erro quadrtico e seu contorno em relao aos limiares v01 e w01

13

14

Aproximao de funes

Abordagem
Representar o treinamento sob a forma de
aproximao de funes
minimizao de um
funcional de erro (J)
Aproximao quadrtica do funcional J (Taylor)

Aproximar: g(.): X m r
Modelo: g (., ) :X P r, onde P (P finito)
Dados: {(xl , sl )}lN=1 amostrados da forma

s l = g (x l ) + l

Jquad() = J (i ) + J (i )T ( i ) + ( i )T 2 J (i )( i )

* P tal que dist(g(.), g (., *)) dist(g(.), g (., ) ), para todo


P

vetor gradiente
J () matriz hessiana

Nvel de aproximao:

J ()
2

J ( )
Objetivo: * = arg min
P
Processo iterativo de soluo:

J () =

1
N

Otimizao: * = arg minP J ()


i 0

l =1

Erros:
i+1 = i + idi ,

( g (x) g (x, ))2

representao (bias)
generalizao (varincia)
otimizao
15

16

Algoritmos de otimizao

Algoritmos de otimizao
Algoritmo padro (BP)
Mtodo do gradiente (GRAD)
Mtodo de Newton (MN)
Mtodo de Levenberg-Marquardt (LM)

1a ordem
ESTRATGIAS DE TREINAMENTO

2a

ordem
1a ORDEM

SEM DIFERENCIAO

2a ORDEM

EMPRICOS

Mtodo do gradiente conjugado (GC)


Mtodo de Fletcher & Reeves (FR)
Mtodo de Polak-Ribire (PR)

2a ordem
(grad. conjugado)

GA

SA

BP

GRAD

CG

N-LM

FR

PR

OSS

QN

QP

MOD .

Gradiente conjugado escalonado (SCG)


Davidon-Fletcher-Powell (DFP)
Broyden-Fletcher-Goldfarb-Shanno (BFGS)
One-Step Secant (OSS)

2a ordem
(quase-Newton)

SCG

DFP

BFGS

2a ordem
17

18

Complexidade Computacional

Mtodos de 1a ordem (I)

P: graus de liberdade do modelo


N: nmero de amostras

Algoritmo padro (BP)

flops/iterao

passo fixo
i+1 = i + .di +.i1,

i 0

momento

Mtodo do gradiente (GRAD)


Busca simples do passo

J ()
d=
J ()
i+1 = i i

J (i )
J (i )
19

Os mtodos de segunda ordem (QN & GC) foram


projetados para problemas quadrticos
Busca
unidimensional

i +1 = i + d i + i 1 + i 2 ,

i0

1
3

xi ,n x i

xi =

1
N

n=1 xi,n
N

1
N
( xi,n xi,n ) 2
N 1 n=1

i =

Boa

GRAD

(N l + P)

(2P + N)

Boa

NM

(NP + 3P2)

(2P + N + P2)

Pobre

LM

(NP + 2P2)

(2P + N + P2)

Pobre

DFP

(NP + P2)

(2P + N + P2)

Pobre

BFGS

(NP + P2)

(2P + N + P2)

Pobre

OSS

(NP + 2P)

(3P + N)

Mdia

PR

(NP + 2P)

(3P + N)

Mdia

FR

(NP + 2P)

(3P + N)

Mdia

SCGM

(NP + P)

(3P + N)

Mdia

QUICK

(NP + 2P)

(3P + N )

Mdia

mtodo do gradiente (GRAD)


mtodo de Newton (MN)
mtodo de Davidon-Fletcher-Powell (DFP)
mtodo de gradiente conjugado (GC)
22

21

Algoritmos de otimizao
5

20

Minimizar: f (x1, x2) = (x1 2)4 +(x1 2x2)2


Mnimo: f (2, 1) = 0
Ponto inicial: (x1, x2) = (0, 0)
Estratgias:

1 + e x

Normalizao dos dados de entrada:


x i ,n =

(2P + N)

Variao do ganho da funo de ativao:


f ( x) =

paralelizabilidade

(N l)

Exemplo 2: Propriedades de convergncia

Reinicializao
do algoritmo

Momento de segunda ordem:

Memria

BP

Algoritmos de otimizao no-linear


irrestrita

Detalhes de implementao/Variaes

tanh(x)

l: nmero de unidades na
camada intermediria

Taxas de Aprendizagem Globais (I)

4
3.5

X2

X2
2

2
1.5

T A X A S D E A PR E N D IZ A G E M G L O B A IS

3
2.5

(139)
GRAD

1
0.5
0
0

2
X1

X1

(1)
MN

3.5

SIM PL E S

IN T E R V A L O D E
IN C E R T E Z A S

Determinao da taxa
Busca inexata

2.5

X2 3

X2 2
1.5

1
0.5
0

BUSC A

D E T E R M IN A O
(F IX A /D E C R E S CE NT E )

2
X1

(9)
GC

(13)
DFP

1
0

3
X1

simples

M IN IM IZ A O
D A FU N O

Busca exata
mtodo de Fibonacci
mtodo da Seo urea
mtodo da Falsa Posio

23

24

Taxas de Aprendizagem Globais (II)

Algoritmos

Busca Simples

( )

1. i = t a i ; ip+1 = i i J ( i ) ; calcule J ip+ 1


J ( i )

( )

1.5

2. Enquanto J ip+ 1 J(i) faa:

2.1.

i = tr i

2.2.

ip+1 = i i

0.5

0
10
5

10
0

-5

3. i ip

-5
-10

J ( i )
J ( i )

0
-10

4. Teste a condio de parada.

Garantia de ajustes minimizantes


Encontrar um valor timo para i (0, ]
Subproblema: min J(i + idi)
i( 0, ]
Busca unidimensional: d P fixo

Falsa posio

1. Escolha um valor arbitrrio para dN (critrio de parada)

2. Enquanto

i - i 1
dN faa:
i

2.1. i +1 = i J ( i ).

i 1 i
J ( i 1 ) J ( i )

3. Teste a condio de parada

25

Taxas de Aprendizagem Globais (III)

26

Algoritmos - Seo urea


1. (a1, b1) - intervalo inicial de incertezas

Exemplo 3: Busca simples

2. Escolha um valor arbitrrio para dN (critrio de parada)

Taxa de Aprendizagem

5 1
= 0.618 - razo urea
2

3. =

0.4

4. 1 = a1 + (1 )(b1 a1 ) e 1 = a1 + (b1 a1 )

0.35

5. J(1) e J(1)
0.3

a1 - b1

6. Enquanto

Alfa

0.25
f

6.1.1.

0.2
0.15
0.1

Faa:

ai+1 = i e bi+1 = bi

i+1 = i e i+1 = ai +1 + (bi +1 ai +1 )

J(i+1)

6.1.2.
0.05
0

dN faa:

6.1. Se J(i) > J(i), v para 6.1.1; e se J(i) J(i), v para 6.1.2

10

15

20

25

30

35

pocas

Faa:

ai+1 = ai e bi+1 = i

i+1 = i e i+1 = ai +1 + (1 )(bi +1 ai +1 )

J(i+1)

7. Teste a condio de parada

27

28

Taxas de Aprendizagem Globais (V)

Taxas de Aprendizagem Globais (IV)

Avaliaes

6
Valor da funo

Problema: min f(xi + idi) s.a. (0, 1]


Onde: f (x1, x2) =(x1 2)4 +(x1 2x2)2
Mnimo: f (2, 1) = 0
Ponto inicial: (x1, x2) = (0, 0) e d = [1, -1]
Estratgias:

5
4
3
2

5
4
3
2

-1

-1

2
Pontos no inte rvalo

(20)
Fibonacci

Avaliaes

20

2
Pontos no inte rvalo

(20)
Seo urea

15

mtodo da Seo urea (GOLD)


mtodo de Fibonacci (FIB)
mtodo da Falsa Posio (FP)

Valor da funo

Valor da funo

Exemplo 4: Reduo do intervalo de incertezas

Avaliaes

10

29

Exemplo 4:

(6)
Falsa posio

0
0

2
3
Pontos no intervalo

30

Exemplo 2 entradas

Exemplo 2 entradas

Atualizao em lote: 625 amostras


EQM =

Parmetros:

1
.SSE SSE = EQM 2 .np
np

nh = 10; minerr = 0.64; maxep = 1000; val = 0.5;


dn = 0.001; cm = 0.9;

POCAS

||J()||

T(seg.)

flops 106

BP

1083

1.1706

208.25

369.99

GRAD

408

1.3187

82.26

155.18

FR

89

6.9876

94.01

168.64

PR

95

4.1929

108.31

182.46

OSS

87

6.3663

101.60

170.36

SCGM

35

7.3035

47.77

96.47

DFP

57

6.7290

94.01

168.64

BFGS

47

4.5784

50.20

99.86

31

32

Exemplo 2 entradas

Exemplo 2 entradas
Comportamento do SSE (soma dos erros quadrticos)

250
200
150
100
50

10

350

BP

300

GRAD

250

FR

200

PR

150

OSS

100

SCGM

Tem po (seg.)

Legenda:
GRAD
BPM

10

PR
FR
2

10

BFGS
DFP

DFP

50

SSE

400

BFGS

SCGM

10

Flops(xe6)

OSS

10

20

40

60

80

100

Epochs

33

34

Referncias (I)

Barnard, E., Optimization for Training Neural Nets, IEEE Trans. on Neural
Networks, vol. 3, n 2, 1992.
Battiti, R., First- and Second-Order Methods for Learning: Between Steepest
Descent and Newtons Method, Neural Computation, vol. 4, pp. 141-166, 1992.
Battiti, R., Learning with First, Second, and no Derivatives: A Case Study in
High Energy Physics, Neurocomputing, NEUCOM 270, vol. 6, pp. 181-206,
1994, URL: ftp:// ftp.cis.ohio-state.edu/pub/neuroprose/ battiti.neuro-hep.ps.Z.
Castro, L.N., Anlise e Sntese de Estratgias de Aprendizagem para redes
Neurais Artificiais, Tese de Mestrado, FEEC/UNICAMP, Outubro de 1998.
Fahlman, S.E., An Empirical Study of Learning Speed in Back-Propagation
Networks, Technical Report, September 1988, URL: ftp://archive.cis.ohiostate.edu/pub/neuroprose/ fahlman.quickprop-tr.ps.Z
Fiesler, E., Comparing Parameterless Learning Rate Adaptation Methods,
Proceedings of the ICNN97, pp. 1082-1087, 1997.
Finschi, L., An Implementation of the Levenberg-Marquardt Algorithm,
Technical Report, April 1996, URL:
http://www.ifor.math.ethz.ch/staff/finschi/Papers/ LevMar.ps.gz.
Groot, C. de & Wrtz, D., Plain Backpropagation and Advanced Optimization
Algorithms: A Comparative Study, NEUCOM 291, vol. 6, pp.153-161, 1994. 35

Referncias (II)

Haygan, M.T., Training Feedforward Networks with the Marquardt


Algorithm, IEEE Trans. on Neural Networks, vol. 5, n 6, pp. 989-993, 1994.
Jacobs, R.A., Increased Rates of Convergence Through Learning Rate
Adaptation, Neural Networks, vol. 1, pp. 295-307, 1988, URL:
http://www.cs.umass.edu/Dienst/UI/2.0/Describe/ncstrl.umassa_cs %2fUMCS-1987-117
Jondarr, C.G.H., Back Propagation Family Album, Technical Report
C/TR96-5, 1996, URL:
ftp://ftp.mpce.mq.edu.au/pub/comp/techreports/96C005.gibb.ps.
Joost, M. & Schiffman, W., Speeding Up Backpropagation Algorithms by
Using Cross-Entropy Combined With Pattern Normalization, International
Journal of Uncertainty, Fuzzyness and Knowledge-Based Systems, 1993, URL:
http://www.uni-koblenz.de/~schiff/ cenprop_eng.ps.gz
Moller, M.F., A Scaled Conjugate Gradient Algorithm for Fast Supervised
Learning, Neural Networks, vol. 6, pp. 525-533, 1993.
Pearlmutter, B.A., Fast Exact Calculation by the Hessian, Neural
Computation, vol. 6, pp. 147-160, 1994, URL: ftp://ftp.cis.ohiostate.edu/pub/neuroprose/pearlmutter. hessian.ps.Z.
36

Referncias (III)

Shepherd, A.J., Second-Order Methods for Neural Networks Fast and


Reliable Methods for Multi-Layer Perceptrons, Springer, 1997.
Shewchuk, J.R., An Introduction to the Conjugate Gradient Method Without
the Agonizing Pain, Technical Report, 1994, URL: http://www.cs.cmu.edu/
afs/cs/project/quake/public/papers/painless-conjugate-gradient.ps.
Schiffman, W., Joost, M., & Werner, R., Optimization of the
Backpropagation Algorithm for Training Multilayer Perceptrons, Technical
Report, 1994, URL: ftp://archive.cis.ohio-state.edu/pub/neuroprose/schiff.
bp_speedup.ps.Z.
Stger, F., & Agarwal, M., Three Methods to Speed up the Training of
Feedforward and Feedback Perceptrons, Neural Networks, vol. 10, n 8, pp.
1435-1443, 1997.
Van Der Smagt, P., P, Minimization Methods for Training Feedforward
Neural networks, Neural Networks, vol 1, n 7, 1994, URL:
http://www.op.dlr.de/~smagt/ papers/SmaTB92.ps.gz
Von Zuben, F.J., Modelos Paramtricos e No-Paramtricos de Redes
neurais Artificiais e Aplicaes, Tese de Doutorado, Faculdade de
Engenharia Eltrica, Unicamp, 1996.
37

Vous aimerez peut-être aussi