Topico1 EA072 2s2014 Parte2 PDF

EA072 Prof. Fernando J.
Von Zuben
DCA/FEEC/Unicamp
Redes Neurais Artificiais (Parte 2)

ndice
1.
2.
3.
4.
5.
6.
Rede neural com funo de ativao de base radial ......................................................................................................3

1.1
Formulao matemtica ............................................................................................................................................ 6
1.2
Mtodos de treinamento j propostos na literatura .............................................................................................. 11
1.3
Capacidade de aproximao universal de redes RBF .............................................................................................. 11
1.4
O mtodo dos quadrados mnimos para modelos lineares nos parmetros ......................................................... 12
1.5
Obteno da soluo do problema de regresso linear ......................................................................................... 13
1.6
Exemplo ................................................................................................................................................................... 16
1.7
Aproximao usando rede neural RBF .................................................................................................................... 19
1.8
Determinao dos centros e disperses ................................................................................................................. 21
1.9
Aplicao das propostas de determinao de centros e disperso ........................................................................ 22
1.10 Referncias para redes neurais RBF ........................................................................................................................ 25
1.11 Bibliografia complementar para redes RBF............................................................................................................. 25
Mquinas de aprendizado extremo (ELMs) ..................................................................................................................27
2.1
Exemplos de mquinas de aprendizado extremo ................................................................................................... 32
2.2
Treinamento das ELMs ............................................................................................................................................ 34
2.3
Como encontrar os pesos sinpticos ....................................................................................................................... 35
2.4
Como encontrar o coeficiente de ponderao ....................................................................................................... 36
2.5
Referncias bibliogrficas para ELMs ...................................................................................................................... 37
O Jogo da Vida ...............................................................................................................................................................38
Exemplos de auto-organizao na natureza .................................................................................................................39
Treinamento no-supervisionado .................................................................................................................................44
Mapas Auto-Organizveis de Kohonen.........................................................................................................................45
6.1
Arranjo unidimensional ........................................................................................................................................... 46
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)
EA072 Prof. Fernando J. Von Zuben

DCA/FEEC/Unicamp
6.2
Arranjo bidimensional ............................................................................................................................................. 47
6.3
Algoritmo de ajuste dos pesos ................................................................................................................................ 51
6.4
Um passo de ajuste num arranjo unidimensional .................................................................................................. 53
6.5
Ajuste de pesos com restrio de vizinhana ......................................................................................................... 54
6.6
Discriminao dos agrupamentos ........................................................................................................................... 55
6.7
Ferramentas de visualizao e discriminao ......................................................................................................... 57
6.8
Ordenamento de pontos em espaos multidimensionais ...................................................................................... 61
6.9
Roteamento de veculos (mltiplos mapas auto-organizveis) .............................................................................. 62
6.10 Mapas auto-organizveis construtivos ................................................................................................................... 63
6.11 Questes a serem melhor investigadas .................................................................................................................. 64
6.12 Extenses ................................................................................................................................................................. 65
6.13 Referncias para mapas auto-organizveis............................................................................................................. 65
7.
Redes neurais recorrentes ............................................................................................................................................68
7.1
Modelagem de sistemas dinmicos lineares .......................................................................................................... 73
7.2
Modelagem de sistemas dinmicos no-lineares ................................................................................................... 74
7.3
Treinamento supervisionado para redes recorrentes ............................................................................................ 75
8.
Rede de Hopfield: recorrncia e dinmica no-linear ..................................................................................................76
8.1
Princpios bsicos de sistemas dinmicos no-lineares .......................................................................................... 78
8.2
Exemplos de comportamentos dinmicos no-lineares ......................................................................................... 80
8.3
Pontos de equilbrio como memrias endereveis por contedo ........................................................................ 83
8.4
Recapitulao dos principais conceitos Rede de Hopfield ................................................................................... 88
8.5
Regra de Hebb ......................................................................................................................................................... 89
8.6
Atratores esprios ................................................................................................................................................... 90
8.7
Problemas de natureza combinatria ..................................................................................................................... 91
8.8
Referncias bibliogrficas Redes neurais recorrentes ......................................................................................... 96

DCA/FEEC/Unicamp
1. Rede neural com funo de ativao de base radial

Uma funo de ativao de base radial caracterizada por apresentar uma resposta que
decresce (ou cresce) monotonicamente com a distncia a um ponto central.
O centro e a taxa de decrescimento (ou crescimento) em cada direo so alguns dos
parmetros a serem definidos. Estes parmetros devem ser constantes caso o modelo
de regresso seja tomado como linear nos parmetros ajustveis.
Uma funo de base radial monotonicamente decrescente tpica a funo gaussiana,
dada na forma:
x c j 2
, para o caso escalar (veja Figura 1(a));
h j ( x ) exp
2
rj
Uma funo de base radial monotonicamente crescente tpica a funo multiqudrica

dada na forma:

DCA/FEEC/Unicamp
h j ( x)
r j2 x c j 2
rj
, para o caso escalar (veja Figura 1(b));

3
2.5
0.8
0.6
hj(x)
hj(x)
0.4
0.2
0
-2
1.5
0.5
-1
0
-2
-1
(a)
(b)
Figura 1 Exemplos de funes de base radial monovariveis, com cj = 0 e rj = 1

No caso multidimensional e tomando a funo gaussiana, hj(x) assume a forma:
h j (x ) exp x c j T 1
j x c j
(1)

DCA/FEEC/Unicamp
onde x x1
x2 xn T o vetor de entradas, c j c j1 c j 2 c jn T o vetor
que define o centro da funo de base radial e a matriz j definida positiva e

diagonal, dada por:
j1 0 0
0

j
2
,
j
0

0
jn
de modo que hj(x) pode ser expandida na forma:

2
x1 c j1 2 x2 c j 2 2
c
n
jn
h j (x) exp
...
.
j1
j2
jn
(2)
T
Neste caso, os elementos do vetor j j1 j 2 jn so responsveis pela
taxa de decrescimento da gaussiana junto a cada coordenada do espao de entrada, e o

DCA/FEEC/Unicamp
argumento da funo exponencial uma norma ponderada da diferena entre o vetor

de entrada e o centro da funo de base radial.
1.1 Formulao matemtica
As funes de base radial (so funes no-lineares) podem ser utilizadas como
funes-base em qualquer tipo de modelo de regresso no-linear (linear ou no-linear
nos parmetros) e, particularmente, como funo de ativao de qualquer tipo de rede
multicamada.
O fato do modelo de regresso resultante ser linear ou no-linear nos parmetros se
deve possibilidade ou no de se ajustar os centros e as disperses das funes.
As redes neurais com funo de ativao de base radial (RBF) apresentam trs
diferenas principais em relao s redes tipo perceptron multicamadas:
o Elas sempre apresentam uma nica camada intermediria;
o Neurnios de sada so sempre lineares;
o Os neurnios da camada intermediria tm apenas uma funo de base radial como
funo de ativao, ao invs de uma funo sigmoidal ou outras.

DCA/FEEC/Unicamp
Como exposto acima, se apenas os pesos da camada de sada formarem o conjunto de

parmetros ajustveis, ento a rede neural linear nos parmetros. Caso contrrio, ou
seja, quando os centros cj e as matrizes j, j = 1,...,n, tambm so ajustveis, a rede
neural no-linear nos parmetros, admitindo o prprio algoritmo de retro-propagao
do erro para o processo de ajuste via treinamento supervisionado, como feito no caso
do perceptron multicamadas, embora aqui os mnimos locais tenham uma influncia
muito maior.
A arquitetura da rede apresentada na Figura 2, para o caso de uma nica sada,
resultando no seguinte mapeamento de entrada-sada:
m
y w j h j (x)
j 1
Caso cj e j, j = 1,...,n, sejam ajustveis, a sada assume a forma:

m
y w j h j (c j , j , x ) .
j 1

DCA/FEEC/Unicamp
Substituindo as formas compactas e expandidas de hj(x), dadas respectivamente pelas

equaes (1) e (2), resultam:
y w j exp x c j T j 1 x c j
m
j 1
2
x1 c j1 2 x2 c j 2 2
c
n
jn
y w j exp
...
j1
j2
jn
j 1
Uma verso para mltiplas sadas apresentada na Figura 3.

A consequncia imediata do uso de funes de ativao de base radial est na forma
como as entradas so processadas pelos neurnios da camada intermediria. Ao invs
da ativao interna de cada neurnio da camada intermediria se dar pelo emprego do
produto escalar (produto interno) entre o vetor de entradas e o vetor de pesos, como no
caso do perceptron, ela obtida a partir de uma norma ponderada da diferena entre
ambos os vetores.

DCA/FEEC/Unicamp
y=f(x)
+
w1
h1(x)
c11 c1j
wj
...
hj(x)
c1m
ci1 cij c cn1 cnj cnm

im
...
x1
wm
...
hm(x)
...
xi
xn
Figura 2 Rede neural de base radial (BROOMHEAD & LOWE, 1988)


DCA/FEEC/Unicamp
x1
c1m
x2
c11
c21
c1j
c2j
c2m
.
.
.
cn1
xn
cnj
cnm
Camada de
entrada
h1
.
.
. wj1
hGj
. wjp
.
.
hm
Camada
intermediria
w11
w1p
y1
.
.
.
wm1
yp
wmp
Camada de
sada
Figura 3 Rede neural de base radial com mltiplas sadas

10

DCA/FEEC/Unicamp
1.2 Mtodos de treinamento j propostos na literatura

Vrias abordagens para o treinamento de redes neurais com funes de base radial j
foram propostas. Geralmente, elas podem ser divididas em duas partes:
o Definio dos centros, forma e disperso das funes de base radial, normalmente
baseada em treinamento no-supervisionado (quantizao vetorial ou algoritmo de
treinamento competitivo) ou computao evolutiva;
o Aprendizado dos pesos da camada de sada, responsveis pela combinao linear
das ativaes da camada intermediria, empregando regresso linear.
1.3 Capacidade de aproximao universal de redes RBF
Dado um nmero suficiente de neurnios com funo de base radial, qualquer funo
contnua definida numa regio compacta pode ser devidamente aproximada usando
uma rede RBF (PARK & SANDBERG, 1991).
11

DCA/FEEC/Unicamp
1.4 O mtodo dos quadrados mnimos para modelos lineares nos

parmetros
Quando o treinamento supervisionado aplicado a modelos lineares nos parmetros, o
mtodo dos quadrados mnimos conduz a um problema de otimizao que apresenta
soluo na forma fechada.
Assim, com um modelo de regresso linear na forma (considerando uma sada):
m
f (x) w j h j (x)
j 1
N
e o conjunto de treinamento dado por xi , si i 1 , o mtodo dos quadrados mnimos se
ocupa em minimizar (em relao aos coeficientes da combinao linear) a soma dos
quadrados dos erros produzidos a partir de cada um dos N padres de entrada-sada.
m
2
min J ( w) min si f (xi ) min si w j h j (xi )
w
w i 1
w i 1
j 1
12

DCA/FEEC/Unicamp
1.5 Obteno da soluo do problema de regresso linear

Do Clculo Elementar, sabe-se que a aplicao da condio de otimalidade (restries
atendidas pelos pontos de mximo e mnimo de uma funo diferencivel) permite
obter a soluo tima do problema de otimizao min J ( w ) , na forma:
w
1. Diferencie a funo em relao aos parmetros ajustveis;

2. Iguale estas derivadas parciais a zero;
3. Resolva o sistema de equaes resultante.
No caso em questo, os parmetros livres so os coeficientes da combinao linear,
T
dados na forma do vetor de pesos w w1 w j wm .
O sistema de equaes resultante dado na forma:

N
N
J
f
2 si f (xi )
2 si f (xi ) h j (xi ) 0 , j=1,...,m.
w j
w
i 1
i 1
j
13

DCA/FEEC/Unicamp
Separando-se os termos que envolvem f(), resulta:

N
m
f (xi )h j (xi ) wr hr (xi )h j (xi ) si h j (xi ) , j=1,...,m.
i 1
i 1 r 1
i 1
N
Portanto, existem m equaes para obter as m incgnitas wr , r 1,..., m. Exceto sob

condies patolgicas, este sistema de equaes vai apresentar uma soluo nica.
Para encontrar esta soluo nica do sistema de equaes lineares, interessante
recorrer notao vetorial, fornecida pela lgebra linear, para obter:
hTj f hTj s , j=1,...,m,

onde
h j (x1 )
hj ,
h j (x N )
w
h
(
x
)
f (x1 ) r 1 r r 1
m
f (x N ) wr hr (x N )
r 1
s1
s .

sN
Como existem m equaes, resulta:

14

DCA/FEEC/Unicamp
h1T f h1T s
T
T
h m f h m s
Definindo a matriz H, com sua j-sima coluna dada por hj, temos:
H h 1
h1 (x 1 ) h2 (x 1 )
h (x ) h (x )
2
2
hm 1 2

h1 (x N ) h2 (x N )
h2
hm ( x 1 )
hm (x 2 )
hm ( x N )
sendo possvel reescrever o sistema de equaes lineares como segue:
HT f HT s
O i-simo componente do vetor f pode ser apresentado na forma:
m
fi f (xi ) wr hr (xi ) h1 (xi ) h2 (xi ) hm (xi )w

r 1
permitindo expressar f em funo da matriz H, de modo que:

f = Hw
15

DCA/FEEC/Unicamp
Substituindo no sistema de equaes lineares, resulta a soluo tima para o vetor de

coeficientes da combinao linear (que correspondem aos pesos da camada de sada da
rede neural de base radial):
H T Hw H T s w H T H
HT s
Esta equao de soluo do problema dos quadrados mnimos conhecida como

equao normal. Para que exista a inversa de HTH, basta que a matriz H tenha posto
completo, j que m N.
1.6 Exemplo
O modelo linear de regresso mais simples a reta, aplicada nos casos em que a
entrada escalar: f ( x) w1h1 ( x) w2 h2 ( x) , onde h1(x) = 1 e h2(x) = x.
Considere que foram amostrados, na presena de rudo, trs pontos da curva y = x,
gerando o conjunto de treinamento: ( xi , si )i31 (1,1.1), (2,1.8), (3,3.1).
16

DCA/FEEC/Unicamp
Obviamente, no se conhece a equao da curva, mas apenas estes trs pontos

amostrados. Para estimar w1 e w2, vamos proceder de acordo com os passos do mtodo
dos quadrados mnimos.
h1 ( x1 ) h2 ( x1 ) 1 1
H h1 ( x2 ) h2 ( x2 ) 1 2
h1 ( x3 ) h2 ( x3 ) 1 3
1.1
s 1.8

3.1
w HTH
0
HTs
1
Para o mesmo conjunto de treinamento, considere agora que
f ( x) w1h1 ( x) w2 h2 ( x) w3h3 ( x) ,
onde h1(x) = 1, h2(x) = x e h3(x) = x2. Enquanto no caso anterior tnhamos m < N, agora
temos m = N.
O efeito da adio da funo-base extra h3(x) representa a adio de uma coluna
h3 ( x1 ) 1
1
h 3 h3 ( x2 ) 4 junto matriz H, e a soluo assume a forma w 0.2 .
h3 ( x3 ) 9
0.3
17

DCA/FEEC/Unicamp
4
3.5
3
2.5
y
2
1.5
1
0.5
0
0
Figura 4 Modelos de regresso linear (ordem 1 e ordem 2).

Observe que ambos os modelos so lineares nos parmetros (da a denominao de
regresso linear), embora para m = 3 tenhamos um modelo no-linear.
18

DCA/FEEC/Unicamp
1.7 Aproximao usando rede neural RBF

1
Caso 1: m = N
Pontos amostrados: (1,2); (3,7); (5,6)
0.8
1
2
0.945
c 3 ; r 1 ; w 2.850

5
3
5.930
0.6
0.4
0.2
Obs: As funes de base radial tm centros nos

0
0
10
valores de x e disperses arbitrrias.

8
4
3
1
0
0
10
0
0
10
19

DCA/FEEC/Unicamp
1
Caso 2: m < N
0.8
Pontos amostrados: (1,2); (3,7); (5,6); (8,1)
1
2
1.012
c 3 ; r 1 ; w 3.084

5
3
5.538
0.6
0.4
0.2
Obs: As funes de base radial so as mesmas do

0
0
10
Caso 1.
8
3
2
1
0
0
10
0
0
10
20

DCA/FEEC/Unicamp
1.8 Determinao dos centros e disperses

No caso de algoritmos que se ocupam apenas com o ajuste dos pesos da camada de
sada de uma rede RBF (modelos lineares nos parmetros), necessrio estabelecer
algum critrio para fixao dos centros.
Existem critrios para o caso de nmero varivel de centros (redes construtivas, por
exemplo), mas sero mencionados aqui apenas aqueles geralmente empregados para o
caso de um nmero fixo e previamente especificado de centros.
Existem basicamente 3 alternativas:
1. Espalhar os centros uniformemente ao longo da regio em que se encontram os dados;
2. Escolher aleatoriamente, ou segundo algum critrio especfico, um subconjunto de
padres de entrada como centros;
3. Auto-organizar os centros, de acordo com a distribuio dos dados de entrada.
Exemplo: Empregando k-means.
Quanto s disperses das funes de base radial, usualmente se adota uma nica
disperso para todos os centros, na forma (HAYKIN, 1999):
21

DCA/FEEC/Unicamp
d max
2m
onde m o nmero de centros, e dmax a distncia mxima entre os centros.

1.9 Aplicao das propostas de determinao de centros e disperso
Dados de entrada e 8 centros determinados via k-means
10
8
Figura 5 Proposta de
x2
6
4
posicionamento dos centros das
funes de base radial para
uma rede neural RBF com 8
-2
neurnios na camada
-4
intermediria
-6
-8
-10
-10
-8
-6
-4
-2
0
x1
10
22

DCA/FEEC/Unicamp
Dados de entrada e 8 centros determinados via k-means
10
8
6
4
x2
2
0
-2
-4
-6
-8
-10
-10
-8
-6
-4
-2
0
x1
10
Figura 6 Outra proposta de posicionamento dos centros para os mesmos dados,

produzida por uma segunda execuo do algoritmo k-means.
23

DCA/FEEC/Unicamp
Contribuio uniforme (ainda no-ponderada) de cada neurnio
2
1
0
10
0
10
-5
5
0
x2
-10
-5
-10
x1
Figura 7 Ativao dos neurnios da rede neural RBF com os centros da Figura 6,
considerando todos os pesos de sada iguais a 1 e ausncia de peso de bias. A disperso
a mesma para todas as funes de ativao, dada pela frmula da pg. 22.
Com o critrio de disperso da pg. 22, evita-se que as funes de base radial sejam
excessivamente pontiagudas, ou ento com uma base demasiadamente extensa.
24

DCA/FEEC/Unicamp
1.10 Referncias para redes neurais RBF

BROOMHEAD, D.S. & LOWE, D. Multivariate functional interpolation and adaptive networks, Complex Systems,
2: 321-355, 1988.
HAYKIN, S. Neural Networks and Learning Machines, 3rd edition, Prentice Hall, 2008.
PARK, J. & SANDBERG, I.W. Universal approximation using radial-basis-function networks. Neural Computation,
3(2): 246-257, 1991.
1.11 Bibliografia complementar para redes RBF

BISHOP, C.M. Improving the generalisation properties of radial basis function neural networks, Neural Networks, 3(4): 579-588,
1991.
BISHOP, C.M. Neural Networks for Pattern Recognition, Clarendon Press, 1995.
CHEN, C.-L., CHEN, W.-C. & CHANG, F.-Y. Hybrid learning algorithm for Gaussian potential function networks, IEE Proceedings
D, 140(6): 442-448, 1993.
CHEN, S., CHNG, E.S. & ALKADHIMI, K. Regularized Orthogonal Least Squares Algorithm for Constructing Radial Basis Function
Networks, International Journal of Control, 64(5): 829-837, 1996.
CHEN, S., COWAN, C.F.N. & GRANT, P.M. Orthogonal Least Squares Algorithm for Radial Basis Function Networks, IEEE
Transactions on Neural Networks, 2(2): 302-309, 1991.
DE CASTRO, L.N. & VON ZUBEN, F.J. Automatic Determination of Radial Basis Functions: An Immunity-Based Approach.
International Journal of Neural Systems, vol. 11, no. 6, pp. 523-535, 2001.
FREEMAN, J.A.S. & SAAD, D. Learning and Generalization in Radial Basis Function Networks, Neural Computation, 7: 1000-1020,
1995.
FRITZKE, B. Fast learning with incremental RBF Networks, Neural Processing Letters, 1(1): 2-5, 1994.
GOMM, J.B. & YU, D.L. Selecting Radial Basis Function Network Centers with Recursive Orthogonal Least Squares Training,
IEEE Transactions on Neural Networks, 11(2):306-314, 2000.
HWANG, Y.-S. & BANG, S.-Y. An Efficient Method to Construct a Radial Basis Function Neural Network Classifier, Neural
Networks, 10(8): 1495-1503, 1997.
25

DCA/FEEC/Unicamp
KARAYIANNIS, N.B. Gradient Descent Learning of Radial Basis Neural Networks, Proceedings of the IEEE International
Conference on Neural Networks, pp. 1815-1820, 1997.
KARAYIANNIS, N.B. & MI, G.W. Growing Radial Basis Neural Networks: Merging Supervised and Unsupervised Learning with
Network Growth Techniques, IEEE Transactions on Neural Networks, 8(6): 1492-1506, 1997.
KUBAT, M. Decision trees can initialize radial-basis function networks, IEEE Transactions on Neural Networks, 9(5): 813-821,
1998.
LIPPMANN, R.P. Pattern Classification Using Neural Networks, IEEE Communications Magazine, November, pp. 47-63, 1989.
MICCHELLI, C.A. Interpolation of Scattered Data: Distance Matrices and Conditionally Positive Definite Functions, Constructive
Approximation, 2: 11-22, 1986.
MOODY, J. & DARKEN, C. Fast Learning in Networks of Locally-Tuned Processing Units, Neural Computation, 1: 281-294, 1989.
MULGREW, B. Applying Radial Basis Functions, IEEE Signal Processing Magazine, pp. 50-66, March 1996.
ORR, M.J.L. Introduction to Radial Basis Function Networks, Technical Report, Centre for Cognitive Science, University of
Edinburgh, Scotland, 1996. (http://www.anc.ed.ac.uk/~mjo/papers/intro.ps)
ORR, M.J.L. Recent Advances in Radial Basis Function Networks, Technical Report, Institute for Adaptive and Neural
Computation, University of Edinburgh, Scotland, 1999. (http://www.anc.ed.ac.uk/~mjo/papers/recad.ps)
ORR, M.J.L. Regularisation in the Selection of Radial Basis Function Centres, Neural Computation, 7(3): 606-623, 1995.
POGGIO, T. & GIROSI, F. Networks for Approximation and Learning, Proceedings of the IEEE, 78(9): 1481-1497, 1990.
SUTANTO, E.L., MASON, J.D. & WARWICK, K. Mean-tracking clustering algorithm for radial basis function centre selection.
International Journal of Control, 67(6): 961-977, 1997.
WANG, Z. & ZHU, T. An Efficient Learning Algorithm for Improving Generalization Performance of Radial Basis Function Neural
Networks, Neural Networks, 13(4-5): 545-553, 2000.
WETTSCHERECK, D. & DIETTERICH, T. Improving the Performance of Radial Basis Function Networks by Learning Center
Locations, Advances in Neural Information Processing Systems, 4:1133-1140, 1992.
WHITEHEAD, B.A. & CHOATE, T.D. Cooperative-Competitive Genetic Evolution of Radial Basis Function Centers and Widths for
Time Series Prediction, IEEE Transactions on Neural Networks, 7(4): 869-880, 1996.
WHITEHEAD, B.A. & CHOATE, T.D. Evolving Space-Filling Curves to Distribute Radial Basis Functions Over an Input Space, IEEE
Transactions on Neural Networks, 5(1): 15-23, 1994.
YINGWEI, L., SUNDARARAJAN, N. & SARATCHANDRAN, P. A Sequential Learning Scheme for Function Approximation Using
Minimal Radial Basis Function Neural Networks, Neural Computation, pp. 461-478, 1996.
26

DCA/FEEC/Unicamp
2. Mquinas de aprendizado extremo (ELMs)

Todas as propostas de redes neurais no-recorrentes (feedfoward) j apresentadas no
curso, como o perceptron de mltiplas camadas (MLP) e a rede neural com funes de
ativao de base radial (RBF), produzem a sua sada (podendo ser mltiplas sadas)
como uma combinao linear das ativaes dos neurnios da camada anterior.
Tomando uma nica camada intermediria, pode-se afirmar, portanto, que redes
neurais MLP e RBF sintetizam mapeamentos multidimensionais de entrada-sada por
meio de uma composio aditiva de funes-base, na forma:
s kl wkj f v j , b j , xl wk 0
n
j 1
onde
s kl a k-sima sada da rede neural para o l-simo padro de entrada xl;
f v j , b j , a j-sima funo da base de funes-base.
27

DCA/FEEC/Unicamp
No caso da rede neural MLP, as funes-base so funes de expanso ortogonal

(ridge functions), enquanto que, no caso da rede neural RBF, as funes-base tm um
comportamento radial em relao a um centro de ativao mxima.
Nos dois casos, como em outros casos de composio aditiva de funes-base, h
demonstrao terica da capacidade de aproximao universal. A capacidade de
aproximao universal uma propriedade existencial. Ela afirma que existe um
nmero n finito de neurnios e uma certa configurao de pesos sinpticos que
permitem obter um erro de aproximao arbitrariamente baixo para os dados de
treinamento, supondo que se considera uma regio compacta do espao de entrada e
que o mapeamento original, que amostrado para produzir os dados de treinamento,
contnuo.
intuitivo concluir, tambm, que quanto maior o nmero n de neurnios na camada
intermediria, maior a flexibilidade do modelo matemtico resultante, ou seja,
maiores so as possibilidades de contoro do mapeamento a ser sintetizado.
28

DCA/FEEC/Unicamp
Por outro lado, sabido tambm que h o risco de sobre-ajuste aos dados, produzindo
modelos que generalizam mal frente a novos dados de entrada-sada. A mxima
capacidade de generalizao est associada a modelos otimamente regularizados, ou
seja, que se contorcem na medida certa, de acordo com as demandas de cada aplicao.
Com isso, uma definio adequada do nmero de neurnios e dos pesos sinpticos
fundamental para garantir uma boa capacidade de generalizao.
Um resultado fundamental da literatura, restrito a problemas de classificao de
padres, foi apresentado por BARTLETT (1997; 1998). Nesses trabalhos, como o
prprio ttulo indica, conclui-se que controlar a norma dos pesos sinpticos mais
relevante para a capacidade de generalizao do que controlar o tamanho da rede
neural, ou seja, o nmero n de neurnios na camada intermediria.
De fato, pode-se introduzir o conceito de nmero efetivo de neurnios na camada
intermediria, o qual determinado pela configurao dos pesos da camada de sada
da rede neural.
29

DCA/FEEC/Unicamp
As mquinas de aprendizado extremo exploram este resultado de forma extrema, ou

seja, jogam toda a responsabilidade por garantir uma boa capacidade de generalizao
aos pesos da camada de sada, permitindo que os pesos da camada intermediria,
responsveis por definir as funes-base, sejam definidos de modo aleatrio.
Por serem definidos de modo aleatrio, portanto desvinculados das demandas da
aplicao, deve-se considerar um valor elevado para n, podendo inclusive ultrapassar o
valor de N, que representa o nmero de amostras para treinamento.
Por mais que parea estranho trabalhar com valores de n elevados e at maiores que N,
as mquinas de aprendizado extremo se sustentam em trs argumentos muito
poderosos:
O problema de treinamento passa a ser linear nos parmetros ajustveis, o que
representa uma enorme economia de recursos computacionais para se realizar o
treinamento supervisionado;
30

DCA/FEEC/Unicamp
A capacidade de generalizao pode ser maximizada controlando-se a norma dos

pesos na camada de sada, no dependendo de forma significativa do nmero n
de neurnios na camada intermediria;
H recursos computacionais disponveis para implementar redes neurais
sobredimensionadas.
E j que as funes-base podem ser definidas aleatoriamente, ento no h razo
tambm para que elas tenham formas sigmoidais ou tenham base radial. Logo, o elenco
de funes-base pode ser tambm arbitrrio, embora as demonstraes de capacidade
de aproximao universal para ELMs restrinjam ainda as alternativas de funes-base.
Por outro lado, so includas funes trigonomtricas e at a funo sinal.
31

DCA/FEEC/Unicamp
2.1 Exemplos de mquinas de aprendizado extremo

1
v10
v11
+
y1
1
1
x1
v1m
w11
v20
w12
^s
1
^s
r
y2
v21
+
w1n
v2m
xm
w10
wr0
wr1
wr2
vn0
yn
vn1
+
wrn
vnm
Figura 8 Rede neural perceptron com uma camada intermediria
32

DCA/FEEC/Unicamp
y=f(x)
+
w1
h1(x)
c11 c1j
wj
...
hj(x)
c1m
ci1 cij c cn1 cnj cnm

im
...
x1
wm
...
hm(x)
...
xi
xn
Figura 9 Rede neural com funes de ativao de base radial (no esto indicados os pesos de
polarizao, associados s entradas constantes dos neurnios)
33

DCA/FEEC/Unicamp
2.2 Treinamento das ELMs

Treinar uma mquina de aprendizado extremo equivalente a resolver o seguinte
problema de otimizao para cada uma das sadas da rede neural:
w*k arg minn 1 J w k Ck w k
w k
onde
1. k o ndice da sada;
2. n o nmero de neurnios na camada intermediria;
2
3. a norma euclidiana;
4. Ck um coeficiente de ponderao, a ser determinado, por exemplo, por mtodos
de busca unidimensional;
2
1 n
5. J w k wkj f v j , b j , xl wk 0 skl ;
2 l 1 j 1
6. N o nmero de amostras disponveis para treinamento.

34

DCA/FEEC/Unicamp
2.3 Como encontrar os pesos sinpticos

Uma vez fornecido o coeficiente de ponderao Ck, para a k-sima sada da rede
neural, o vetor de pesos sinpticos obtido como segue:
1. Monta-se a matriz Hinicial de dimenso N n, com as ativaes de todos os
neurnios para todos os padres de entrada, produzindo:
H inicial
f v1 , b1 , x1
f v , b , x
1 1 2
f v1 , b1 , x N
f v 2 , b2 , x1
f v n , bn , x1
f v n , bn , x N
2. Acrescenta-se uma coluna de ums matriz Hinicial, produzindo a matriz H:
f v1 , b1 , x1
f v , b , x
1 1 2
H
f v1 , b1 , x N
f v 2 , b2 , x1
f v n , bn , x1 1
f v n , bn , x N 1
3. Monta-se o vetor sk, contendo todos os padres de sada, na forma:

35

DCA/FEEC/Unicamp
s k sk1 sk 2 skN
4. Considerando que a matriz H tenha posto completo, o vetor wk obtido como

segue:
4.1. Se (n+1) N, w k H T H Ck I
H T sk ;
4.2. Se (n+1) > N, w k H T HH T Ck I
sk .
2.4 Como encontrar o coeficiente de ponderao

A maximizao da capacidade de generalizao requer a definio de um valor
adequado para o coeficiente de ponderao Ck, associado sada k.
Sugere-se aqui o uso de uma busca unidimensional empregando um conjunto de
validao. O valor timo de Ck aquele que minimiza o erro junto ao conjunto de
validao.
36

DCA/FEEC/Unicamp
2.5 Referncias bibliogrficas para ELMs

BARTLETT, P.L. For valid generalization the size of the weights is more important than the size of
the network. Advances in Neural Information Processing Systems, volume 9, pp. 134-140, 1997.
BARTLETT, P.L. The sample complexity of pattern classification with neural networks: the size of
the weights is more important than the size of the network. IEEE Transactions on Information
Theory, vol. 44, no. 2, pp. 525-536,1998.
HUANG, G.-B., CHEN, L., SIEW, C.-K. Universal Approximation Using Incremental Constructive
Feedfoward Networks with Random Hidden Nodes. IEEE Transactions on Neural Networks,
vol. 17, no. 4, pp. 879-892, 2006.
HUANG, G.-B., WANG, D.H., LAN, Y. Extreme learning machines: a survey. International Journal of
Machine Learning and Cybernetics, vol. 2, pp. 107-122, 2011.
HUANG, G.-B., ZHOU, H., DING, X., ZHANG, R. Extreme Learning Machines for Regression and
Multiclass Classification. IEEE Transactions on Systems, Man, and Cybernetics Part B:
Cybernetics, vol. 42, no. 2, pp. 513-529, 2012.
HUANG, G.-B., ZHU, Q.-Y., SIEW, C.-K. Extreme learning machine: a new learning scheme of
feedforward neural networks. Proceedings of the International Joint Conference on Neural
Networks (IJCNN2004), vol. 2, pp. 985-990, 2004.
HUANG, G.-B., ZHU, Q.-Y., SIEW, C.-K. Extreme learning machine: theory and applications.
Neurocomputing, vol. 70, pp. 489-501, 2006.
37

DCA/FEEC/Unicamp
3. O Jogo da Vida
Concebido por John Horton Conway, matemtico britnico, em 1970. Procure assistir
ao vdeo em: http://www.youtube.com/watch?v=XcuBvj0pw-E&feature=related
Clula morta e com trs vizinhos vivos ressuscita;
Clula viva e com dois ou trs vizinhos vivos permanece viva;
Em todos os outros casos, a clula morre ou permanece morta.
38

DCA/FEEC/Unicamp
4. Exemplos de auto-organizao na natureza

Conchas
39

DCA/FEEC/Unicamp
Processos Fsicos
Dunas
Reagentes qumicos
Rachaduras na lama
Clulas de conveco de
Brnard
Rachadura em tinta
Rugas em verniz
40

DCA/FEEC/Unicamp
Em animais
Listras da zebra
Manchas da girafa
Listras do tigre
Anfbios
Lagartos
41

DCA/FEEC/Unicamp
Em plantas
Margarida
Slime mold
Repolho vermelho
Lquen
Cogumelo
Gro de plen
42

DCA/FEEC/Unicamp
Em insetos
Asas de borboletas
Exoesqueletos de besouros
43

DCA/FEEC/Unicamp
5. Treinamento no-supervisionado
Como aprender a representar padres de entrada de modo a refletir a estrutura
estatstica de toda a coleo de dados de entrada? Que aspectos da entrada devem ser
reproduzidos na sada?
Em contraposio ao treinamento supervisionado, no h aqui nenhuma sada desejada
explcita ou avaliao externa da sada produzida para cada dado de entrada.
O treinamento no-supervisionado predominante no crebro humano. sabido que
as propriedades estruturais e fisiolgicas das sinapses no crtex cerebral so
influenciadas pelos padres de atividade que ocorrem nos neurnios sensoriais. No
entanto, em essncia, nenhuma informao prvia acerca do contedo ou significado
do fenmeno sensorial est disponvel.
Sendo assim, a implementao de modelos computacionais para ajuste de pesos
sinpticos via treinamento no-supervisionado deve recorrer apenas aos dados de
44

DCA/FEEC/Unicamp
entrada, tomados como amostras independentes de uma distribuio de probabilidade

desconhecida.
6. Mapas Auto-Organizveis de Kohonen

Um mapa de Kohonen um arranjo de neurnios, geralmente restrito a espaos de
dimenso 1 ou 2, que procura estabelecer e preservar noes de vizinhana
(preservao topolgica).
Se estes mapas apresentarem propriedades de auto-organizao, ento eles podem ser
aplicados a problemas de clusterizao e ordenao espacial de dados.
Neste caso, vai existir um mapeamento do espao original (em que os dados se
encontram) para o espao em que est definido o arranjo de neurnios.
Como geralmente o arranjo de neurnios ocorre em espaos de dimenso reduzida (1
ou 2), vai existir uma reduo de dimensionalidade sempre que o espao original (em
que os dados se encontram) apresentar uma dimenso mais elevada.
45

DCA/FEEC/Unicamp
6.1 Arranjo unidimensional

Um mapa de Kohonen unidimensional uma sequncia ordenada de neurnios
lineares, onde o nmero de pesos de cada neurnio igual ao nmero de entradas.
H uma relao de vizinhana entre os neurnios (no espao unidimensional
vinculado ao arranjo), mas h tambm uma relao entre os pesos dos neurnios no
espao de dimenso igual ao nmero de entradas. Para entender a funcionalidade dos
mapas de Kohonen, necessrio considerar ambas as relaes.
ordem 2
ordem 1
ordem 0
...
x1 x2
xdim
Figura 10 Rede de Kohonen em arranjo unidimensional: nfase na vizinhana

46

DCA/FEEC/Unicamp
6.2 Arranjo bidimensional
...
...
...
...
x1 x2
xdim
Figura 11 Rede de Kohonen em arranjo bidimensional: nfase na vizinhana

47

DCA/FEEC/Unicamp
mi
mi
Figura 12 Outras configuraes de mapas e de vizinhana (figuras extradas de

ZUCHINI, 2003)
48

DCA/FEEC/Unicamp
Arranjo em
2
Neurnios mi
Pesos sinpticos
[mi1, ..., miD]
v1
v2
Dados de
Entrada
vD
Figura 13 Outra perspectiva para arranjo 2D (figura extrada de ZUCHINI, 2003)

49

DCA/FEEC/Unicamp
Plano hexagonal
Plano retangular
8
6
6
1
-1
3
0
-1
6
8
Toroide
Cilindro
2
1
0
0.5
-1
8
6
-0.5
-2
4
2
-0.5
0.5
1
0.5
0
-0.5
2
-1
-2
Figura 14 Arranjos com e sem vizinhana nos extremos (figuras extradas de ZUCHINI,
2003)
50

DCA/FEEC/Unicamp
6.3 Algoritmo de ajuste dos pesos

while <condio de parada> falso,
Ordene aleatoriamente os N padres de entrada;
for i=1 at N,
j arg min xi w j
j
J Viz(j) do:
w J w J dist( j, J )xi w J ;
end do
end for
Atualize a taxa de aprendizado ;
Atualize a vizinhana;
Avalie a condio de parada;
end while
51

DCA/FEEC/Unicamp
wj(k)
(x(k)wj(k))
wj(k+1)
x(k)
vizinhana
vizinhana
52

DCA/FEEC/Unicamp
6.4 Um passo de ajuste num arranjo unidimensional
Neurnio
vencedor
Padro de entrada
Conformao do mapa anterior

ao processo competitivo
Conformao do mapa posterior
ao processo competitivo
Figura 15 Ajuste do neurnio vencedor e de seus vizinhos mais prximos

53

DCA/FEEC/Unicamp
6.5 Ajuste de pesos com restrio de vizinhana
vk
BMU
Figura 16 BMU (Best Matching Unit) e seus vizinhos (figuras extradas de ZUCHINI,
2003)
O neurnio que venceu para uma dada amostra o que sofre o maior ajuste. No
entanto, dentro de uma vizinhana, todos os neurnios vizinhos tambm sofrero um
ajuste de pesos, embora de menor intensidade.
54

DCA/FEEC/Unicamp
6.6 Discriminao dos agrupamentos
Figura 17 Exemplo de matriz-U para arranjo retangular (figura extrada de ZUCHINI,

2003)
55

DCA/FEEC/Unicamp
Figura 18 Exemplo de matriz-U para arranjo hexagonal (figura extrada de ZUCHINI,

2003)
56

DCA/FEEC/Unicamp
6.7 Ferramentas de visualizao e discriminao
1.5
1
0.5
0
-0.5
2
-1
-1.5
3
0
2
-1
-2
-2
Figura 19 Matriz-U para grid hexagonal (figuras extradas de ZUCHINI, 2003)
57

DCA/FEEC/Unicamp
Figura 20 Interpretao do mapa aps auto-organizao (figura extrada de ZUCHINI,

2003)
58

DCA/FEEC/Unicamp
Figura 21 Busca por correlaes (matriz-U por atributo de entrada do mapa) aps a
auto-organizao (figura extrada de ZUCHINI, 2003) (VESANTO & AHOLA, 1999)
59

DCA/FEEC/Unicamp
Figura 22 Interpretao do mapa aps auto-organizao (figura extrada de ZUCHINI,

2003)
60

DCA/FEEC/Unicamp
6.8 Ordenamento de pontos em espaos multidimensionais
Figura 23 Modo de operao (GOMES et al., 2004)

61

DCA/FEEC/Unicamp
6.9 Roteamento de veculos (mltiplos mapas auto-organizveis)
Figura 24 Vrias etapas do processo de auto-organizao (GOMES & VON ZUBEN, 2002)
62

DCA/FEEC/Unicamp
6.10 Mapas auto-organizveis construtivos
Figura 25 Growing Neural Gas (FRITZKE, 1995)

63

DCA/FEEC/Unicamp
6.11 Questes a serem melhor investigadas

Sintonia de parmetros
Neurnios que no vencem nunca (devem ser podados para aumentar eficincia)
Neurnios que vencem sempre
Dimenso do arranjo para uma dada aplicao
Nmero de neurnios, uma vez definido o arranjo
Inicializao dos pesos
Apresentao dos dados rede (padro-a-padro ou em batelada?)
Interpretao do mapa resultante (anlise discriminante)
Mtodos construtivos e de poda
Outras aplicaes e mltiplos mapeamentos simultneos
Comparaes com ferramentas similares
64

DCA/FEEC/Unicamp
6.12 Extenses
Learning Vector Quantization (LVQ)
(xi w j ) se a classe for correta

w j
(xi w j ) se a classe for incorreta
6.13 Referncias para mapas auto-organizveis
ANGNIOL, B., VAUBOIS, C. & LE TEXIER, J.Y. Self-organizing feature maps and the travelling salesman
problem, Neural Networks, 1, 289-293, 1988.
ARAS, N., OOMMEN, B.J. & ALTINEL, I.K. The Kohonen Network Incorporating Explicit Statistics and its
Application to The Travelling Salesman Problem, Neural Networks, 12, 1273-1284, 1999.
BARLOW, H. B. Unsupervised learning, Neural Computation, 1: 295-311, 1989.
BECKER, S. & PLUMBLEY, M. Unsupervised neural network learning procedures for feature extraction and
classification, International Journal of Applied Intelligence, 6: 185-203, 1996.
COSTA, J.A.F. Classificao Automtica e Anlise de Dados por Redes Neurais Auto-Organizveis, Tese de
Doutorado, Faculdade de Engenharia Eltrica e de Computao (FEEC/Unicamp), Dezembro 1999.
EVERITT, B. Cluster Analysis, 3rd. edition, John Wiley, 1993.
FAQ: The self-organized systems (http://www.calresco.org/sos/sosfaq.htm)
FAVATA, F. & WALKER, R. A Study of the Application of Kohonen-Type Neural Networks to the Traveling
Salesman Problem, Biological Cybernetics 64, 463-468, 1991.
65

DCA/FEEC/Unicamp
FORT, J.C. Solving a Combinatorial Problem via Self-Organizing Maps, Biological Cybernetics, 59, 33-40,
1988.
FRITZKE, B. A Growing Neural Gas Network Learns Topologies, in Tesauro, G., Touretzky, D.S., and Leen,
T.K. (eds.). Advances in Neural Information Processing Systems 7, The MIT Press, pp. 625-632, 1995.
GOMES, L.C.T. & VON ZUBEN, F.J. A Neuro-Fuzzy Approach to the Capacitated Vehicle Routing Problem.
Proceedings of the IEEE International Joint Conference on Neural Networks (IJCNN2002), vol. 2, pp. 19301935, Honolulu, Hawaii, May 12-17, 2002.
GOMES, L.C.T., VON ZUBEN, F.J. & MOSCATO, P.A. A Proposal for Direct-Ordering Gene Expression Data by
Self-Organising Maps, International Journal of Applied Soft Computing, vol. 5, pp. 11-21, 2004.
JAIN, A.K., MURTY, M.N. & FLYNN, P.J. Data Clustering: A Review, ACM Computing Surveys, vol. 31, no. 3,
pp. 264-323, 1999.
KASKI, S. Data Exploration Using Self-Organizing Maps, Ph.D. Thesis, Helsinki University of Technology,
Neural Networks Research Centre, 1997.
KAUFFMAN, S. The Origins of Order: Self-Organization and Selection in Evolution, Oxford University Press,
1993.
KOHONEN, T. Self-organized formation of topologically correct feature maps, Biological Cybernetics, vol. 43,
pp. 59-69, 1982.
KOHONEN, T. Self-Organization and Associative Memory, 3rd. edition, Springer, 1989 (1st. edition, 1984).
KOHONEN, T. The Self-Organizing Map, Proceedings of the IEEE, 78:1464-1480, 1990.
KOHONEN, T., OJA, E., SIMULA, O., VISA, A. & KANGAS, J. Engineering applications of the self-organizing map,
Proceedings of the IEEE, 84:1358-1384, 1996.
KOHONEN, T. Self-Organizing Maps, 2nd. edition, Springer, 1997.
66

DCA/FEEC/Unicamp
MATSUYAMA, Y. Self-Organization via Competition, Cooperation and Categorization Applied to Extended

Vehicle Routing Problems, Proc. International Joint Conference on Neural Networks, 1, 385-390, 1991.
MODARES, A., SOMHOM, S. & ENKAWA, T. A Self-Organizing Neural Network Approach for Multiple Traveling
Salesman and Vehicle Routing Problems, Int. Transactions in Operational Research, 6, 591-606, 1999.
POTVIN, J.-I. & ROBILLARD, C. Clustering for Vehicle Routing with a Competitive Neural Network,
Neurocomputing, 8, 125-139, 1995.
SMITH, K.A. Neural Networks for Combinatorial Optimization: A Review of More than a Decade of Research,
INFORMS Journal on Computing, 11, 1, 15-34, 1999.
TOOLBOX: http://www.cis.hut.fi/projects/somtoolbox/
ULTSCH, A. Knowledge Extraction from Self-Organizing Neural Networks, in O. Opitz et al. (eds.) Information
and Classification, Springer, pp. 301-306, 1993.
VAKHUTINSKY, A. I. & GOLDEN, B. L. Solving Vehicle Routing Problems Using Elastic Nets, Proc. IEEE
International Conference on Neural Networks, 7, 4535-4540, 1994.
VESANTO,J. & AHOLA, J. Hunting for Correlations in Data Using the Self-Organizing Map, in International
ICSC Congress on Computational Intelligence Methods and Applications (CIMA'99), ICSC Academic Press,
pp. 279-285, 1999.
ZUCHINI, M.H. Aplicaes de Mapas Auto-Organizveis em Minerao de Dados e Recuperao de Informao,
Tese de Mestrado, Faculdade de Engenharia Eltrica e de Computao (FEEC/Unicamp), Setembro 2003.
67

DCA/FEEC/Unicamp
7. Redes neurais recorrentes

Redes neurais recorrentes so estruturas de processamento capazes de representar uma
grande variedade de comportamentos dinmicos.
A presena de realimentao de informao permite a criao de representaes
internas e dispositivos de memria capazes de processar e armazenar informaes
temporais e sinais sequenciais.
A presena de conexes recorrentes ou realimentao de informao pode conduzir a
comportamentos complexos, mesmo com um nmero reduzido de parmetros.
Como estruturas de processamento de sinais, redes neurais recorrentes se assemelham
a filtros no-lineares com resposta ao impulso infinita (NERRAND et al., 1993).
Repare que o processo de treinamento vai envolver duas dinmicas acopladas: a
dinmica da rede neural e a dinmica do ajuste de pesos.
Seguem alguns exemplos de arquiteturas de redes neurais recorrentes (DOS SANTOS &
VON ZUBEN, 2000).
68

DCA/FEEC/Unicamp
y (k )
z N k
z1 (k )
z 1
z 1
z 1 ( k 1)
zN (k 1)
z 1
z 1
z1 (k L)
z N ( k L)
u (k )
Figura 26 Globally recurrent neural network (GRNN)
69

DCA/FEEC/Unicamp
y(k )
z N (k )
z1 ( k )
z 1
y(k 1)
z 1
y(k L) u (k )
Figura 27 Output-feedback recurrent neural network (OFRNN)
70

DCA/FEEC/Unicamp
z1 (k L)
z 1
z N ( k L)
z 1
z 1
z 1
z N (k )
z1 (k )
u (k )
Figura 28 Fully recurrent neural network (FRNN)
71

DCA/FEEC/Unicamp
Figura 29 Echo state neural network

(pesos da parte dinmica da rede neural no so ajustveis)
72

DCA/FEEC/Unicamp
7.1 Modelagem de sistemas dinmicos lineares

y1( t )
yr ( t )
camada de sada
x 1(t )
x n (t )
camada intermediria
camada de entrada
camada de contexto
u 1(t )
u m(t )
Figura 30 Estrutura detalhada da Rede de Elman (ELMAN, 1990)
x( t ) Wxx x( t 1) + Wxu u( t 1)

(aproxima qualquer dinmica linear)
y
(
t
)
W
x
(
t
)
yx
73

DCA/FEEC/Unicamp
7.2 Modelagem de sistemas dinmicos no-lineares
z-1
x(t)
f
g
y(t)
z-1
u(t)
Figura 31 Representao por espao de estados de um sistema dinmico no-linear
x( t 1) f x( t ), u( t )
y( t ) gx( t ), u( t )
onde u(t) m, x(t) n, y(t) r, f: nm n e g: nm r.
74

DCA/FEEC/Unicamp
7.3 Treinamento supervisionado para redes recorrentes

Ao contrrio do modelo de rede neural no-recorrente, o modelo de rede neural
recorrente uma funo composta de . Logo, a anlise variacional dos modelos com e
sem recorrncia produz os seguintes resultados:
Rede neural no-recorrente:
s(t ) RN (x(t ), )
s( t ) RN
Rede neural recorrente:
s(t ) RN rec (x(t ), s(t 1), )

s( t ) RN rec RN rec RN rec s( t 1)
s(
t 1
)

termo adicional
A disponibilidade de redes neurais recorrentes de importncia prtica est associada

existncia de algoritmos de otimizao eficientes para o ajuste dos pesos sinpticos.
75

DCA/FEEC/Unicamp
8. Rede de Hopfield: recorrncia e dinmica no-linear

Inspirada em conceitos de fsica estatstica e dinmica no-linear;
Principais caractersticas: Unidades computacionais no-lineares
Simetria nas conexes sinpticas
Totalmente realimentada (exceto auto-realimentao)
Figura 32 Rede Neural de Hopfield: nfase nas conexes

76

DCA/FEEC/Unicamp
z-1
..
.
z-1
z-1
w11=0
w12
..
.
y1
y2
yn
u1
w1n
w21
w22=0
..
.
..
.
+
u2
w2n
..
.
wn1
wn2
..
.
wnn=0
un
Figura 33 Rede Neural de Hopfield: nfase no processamento dinmico (caso discreto)

77

DCA/FEEC/Unicamp
8.1 Princpios bsicos de sistemas dinmicos no-lineares

A teoria de sistemas dinmicos se ocupa em descrever matematicamente sistemas em
movimento, permitindo classificar e predizer seu comportamento no tempo.
O comportamento temporal de sistemas dinmicos pode depender tanto de variveis
observveis como de variveis no-observveis.
Um sistema dinmico consiste de duas partes: um estado e uma dinmica.
O estado descreve a condio atual do sistema, na forma de um vetor de variveis
parametrizadas em relao ao tempo, sendo que o conjunto de estados possveis
denominado espao de estados do sistema.
A dinmica descreve como o estado do sistema evolui no tempo, sendo que a
sequncia de estados exibida por um sistema dinmico durante sua evoluo no tempo
denominada trajetria no espao de estados.
78

DCA/FEEC/Unicamp
Hiptese: a dinmica determinstica (em oposio estocstica), ou seja, para cada

estado do sistema, a dinmica especifica unicamente o prximo estado (dinmica
discreta) ou ento a direo de variao do estado (dinmica contnua).
Neste caso, um sistema dinmico uma prescrio matemtica determinstica para a
evoluo de um estado no tempo.
Entradas externas podem influir na determinao do prximo estado.
Tabela 1 Taxonomia dos sistemas dinmicos (KOLEN, 1994)
DINMICA
contnua
discreta
ESPAO DE ESTADOS
contnuo
discreto
sistema de
vidros de spin
equaes diferenciais
sistema de equaes
autmato
a diferenas
79

DCA/FEEC/Unicamp
Quando um sistema dinmico no apresenta a propriedade de linearidade (princpio da

superposio de efeitos) ele denominado sistema dinmico no-linear. Os sistemas
fsicos so inerentemente no-lineares.
No entanto, quando a faixa de operao do sistema pequena e as no-linearidades so
suaves, um sistema dinmico no-linear pode ser representado aproximadamente por
seu correspondente sistema linearizado, cuja dinmica descrita por um conjunto de
equaes diferenciais ou a diferenas lineares.
Neste tpico do curso nos restringiremos anlise e sntese de equaes de estado
no-foradas e invariantes no tempo (sistema autnomo):
x (t ) f x(t )
x(k 1) g x(k )
8.2 Exemplos de comportamentos dinmicos no-lineares

A dinmica de um sistema no-linear muito mais rica que a de um sistema linear, ou
seja, h fenmenos dinmicos significativos que s ocorrem na presena de nolinearidades, no podendo assim serem descritos ou preditos por modelos lineares.
80

DCA/FEEC/Unicamp
Exemplos de fenmenos essencialmente no-lineares:

Tempo de escape finito: o estado de um sistema linear instvel vai para infinito
quando o tempo tende a infinito. J no caso no-linear, o estado pode ir para infinito
em tempo finito.
Mltiplos pontos de equilbrio isolados: um sistema linear pode apresentar apenas
um ponto de equilbrio isolado, indicando a existncia de apenas um ponto de
operao em estado estacionrio, o qual atrai o estado do sistema, independente da
condio inicial. J no caso no-linear, podem existir mltiplos pontos de equilbrio
isolados, e assim o ponto de operao em estado estacionrio vai depender da
condio inicial.
Ciclos limites: para um sistema linear invariante no tempo apresentar oscilao
permanente, ele deve apresentar um par de autovalores no eixo imaginrio. Esta
condio uma impossibilidade prtica na presena de perturbaes. Mesmo
81

DCA/FEEC/Unicamp
considerando apenas a possibilidade terica, a amplitude da oscilao vai depender

da condio inicial. Na prtica, oscilaes estveis devem ser produzidas por
sistemas no-lineares. H sistemas no-lineares que atingem oscilaes de amplitude
e frequncia fixas, independente da condio inicial. Este tipo de oscilao
denominada ciclo limite.
Oscilaes sub-harmnicas, harmnicas e quase-peridicas: um sistema linear
estvel, sujeito a uma entrada peridica, produz uma sada de mesma frequncia. Um
sistema no-linear, sujeito a uma excitao peridica pode oscilar com frequncias
que so sub-mltiplos ou mltiplos da frequncia de excitao. Pode ser gerada
inclusive uma quase-oscilao, formada pela soma de oscilaes peridicas cujas
frequncias no so mltiplos entre si.
Caos: um sistema no linear pode apresentar um comportamento de estado
estacionrio que no equilbrio, nem oscilao peridica, nem oscilao quaseperidica, sendo denominado caos.
82

DCA/FEEC/Unicamp
Mltiplos modos de comportamento: comum que mltiplos modos de

comportamento dinmico, dentre os descritos acima, possam ser exibidos por um
mesmo sistema dinmico no-linear, mesmo sem a presena de excitao. Com
excitao, as mudanas de modo de comportamento podem ser descontnuas em
relao a mudanas suaves na amplitude e frequncia da excitao.
8.3 Pontos de equilbrio como memrias endereveis por contedo

Um sistema dinmico no linear autnomo pode exibir 4 comportamentos em estado
estacionrio: ponto de equilbrio, ciclo limite, quase-periodicidade e caos.
HOPFIELD (1982) props uma metodologia para sintetizar sistemas dinmicos
autnomos que s exibem pontos de equilbrio. Mais ainda, a localizao de cada um
dos pontos de equilbrio, no espao de estados, pode ser especificada pelo projetista do
sistema dinmico no-linear, no caso, uma rede neural recorrente.
83

DCA/FEEC/Unicamp
Incorporao de um princpio fsico fundamental: armazenagem de informao em

uma configurao dinamicamente estvel (requer um tempo para se acomodar em uma
condio de equilbrio dinmica de relaxao estado estacionrio).
Cada padro a ser armazenado fica localizado em um vale da superfcie de energia.
Como a dinmica no-linear da rede estabelecida de modo a minimizar a energia, os
vales representam pontos de equilbrio estvel (cada qual com a sua base de atrao).
.
.
Figura 34 Superfcie de energia: pontos de equilbrio e bases de atrao

84

DCA/FEEC/Unicamp
Memria Ponto de equilbrio estvel: embora outros pesquisadores j viessem

buscando a implementao de tal conceito, HOPFIELD (1982) foi o primeiro a formullo em termos precisos.
Este tipo de sistema dinmico pode operar como:
1) Memria associativa (enderevel por contedo);
2) Dispositivo computacional para resolver problemas de otimizao de natureza
combinatria.
A rede neural de Hopfield um caso particular de rede recorrente, em que o espao de
estados discreto.
Como veremos a seguir, ela pode ser vista como uma memria associativa no-linear,
ou uma memria enderevel por contedo, cuja principal funo restaurar um
padro binrio armazenado (item de memria), em resposta apresentao de uma
verso incompleta (papel restaurador) ou ruidosa (papel de corretor de erro) deste
padro.
85

DCA/FEEC/Unicamp
memrias
entradas
Como memorizar?
padres restaurados
Como restaurar?
Portanto, a recuperao do padro armazenado na memria se d a partir de um

subconjunto das informaes contidas no padro.
A essncia da memria enderevel por contedo mapear uma memria fundamental
em um ponto fixo estvel y do sistema dinmico representado pela rede
recorrente.
86

DCA/FEEC/Unicamp
codificao
y
decodificao
espao de
memrias
fundamentais
espao de
vetores de
estados
Os pesos da rede neural de Hopfield no so definidos via algoritmos iterativos de

treinamento, e sim via tcnicas de sntese de dinmicas no-lineares. Para maiores
detalhes, consultar a literatura pertinente.
87

DCA/FEEC/Unicamp
8.4 Recapitulao dos principais conceitos Rede de Hopfield

No-linearidade condio necessria para produzir mltiplos atratores no espao de
estados de sistemas dinmicos.
Hopfield resolveu (parcialmente) o seguinte problema: Dado um conjunto de estados
especficos que devem estar associados a memrias fundamentais, como gerar um
sistema dinmico no-linear que apresente pontos de equilbrio estvel justamente
nestes estados especficos?
Se este sistema dinmico no-linear puder ser sintetizado, ento vai existir uma
superfcie de energia com mnimos locais nos referidos estados especficos, sendo que
a dinmica do sistema vai atuar no sentido de conduzir o estado inicial do sistema a um
dos mnimos locais da superfcie de energia (particularmente quele em cuja base de
atrao se encontra a condio inicial).
88

DCA/FEEC/Unicamp
8.5 Regra de Hebb

A regra de aprendizado de Hebb a mais antiga e mais famosa regra de aprendizado,
podendo tambm ser apresentada em duas partes, na forma:
1. Se os dois neurnios localizados um em cada lado de uma conexo sinptica so
ativados simultaneamente (de modo sncrono), ento a intensidade da conexo
aumentada.
2. Se os dois neurnios localizados um em cada lado de uma conexo sinptica so
ativados de modo assncrono, ento a intensidade da conexo reduzida.
A 2a parte da regra de Hebb no fazia parte de sua verso original, tendo sido
introduzida posteriormente.
A regra de Hebb pode ser interpretada como um mecanismo (interativo, local e
dependente do tempo) de aumentar a eficincia sinptica em funo da correlao
existente entre as atividades pr- e ps-sinptica.
Na literatura, so utilizadas tambm as conexes anti-hebbianas e no-hebbianas.
89

DCA/FEEC/Unicamp
8.6 Atratores esprios

Quando a rede neural de Hopfield armazena K memrias fundamentais atravs do
ajuste de seus pesos pela regra de Hebb generalizada, os estados estveis presentes na
superfcie de energia no vo se restringir aos estados associados s memrias
fundamentais armazenadas. Todos os estados estveis no associados s memrias
fundamentais armazenadas so denominados atratores esprios.
Os atratores esprios existem em virtude dos seguintes fatores:
1. A funo de energia E simtrica, no sentido de que os estados correspondentes ao
reverso das memrias fundamentais armazenadas tambm so estados estveis;
2. Toda combinao linear de um nmero mpar de estados estveis tambm vai ser um
estado estvel (AMIT, 1989).
3. Para um grande nmero K de memrias fundamentais, a funo de energia vai
produzir pontos de equilbrio que no esto correlacionados com nenhuma das
memrias fundamentais armazenadas na rede (inflexibilidade da superfcie de
energia).
90

DCA/FEEC/Unicamp
8.7 Problemas de natureza combinatria

So problemas que se enquadram entre aqueles de mais difcil soluo com base nas
ferramentas matemticas e computacionais hoje disponveis;
Exemplo: Problema do caixeiro viajante (TSP) Dadas as localizaes de um
nmero especfico de cidades (distribudas em um plano), o problema encontrar o
menor percurso que se inicia e termina numa mesma cidade, tendo passado uma nica
vez por todas as outras cidades. um problema de fcil formulao, mas para o qual
no se conhece nenhum mtodo que garanta a obteno da soluo tima, alm do
mtodo exaustivo de testar todas as possibilidades e optar pela que produz o menor
percurso. Em virtude da exploso de percursos possveis com o aumento no nmero de
cidades, o mtodo exaustivo torna-se computacionalmente intratvel mesmo para
problemas com um nmero reduzido de cidades (por exemplo, para 100 cidades, o
nmero de percursos possveis da ordem de 10156).
91

DCA/FEEC/Unicamp
Em termos de complexidade computacional, o problema do caixeiro viajante NPcompleto.

A aplicao pioneira de redes de Hopfield no tratamento do problema do caixeiro
viajante (uma abordagem possivelmente extensvel a outros problemas de natureza
combinatria) se deu com o trabalho de HOPFIELD & TANK (1985). Basicamente, foi
considerada uma rede neural analgica, com uma dinmica representada na forma de
um conjunto de equaes diferenciais acopladas, na forma:
Cj
du j
dt
uj
i 1
i j
Rj
w ji i (ui )
j , j = 1,,N.
Os pesos sinpticos da rede so determinados a partir das distncias entre as cidades a

serem visitadas e a soluo tima corresponde a um ponto de equilbrio (mnimo local
da superfcie de energia) no espao de estados da rede neural.
92

DCA/FEEC/Unicamp
Ao mesmo tempo em que era necessrio minimizar a funo-objetivo, a qual avalia a

distncia total do percurso, tambm existiam restries a serem atendidas, como passar
ao menos uma vez em cada cidade.
Como a violao de uma nica restrio torna a correspondente soluo invlida,
necessrio incorporar junto funo-objetivo termos que penalizam a violao de cada
restrio. Alm disso, esta funo-objetivo estendida deve corresponder superfcie de
energia da rede de Hopfield, de tal forma que a aplicao da dinmica da rede conduza
o estado sempre para pontos de menor energia. Com isso, uma possvel representao
da funo de energia assume a forma:
E E obj c1 E1restr cm Emrestr
93

DCA/FEEC/Unicamp
Figura 35 Interpretao do ponto de equilbrio como uma soluo para o problema do

caixeiro viajante (repare que h um e somente um neurnio ativo por linha e por coluna)
94

DCA/FEEC/Unicamp
Alm do desempenho da rede de Hopfield na soluo do problema do caixeiro viajante

no ser superior a outras tcnicas de soluo j disponveis, a extenso desta
abordagem para outros problemas de natureza combinatria, embora possvel, no
imediata.
Na verdade, o potencial de aplicao de sistemas dinmicos no-lineares junto a
problemas de exploso combinatria muito alto, embora a complexidade envolvida
no processo de mapeamento do problema em uma superfcie de energia do sistema
dinmico associado tem impedido uma explorao mais ampla desta ferramenta de
soluo.
A implementao de um hardware dedicado pode ser considerada uma das mais
promissoras frentes de aplicao, pois amplia a escala de problemas combinatrios que
podem ser abordados, sem produzir incrementos significativos no tempo de
processamento, visto que se emprega computao paralela.
95

DCA/FEEC/Unicamp
8.8 Referncias bibliogrficas Redes neurais recorrentes

AMIT, D.J. Modeling Brain Function: The World of Attractor Neural Networks. Cambridge University Press, 1989.
BACK, A. D., TSOI. A. C. FIR and IIR synapses, a new neural network architecture for time series modeling, Neural
Computation, vol. 3, pp. 375-385, 1991.
BHAYA, A., KASZKUREWICZ, E. & KOZYAKIN, V.S. Existence and Stability of a Unique Equilibrium in Continuous-Valued
Discrete-Time Asynchronous Hopfield Neural Networks. IEEE Transactions on Neural Networks, vol. 7, no. 3, pp.
620-628, 1996.
BRUCK, J. On the convergence properties of the Hopfield model. Proc. of the IEEE, vol. 78, pp. 1579-1585, 1990.
CLEEREMANS, A., SERVAN-SCHREIBER, D., MCCLELLAND, J. Finite state automata and simple recurrent networks. Neural
Computation, vol. 1, no. 3, pp. 372-381, 1989.
COHEN, M.A. & GROSSBERG, S. Absolute stability of global pattern formation and parallel memory storage by competitive
neural networks. IEEE Transactions on Systems, Man, and Cybernetics, vol. 13, pp. 815-826, 1983.
CONNOR, J. T., MARTIN, R. D., ATLAS, L. E. Recurrent neural networks and robust time series prediction, IEEE
Transactions on Neural Networks, vol. 5, no. 2, pp. 240, 1994.
DOS SANTOS, E.P., VON ZUBEN, F.J. Improved Second-Order Training Algorithms for Globally and Partially Recurrent
Neural Networks. Proceedings of the IEEE International Joint Conference on Neural Networks (IJCNN99), vol. 3,
pp. 1501-1506, July 1999.
DOS SANTOS, E.P., VON ZUBEN, F.J. Efficient Second-Order Learning Algorithms for Discrete-Time Recurrent Neural
Networks. in L.R. Medsker and L.C. Jain (eds.) Recurrent Neural Networks: Design and Applications, CRC Press, pp.
47-75, 2000.
ELMAN, J. L. Finding structure in time. Cognitive Science, vol. 14, pp. 179-211, 1990.
FUNAHASHI, K.-I., NAKAMURA, Y. Approximation of dynamical systems by continuous time recurrent neural networks.
Neural Networks, vol. 6, no. 5, pp. 801-806, 1993.
GILES, C., MILLER, C., CHEN, D., CHEN, H., SUN, G., LEE, Y. Learning and extracting finite state automata with secondorder recurrent neural networks. Neural Computation, vol. 4, no. 3, pp. 393-405, 1992.
96

DCA/FEEC/Unicamp
HAYKIN, S. Neural Networks and Learning Machines, 3rd edition, Prentice Hall, 2008.
HOPFIELD, J.J. Neural networks and physical systems with emergent collective computational abilities. Proceedings of the
National Academy of Sciences of the U.S.A., vol. 79, pp. 2554-2558, 1982.
HOPFIELD, J.J. Neurons with graded response have collective computational properties like those of two-state neurons.
Proceedings of the National Academy of Sciences of the U.S.A., vol. 81, pp. 3088-3092, 1984.
HOPFIELD, J.J. & TANK, D.W. Neural computation of decisions in optimization problems. Biological Cybernetics, vol. 52,
pp. 141-152, 1985.
HOPFIELD, J.J. & TANK, D.W. Computing with neural circuits: A model. Science, vol. 233, pp. 625-633, 1986.
HUNT, K.J., SBARBARO, D., ZBIKOWSKI, R., GAWTHROP, P.J. Neural Networks for Control Systems A Survey.
Automatica, vol. 28, no. 6, pp. 1083-1112, 1992.
JAEGER, H. The Echo State Approach to Analyzing and Training Neural Networks. Technical Report no. 148, Bremen:
German National Research Center for Information Technology, 2001.
KHALIL, H.K. Nonlinear Systems. 2nd. edition, Prentice Hall, 1996.
KOLEN, J.F. Exploring the Computational Capabilities of Recurrent Neural Networks. Ph.D. Thesis, The Ohio State
University, 1994.
KOZMA, R. Intentional systems: Review of neurodynamics, modeling, and robotics implementation. Physics of Life
Reviews, vol. 5, no. 1, pp 1-21, 2008.
LEVIN, A. V., NARENDRA, K. S. Control of nonlinear dynamical systems using neural networks controllability and
stabilization, IEEE Transactions on Neural Networks, vol. 4, no. 2, pp. 192-206, 1993.
LEVIN, A. V., NARENDRA, K. S. Control of nonlinear dynamical systems using neural networks Part II: observability,
identification, and control, IEEE Transactions on Neural Networks, vol. 7, no. 1, pp. 30-42, 1996.
MAASS, W. Networks of Spiking Neurons: The Third Generation of Neural Network Models. Neural Networks, vol. 10, no.
9, pp. 1659-1671, 1997.
MCCULLOCH, W.S. & PITTS, W. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical
Biophysics, vol. 5, pp. 115-133, 1943.
97

DCA/FEEC/Unicamp
MCDONNELL, J.R., WAGEN, D. Evolving Recurrent Perceptrons for Time-Series Modeling. IEEE Transactions Neural
Networks, vol. 5, no. 1, pp. 24-38, 1994.
MEISS, J.D. Frequently Asked Questions about Nonlinear Science. Department of Applied Mathematics, University of
Colorado at Boulder, http://amath.colorado.edu/faculty/jdm/faq-Contents.html.
MILLER, W.T., SUTTON, R.S., WERBOS, P.J. Neural Networks for Control. MIT Press. 1990.
MORITA, M. Associative memory with nonmonotonic dynamics. Neural Networks, vol. 6, pp. 115-126, 1993.
NARENDRA, K. S., PARTHASARATHY, K. Identification and control of dynamical systems using neural networks, IEEE
Transactions on Neural Networks, vol. 1, no. 1, pp. 4-27, 1990.
NERRAND, O., ROUSSEL-RAGOT, P., PERSONNAZ, L., DREYFUS, G. Neural Networks and Nonlinear Adaptive Filtering:
Unifying Concepts and New Algorithms. Neural Computation, vol. 5, no. 2, pp. 165-199, 1993.
NERRAND, O., ROUSSEL-GAGOT, P., URBANI, D., PERSONNAZ, L., DREYFUS, G. Training recurrent neural networks: Why
and how? An illustration in dynamical process modeling. IEEE Transactions on Neural Networks, vol. 5, no. 2, pp.
178-184, 1994.
OTT, E. Chaos in Dynamical Systems. Cambridge University Press, 1993.
OZTURK, M., XU, D., PRNCIPE, J. Analysis and Design of Echo State Networks. Neural Computation, vol. 19, no. 1, pp.
111-138, 2007.
PEARLMUTTER, B.A. Gradient calculations for dynamic recurrent neural networks: a survey. IEEE Transactions on Neural
Networks, vol. 6, no. 5, pp. 1212-1228, 1995.
PHAM, D. T., LIU, X. Dynamic system modelling using partially recurrent neural networks. Journal of Systems
Engineering, pp. 134-141, 1992.
PINEDA, F.J. Generalization of back-propagation to recurrent neural networks. Physical Review Letters, vol. 59, no. 19, pp.
2229-2232, 1987.
PINEDA, F.J. Recurrent Backpropagation and the Dynamical Approach to Adaptive Neural Computation. Neural
SIEGELMANN, H. T., HORNE, B. G., GILES, C. L. Computational capabilities of recurrent NARX neural networks, IEEE
Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, vol. 27, pp. 208-215, 1997.
98

DCA/FEEC/Unicamp
SJBERG, J., ZHANG, Q., LJUNG, L., BENVENISTE, A., DELYON, B., GLORENNEC, P., HJALMARSSON, H., JUDITSKY, A.
Nonlinear Black-box Modelling in System Identification: a Unified Overview, Automatica, vol. 31, no. 12, pp. 16911724, 1995.
SLOTINE, J.-J. & LI, W. Applied Nonlinear Control. Prentice Hall, 1991.
SONTAG, E. Some Topics in Neural Networks and Control. Technical Report LS93-02, Department of Mathematics,
Rutgers University, 1993.
TSOI, A. C., BACK, A. D. Discrete time recurrent neural network architectures: a unifying review, Neurocomputing, vol. 15,
nos. 3-4, pp. 183-223, 1997.
TSOI, A. C., BACK, A. D. Locally Recurrent Globally Feedforward Networks: A Critical Review of Architectures, IEEE
Transactions on Neural Networks, vol. 5, no. 2, pp. 229-239, 1994.
VIDYASAGAR, M. Nonlinear Systems Analysis. 2nd. edition, Prentice Hall, 1993.
VON ZUBEN, F.J. Modelos paramtricos e no-paramtricos de redes neurais artificiais e aplicaes. Tese de Doutorado,
Faculdade de Engenharia Eltrica e de Computao, Unicamp, 1996.
VON ZUBEN, F.J., NETTO, M.L.A. Exploring the Nonlinear Dynamic Behavior of Artificial Neural Networks. Proceedings
of the IEEE International Conference on Neural Networks, vol. II, pp. 1000-1005, June 1994.
VON ZUBEN, F.J., NETTO, M.L.A. Second-order training for recurrent neural networks without teacher-forcing.
Proceedings of the IEEE International Conference on Neural Networks (ICNN'95), vol. 2, pp. 801-806, 1995.
WILLIAMS, R. J., ZIPSER, D. A Learning Algorithm for Continually Running Fully Recurrent Neural Networks, Neural
ZBIKOWSKI, R.W. Recurrent Neural Networks: Some Control Aspects. Ph.D. Thesis, Faculty of Engineering, Glasgow
University, 1994.
99

Topico1 EA072 2s2014 Parte2 PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Topico1 EA072 2s2014 Parte2 PDF

Transféré par

Droits d'auteur :

Formats disponibles

EA072 Prof. Fernando J.

Redes Neurais Artificiais (Parte 2)

Rede neural com funo de ativao de base radial ......................................................................................................3

EA072 Prof. Fernando J. Von Zuben

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

EA072 Prof. Fernando J. Von Zuben

1. Rede neural com funo de ativao de base radial

Uma funo de base radial monotonicamente crescente tpica a funo multiqudrica

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

EA072 Prof. Fernando J. Von Zuben

, para o caso escalar (veja Figura 1(b));

Figura 1 Exemplos de funes de base radial monovariveis, com cj = 0 e rj = 1

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

EA072 Prof. Fernando J. Von Zuben

x2 xn T o vetor de entradas, c j c j1 c j 2 c jn T o vetor

que define o centro da funo de base radial e a matriz j definida positiva e

de modo que hj(x) pode ser expandida na forma:

taxa de decrescimento da gaussiana junto a cada coordenada do espao de entrada, e o

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

EA072 Prof. Fernando J. Von Zuben

argumento da funo exponencial uma norma ponderada da diferena entre o vetor

EA072 Prof. Fernando J. Von Zuben

Como exposto acima, se apenas os pesos da camada de sada formarem o conjunto de

Caso cj e j, j = 1,...,n, sejam ajustveis, a sada assume a forma:

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

EA072 Prof. Fernando J. Von Zuben

Substituindo as formas compactas e expandidas de hj(x), dadas respectivamente pelas

Uma verso para mltiplas sadas apresentada na Figura 3.

EA072 Prof. Fernando J. Von Zuben

ci1 cij c cn1 cnj cnm

Figura 2 Rede neural de base radial (BROOMHEAD & LOWE, 1988)

EA072 Prof. Fernando J. Von Zuben

Figura 3 Rede neural de base radial com mltiplas sadas

EA072 Prof. Fernando J. Von Zuben

1.2 Mtodos de treinamento j propostos na literatura

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

EA072 Prof. Fernando J. Von Zuben

1.4 O mtodo dos quadrados mnimos para modelos lineares nos

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

EA072 Prof. Fernando J. Von Zuben

1.5 Obteno da soluo do problema de regresso linear

1. Diferencie a funo em relao aos parmetros ajustveis;

O sistema de equaes resultante dado na forma:

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

EA072 Prof. Fernando J. Von Zuben

Separando-se os termos que envolvem f(), resulta:

f (xi )h j (xi ) wr hr (xi )h j (xi ) si h j (xi ) , j=1,...,m.

Portanto, existem m equaes para obter as m incgnitas wr , r 1,..., m. Exceto sob

hTj f hTj s , j=1,...,m,

Como existem m equaes, resulta:

EA072 Prof. Fernando J. Von Zuben

sendo possvel reescrever o sistema de equaes lineares como segue:

fi f (xi ) wr hr (xi ) h1 (xi ) h2 (xi ) hm (xi )w

permitindo expressar f em funo da matriz H, de modo que:

EA072 Prof. Fernando J. Von Zuben

Substituindo no sistema de equaes lineares, resulta a soluo tima para o vetor de

Esta equao de soluo do problema dos quadrados mnimos conhecida como

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

EA072 Prof. Fernando J. Von Zuben

Obviamente, no se conhece a equao da curva, mas apenas estes trs pontos

Para o mesmo conjunto de treinamento, considere agora que

EA072 Prof. Fernando J. Von Zuben

Figura 4 Modelos de regresso linear (ordem 1 e ordem 2).