Vous êtes sur la page 1sur 99

EA072 Prof. Fernando J.

Von Zuben
DCA/FEEC/Unicamp

Redes Neurais Artificiais (Parte 2)


ndice
1.

2.

3.
4.
5.
6.

Rede neural com funo de ativao de base radial ......................................................................................................3


1.1
Formulao matemtica ............................................................................................................................................ 6
1.2
Mtodos de treinamento j propostos na literatura .............................................................................................. 11
1.3
Capacidade de aproximao universal de redes RBF .............................................................................................. 11
1.4
O mtodo dos quadrados mnimos para modelos lineares nos parmetros ......................................................... 12
1.5
Obteno da soluo do problema de regresso linear ......................................................................................... 13
1.6
Exemplo ................................................................................................................................................................... 16
1.7
Aproximao usando rede neural RBF .................................................................................................................... 19
1.8
Determinao dos centros e disperses ................................................................................................................. 21
1.9
Aplicao das propostas de determinao de centros e disperso ........................................................................ 22
1.10 Referncias para redes neurais RBF ........................................................................................................................ 25
1.11 Bibliografia complementar para redes RBF............................................................................................................. 25
Mquinas de aprendizado extremo (ELMs) ..................................................................................................................27
2.1
Exemplos de mquinas de aprendizado extremo ................................................................................................... 32
2.2
Treinamento das ELMs ............................................................................................................................................ 34
2.3
Como encontrar os pesos sinpticos ....................................................................................................................... 35
2.4
Como encontrar o coeficiente de ponderao ....................................................................................................... 36
2.5
Referncias bibliogrficas para ELMs ...................................................................................................................... 37
O Jogo da Vida ...............................................................................................................................................................38
Exemplos de auto-organizao na natureza .................................................................................................................39
Treinamento no-supervisionado .................................................................................................................................44
Mapas Auto-Organizveis de Kohonen.........................................................................................................................45
6.1
Arranjo unidimensional ........................................................................................................................................... 46
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

6.2
Arranjo bidimensional ............................................................................................................................................. 47
6.3
Algoritmo de ajuste dos pesos ................................................................................................................................ 51
6.4
Um passo de ajuste num arranjo unidimensional .................................................................................................. 53
6.5
Ajuste de pesos com restrio de vizinhana ......................................................................................................... 54
6.6
Discriminao dos agrupamentos ........................................................................................................................... 55
6.7
Ferramentas de visualizao e discriminao ......................................................................................................... 57
6.8
Ordenamento de pontos em espaos multidimensionais ...................................................................................... 61
6.9
Roteamento de veculos (mltiplos mapas auto-organizveis) .............................................................................. 62
6.10 Mapas auto-organizveis construtivos ................................................................................................................... 63
6.11 Questes a serem melhor investigadas .................................................................................................................. 64
6.12 Extenses ................................................................................................................................................................. 65
6.13 Referncias para mapas auto-organizveis............................................................................................................. 65
7.
Redes neurais recorrentes ............................................................................................................................................68
7.1
Modelagem de sistemas dinmicos lineares .......................................................................................................... 73
7.2
Modelagem de sistemas dinmicos no-lineares ................................................................................................... 74
7.3
Treinamento supervisionado para redes recorrentes ............................................................................................ 75
8.
Rede de Hopfield: recorrncia e dinmica no-linear ..................................................................................................76
8.1
Princpios bsicos de sistemas dinmicos no-lineares .......................................................................................... 78
8.2
Exemplos de comportamentos dinmicos no-lineares ......................................................................................... 80
8.3
Pontos de equilbrio como memrias endereveis por contedo ........................................................................ 83
8.4
Recapitulao dos principais conceitos Rede de Hopfield ................................................................................... 88
8.5
Regra de Hebb ......................................................................................................................................................... 89
8.6
Atratores esprios ................................................................................................................................................... 90
8.7
Problemas de natureza combinatria ..................................................................................................................... 91
8.8
Referncias bibliogrficas Redes neurais recorrentes ......................................................................................... 96

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

1. Rede neural com funo de ativao de base radial


Uma funo de ativao de base radial caracterizada por apresentar uma resposta que
decresce (ou cresce) monotonicamente com a distncia a um ponto central.
O centro e a taxa de decrescimento (ou crescimento) em cada direo so alguns dos
parmetros a serem definidos. Estes parmetros devem ser constantes caso o modelo
de regresso seja tomado como linear nos parmetros ajustveis.
Uma funo de base radial monotonicamente decrescente tpica a funo gaussiana,
dada na forma:

x c j 2
, para o caso escalar (veja Figura 1(a));
h j ( x ) exp
2

rj

Uma funo de base radial monotonicamente crescente tpica a funo multiqudrica


dada na forma:

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

h j ( x)

r j2 x c j 2
rj

, para o caso escalar (veja Figura 1(b));


3

2.5

0.8

0.6

hj(x)

hj(x)
0.4

0.2
0
-2

1.5

0.5

-1

0
-2

-1

(a)

(b)

Figura 1 Exemplos de funes de base radial monovariveis, com cj = 0 e rj = 1


No caso multidimensional e tomando a funo gaussiana, hj(x) assume a forma:

h j (x ) exp x c j T 1
j x c j

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

(1)

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

onde x x1

x2 xn T o vetor de entradas, c j c j1 c j 2 c jn T o vetor

que define o centro da funo de base radial e a matriz j definida positiva e


diagonal, dada por:

j1 0 0
0

j
2
,
j
0

0

jn

de modo que hj(x) pode ser expandida na forma:


2
x1 c j1 2 x2 c j 2 2

c
n
jn

h j (x) exp

...
.

j1
j2
jn

(2)

T
Neste caso, os elementos do vetor j j1 j 2 jn so responsveis pela

taxa de decrescimento da gaussiana junto a cada coordenada do espao de entrada, e o

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

argumento da funo exponencial uma norma ponderada da diferena entre o vetor


de entrada e o centro da funo de base radial.
1.1 Formulao matemtica
As funes de base radial (so funes no-lineares) podem ser utilizadas como
funes-base em qualquer tipo de modelo de regresso no-linear (linear ou no-linear
nos parmetros) e, particularmente, como funo de ativao de qualquer tipo de rede
multicamada.
O fato do modelo de regresso resultante ser linear ou no-linear nos parmetros se
deve possibilidade ou no de se ajustar os centros e as disperses das funes.
As redes neurais com funo de ativao de base radial (RBF) apresentam trs
diferenas principais em relao s redes tipo perceptron multicamadas:
o Elas sempre apresentam uma nica camada intermediria;
o Neurnios de sada so sempre lineares;
o Os neurnios da camada intermediria tm apenas uma funo de base radial como
funo de ativao, ao invs de uma funo sigmoidal ou outras.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Como exposto acima, se apenas os pesos da camada de sada formarem o conjunto de


parmetros ajustveis, ento a rede neural linear nos parmetros. Caso contrrio, ou
seja, quando os centros cj e as matrizes j, j = 1,...,n, tambm so ajustveis, a rede
neural no-linear nos parmetros, admitindo o prprio algoritmo de retro-propagao
do erro para o processo de ajuste via treinamento supervisionado, como feito no caso
do perceptron multicamadas, embora aqui os mnimos locais tenham uma influncia
muito maior.
A arquitetura da rede apresentada na Figura 2, para o caso de uma nica sada,
resultando no seguinte mapeamento de entrada-sada:
m

y w j h j (x)
j 1

Caso cj e j, j = 1,...,n, sejam ajustveis, a sada assume a forma:


m

y w j h j (c j , j , x ) .
j 1

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Substituindo as formas compactas e expandidas de hj(x), dadas respectivamente pelas


equaes (1) e (2), resultam:

y w j exp x c j T j 1 x c j
m

j 1

2
x1 c j1 2 x2 c j 2 2

c
n
jn

y w j exp

...

j1
j2
jn
j 1

Uma verso para mltiplas sadas apresentada na Figura 3.


A consequncia imediata do uso de funes de ativao de base radial est na forma
como as entradas so processadas pelos neurnios da camada intermediria. Ao invs
da ativao interna de cada neurnio da camada intermediria se dar pelo emprego do
produto escalar (produto interno) entre o vetor de entradas e o vetor de pesos, como no
caso do perceptron, ela obtida a partir de uma norma ponderada da diferena entre
ambos os vetores.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

y=f(x)

+
w1

h1(x)

c11 c1j

wj

...

hj(x)

c1m

ci1 cij c cn1 cnj cnm


im

...

x1

wm

...

hm(x)

...

xi

xn

Figura 2 Rede neural de base radial (BROOMHEAD & LOWE, 1988)


Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

x1
c1m
x2

c11
c21
c1j
c2j

c2m

.
.
.
cn1
xn

cnj
cnm

Camada de
entrada

h1
.
.
. wj1
hGj
. wjp
.
.
hm
Camada
intermediria

w11
w1p

y1

.
.
.
wm1

yp

wmp
Camada de
sada

Figura 3 Rede neural de base radial com mltiplas sadas


Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

10

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

1.2 Mtodos de treinamento j propostos na literatura


Vrias abordagens para o treinamento de redes neurais com funes de base radial j
foram propostas. Geralmente, elas podem ser divididas em duas partes:
o Definio dos centros, forma e disperso das funes de base radial, normalmente
baseada em treinamento no-supervisionado (quantizao vetorial ou algoritmo de
treinamento competitivo) ou computao evolutiva;
o Aprendizado dos pesos da camada de sada, responsveis pela combinao linear
das ativaes da camada intermediria, empregando regresso linear.
1.3 Capacidade de aproximao universal de redes RBF
Dado um nmero suficiente de neurnios com funo de base radial, qualquer funo
contnua definida numa regio compacta pode ser devidamente aproximada usando
uma rede RBF (PARK & SANDBERG, 1991).

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

11

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

1.4 O mtodo dos quadrados mnimos para modelos lineares nos


parmetros
Quando o treinamento supervisionado aplicado a modelos lineares nos parmetros, o
mtodo dos quadrados mnimos conduz a um problema de otimizao que apresenta
soluo na forma fechada.
Assim, com um modelo de regresso linear na forma (considerando uma sada):
m

f (x) w j h j (x)
j 1

N
e o conjunto de treinamento dado por xi , si i 1 , o mtodo dos quadrados mnimos se

ocupa em minimizar (em relao aos coeficientes da combinao linear) a soma dos
quadrados dos erros produzidos a partir de cada um dos N padres de entrada-sada.
m

2
min J ( w) min si f (xi ) min si w j h j (xi )
w
w i 1
w i 1
j 1

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

12

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

1.5 Obteno da soluo do problema de regresso linear


Do Clculo Elementar, sabe-se que a aplicao da condio de otimalidade (restries
atendidas pelos pontos de mximo e mnimo de uma funo diferencivel) permite
obter a soluo tima do problema de otimizao min J ( w ) , na forma:
w

1. Diferencie a funo em relao aos parmetros ajustveis;


2. Iguale estas derivadas parciais a zero;
3. Resolva o sistema de equaes resultante.
No caso em questo, os parmetros livres so os coeficientes da combinao linear,
T
dados na forma do vetor de pesos w w1 w j wm .

O sistema de equaes resultante dado na forma:


N
N
J
f
2 si f (xi )
2 si f (xi ) h j (xi ) 0 , j=1,...,m.
w j

w
i 1
i 1
j

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

13

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Separando-se os termos que envolvem f(), resulta:


N
m

f (xi )h j (xi ) wr hr (xi )h j (xi ) si h j (xi ) , j=1,...,m.

i 1
i 1 r 1
i 1
N

Portanto, existem m equaes para obter as m incgnitas wr , r 1,..., m. Exceto sob


condies patolgicas, este sistema de equaes vai apresentar uma soluo nica.
Para encontrar esta soluo nica do sistema de equaes lineares, interessante
recorrer notao vetorial, fornecida pela lgebra linear, para obter:

hTj f hTj s , j=1,...,m,


onde

h j (x1 )

hj ,
h j (x N )

w
h
(
x
)

f (x1 ) r 1 r r 1

m
f (x N ) wr hr (x N )
r 1

s1
s .

sN

Como existem m equaes, resulta:


Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

14

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

h1T f h1T s

T
T
h m f h m s

Definindo a matriz H, com sua j-sima coluna dada por hj, temos:
H h 1

h1 (x 1 ) h2 (x 1 )
h (x ) h (x )
2
2
hm 1 2

h1 (x N ) h2 (x N )

h2

hm ( x 1 )
hm (x 2 )

hm ( x N )

sendo possvel reescrever o sistema de equaes lineares como segue:

HT f HT s
O i-simo componente do vetor f pode ser apresentado na forma:
m

fi f (xi ) wr hr (xi ) h1 (xi ) h2 (xi ) hm (xi )w


r 1

permitindo expressar f em funo da matriz H, de modo que:


f = Hw
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

15

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Substituindo no sistema de equaes lineares, resulta a soluo tima para o vetor de


coeficientes da combinao linear (que correspondem aos pesos da camada de sada da
rede neural de base radial):

H T Hw H T s w H T H

HT s

Esta equao de soluo do problema dos quadrados mnimos conhecida como


equao normal. Para que exista a inversa de HTH, basta que a matriz H tenha posto
completo, j que m N.
1.6 Exemplo
O modelo linear de regresso mais simples a reta, aplicada nos casos em que a
entrada escalar: f ( x) w1h1 ( x) w2 h2 ( x) , onde h1(x) = 1 e h2(x) = x.
Considere que foram amostrados, na presena de rudo, trs pontos da curva y = x,
gerando o conjunto de treinamento: ( xi , si )i31 (1,1.1), (2,1.8), (3,3.1).

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

16

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Obviamente, no se conhece a equao da curva, mas apenas estes trs pontos


amostrados. Para estimar w1 e w2, vamos proceder de acordo com os passos do mtodo
dos quadrados mnimos.

h1 ( x1 ) h2 ( x1 ) 1 1
H h1 ( x2 ) h2 ( x2 ) 1 2

h1 ( x3 ) h2 ( x3 ) 1 3

1.1
s 1.8

3.1

w HTH

0
HTs
1

Para o mesmo conjunto de treinamento, considere agora que

f ( x) w1h1 ( x) w2 h2 ( x) w3h3 ( x) ,
onde h1(x) = 1, h2(x) = x e h3(x) = x2. Enquanto no caso anterior tnhamos m < N, agora
temos m = N.
O efeito da adio da funo-base extra h3(x) representa a adio de uma coluna

h3 ( x1 ) 1
1
h 3 h3 ( x2 ) 4 junto matriz H, e a soluo assume a forma w 0.2 .

h3 ( x3 ) 9
0.3
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

17

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

4
3.5
3
2.5
y

2
1.5
1
0.5
0
0

Figura 4 Modelos de regresso linear (ordem 1 e ordem 2).


Observe que ambos os modelos so lineares nos parmetros (da a denominao de
regresso linear), embora para m = 3 tenhamos um modelo no-linear.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

18

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

1.7 Aproximao usando rede neural RBF


1

Caso 1: m = N
Pontos amostrados: (1,2); (3,7); (5,6)

0.8

1
2
0.945
c 3 ; r 1 ; w 2.850

5
3
5.930

0.6
0.4
0.2

Obs: As funes de base radial tm centros nos


0
0

10

valores de x e disperses arbitrrias.


8

4
3

1
0
0

10

0
0

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

10

19

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp
1

Caso 2: m < N

0.8

Pontos amostrados: (1,2); (3,7); (5,6); (8,1)

1
2
1.012
c 3 ; r 1 ; w 3.084

5
3
5.538

0.6
0.4
0.2

Obs: As funes de base radial so as mesmas do


0
0

10

Caso 1.
8

3
2

1
0
0

10

0
0

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

10

20

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

1.8 Determinao dos centros e disperses


No caso de algoritmos que se ocupam apenas com o ajuste dos pesos da camada de
sada de uma rede RBF (modelos lineares nos parmetros), necessrio estabelecer
algum critrio para fixao dos centros.
Existem critrios para o caso de nmero varivel de centros (redes construtivas, por
exemplo), mas sero mencionados aqui apenas aqueles geralmente empregados para o
caso de um nmero fixo e previamente especificado de centros.
Existem basicamente 3 alternativas:
1. Espalhar os centros uniformemente ao longo da regio em que se encontram os dados;
2. Escolher aleatoriamente, ou segundo algum critrio especfico, um subconjunto de
padres de entrada como centros;
3. Auto-organizar os centros, de acordo com a distribuio dos dados de entrada.
Exemplo: Empregando k-means.

Quanto s disperses das funes de base radial, usualmente se adota uma nica
disperso para todos os centros, na forma (HAYKIN, 1999):
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

21

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

d max
2m

onde m o nmero de centros, e dmax a distncia mxima entre os centros.


1.9 Aplicao das propostas de determinao de centros e disperso
Dados de entrada e 8 centros determinados via k-means
10
8

Figura 5 Proposta de

x2

6
4

posicionamento dos centros das

funes de base radial para

uma rede neural RBF com 8

-2

neurnios na camada

-4

intermediria

-6
-8
-10
-10

-8

-6

-4

-2

0
x1

10

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

22

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp
Dados de entrada e 8 centros determinados via k-means
10
8
6
4

x2

2
0
-2
-4
-6
-8
-10
-10

-8

-6

-4

-2

0
x1

10

Figura 6 Outra proposta de posicionamento dos centros para os mesmos dados,


produzida por uma segunda execuo do algoritmo k-means.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

23

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp
Contribuio uniforme (ainda no-ponderada) de cada neurnio

2
1
0
10

0
10
-5

5
0

x2
-10

-5
-10

x1

Figura 7 Ativao dos neurnios da rede neural RBF com os centros da Figura 6,
considerando todos os pesos de sada iguais a 1 e ausncia de peso de bias. A disperso
a mesma para todas as funes de ativao, dada pela frmula da pg. 22.
Com o critrio de disperso da pg. 22, evita-se que as funes de base radial sejam
excessivamente pontiagudas, ou ento com uma base demasiadamente extensa.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

24

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

1.10 Referncias para redes neurais RBF


BROOMHEAD, D.S. & LOWE, D. Multivariate functional interpolation and adaptive networks, Complex Systems,
2: 321-355, 1988.
HAYKIN, S. Neural Networks and Learning Machines, 3rd edition, Prentice Hall, 2008.
PARK, J. & SANDBERG, I.W. Universal approximation using radial-basis-function networks. Neural Computation,
3(2): 246-257, 1991.

1.11 Bibliografia complementar para redes RBF


BISHOP, C.M. Improving the generalisation properties of radial basis function neural networks, Neural Networks, 3(4): 579-588,
1991.
BISHOP, C.M. Neural Networks for Pattern Recognition, Clarendon Press, 1995.
CHEN, C.-L., CHEN, W.-C. & CHANG, F.-Y. Hybrid learning algorithm for Gaussian potential function networks, IEE Proceedings
D, 140(6): 442-448, 1993.
CHEN, S., CHNG, E.S. & ALKADHIMI, K. Regularized Orthogonal Least Squares Algorithm for Constructing Radial Basis Function
Networks, International Journal of Control, 64(5): 829-837, 1996.
CHEN, S., COWAN, C.F.N. & GRANT, P.M. Orthogonal Least Squares Algorithm for Radial Basis Function Networks, IEEE
Transactions on Neural Networks, 2(2): 302-309, 1991.
DE CASTRO, L.N. & VON ZUBEN, F.J. Automatic Determination of Radial Basis Functions: An Immunity-Based Approach.
International Journal of Neural Systems, vol. 11, no. 6, pp. 523-535, 2001.
FREEMAN, J.A.S. & SAAD, D. Learning and Generalization in Radial Basis Function Networks, Neural Computation, 7: 1000-1020,
1995.
FRITZKE, B. Fast learning with incremental RBF Networks, Neural Processing Letters, 1(1): 2-5, 1994.
GOMM, J.B. & YU, D.L. Selecting Radial Basis Function Network Centers with Recursive Orthogonal Least Squares Training,
IEEE Transactions on Neural Networks, 11(2):306-314, 2000.
HWANG, Y.-S. & BANG, S.-Y. An Efficient Method to Construct a Radial Basis Function Neural Network Classifier, Neural
Networks, 10(8): 1495-1503, 1997.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

25

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp
KARAYIANNIS, N.B. Gradient Descent Learning of Radial Basis Neural Networks, Proceedings of the IEEE International
Conference on Neural Networks, pp. 1815-1820, 1997.
KARAYIANNIS, N.B. & MI, G.W. Growing Radial Basis Neural Networks: Merging Supervised and Unsupervised Learning with
Network Growth Techniques, IEEE Transactions on Neural Networks, 8(6): 1492-1506, 1997.
KUBAT, M. Decision trees can initialize radial-basis function networks, IEEE Transactions on Neural Networks, 9(5): 813-821,
1998.
LIPPMANN, R.P. Pattern Classification Using Neural Networks, IEEE Communications Magazine, November, pp. 47-63, 1989.
MICCHELLI, C.A. Interpolation of Scattered Data: Distance Matrices and Conditionally Positive Definite Functions, Constructive
Approximation, 2: 11-22, 1986.
MOODY, J. & DARKEN, C. Fast Learning in Networks of Locally-Tuned Processing Units, Neural Computation, 1: 281-294, 1989.
MULGREW, B. Applying Radial Basis Functions, IEEE Signal Processing Magazine, pp. 50-66, March 1996.
ORR, M.J.L. Introduction to Radial Basis Function Networks, Technical Report, Centre for Cognitive Science, University of
Edinburgh, Scotland, 1996. (http://www.anc.ed.ac.uk/~mjo/papers/intro.ps)
ORR, M.J.L. Recent Advances in Radial Basis Function Networks, Technical Report, Institute for Adaptive and Neural
Computation, University of Edinburgh, Scotland, 1999. (http://www.anc.ed.ac.uk/~mjo/papers/recad.ps)
ORR, M.J.L. Regularisation in the Selection of Radial Basis Function Centres, Neural Computation, 7(3): 606-623, 1995.
POGGIO, T. & GIROSI, F. Networks for Approximation and Learning, Proceedings of the IEEE, 78(9): 1481-1497, 1990.
SUTANTO, E.L., MASON, J.D. & WARWICK, K. Mean-tracking clustering algorithm for radial basis function centre selection.
International Journal of Control, 67(6): 961-977, 1997.
WANG, Z. & ZHU, T. An Efficient Learning Algorithm for Improving Generalization Performance of Radial Basis Function Neural
Networks, Neural Networks, 13(4-5): 545-553, 2000.
WETTSCHERECK, D. & DIETTERICH, T. Improving the Performance of Radial Basis Function Networks by Learning Center
Locations, Advances in Neural Information Processing Systems, 4:1133-1140, 1992.
WHITEHEAD, B.A. & CHOATE, T.D. Cooperative-Competitive Genetic Evolution of Radial Basis Function Centers and Widths for
Time Series Prediction, IEEE Transactions on Neural Networks, 7(4): 869-880, 1996.
WHITEHEAD, B.A. & CHOATE, T.D. Evolving Space-Filling Curves to Distribute Radial Basis Functions Over an Input Space, IEEE
Transactions on Neural Networks, 5(1): 15-23, 1994.
YINGWEI, L., SUNDARARAJAN, N. & SARATCHANDRAN, P. A Sequential Learning Scheme for Function Approximation Using
Minimal Radial Basis Function Neural Networks, Neural Computation, pp. 461-478, 1996.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

26

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

2. Mquinas de aprendizado extremo (ELMs)


Todas as propostas de redes neurais no-recorrentes (feedfoward) j apresentadas no
curso, como o perceptron de mltiplas camadas (MLP) e a rede neural com funes de
ativao de base radial (RBF), produzem a sua sada (podendo ser mltiplas sadas)
como uma combinao linear das ativaes dos neurnios da camada anterior.
Tomando uma nica camada intermediria, pode-se afirmar, portanto, que redes
neurais MLP e RBF sintetizam mapeamentos multidimensionais de entrada-sada por
meio de uma composio aditiva de funes-base, na forma:

s kl wkj f v j , b j , xl wk 0
n

j 1

onde
s kl a k-sima sada da rede neural para o l-simo padro de entrada xl;
f v j , b j , a j-sima funo da base de funes-base.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

27

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

No caso da rede neural MLP, as funes-base so funes de expanso ortogonal


(ridge functions), enquanto que, no caso da rede neural RBF, as funes-base tm um
comportamento radial em relao a um centro de ativao mxima.
Nos dois casos, como em outros casos de composio aditiva de funes-base, h
demonstrao terica da capacidade de aproximao universal. A capacidade de
aproximao universal uma propriedade existencial. Ela afirma que existe um
nmero n finito de neurnios e uma certa configurao de pesos sinpticos que
permitem obter um erro de aproximao arbitrariamente baixo para os dados de
treinamento, supondo que se considera uma regio compacta do espao de entrada e
que o mapeamento original, que amostrado para produzir os dados de treinamento,
contnuo.
intuitivo concluir, tambm, que quanto maior o nmero n de neurnios na camada
intermediria, maior a flexibilidade do modelo matemtico resultante, ou seja,
maiores so as possibilidades de contoro do mapeamento a ser sintetizado.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

28

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Por outro lado, sabido tambm que h o risco de sobre-ajuste aos dados, produzindo
modelos que generalizam mal frente a novos dados de entrada-sada. A mxima
capacidade de generalizao est associada a modelos otimamente regularizados, ou
seja, que se contorcem na medida certa, de acordo com as demandas de cada aplicao.
Com isso, uma definio adequada do nmero de neurnios e dos pesos sinpticos
fundamental para garantir uma boa capacidade de generalizao.
Um resultado fundamental da literatura, restrito a problemas de classificao de
padres, foi apresentado por BARTLETT (1997; 1998). Nesses trabalhos, como o
prprio ttulo indica, conclui-se que controlar a norma dos pesos sinpticos mais
relevante para a capacidade de generalizao do que controlar o tamanho da rede
neural, ou seja, o nmero n de neurnios na camada intermediria.
De fato, pode-se introduzir o conceito de nmero efetivo de neurnios na camada
intermediria, o qual determinado pela configurao dos pesos da camada de sada
da rede neural.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

29

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

As mquinas de aprendizado extremo exploram este resultado de forma extrema, ou


seja, jogam toda a responsabilidade por garantir uma boa capacidade de generalizao
aos pesos da camada de sada, permitindo que os pesos da camada intermediria,
responsveis por definir as funes-base, sejam definidos de modo aleatrio.
Por serem definidos de modo aleatrio, portanto desvinculados das demandas da
aplicao, deve-se considerar um valor elevado para n, podendo inclusive ultrapassar o
valor de N, que representa o nmero de amostras para treinamento.
Por mais que parea estranho trabalhar com valores de n elevados e at maiores que N,
as mquinas de aprendizado extremo se sustentam em trs argumentos muito
poderosos:
O problema de treinamento passa a ser linear nos parmetros ajustveis, o que
representa uma enorme economia de recursos computacionais para se realizar o
treinamento supervisionado;

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

30

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

A capacidade de generalizao pode ser maximizada controlando-se a norma dos


pesos na camada de sada, no dependendo de forma significativa do nmero n
de neurnios na camada intermediria;
H recursos computacionais disponveis para implementar redes neurais
sobredimensionadas.
E j que as funes-base podem ser definidas aleatoriamente, ento no h razo
tambm para que elas tenham formas sigmoidais ou tenham base radial. Logo, o elenco
de funes-base pode ser tambm arbitrrio, embora as demonstraes de capacidade
de aproximao universal para ELMs restrinjam ainda as alternativas de funes-base.
Por outro lado, so includas funes trigonomtricas e at a funo sinal.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

31

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

2.1 Exemplos de mquinas de aprendizado extremo


1

v10
v11
+

y1
1

1
x1

v1m

w11

v20

w12

^s
1

^s
r

y2

v21
+

w1n

v2m

xm

w10

wr0
wr1

wr2

vn0
yn

vn1
+

wrn

vnm

Figura 8 Rede neural perceptron com uma camada intermediria

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

32

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

y=f(x)

+
w1

h1(x)

c11 c1j

wj

...

hj(x)

c1m

ci1 cij c cn1 cnj cnm


im

...

x1

wm

...

hm(x)

...

xi

xn

Figura 9 Rede neural com funes de ativao de base radial (no esto indicados os pesos de
polarizao, associados s entradas constantes dos neurnios)
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

33

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

2.2 Treinamento das ELMs


Treinar uma mquina de aprendizado extremo equivalente a resolver o seguinte
problema de otimizao para cada uma das sadas da rede neural:

w*k arg minn 1 J w k Ck w k

w k

onde
1. k o ndice da sada;
2. n o nmero de neurnios na camada intermediria;
2

3. a norma euclidiana;
4. Ck um coeficiente de ponderao, a ser determinado, por exemplo, por mtodos
de busca unidimensional;
2

1 n
5. J w k wkj f v j , b j , xl wk 0 skl ;
2 l 1 j 1

6. N o nmero de amostras disponveis para treinamento.


Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

34

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

2.3 Como encontrar os pesos sinpticos


Uma vez fornecido o coeficiente de ponderao Ck, para a k-sima sada da rede
neural, o vetor de pesos sinpticos obtido como segue:
1. Monta-se a matriz Hinicial de dimenso N n, com as ativaes de todos os
neurnios para todos os padres de entrada, produzindo:

H inicial

f v1 , b1 , x1
f v , b , x
1 1 2

f v1 , b1 , x N

f v 2 , b2 , x1

f v n , bn , x1

f v n , bn , x N

2. Acrescenta-se uma coluna de ums matriz Hinicial, produzindo a matriz H:

f v1 , b1 , x1
f v , b , x
1 1 2
H

f v1 , b1 , x N

f v 2 , b2 , x1

f v n , bn , x1 1

f v n , bn , x N 1

3. Monta-se o vetor sk, contendo todos os padres de sada, na forma:


Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

35

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

s k sk1 sk 2 skN

4. Considerando que a matriz H tenha posto completo, o vetor wk obtido como


segue:

4.1. Se (n+1) N, w k H T H Ck I

H T sk ;

4.2. Se (n+1) > N, w k H T HH T Ck I

sk .

2.4 Como encontrar o coeficiente de ponderao


A maximizao da capacidade de generalizao requer a definio de um valor
adequado para o coeficiente de ponderao Ck, associado sada k.
Sugere-se aqui o uso de uma busca unidimensional empregando um conjunto de
validao. O valor timo de Ck aquele que minimiza o erro junto ao conjunto de
validao.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

36

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

2.5 Referncias bibliogrficas para ELMs


BARTLETT, P.L. For valid generalization the size of the weights is more important than the size of
the network. Advances in Neural Information Processing Systems, volume 9, pp. 134-140, 1997.
BARTLETT, P.L. The sample complexity of pattern classification with neural networks: the size of
the weights is more important than the size of the network. IEEE Transactions on Information
Theory, vol. 44, no. 2, pp. 525-536,1998.
HUANG, G.-B., CHEN, L., SIEW, C.-K. Universal Approximation Using Incremental Constructive
Feedfoward Networks with Random Hidden Nodes. IEEE Transactions on Neural Networks,
vol. 17, no. 4, pp. 879-892, 2006.
HUANG, G.-B., WANG, D.H., LAN, Y. Extreme learning machines: a survey. International Journal of
Machine Learning and Cybernetics, vol. 2, pp. 107-122, 2011.
HUANG, G.-B., ZHOU, H., DING, X., ZHANG, R. Extreme Learning Machines for Regression and
Multiclass Classification. IEEE Transactions on Systems, Man, and Cybernetics Part B:
Cybernetics, vol. 42, no. 2, pp. 513-529, 2012.
HUANG, G.-B., ZHU, Q.-Y., SIEW, C.-K. Extreme learning machine: a new learning scheme of
feedforward neural networks. Proceedings of the International Joint Conference on Neural
Networks (IJCNN2004), vol. 2, pp. 985-990, 2004.
HUANG, G.-B., ZHU, Q.-Y., SIEW, C.-K. Extreme learning machine: theory and applications.
Neurocomputing, vol. 70, pp. 489-501, 2006.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

37

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

3. O Jogo da Vida
Concebido por John Horton Conway, matemtico britnico, em 1970. Procure assistir
ao vdeo em: http://www.youtube.com/watch?v=XcuBvj0pw-E&feature=related

Clula morta e com trs vizinhos vivos ressuscita;

Clula viva e com dois ou trs vizinhos vivos permanece viva;

Em todos os outros casos, a clula morre ou permanece morta.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

38

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

4. Exemplos de auto-organizao na natureza


Conchas

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

39

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Processos Fsicos

Dunas
Reagentes qumicos
Rachaduras na lama
Clulas de conveco de
Brnard
Rachadura em tinta
Rugas em verniz

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

40

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Em animais

Listras da zebra
Manchas da girafa
Listras do tigre
Anfbios
Lagartos

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

41

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Em plantas

Margarida
Slime mold
Repolho vermelho
Lquen
Cogumelo
Gro de plen

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

42

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Em insetos

Asas de borboletas
Exoesqueletos de besouros

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

43

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

5. Treinamento no-supervisionado
Como aprender a representar padres de entrada de modo a refletir a estrutura
estatstica de toda a coleo de dados de entrada? Que aspectos da entrada devem ser
reproduzidos na sada?
Em contraposio ao treinamento supervisionado, no h aqui nenhuma sada desejada
explcita ou avaliao externa da sada produzida para cada dado de entrada.
O treinamento no-supervisionado predominante no crebro humano. sabido que
as propriedades estruturais e fisiolgicas das sinapses no crtex cerebral so
influenciadas pelos padres de atividade que ocorrem nos neurnios sensoriais. No
entanto, em essncia, nenhuma informao prvia acerca do contedo ou significado
do fenmeno sensorial est disponvel.
Sendo assim, a implementao de modelos computacionais para ajuste de pesos
sinpticos via treinamento no-supervisionado deve recorrer apenas aos dados de

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

44

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

entrada, tomados como amostras independentes de uma distribuio de probabilidade


desconhecida.

6. Mapas Auto-Organizveis de Kohonen


Um mapa de Kohonen um arranjo de neurnios, geralmente restrito a espaos de
dimenso 1 ou 2, que procura estabelecer e preservar noes de vizinhana
(preservao topolgica).
Se estes mapas apresentarem propriedades de auto-organizao, ento eles podem ser
aplicados a problemas de clusterizao e ordenao espacial de dados.
Neste caso, vai existir um mapeamento do espao original (em que os dados se
encontram) para o espao em que est definido o arranjo de neurnios.
Como geralmente o arranjo de neurnios ocorre em espaos de dimenso reduzida (1
ou 2), vai existir uma reduo de dimensionalidade sempre que o espao original (em
que os dados se encontram) apresentar uma dimenso mais elevada.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

45

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

6.1 Arranjo unidimensional


Um mapa de Kohonen unidimensional uma sequncia ordenada de neurnios
lineares, onde o nmero de pesos de cada neurnio igual ao nmero de entradas.
H uma relao de vizinhana entre os neurnios (no espao unidimensional
vinculado ao arranjo), mas h tambm uma relao entre os pesos dos neurnios no
espao de dimenso igual ao nmero de entradas. Para entender a funcionalidade dos
mapas de Kohonen, necessrio considerar ambas as relaes.
ordem 2
ordem 1
ordem 0

...
x1 x2

xdim

Figura 10 Rede de Kohonen em arranjo unidimensional: nfase na vizinhana


Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

46

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

6.2 Arranjo bidimensional

...

...

...

...
x1 x2

xdim

Figura 11 Rede de Kohonen em arranjo bidimensional: nfase na vizinhana


Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

47

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

mi

mi

Figura 12 Outras configuraes de mapas e de vizinhana (figuras extradas de


ZUCHINI, 2003)

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

48

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Arranjo em
2

Neurnios mi

Pesos sinpticos
[mi1, ..., miD]
v1
v2

Dados de
Entrada

vD

Figura 13 Outra perspectiva para arranjo 2D (figura extrada de ZUCHINI, 2003)


Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

49

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp
Plano hexagonal

Plano retangular

8
6

6
1

-1

3
0

-1

6
8

Toroide
Cilindro
2
1
0
0.5

-1

8
6

-0.5

-2

4
2
-0.5

0.5

1
0.5
0
-0.5
2

-1

-2

Figura 14 Arranjos com e sem vizinhana nos extremos (figuras extradas de ZUCHINI,
2003)
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

50

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

6.3 Algoritmo de ajuste dos pesos


while <condio de parada> falso,
Ordene aleatoriamente os N padres de entrada;
for i=1 at N,

j arg min xi w j
j

J Viz(j) do:

w J w J dist( j, J )xi w J ;
end do
end for
Atualize a taxa de aprendizado ;
Atualize a vizinhana;
Avalie a condio de parada;
end while
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

51

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

wj(k)

(x(k)wj(k))
wj(k+1)
x(k)

vizinhana
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

vizinhana
52

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

6.4 Um passo de ajuste num arranjo unidimensional

Neurnio
vencedor

Padro de entrada

Conformao do mapa anterior


ao processo competitivo
Conformao do mapa posterior
ao processo competitivo

Figura 15 Ajuste do neurnio vencedor e de seus vizinhos mais prximos


Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

53

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

6.5 Ajuste de pesos com restrio de vizinhana

vk

BMU

Figura 16 BMU (Best Matching Unit) e seus vizinhos (figuras extradas de ZUCHINI,
2003)
O neurnio que venceu para uma dada amostra o que sofre o maior ajuste. No
entanto, dentro de uma vizinhana, todos os neurnios vizinhos tambm sofrero um
ajuste de pesos, embora de menor intensidade.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

54

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

6.6 Discriminao dos agrupamentos

Figura 17 Exemplo de matriz-U para arranjo retangular (figura extrada de ZUCHINI,


2003)

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

55

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Figura 18 Exemplo de matriz-U para arranjo hexagonal (figura extrada de ZUCHINI,


2003)

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

56

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

6.7 Ferramentas de visualizao e discriminao

1.5
1
0.5
0
-0.5
2
-1
-1.5
3

0
2

-1

-2

-2

Figura 19 Matriz-U para grid hexagonal (figuras extradas de ZUCHINI, 2003)

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

57

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Figura 20 Interpretao do mapa aps auto-organizao (figura extrada de ZUCHINI,


2003)

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

58

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Figura 21 Busca por correlaes (matriz-U por atributo de entrada do mapa) aps a
auto-organizao (figura extrada de ZUCHINI, 2003) (VESANTO & AHOLA, 1999)
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

59

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Figura 22 Interpretao do mapa aps auto-organizao (figura extrada de ZUCHINI,


2003)
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

60

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

6.8 Ordenamento de pontos em espaos multidimensionais

Figura 23 Modo de operao (GOMES et al., 2004)


Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

61

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

6.9 Roteamento de veculos (mltiplos mapas auto-organizveis)

Figura 24 Vrias etapas do processo de auto-organizao (GOMES & VON ZUBEN, 2002)
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

62

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

6.10 Mapas auto-organizveis construtivos

Figura 25 Growing Neural Gas (FRITZKE, 1995)


Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

63

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

6.11 Questes a serem melhor investigadas


Sintonia de parmetros
Neurnios que no vencem nunca (devem ser podados para aumentar eficincia)
Neurnios que vencem sempre
Dimenso do arranjo para uma dada aplicao
Nmero de neurnios, uma vez definido o arranjo
Inicializao dos pesos
Apresentao dos dados rede (padro-a-padro ou em batelada?)
Interpretao do mapa resultante (anlise discriminante)
Mtodos construtivos e de poda
Outras aplicaes e mltiplos mapeamentos simultneos
Comparaes com ferramentas similares
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

64

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

6.12 Extenses
Learning Vector Quantization (LVQ)

(xi w j ) se a classe for correta


w j
(xi w j ) se a classe for incorreta
6.13 Referncias para mapas auto-organizveis
ANGNIOL, B., VAUBOIS, C. & LE TEXIER, J.Y. Self-organizing feature maps and the travelling salesman
problem, Neural Networks, 1, 289-293, 1988.
ARAS, N., OOMMEN, B.J. & ALTINEL, I.K. The Kohonen Network Incorporating Explicit Statistics and its
Application to The Travelling Salesman Problem, Neural Networks, 12, 1273-1284, 1999.
BARLOW, H. B. Unsupervised learning, Neural Computation, 1: 295-311, 1989.
BECKER, S. & PLUMBLEY, M. Unsupervised neural network learning procedures for feature extraction and
classification, International Journal of Applied Intelligence, 6: 185-203, 1996.
COSTA, J.A.F. Classificao Automtica e Anlise de Dados por Redes Neurais Auto-Organizveis, Tese de
Doutorado, Faculdade de Engenharia Eltrica e de Computao (FEEC/Unicamp), Dezembro 1999.
EVERITT, B. Cluster Analysis, 3rd. edition, John Wiley, 1993.
FAQ: The self-organized systems (http://www.calresco.org/sos/sosfaq.htm)
FAVATA, F. & WALKER, R. A Study of the Application of Kohonen-Type Neural Networks to the Traveling
Salesman Problem, Biological Cybernetics 64, 463-468, 1991.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

65

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

FORT, J.C. Solving a Combinatorial Problem via Self-Organizing Maps, Biological Cybernetics, 59, 33-40,
1988.
FRITZKE, B. A Growing Neural Gas Network Learns Topologies, in Tesauro, G., Touretzky, D.S., and Leen,
T.K. (eds.). Advances in Neural Information Processing Systems 7, The MIT Press, pp. 625-632, 1995.
GOMES, L.C.T. & VON ZUBEN, F.J. A Neuro-Fuzzy Approach to the Capacitated Vehicle Routing Problem.
Proceedings of the IEEE International Joint Conference on Neural Networks (IJCNN2002), vol. 2, pp. 19301935, Honolulu, Hawaii, May 12-17, 2002.
GOMES, L.C.T., VON ZUBEN, F.J. & MOSCATO, P.A. A Proposal for Direct-Ordering Gene Expression Data by
Self-Organising Maps, International Journal of Applied Soft Computing, vol. 5, pp. 11-21, 2004.
JAIN, A.K., MURTY, M.N. & FLYNN, P.J. Data Clustering: A Review, ACM Computing Surveys, vol. 31, no. 3,
pp. 264-323, 1999.
KASKI, S. Data Exploration Using Self-Organizing Maps, Ph.D. Thesis, Helsinki University of Technology,
Neural Networks Research Centre, 1997.
KAUFFMAN, S. The Origins of Order: Self-Organization and Selection in Evolution, Oxford University Press,
1993.
KOHONEN, T. Self-organized formation of topologically correct feature maps, Biological Cybernetics, vol. 43,
pp. 59-69, 1982.
KOHONEN, T. Self-Organization and Associative Memory, 3rd. edition, Springer, 1989 (1st. edition, 1984).
KOHONEN, T. The Self-Organizing Map, Proceedings of the IEEE, 78:1464-1480, 1990.
KOHONEN, T., OJA, E., SIMULA, O., VISA, A. & KANGAS, J. Engineering applications of the self-organizing map,
Proceedings of the IEEE, 84:1358-1384, 1996.
KOHONEN, T. Self-Organizing Maps, 2nd. edition, Springer, 1997.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

66

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

MATSUYAMA, Y. Self-Organization via Competition, Cooperation and Categorization Applied to Extended


Vehicle Routing Problems, Proc. International Joint Conference on Neural Networks, 1, 385-390, 1991.
MODARES, A., SOMHOM, S. & ENKAWA, T. A Self-Organizing Neural Network Approach for Multiple Traveling
Salesman and Vehicle Routing Problems, Int. Transactions in Operational Research, 6, 591-606, 1999.
POTVIN, J.-I. & ROBILLARD, C. Clustering for Vehicle Routing with a Competitive Neural Network,
Neurocomputing, 8, 125-139, 1995.
SMITH, K.A. Neural Networks for Combinatorial Optimization: A Review of More than a Decade of Research,
INFORMS Journal on Computing, 11, 1, 15-34, 1999.
TOOLBOX: http://www.cis.hut.fi/projects/somtoolbox/
ULTSCH, A. Knowledge Extraction from Self-Organizing Neural Networks, in O. Opitz et al. (eds.) Information
and Classification, Springer, pp. 301-306, 1993.
VAKHUTINSKY, A. I. & GOLDEN, B. L. Solving Vehicle Routing Problems Using Elastic Nets, Proc. IEEE
International Conference on Neural Networks, 7, 4535-4540, 1994.
VESANTO,J. & AHOLA, J. Hunting for Correlations in Data Using the Self-Organizing Map, in International
ICSC Congress on Computational Intelligence Methods and Applications (CIMA'99), ICSC Academic Press,
pp. 279-285, 1999.
ZUCHINI, M.H. Aplicaes de Mapas Auto-Organizveis em Minerao de Dados e Recuperao de Informao,
Tese de Mestrado, Faculdade de Engenharia Eltrica e de Computao (FEEC/Unicamp), Setembro 2003.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

67

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

7. Redes neurais recorrentes


Redes neurais recorrentes so estruturas de processamento capazes de representar uma
grande variedade de comportamentos dinmicos.
A presena de realimentao de informao permite a criao de representaes
internas e dispositivos de memria capazes de processar e armazenar informaes
temporais e sinais sequenciais.
A presena de conexes recorrentes ou realimentao de informao pode conduzir a
comportamentos complexos, mesmo com um nmero reduzido de parmetros.
Como estruturas de processamento de sinais, redes neurais recorrentes se assemelham
a filtros no-lineares com resposta ao impulso infinita (NERRAND et al., 1993).
Repare que o processo de treinamento vai envolver duas dinmicas acopladas: a
dinmica da rede neural e a dinmica do ajuste de pesos.
Seguem alguns exemplos de arquiteturas de redes neurais recorrentes (DOS SANTOS &
VON ZUBEN, 2000).
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

68

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

y (k )
z N k

z1 (k )

z 1

z 1

z 1 ( k 1)

zN (k 1)

z 1

z 1

z1 (k L)

z N ( k L)

u (k )
Figura 26 Globally recurrent neural network (GRNN)

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

69

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

y(k )

z N (k )

z1 ( k )

z 1

y(k 1)

z 1

y(k L) u (k )

Figura 27 Output-feedback recurrent neural network (OFRNN)

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

70

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

z1 (k L)
z 1

z N ( k L)
z 1

z 1

z 1

z N (k )

z1 (k )

u (k )
Figura 28 Fully recurrent neural network (FRNN)
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

71

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Figura 29 Echo state neural network


(pesos da parte dinmica da rede neural no so ajustveis)
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

72

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

7.1 Modelagem de sistemas dinmicos lineares


y1( t )

yr ( t )
camada de sada

x 1(t )

x n (t )
camada intermediria

camada de entrada
camada de contexto

u 1(t )

u m(t )

Figura 30 Estrutura detalhada da Rede de Elman (ELMAN, 1990)

x( t ) Wxx x( t 1) + Wxu u( t 1)

(aproxima qualquer dinmica linear)
y
(
t
)

W
x
(
t
)
yx

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

73

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

7.2 Modelagem de sistemas dinmicos no-lineares

z-1
x(t)
f
g

y(t)

z-1
u(t)
Figura 31 Representao por espao de estados de um sistema dinmico no-linear

x( t 1) f x( t ), u( t )

y( t ) gx( t ), u( t )
onde u(t) m, x(t) n, y(t) r, f: nm n e g: nm r.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

74

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

7.3 Treinamento supervisionado para redes recorrentes


Ao contrrio do modelo de rede neural no-recorrente, o modelo de rede neural
recorrente uma funo composta de . Logo, a anlise variacional dos modelos com e
sem recorrncia produz os seguintes resultados:
Rede neural no-recorrente:

s(t ) RN (x(t ), )
s( t ) RN

Rede neural recorrente:

s(t ) RN rec (x(t ), s(t 1), )


s( t ) RN rec RN rec RN rec s( t 1)

s(
t 1
)

termo adicional

A disponibilidade de redes neurais recorrentes de importncia prtica est associada


existncia de algoritmos de otimizao eficientes para o ajuste dos pesos sinpticos.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

75

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

8. Rede de Hopfield: recorrncia e dinmica no-linear


Inspirada em conceitos de fsica estatstica e dinmica no-linear;
Principais caractersticas: Unidades computacionais no-lineares
Simetria nas conexes sinpticas
Totalmente realimentada (exceto auto-realimentao)

Figura 32 Rede Neural de Hopfield: nfase nas conexes


Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

76

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

z-1
..
.
z-1
z-1
w11=0
w12

..
.

y1

y2

yn

u1

w1n
w21
w22=0

..
.

..
.

+
u2

w2n

..
.
wn1
wn2

..
.

wnn=0

un

Figura 33 Rede Neural de Hopfield: nfase no processamento dinmico (caso discreto)


Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

77

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

8.1 Princpios bsicos de sistemas dinmicos no-lineares


A teoria de sistemas dinmicos se ocupa em descrever matematicamente sistemas em
movimento, permitindo classificar e predizer seu comportamento no tempo.
O comportamento temporal de sistemas dinmicos pode depender tanto de variveis
observveis como de variveis no-observveis.
Um sistema dinmico consiste de duas partes: um estado e uma dinmica.
O estado descreve a condio atual do sistema, na forma de um vetor de variveis
parametrizadas em relao ao tempo, sendo que o conjunto de estados possveis
denominado espao de estados do sistema.
A dinmica descreve como o estado do sistema evolui no tempo, sendo que a
sequncia de estados exibida por um sistema dinmico durante sua evoluo no tempo
denominada trajetria no espao de estados.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

78

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Hiptese: a dinmica determinstica (em oposio estocstica), ou seja, para cada


estado do sistema, a dinmica especifica unicamente o prximo estado (dinmica
discreta) ou ento a direo de variao do estado (dinmica contnua).
Neste caso, um sistema dinmico uma prescrio matemtica determinstica para a
evoluo de um estado no tempo.
Entradas externas podem influir na determinao do prximo estado.

Tabela 1 Taxonomia dos sistemas dinmicos (KOLEN, 1994)

DINMICA

contnua
discreta

ESPAO DE ESTADOS
contnuo
discreto
sistema de
vidros de spin
equaes diferenciais
sistema de equaes
autmato
a diferenas

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

79

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Quando um sistema dinmico no apresenta a propriedade de linearidade (princpio da


superposio de efeitos) ele denominado sistema dinmico no-linear. Os sistemas
fsicos so inerentemente no-lineares.
No entanto, quando a faixa de operao do sistema pequena e as no-linearidades so
suaves, um sistema dinmico no-linear pode ser representado aproximadamente por
seu correspondente sistema linearizado, cuja dinmica descrita por um conjunto de
equaes diferenciais ou a diferenas lineares.
Neste tpico do curso nos restringiremos anlise e sntese de equaes de estado
no-foradas e invariantes no tempo (sistema autnomo):

x (t ) f x(t )

x(k 1) g x(k )

8.2 Exemplos de comportamentos dinmicos no-lineares


A dinmica de um sistema no-linear muito mais rica que a de um sistema linear, ou
seja, h fenmenos dinmicos significativos que s ocorrem na presena de nolinearidades, no podendo assim serem descritos ou preditos por modelos lineares.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

80

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Exemplos de fenmenos essencialmente no-lineares:


Tempo de escape finito: o estado de um sistema linear instvel vai para infinito
quando o tempo tende a infinito. J no caso no-linear, o estado pode ir para infinito
em tempo finito.
Mltiplos pontos de equilbrio isolados: um sistema linear pode apresentar apenas
um ponto de equilbrio isolado, indicando a existncia de apenas um ponto de
operao em estado estacionrio, o qual atrai o estado do sistema, independente da
condio inicial. J no caso no-linear, podem existir mltiplos pontos de equilbrio
isolados, e assim o ponto de operao em estado estacionrio vai depender da
condio inicial.
Ciclos limites: para um sistema linear invariante no tempo apresentar oscilao
permanente, ele deve apresentar um par de autovalores no eixo imaginrio. Esta
condio uma impossibilidade prtica na presena de perturbaes. Mesmo
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

81

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

considerando apenas a possibilidade terica, a amplitude da oscilao vai depender


da condio inicial. Na prtica, oscilaes estveis devem ser produzidas por
sistemas no-lineares. H sistemas no-lineares que atingem oscilaes de amplitude
e frequncia fixas, independente da condio inicial. Este tipo de oscilao
denominada ciclo limite.
Oscilaes sub-harmnicas, harmnicas e quase-peridicas: um sistema linear
estvel, sujeito a uma entrada peridica, produz uma sada de mesma frequncia. Um
sistema no-linear, sujeito a uma excitao peridica pode oscilar com frequncias
que so sub-mltiplos ou mltiplos da frequncia de excitao. Pode ser gerada
inclusive uma quase-oscilao, formada pela soma de oscilaes peridicas cujas
frequncias no so mltiplos entre si.
Caos: um sistema no linear pode apresentar um comportamento de estado
estacionrio que no equilbrio, nem oscilao peridica, nem oscilao quaseperidica, sendo denominado caos.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

82

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Mltiplos modos de comportamento: comum que mltiplos modos de


comportamento dinmico, dentre os descritos acima, possam ser exibidos por um
mesmo sistema dinmico no-linear, mesmo sem a presena de excitao. Com
excitao, as mudanas de modo de comportamento podem ser descontnuas em
relao a mudanas suaves na amplitude e frequncia da excitao.

8.3 Pontos de equilbrio como memrias endereveis por contedo


Um sistema dinmico no linear autnomo pode exibir 4 comportamentos em estado
estacionrio: ponto de equilbrio, ciclo limite, quase-periodicidade e caos.
HOPFIELD (1982) props uma metodologia para sintetizar sistemas dinmicos
autnomos que s exibem pontos de equilbrio. Mais ainda, a localizao de cada um
dos pontos de equilbrio, no espao de estados, pode ser especificada pelo projetista do
sistema dinmico no-linear, no caso, uma rede neural recorrente.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

83

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Incorporao de um princpio fsico fundamental: armazenagem de informao em


uma configurao dinamicamente estvel (requer um tempo para se acomodar em uma
condio de equilbrio dinmica de relaxao estado estacionrio).
Cada padro a ser armazenado fica localizado em um vale da superfcie de energia.
Como a dinmica no-linear da rede estabelecida de modo a minimizar a energia, os
vales representam pontos de equilbrio estvel (cada qual com a sua base de atrao).

.
.

Figura 34 Superfcie de energia: pontos de equilbrio e bases de atrao


Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

84

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Memria Ponto de equilbrio estvel: embora outros pesquisadores j viessem


buscando a implementao de tal conceito, HOPFIELD (1982) foi o primeiro a formullo em termos precisos.
Este tipo de sistema dinmico pode operar como:
1) Memria associativa (enderevel por contedo);
2) Dispositivo computacional para resolver problemas de otimizao de natureza
combinatria.
A rede neural de Hopfield um caso particular de rede recorrente, em que o espao de
estados discreto.
Como veremos a seguir, ela pode ser vista como uma memria associativa no-linear,
ou uma memria enderevel por contedo, cuja principal funo restaurar um
padro binrio armazenado (item de memria), em resposta apresentao de uma
verso incompleta (papel restaurador) ou ruidosa (papel de corretor de erro) deste
padro.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

85

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

memrias

entradas

Como memorizar?

padres restaurados
Como restaurar?

Portanto, a recuperao do padro armazenado na memria se d a partir de um


subconjunto das informaes contidas no padro.
A essncia da memria enderevel por contedo mapear uma memria fundamental
em um ponto fixo estvel y do sistema dinmico representado pela rede
recorrente.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

86

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

codificao
y

decodificao

espao de
memrias
fundamentais
espao de
vetores de
estados

Os pesos da rede neural de Hopfield no so definidos via algoritmos iterativos de


treinamento, e sim via tcnicas de sntese de dinmicas no-lineares. Para maiores
detalhes, consultar a literatura pertinente.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

87

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

8.4 Recapitulao dos principais conceitos Rede de Hopfield


No-linearidade condio necessria para produzir mltiplos atratores no espao de
estados de sistemas dinmicos.
Hopfield resolveu (parcialmente) o seguinte problema: Dado um conjunto de estados
especficos que devem estar associados a memrias fundamentais, como gerar um
sistema dinmico no-linear que apresente pontos de equilbrio estvel justamente
nestes estados especficos?
Se este sistema dinmico no-linear puder ser sintetizado, ento vai existir uma
superfcie de energia com mnimos locais nos referidos estados especficos, sendo que
a dinmica do sistema vai atuar no sentido de conduzir o estado inicial do sistema a um
dos mnimos locais da superfcie de energia (particularmente quele em cuja base de
atrao se encontra a condio inicial).

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

88

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

8.5 Regra de Hebb


A regra de aprendizado de Hebb a mais antiga e mais famosa regra de aprendizado,
podendo tambm ser apresentada em duas partes, na forma:
1. Se os dois neurnios localizados um em cada lado de uma conexo sinptica so
ativados simultaneamente (de modo sncrono), ento a intensidade da conexo
aumentada.
2. Se os dois neurnios localizados um em cada lado de uma conexo sinptica so
ativados de modo assncrono, ento a intensidade da conexo reduzida.
A 2a parte da regra de Hebb no fazia parte de sua verso original, tendo sido
introduzida posteriormente.
A regra de Hebb pode ser interpretada como um mecanismo (interativo, local e
dependente do tempo) de aumentar a eficincia sinptica em funo da correlao
existente entre as atividades pr- e ps-sinptica.
Na literatura, so utilizadas tambm as conexes anti-hebbianas e no-hebbianas.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

89

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

8.6 Atratores esprios


Quando a rede neural de Hopfield armazena K memrias fundamentais atravs do
ajuste de seus pesos pela regra de Hebb generalizada, os estados estveis presentes na
superfcie de energia no vo se restringir aos estados associados s memrias
fundamentais armazenadas. Todos os estados estveis no associados s memrias
fundamentais armazenadas so denominados atratores esprios.
Os atratores esprios existem em virtude dos seguintes fatores:
1. A funo de energia E simtrica, no sentido de que os estados correspondentes ao
reverso das memrias fundamentais armazenadas tambm so estados estveis;
2. Toda combinao linear de um nmero mpar de estados estveis tambm vai ser um
estado estvel (AMIT, 1989).
3. Para um grande nmero K de memrias fundamentais, a funo de energia vai
produzir pontos de equilbrio que no esto correlacionados com nenhuma das
memrias fundamentais armazenadas na rede (inflexibilidade da superfcie de
energia).
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

90

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

8.7 Problemas de natureza combinatria


So problemas que se enquadram entre aqueles de mais difcil soluo com base nas
ferramentas matemticas e computacionais hoje disponveis;
Exemplo: Problema do caixeiro viajante (TSP) Dadas as localizaes de um
nmero especfico de cidades (distribudas em um plano), o problema encontrar o
menor percurso que se inicia e termina numa mesma cidade, tendo passado uma nica
vez por todas as outras cidades. um problema de fcil formulao, mas para o qual
no se conhece nenhum mtodo que garanta a obteno da soluo tima, alm do
mtodo exaustivo de testar todas as possibilidades e optar pela que produz o menor
percurso. Em virtude da exploso de percursos possveis com o aumento no nmero de
cidades, o mtodo exaustivo torna-se computacionalmente intratvel mesmo para
problemas com um nmero reduzido de cidades (por exemplo, para 100 cidades, o
nmero de percursos possveis da ordem de 10156).

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

91

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Em termos de complexidade computacional, o problema do caixeiro viajante NPcompleto.


A aplicao pioneira de redes de Hopfield no tratamento do problema do caixeiro
viajante (uma abordagem possivelmente extensvel a outros problemas de natureza
combinatria) se deu com o trabalho de HOPFIELD & TANK (1985). Basicamente, foi
considerada uma rede neural analgica, com uma dinmica representada na forma de
um conjunto de equaes diferenciais acopladas, na forma:

Cj

du j
dt

uj

i 1
i j

Rj

w ji i (ui )

j , j = 1,,N.

Os pesos sinpticos da rede so determinados a partir das distncias entre as cidades a


serem visitadas e a soluo tima corresponde a um ponto de equilbrio (mnimo local
da superfcie de energia) no espao de estados da rede neural.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

92

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Ao mesmo tempo em que era necessrio minimizar a funo-objetivo, a qual avalia a


distncia total do percurso, tambm existiam restries a serem atendidas, como passar
ao menos uma vez em cada cidade.
Como a violao de uma nica restrio torna a correspondente soluo invlida,
necessrio incorporar junto funo-objetivo termos que penalizam a violao de cada
restrio. Alm disso, esta funo-objetivo estendida deve corresponder superfcie de
energia da rede de Hopfield, de tal forma que a aplicao da dinmica da rede conduza
o estado sempre para pontos de menor energia. Com isso, uma possvel representao
da funo de energia assume a forma:

E E obj c1 E1restr cm Emrestr

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

93

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Figura 35 Interpretao do ponto de equilbrio como uma soluo para o problema do


caixeiro viajante (repare que h um e somente um neurnio ativo por linha e por coluna)
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

94

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Alm do desempenho da rede de Hopfield na soluo do problema do caixeiro viajante


no ser superior a outras tcnicas de soluo j disponveis, a extenso desta
abordagem para outros problemas de natureza combinatria, embora possvel, no
imediata.
Na verdade, o potencial de aplicao de sistemas dinmicos no-lineares junto a
problemas de exploso combinatria muito alto, embora a complexidade envolvida
no processo de mapeamento do problema em uma superfcie de energia do sistema
dinmico associado tem impedido uma explorao mais ampla desta ferramenta de
soluo.
A implementao de um hardware dedicado pode ser considerada uma das mais
promissoras frentes de aplicao, pois amplia a escala de problemas combinatrios que
podem ser abordados, sem produzir incrementos significativos no tempo de
processamento, visto que se emprega computao paralela.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

95

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

8.8 Referncias bibliogrficas Redes neurais recorrentes


AMIT, D.J. Modeling Brain Function: The World of Attractor Neural Networks. Cambridge University Press, 1989.
BACK, A. D., TSOI. A. C. FIR and IIR synapses, a new neural network architecture for time series modeling, Neural
Computation, vol. 3, pp. 375-385, 1991.
BHAYA, A., KASZKUREWICZ, E. & KOZYAKIN, V.S. Existence and Stability of a Unique Equilibrium in Continuous-Valued
Discrete-Time Asynchronous Hopfield Neural Networks. IEEE Transactions on Neural Networks, vol. 7, no. 3, pp.
620-628, 1996.
BRUCK, J. On the convergence properties of the Hopfield model. Proc. of the IEEE, vol. 78, pp. 1579-1585, 1990.
CLEEREMANS, A., SERVAN-SCHREIBER, D., MCCLELLAND, J. Finite state automata and simple recurrent networks. Neural
Computation, vol. 1, no. 3, pp. 372-381, 1989.
COHEN, M.A. & GROSSBERG, S. Absolute stability of global pattern formation and parallel memory storage by competitive
neural networks. IEEE Transactions on Systems, Man, and Cybernetics, vol. 13, pp. 815-826, 1983.
CONNOR, J. T., MARTIN, R. D., ATLAS, L. E. Recurrent neural networks and robust time series prediction, IEEE
Transactions on Neural Networks, vol. 5, no. 2, pp. 240, 1994.
DOS SANTOS, E.P., VON ZUBEN, F.J. Improved Second-Order Training Algorithms for Globally and Partially Recurrent
Neural Networks. Proceedings of the IEEE International Joint Conference on Neural Networks (IJCNN99), vol. 3,
pp. 1501-1506, July 1999.
DOS SANTOS, E.P., VON ZUBEN, F.J. Efficient Second-Order Learning Algorithms for Discrete-Time Recurrent Neural
Networks. in L.R. Medsker and L.C. Jain (eds.) Recurrent Neural Networks: Design and Applications, CRC Press, pp.
47-75, 2000.
ELMAN, J. L. Finding structure in time. Cognitive Science, vol. 14, pp. 179-211, 1990.
FUNAHASHI, K.-I., NAKAMURA, Y. Approximation of dynamical systems by continuous time recurrent neural networks.
Neural Networks, vol. 6, no. 5, pp. 801-806, 1993.
GILES, C., MILLER, C., CHEN, D., CHEN, H., SUN, G., LEE, Y. Learning and extracting finite state automata with secondorder recurrent neural networks. Neural Computation, vol. 4, no. 3, pp. 393-405, 1992.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

96

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

HAYKIN, S. Neural Networks and Learning Machines, 3rd edition, Prentice Hall, 2008.
HOPFIELD, J.J. Neural networks and physical systems with emergent collective computational abilities. Proceedings of the
National Academy of Sciences of the U.S.A., vol. 79, pp. 2554-2558, 1982.
HOPFIELD, J.J. Neurons with graded response have collective computational properties like those of two-state neurons.
Proceedings of the National Academy of Sciences of the U.S.A., vol. 81, pp. 3088-3092, 1984.
HOPFIELD, J.J. & TANK, D.W. Neural computation of decisions in optimization problems. Biological Cybernetics, vol. 52,
pp. 141-152, 1985.
HOPFIELD, J.J. & TANK, D.W. Computing with neural circuits: A model. Science, vol. 233, pp. 625-633, 1986.
HUNT, K.J., SBARBARO, D., ZBIKOWSKI, R., GAWTHROP, P.J. Neural Networks for Control Systems A Survey.
Automatica, vol. 28, no. 6, pp. 1083-1112, 1992.
JAEGER, H. The Echo State Approach to Analyzing and Training Neural Networks. Technical Report no. 148, Bremen:
German National Research Center for Information Technology, 2001.
KHALIL, H.K. Nonlinear Systems. 2nd. edition, Prentice Hall, 1996.
KOLEN, J.F. Exploring the Computational Capabilities of Recurrent Neural Networks. Ph.D. Thesis, The Ohio State
University, 1994.
KOZMA, R. Intentional systems: Review of neurodynamics, modeling, and robotics implementation. Physics of Life
Reviews, vol. 5, no. 1, pp 1-21, 2008.
LEVIN, A. V., NARENDRA, K. S. Control of nonlinear dynamical systems using neural networks controllability and
stabilization, IEEE Transactions on Neural Networks, vol. 4, no. 2, pp. 192-206, 1993.
LEVIN, A. V., NARENDRA, K. S. Control of nonlinear dynamical systems using neural networks Part II: observability,
identification, and control, IEEE Transactions on Neural Networks, vol. 7, no. 1, pp. 30-42, 1996.
MAASS, W. Networks of Spiking Neurons: The Third Generation of Neural Network Models. Neural Networks, vol. 10, no.
9, pp. 1659-1671, 1997.
MCCULLOCH, W.S. & PITTS, W. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical
Biophysics, vol. 5, pp. 115-133, 1943.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

97

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

MCDONNELL, J.R., WAGEN, D. Evolving Recurrent Perceptrons for Time-Series Modeling. IEEE Transactions Neural
Networks, vol. 5, no. 1, pp. 24-38, 1994.
MEISS, J.D. Frequently Asked Questions about Nonlinear Science. Department of Applied Mathematics, University of
Colorado at Boulder, http://amath.colorado.edu/faculty/jdm/faq-Contents.html.
MILLER, W.T., SUTTON, R.S., WERBOS, P.J. Neural Networks for Control. MIT Press. 1990.
MORITA, M. Associative memory with nonmonotonic dynamics. Neural Networks, vol. 6, pp. 115-126, 1993.
NARENDRA, K. S., PARTHASARATHY, K. Identification and control of dynamical systems using neural networks, IEEE
Transactions on Neural Networks, vol. 1, no. 1, pp. 4-27, 1990.
NERRAND, O., ROUSSEL-RAGOT, P., PERSONNAZ, L., DREYFUS, G. Neural Networks and Nonlinear Adaptive Filtering:
Unifying Concepts and New Algorithms. Neural Computation, vol. 5, no. 2, pp. 165-199, 1993.
NERRAND, O., ROUSSEL-GAGOT, P., URBANI, D., PERSONNAZ, L., DREYFUS, G. Training recurrent neural networks: Why
and how? An illustration in dynamical process modeling. IEEE Transactions on Neural Networks, vol. 5, no. 2, pp.
178-184, 1994.
OTT, E. Chaos in Dynamical Systems. Cambridge University Press, 1993.
OZTURK, M., XU, D., PRNCIPE, J. Analysis and Design of Echo State Networks. Neural Computation, vol. 19, no. 1, pp.
111-138, 2007.
PEARLMUTTER, B.A. Gradient calculations for dynamic recurrent neural networks: a survey. IEEE Transactions on Neural
Networks, vol. 6, no. 5, pp. 1212-1228, 1995.
PHAM, D. T., LIU, X. Dynamic system modelling using partially recurrent neural networks. Journal of Systems
Engineering, pp. 134-141, 1992.
PINEDA, F.J. Generalization of back-propagation to recurrent neural networks. Physical Review Letters, vol. 59, no. 19, pp.
2229-2232, 1987.
PINEDA, F.J. Recurrent Backpropagation and the Dynamical Approach to Adaptive Neural Computation. Neural
Computation, vol. 1, no. 2, pp. 161-172, 1989.
SIEGELMANN, H. T., HORNE, B. G., GILES, C. L. Computational capabilities of recurrent NARX neural networks, IEEE
Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, vol. 27, pp. 208-215, 1997.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

98

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

SJBERG, J., ZHANG, Q., LJUNG, L., BENVENISTE, A., DELYON, B., GLORENNEC, P., HJALMARSSON, H., JUDITSKY, A.
Nonlinear Black-box Modelling in System Identification: a Unified Overview, Automatica, vol. 31, no. 12, pp. 16911724, 1995.
SLOTINE, J.-J. & LI, W. Applied Nonlinear Control. Prentice Hall, 1991.
SONTAG, E. Some Topics in Neural Networks and Control. Technical Report LS93-02, Department of Mathematics,
Rutgers University, 1993.
TSOI, A. C., BACK, A. D. Discrete time recurrent neural network architectures: a unifying review, Neurocomputing, vol. 15,
nos. 3-4, pp. 183-223, 1997.
TSOI, A. C., BACK, A. D. Locally Recurrent Globally Feedforward Networks: A Critical Review of Architectures, IEEE
Transactions on Neural Networks, vol. 5, no. 2, pp. 229-239, 1994.
VIDYASAGAR, M. Nonlinear Systems Analysis. 2nd. edition, Prentice Hall, 1993.
VON ZUBEN, F.J. Modelos paramtricos e no-paramtricos de redes neurais artificiais e aplicaes. Tese de Doutorado,
Faculdade de Engenharia Eltrica e de Computao, Unicamp, 1996.
VON ZUBEN, F.J., NETTO, M.L.A. Exploring the Nonlinear Dynamic Behavior of Artificial Neural Networks. Proceedings
of the IEEE International Conference on Neural Networks, vol. II, pp. 1000-1005, June 1994.
VON ZUBEN, F.J., NETTO, M.L.A. Second-order training for recurrent neural networks without teacher-forcing.
Proceedings of the IEEE International Conference on Neural Networks (ICNN'95), vol. 2, pp. 801-806, 1995.
WILLIAMS, R. J., ZIPSER, D. A Learning Algorithm for Continually Running Fully Recurrent Neural Networks, Neural
Computation, vol. 1, no. 2, pp. 270-280, 1989.
ZBIKOWSKI, R.W. Recurrent Neural Networks: Some Control Aspects. Ph.D. Thesis, Faculty of Engineering, Glasgow
University, 1994.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 2)

99

Vous aimerez peut-être aussi