Vous êtes sur la page 1sur 3

Treinamento de Redes Neurais

Joao Pedro Hallack Sansï¾ 12 o ∗

12 de Julho de 2008

Resumo
Este trabalho tem como objetivo descrever as principais abordagens para o treinamento
de redes neurais.

1 1
1 Introduï¾ 2 ï¾ 2 o

Dene-se para as redes neurais articiais (RNA) o processo de aprendizado, de acordo


com [?] como: "a forma de se atualizar a arquitetura os pesos da rede de forma que ela
possa executar uma tarefa de maneira eciente".
Os pesos das conexï¾ 12 es neuronais sï¾ 12 o aprendidos atravï¾ 12 s de padrï¾ 12 es de treina-
mento. Com o tempo, estes sï¾ 12 o atualizados, e por conseqï¾ 12 ï¾ 12 ncia a performance ï¾ 12
melhorada.
Esta caracterï¾ 12 stica difere as RNA dos sistemas especialistas normais, onde sï¾ 12 o
denidas as regras para a execuï¾ 21 ï¾ 12 o de uma determinada tarefa. As RNA aparente-
mente aprendem as regras implï¾ 12 citas atravï¾ 21 s dos exemplos.

1.1 Classicaï¾ 12 ï¾ 12 o Adotada

Um processo de aprendizado consiste em duas partes: um paradigma de aprendizado


e as regras de aprendizado em si.
O paradigma depende de quanta informaï¾ 21 ï¾ 12 o ï¾ 12 disponï¾ 12 vel a rede, isto ï¾ 12 ,
um modelo do ambiente em que a rede opera. Jï¾ 12 as regras de aprendizado controlam a
forma que pesos da rede serï¾ 21 o alterados. Um algoritmo de aprendizado corresponde a
um procedimento onde os pesos sï¾ 12 o alterados seguindo a estas regras.
A classicaï¾ 12 ï¾ 21 o adotada ï¾ 12 a dada em [?]. Existem trï¾ 12 s paradigmas de apren-
dizado: supervisionado, nï¾ 12 o supervisionado e o hï¾ 21 brido.
No caso supervisionado, para cada padrï¾ 12 o de entrada, ï¾ 12 fornecida a resposta cor-
reta (saï¾ 12 da), e treinamento consiste em ajustar os pesos de forma que o erro (diferenï¾ 12 a
da resposta da rede e da resposta correta fornecida) seja a menor possï¾ 21 vel. Uma vari-
ante deste paradigma ï¾ 12 a aprendizagem por reforï¾ 12 o, onde se fornece a rede apenas se
a resposta que esta retorna estï¾ 12 correta ou nï¾ 21 o, e nï¾ 12 o a resposta correta em si.
No caso nï¾ 12 o supervisionado, nï¾ 12 o se faz necessï¾ 12 rio fornecer a resposta correta
ou alguma informaï¾ 12 ï¾ 21 o externa, alï¾ 12 m dos padrï¾ 21 es de treinamento. A rede se
ocupa de explorar a estrutura implï¾ 12 cita dos dados, encontrando correlaï¾ 12 ï¾ 12 es entre
os padrï¾ 21 es nos dados e a partir destas correlaï¾ 12 ï¾ 12 es, organiza-os em categorias.

Aluno de Mestrado do PPGEE, email: jsansao@cpdee.ufmg.br

1
Jï¾ 12 no caso hï¾ 12 brido, parte dos pesos ï¾ 21 encontrado atravï¾ 12 s de um aprendizado
supervisionado e outra parte por aprendizado nï¾ 12 o supervisionado.
Uma teoria de aprendizado deve lidar com trï¾ 12 s questï¾ 12 es: capacidade, complexi-
dade de amostras, complexidade computacional.
Capacidade ï¾ 12 a quantidade de padrï¾ 21 es que uma RNA pode armazenar e os re-
spectivos limiares de decisï¾ 12 o.
A complexidade de amostras que determina a quantidade de amostras necessï¾ 21 rias
para o treinamento que valide uma generalizaï¾ 12 ï¾ 12 o. Em decorrï¾ 12 ncia deste aspecto
que pode surgir o "over-tting", onde a rede estï¾ 21 bem treinada, mas como a amostra
ï¾ 12 muito pequena, pontos diferentes dos treinados apresentam respostas incoerentes.
A complexidade computacional corresponde ao tempo para se obter uma soluï¾ 12 ï¾ 12 o
considerando os padrï¾ 12 es de treinamento.
Quanto as regras de aprendizado, existem quatro tipos bï¾ 12 sicos: correï¾ 12 ï¾ 12 o de
erro, Boltzmann, Hebbiana, e de aprendizado competitivo. Estes serï¾ 21 o descritos na
seï¾ 12 ï¾ 21 o seguinte.

1 1
2 Descriï¾ 2 ï¾ 2 o dos algoritmos de aprendizado Super-
visionado

2.1 Correï¾ 12 ï¾ 12 o de Erro

Dentro do paradigma de aprendizado supervisionado, ï¾ 21 dada a rede uma saï¾ 12 da


para cada padrï¾ 21 o de entrada. Durante este processo, a saï¾ 21 da gerada y pode diferir
da saï¾ 12 da desejada d. Logo, atravï¾ 12 s do sinal de erro d − y modica-se gradualmente
o valor dos pesos para minimizar este valor.
Um dos algoritmos baseado neste tipo de regra ï¾ 12 o Perceptron. Ele ï¾ 12 uma rede
de apenas um neurï¾ 12 nio, que tem como entrada um vetor x, ponderado por um vetor
de pesos w, alï¾ 12 m de um limiar de decisï¾ 21 o u. Sendo ν = Σwj xj − u, a saï¾ 12 da serï¾ 12
y = 1 se ν > 0, y = 0 em caso contrï¾ 12 rio.
Segundo Rosenblatt, um algoritmo para o treinamento do perceptron ï¾ 12 :
1. Inicializar os pesos e o limiar de decisï¾ 12 o com valores aleatï¾ 12 rio, de pequena
magnitude;
2. Aplicar um vetor de testes e calcular o valor de saï¾ 12 da com a rede atual;
3. Atualizar os pesos de acordo com a expressï¾ 21 o: wj (t + 1) = wj (t) + η(d − y)xj ,
onde d ï¾ 12 o valor desejado, t a iteraï¾ 12 ï¾ 12 o e η ï¾ 12 um ganho, ou o valor do passo,
com valor 0 < η < 1.
Se o problema apresentar duas classes linearmente separï¾ 12 veis, o algoritmo convergirï¾ 12
em um nï¾ 21 mero nito de iteraï¾ 12 ï¾ 12 es.
O algoritmo de Back propagation tambï¾ 21 m pertence a esta classe, e permite uma
rede multicamadas. Ele consiste:
1. Inicializar os pesos com valores aleatï¾ 21 rio, de pequena magnitude;
2. Escolher aleatoriamente um padrï¾ 12 o de entrada xmu
3. Propagar um sinal adiante pela rede
4. Computar δiL na camada de saï¾ 12 da, (oi = yiL , com δiL = g 0 (hLi )[dui − yiL ], sendo h0i a
entrada da rede para a i-ï¾ 21 sima unidade na l-ï¾ 12 sima camada, e g 0 ï¾ 12 a derivada
da funï¾ 12 ï¾ 12 o de ativaï¾ 21 ï¾ 12 o g.

2
5. Calcular os deltas para as camadas precedentes, propagando o erro na direï¾ 21 ï¾ 12 o
contrï¾ 12 ria. δil = g 0 (hli ) j wij δl+1 , com l = L − 1...1.
P l+1 l+1

6. atualizar os pesos por ∆wji


0
= ηδil yjl−1
7. Voltar ao passo 2 e repetir para o prï¾ 21 ximo padrï¾ 12 o atï¾ 12 que o erro na camada
de saï¾ 21 da seja menor que um valor mï¾ 12 nimo ou que o nï¾ 12 mero mï¾ 12 ximo de
iteraï¾ 21 ï¾ 12 es seja atingido.
Alï¾ 21 m destes, podemos incluir no aprendizado supervisionado de acordo com [?], os
algoritmos de Adaline e Madaline. Adaline ï¾ 12 minimiza o erro quadrï¾ 21 tico mï¾ 21 dio, e
sua regra de aprendizado ï¾ 12 referida como LMS (least mean square ou Widrow-Ho).
Madaline ï¾ 21 uma conexï¾ 12 o de mais de um Adaline.

2.2 Boltzmann

Nesta regra, procura-se ajustar os pesos das conexï¾ 12 es de forma que os estados das
unidades visï¾ 12 veis satifaï¾ 12 am uma determinada distribuiï¾ 12 ï¾ 21 o de probabilidade. O
parï¾ 12 metros para o ajuste sï¾ 12 o estimados atravï¾ 21 s de mï¾ 12 todos de probabilï¾ 12 sticos,
tais como experimentos de Monte Carlo.

2.3 Regra de Hebb

Matematicamente, dene-se a regra de Hebb como: wij = wij (t) + ηyj (t)xi (t), com
xi e yj como os valores de saï¾ 21 da dos neurï¾ 12 nios i e j , respectivamente, conectados por
uma sinapse wij , η a taxa de aprendizado. xi ï¾ 21 entrada da sinapse.
Isto implica que se ambos neurï¾ 12 nios sï¾ 12 o disparados simultaneamente, o peso de
sua conexï¾ 12 o deve crescer.

2.4 Aprendizado Competitivo

Nesta regra, apenas uma unidade de saï¾ 21 da ï¾ 12 ativada por vez, e estas competem
pela ativaï¾ 12 ï¾ 12 o. Supondo uma rede com uma camada, para exemplo, o neurï¾ 12 nio com
maior entrada, tem seus pesos atualizados, enquanto as outras sï¾ 12 o mantidas.
Isto implica que este tipo de rede nunca interrompe o aprendizado, exceto quando a
taxa de aprendizado ï¾ 12 nula.