Académique Documents
Professionnel Documents
Culture Documents
BARBACENA
2003
3
______________________________________________________
Profa. Lorena Sophia Campos de Oliveira - Orientadora do Trabalho
______________________________________________________
Prof. Eduardo Macedo Bhering - Membro da Banca Examinadora
______________________________________________________
Prof. MSc. Élio Lovisi Filho - Membro da Banca Examinadora
4
AGRADECIMENTOS
RESUMO
O objeto de trabalho desta monografia foi a construção de um simulador para Redes Neurais
Artificiais que se adequasse a previsão de Séries Temporais. Para tanto foi feita uma revisão
bibliográfica que trouxe subsídios para a escolha da Rede Elman e do algoritmo
Backpropagation para a implementação do simulador. Um vez implementado, o simulador foi
submetido a testes com dados reais a fim de verificar seu desempenho na realização da tarefa
a que se propõe.
SUMÁRIO
FIGURAS................................................................................................................................................................7
TABELAS...............................................................................................................................................................9
1 INTRODUÇÃO..................................................................................................................................................10
3 SÉRIES TEMPORAIS......................................................................................................................................25
4 SIMULADOR.....................................................................................................................................................31
5 APLICAÇÕES....................................................................................................................................................46
6 CONCLUSÕES..................................................................................................................................................50
REFERÊNCIAS BIBLIOGRÁFICAS...............................................................................................................52
FIGURAS
FIGURA 2.3 FUNÇÕES DE ATIVAÇÃO MAIS UTILIZADAS: (A) FUNÇÃO LINEAR; (B) FUNÇÃO
DEGRAU; (C) FUNÇÃO SIGMÓIDE (OU LOGÍSTICA); (D) TANGENTE HIPERBÓLICA..................19
FIGURA 2.4 EXEMPLOS DE REDES FEED-FORWARD: (A) REDE DE CAMADA ÚNICA; (B) REDE
MULTICAMADAS...............................................................................................................................................20
TABELAS
1 INTRODUÇÃO
Inteligência Artificial possui diversas definições, mas talvez a que melhor exprime
os esforços da comunidade científica é dada por Elaine Rich (Rich, 1988): Inteligência
Artificial é o estudo de como fazer os computadores realizarem tarefas em que, no momento,
as pessoas são melhores, apesar de parecer um tanto utópica esta definição devido a atual
tecnologia e avanços obtidos pelas pesquisas. Na atualidade as técnicas da Inteligência
Artificial vem sendo empregadas na resolução de novos e antigos problemas.
Assim, as Redes Neurais Artificiais são uma ferramenta utilizada com sucesso na
realização de previsão de séries temporais mostrando-se capazes de realizar prognósticos com
qualidade e precisão superiores aos modelos tradicionais como: clássico, ARIMA e estrutural
(Fernandes et. al., 1995; Tápia et. al., 2000).
1.2 OBJETIVO
1.3DESCRIÇÃO DO TRABALHO
As etapas que constituem o trabalho são: revisão dos conceitos relativos as Redes
Neurais Artificiais e Séries Temporais; a implementação do simulador; e a aplicação do
simulador na previsão de séries temporais.
12
1.4ORGANIZAÇÃO DA MONOGRAFIA
n
y k = ϕ ∑ x i wki (Equação
i =1
2.1)
Onde, yk é a saída do neurônio; φ é a função de ativação; x1, x2, ..., xn são os sinais
de entrada do neurônio; e wk1, wk2, ..., wkn são os pesos sinápticos do neurônio em questão
(neurônio k).
y = f (∑ xi w ji ) (Equação 2.2)
f (x ) = ax (Equação 2.3)
19
1 se x > 0
f ( x) = (Equação 2.4)
0 se x ≤ 0
1
f ( x) = (Equação 2.5)
1 + e −x
• Função tangente hiperbólica: É uma função sigmóide que varia entre –1 e +1.
É dada por:
1 − e −x
f ( x) = (Equação 2.6)
1 + e −x
(a) (b)
(c) (d)
Figura 2.3 Funções de ativação mais utilizadas: (a) função linear; (b) função degrau; (c)
função sigmóide (ou logística); (d) tangente hiperbólica
20
Existe uma grande variedade de redes cada uma produzindo diferentes resultados.
Elas podem ser classificadas basicamente em alimentadas a frente (feed-forward) e
recorrentes (Russell & Norvig, 1995).
Figura 2.4 Exemplos de redes feed-forward: (a) rede de camada única; (b) rede
multicamadas.
21
liberdade para se ligar a qualquer outro neurônio (Abelém, 1994; Haykin, 2001; Russell &
Norvig, 1995). A figura 2.5 ilustra uma rede recorrente.
2.3APLICAÇÕES
As Redes Neurais Artificiais por suas características já descritas aqui, tais como,
capacidade de aprender, tolerância a falhas, entre outras, características estas inviáveis de
serem obtidas através de técnicas de programação convencionais, são empregadas na
resolução de alguns problemas.
2.4HISTÓRICO
3 SÉRIES TEMPORAIS
A figura 3.1 ilustra graficamente uma série temporal que representa os valores em
milhões de dólares das exportações do Brasil no período de 1974 a 2002.
Figura 3.6 Gráfico da série temporal que representa os valores das exportações do Brasil
Onde:
Y = a 0 + a1 x (Equação 3.3)
∑ Y = a 0 n + a1 ∑ X
(Equação 3.4)
∑ XY = a 0 ∑ X + a1 ∑ X
2
O mesmo raciocínio pode ser empregado para o ajuste de uma curva dada por uma
equação de grau maior que 1.
Após a determinação das médias móveis, uma reta é traçada passando por todos
os pontos obtidos. Esta reta representa a tendência.
De acordo com a equação 3.2, ao dividir Y por S e por T temos CI. Para suavizar
o componente irregular é calculado uma média móvel de pequena ordem e ímpar. Se algum
efeito cíclico existir, agora está evidente, uma vez que os outros três componentes foram
eliminados ou atenuados.
3.3PREVISÃO
4 SIMULADOR
Para tanto, foram lidos artigos, principalmente (Fernandes et. al., 1995; Soto et.
al., 2000; Tápia et. al., 2000;), que descrevem a previsão de séries temporais usando Redes
Neurais Artificiais. Nos dois primeiros artigos foi utilizada a rede MLP com o algoritmo
Backpropagation. Em ambos, os resultados obtidos foram comparados com técnicas tais
como: Box & Jenkins e modelo estrutural, obtendo melhores resultados. Já em (Soto et. al.,
2000) artigo que descreve os resultados obtidos por Claver Pari Soto em sua dissertação de
mestrado (Soto, 1999), foram utilizadas as redes FIR (Finite-duration Impulse Response) com
o algoritmo Backpropagation alterado para atender as características da rede e a Rede Elman
com o algoritmo Backpropagation convencional. Os resultados obtidos na previsão foram
comparados com as técnicas de Holt-Winters, Box & Jenkins e MLP + Backpropagation
obtendo-se, também, melhores resultados. As redes FIR e Elman tiveram desempenhos
32
parecidos, com a rede Elman obtendo maiores erros que a rede FIR, mesmo assim menores
que as outras técnicas.
4.1REDE ELMAN
A Rede Elman, ou rede recorrente simples, foi descrita em (Elman, 1990) e é uma
rede onde a realimentação capacita a realização de tarefas que se estendem no tempo (Haykin,
2001).
A Rede Elman, ilustrada pela figura 4.1, é uma rede recorrente onde a
realiamentação se dá da saída de cada neurônio da camada oculta para todos neurônios da
mesma camada. Uma camada, chamada Camada de Contexto, também oculta, composta de
Unidades de Contexto simula a memória da rede. O processamento da rede consiste nos
eventos: No instante t (inicial) o sinal é propagado pela rede e as unidades de contexto,
inicializadas com a saída da camada oculta com o valor 0, não influenciarão na saída da rede,
ou seja, na primeira iteração a rede se comportará como uma rede feed-forward. Ainda na
primeira iteração os neurônios ocultos ativarão os neurônios da camada de contexto e esses
armazenarão a saída desta iteração que será utilizada no próximo ciclo. O algoritmo
Backpropagation é então aplicado para a correção dos pesos sinápticos, com exceção as
sinapses recorrentes que são fixas em 1. No instante t+1 o processo é repetido. A diferença é
33
que a partir de agora os neurônios ocultos serão ativados pelas unidades de entrada e pelas
unidades de contexto que possuem o valor de saída dos neurônios ocultos no instante t
(Elman, 1990).
ativação f que recebe a soma do produto wei , peso sináptico associado do neurônio e com o
4.2ALGORITMO BACKPROPAGATION
Distributed Processing, embora tenha sido proposto por pesquisadores como Bryson e Ho em
1969, Werbos em 1974, Parker em 1985 e Minsky e Papert em 1988 para diversos propósitos
(Braga et. al., 1998; Russel & Norvig, 1995).
Os critérios de parada, embora ainda não existam critérios bem sucedidos para
terminar o processo de aprendizado, podem ser: quando, percorrendo-se a superfície de erro,
for encontrado um mínimo; a variação do erro for infinitamente pequena sendo insuficiente
para melhorar a performance da rede; e ao aplicar o conjunto de treinamento um número
determinado de vezes, ou seja, baseado no número de épocas. É comum se observar na prática
a combinação dos critérios acima (Braga et. al., 1998; Haykin, 2001).
4.2.1 O ALGORITMO
Notação Significado
δ Gradiente local
Tabela 4.1 Notação utilizada na demonstração do algoritmo Backpropagation.
e j (n ) = d j (n ) − y j (n ) (Equação 4.2)
ξ = e 2j (n )
1
(Equação 4.3)
2
∂ξ (n )
∆w ji (n ) = −η
∂w j (n )
(Equação 4.4)
peso w ji . Pela regra da cadeia, esta derivada pode ser expressa em (Haykin, 2001):
36
∂ξ (n ) ∂ξ (n ) ∂e j (n ) ∂y j (n ) ∂v j (n )
=
∂w j (n ) ∂e j (n ) ∂y j (n ) ∂v j (n ) ∂w ji (n )
(Equação 4.5)
∂ξ (n ) ∂ 1 2 e j (n )
2
= = e j (n ) (Equação 4.6)
∂e j (n ) ∂e j (n )
∂e j (n ) ∂d j (n ) − y j (n )
= = −1
∂y j (n ) ∂y j (n )
(Equação 4.7)
Derivando ∂y j (n ) ∂v j (n ) e ∂v j (n ) ∂w ji (n ) , temos
∂y j (n ) ∂f (v j (n ))
= = f ′(v j (n ))
∂v j (n ) ∂v j (n )
(Equação 4.8)
∂v j (n ) ∂ ∑ w ji (n ) y j (n )
= = y j (n ) (Equação 4.9)
∂w ji (n ) ∂w ji (n )
Substituindo-se as equações 4.6, 4.7, 4.8 e 4.9 no segundo membro da equação 4.5
temos:
∂ξ (n )
= −e j (n ) f ′(v j (n ))y j (n )
∂w j (n )
(Equação 4.10)
∆w ji (n ) = ηδ j (n ) y j (n ) (Equação 4.13)
Como o termo e j (n ) é fator chave no cálculo para o ajuste dos pesos, existem
duas situações que devem ser tratadas (Haykin, 2001):
∂ξ (n ) ∂y j (n )
δ j (n ) = −
∂y j (n ) ∂v j (n )
(Equação 4.15)
∂ξ (n )
δ j (n ) = − f ′(v j (n ))
∂y j (n )
(Equação 4.16)
ξ (n ) = ek2 (n )
1
∑
2 k
(Equação 4.17)
∂ξ (n ) ∂e (n )
= ∑ ek k
∂y j (n ) k ∂y j (n )
(Equação 4.18)
Aplicando a regra da cadeia mais uma vez para diferenciar a equação 4.18
obtemos:
∂ξ (n ) ∂e (n ) ∂v k (n )
= ∑ ek k
∂y j (n ) k ∂v k (n ) ∂y j (n )
(Equação 4.19)
∂ (d k (n ) − y k (n )) ∂ (d k (n ) − f (v k (n )))
= = − f ′(v k (n ))
∂v k (n ) ∂v k (n )
(Equação 4.20)
∂v k (n ) ∂ (∑ wkj (n ) y j (n ))
= = wkj (n ) (Equação 4.22)
∂y j (n ) ∂y j (n )
∂ξ (n ) ∂e (n ) ∂v k (n )
= ∑ ek k = ∑ ek − f ′(v k (n ))wkj (n )
∂y j (n ) k ∂v k (n ) ∂y j (n ) k
(Equação 4.23)
∂ξ (n )
= −∑ δ k (n )wkj (n )
∂y j (n )
(Equação 4.24)
k
39
4.3PREVSIM
• Percentagem da série para treinamento: define como será dividido a série: qual
percentagem dos dados será utilizada no conjunto de treinamento, enquanto o
restante, será usado no validação.
4.3.3 TREINAMENTO
n
Saída _ esperada − Saída _ obtida
∑
i =1 Saída _ esperada (Equação 4.26)
MAPE = × 100
n
4.3.4 VALIDAÇÃO
A função de validação permite que o usuário faça previsões com a rede já treinada
e compare com o conjunto de testes que ficou reservado no momento de configuração. A
figura 4.5 ilustra a janela onde são apresentados os resultados.
st − s
xi = (Equação 4.27)
σs
45
s = x iσ s + s (Equação 4.28)
46
5 APLICAÇÕES
5.1TESTES
As duas séries foram inseridas no simulador e foi realizada uma bateria de testes
para cada uma, buscando determinar as configurações que obtivessem os melhores resultados,
ou seja que minimizassem o erro.
O resultado dos testes para série 1 é apresentado na tabela 5.1, onde são vistos a
arquitetura da rede, função de ativação utilizada no treinamento, taxa de aprendizagem,
número de épocas usadas no treinamento e o erro obtido. A configuração que obteve o melhor
resultado para a série 1, na última linha em negrito, possui arquitetura 18-36-1, ou seja, 18
neurônios na entrada, 36 neurônios na camada oculta e 1 neurônio na camada de saída; função
de ativação Sigmóide, taxa de aprendizagem 0.5, 1000 épocas no treinamento e obtendo um
erro de 293,8949.
5.2AVALIAÇÕES
Pode-se notar pelos dados das tabelas acima, que o simulador não apresenta bons
resultados na previsão, produzindo erros percentuais médios na ordem de centenas para as
melhores configurações de rede para a primeira série, enquanto que, para a segunda, apresenta
erros cerca de 10 vezes menores para os melhores casos.
Uma explicação para tal diferença pode ser a magnitude dos dados de entrada,
diferentes nas duas séries. Na primeira série os dados de entrada estão na faixa de 1000 a
9999, e na segunda, de 10 a 99
Outra explicação seria a diferença entre os maiores e menores dados presentes nas
séries na primeira, o menor dado é 2949 e o maior 6492. Para a segunda série o menor e o
maior dados são 12 e 26, respectivamente. Embora a mesma normalização dos dados de
entrada foi empregada nas duas séries: os dados foram transformados para terem média 0 e
variância 1.
6 CONCLUSÕES
6.1TRABALHOS FUTUROS
Alguns rumos que podem ser seguidos no sentido de dar continuidade ao trabalho
desenvolvido destacam-se:
REFERÊNCIAS BIBLIOGRÁFICAS
SOTO, Claver Pari. Redes Neurais Temporais para o tratamento de sistemas variantes no
tempo. 1999. Tese (Mestrado em Engenharia Elétrica: Sistemas de Computação) - Curso de
Mestrado em Engenharia Elétrica, PUC-Rio, Rio de Janeiro.
SOTO, Claver Pari, VELLASCO, Marley Maria Bernardes Rebuzzi, PACHECO, Marco
Aurélio Cavalcanti. Previsión en Series Temporales de Carga Eléctrica usando Redes
Neuronales Temporales. Disponível em: www.ica.ele.puc-
rio.com.br/publicacoes/download/cnf_0118.pdf. Acesso em: 25 de junho de 2003.
SPIEGEL, Murray R. Estatística. São Paulo, SP: Makrin Books, 1993
STEVENSON, William J. Estatística aplicada à Adminisração. São Paulo, SP: Harper &
Row do Brasil, 1981
TÁPIA, Milena, ROISENBERG, Mauro, BARRETO, Jorge Muniz. Aplicação de Redes
Neurais Diretas na previsão de preços de ovos. Disponível em:
http://200.201.9.33/artigos/pdf/info_022.pdf. Acesso em: 30 de março de 2003.
YIODA, Eduardo Masato. Inteligência Computacional no projeto automático de Redes
Neurais Híbridas e Redes Neurofuzzy Heterogêneas. 2000. Tese (Mestrado em Engenharia
Elétrica) - Curso de Mestrado em Engenharia Elétrica, UNICAMP, Campinas.
54