Vous êtes sur la page 1sur 24

REDES NEURAIS ARTIFICIAIS

E PREVISO DE SRIES ECONMICAS:


UMA INTRODUO 1

Marcelo S. Portuga.l2
Luiz Gustavo L. Fernandes3

RESUMO

o objetivo central deste artigo introduzir um novo mtodo de


previso de sries de tempo, baseado em uma modelagem do crebro humano.
Esta modelagem consiste na criao de Redes Neurais Artificiais (RNA), que
tm sido usadas com grande sucesso em diferentes reas do conhecimento.
O crebro humano extremamente eficaz no reconhecimento de padres e
regularidades, sendo ainda capaz de generalizar com base no conhecimento
acumulado. As RNA incorporam estas qualidades do crebro sendo, portanto,
capazes de realizar previses. Caractersticas particulares de uma srie de
tempo, tais como sazonalidade, tendncia e ciclo, podem ser aprendidas por
uma RNA, possibilitando, assim, a realizao de previses. Aplicaes prti-
cas deste mtodo previso de sries econmicas podem ser encontradas em
Portugal (1995) e Fernandes, Portugal e Navaux (1994).

1 INTRODUO

Muito embora o computador seja considerado uma inveno


moderna, sua idealizao remonta poca vitoriana. O matemtico ingls
Charles Babbage talvez tenha sido o primeiro a idealizar conceitualmente a
mquina que hoje chamamos de computador. Contratado pela Royal Astro-
nomical Society para a elaborao de tabelas astronmicas, Babbage concen-
trou-se em desenvolver um mtodo de "computao" dos resultados que fosse
ao mesmo tempo rpido e sem possibilidade de erro. Inicialmente, Babbage

1 Os autores agradecem o auxlio dos bolsistas Suzana M. B. Coccaro, Vincius


Carrasco e a Csar A. S. Follmann.
2 Professor do Curso de Ps-Graduao em Economia, Universidade Federal do Rio
Grande do Sul e pesquisador do CNPq (MSP@VORTEX.UFRGS.BR).
3 Pesquisador do Instituto de Informtica da Universidade Federal do Rio Grande
do Sul.

Nova Economia I Belo Horizonte I v.6 I n. 1 I jul. 1996. 51


dedicou-se construo de uma mquina mecnica de calcular, a qual
denominou "mquina de diferenas", visando, assim, a substituio dos
"computadores humanos" utilizados at ento na confeco de tabelas de
clculos. Contudo, ele rapidamente vislumbrou a possibilidade de extenso
do seu projeto inicial, partindo para a construo de uma mquina ainda mais
sofIsticada capaz de resolver vrios tipos de problemas. Babbage pretendia a
construo de uma "mquina universal programvel", capaz, portanto, de
realizar diferentes tarefas. Ele concluiu que tal mquina deveria ser compos-
ta de trs partes: uma unidade de processamento, uma unidade de armaze-
namento e uma unidade de entrada de instrues. Em linguagem moderna,
as trs unidades propostas por Babbage correspondem Unidade de Proces-
samento, memria e aos programas.
Infelizmente, a tecnologia disponvel no fInal do sculo XIX no
permitiu a construo da mquina universal idealizada por Babbage. Apenas
em 1941, atravs da utilizao de rels, que o alemo Konrad Zuse foi capaz
de construir algo semelhante mquina universal idealizada por Babbage.
Durante a Segunda Guerra Mundial, o trabalho de Zuse foi praticamente
interrompido, pois no foi considerado prioritrio para o esforo de guerra
alemo. Foi na Inglaterra e nos Estados Unidos que surgiram os primeiros
computadores construdos utilizando-se vlvulas.
Uma contribuio signifIcativa para o desenvolvimento da cin-
cia da computao foi dada por outro matemtico ingls chamado Alan M.
Turing. Em seu artigo On Computable Numbers, with an Application to the
Entscheidungs Problem, publicado em 1936, Turing demonstrou, matemati-
camente, a possibilidade da existncia de uma mquina capaz de desenvolver
qualquer tarefa lgica realizada pelo crebro humano (Turing, 1936).
Turing foi tambm um pioneiro no campo da inteligncia artifI-
cial. Inspirado por seu trabalho durante a Segunda Guerra Mundial, quando
criou um computador para decifrar o cdigo secreto alemo, Turing acredi-
tava ser possvel a construo de um computador dotado de inteligncia, isto
, um computador capaz de "pensar". Para determinar a capacidade de
pensamento do computador, Turing sugeriu a aplicao de um teste simples,
hoje conhecido como teste de Turing. Segundo este teste, um computador
ganharia o ttulo de mquina pensante se conseguisse utilizar linguagem de
forma inteligente, isto , se conseguisse levar um ser humano, com o qual
esteja se comunicando, a acreditar que est se comunicando com um outro
ser humano.
O rpido desenvolvimento dos computadores levou os pesquisa-
dores, na rea de inteligncia artifIcial, a acreditar que a construo de um
computador capaz de pensar fosse uma tarefa relativamente simples. A
prtica foi, contudo, bem diferente. Os pioneiros nesta rea costumavam
separar o crebro da mente. O crebro era visto apenas como o meio fsico de
52 Nova Economia I Belo Horizonte I v.6 I n. 1 I jul. 1996.
atuao da mente, esta sim responsvel pelo pensamento. A analogia entre
crebro/mente e hardware/software imediata. A mente era vista como um
software que "roda" em um hardware chamado crebro.
O ponto central, portanto, era desenvolver softwares que repre-
sentassem a atuao da mente, sendo a mdelagem do crebro considerada
secundria neste processo. Acreditava-se no ser necessrio imitar a nature-
za para obter resultados semelhantes aos gerados por esta. Assim como foi
possvel constmir-se mquinas que voam sem bater as asas, seria tambm
possvel criar uma mquina de pensar sem a necessidade de criao de um
crebro artificial. Contudo, os fracassos sucessivos desta abordagem acaba-
ram por mostrar a importncia da modelagem do crebro na criao de uma
inteligncia artificial. A partir de ento, a rea da inteligncia artificial
comeou a desenvolver-se no sentido de modelar o crebro atravs da criao
de redes neurais artificiais (RNA), que possuem as mesmas propriedades
cognitivas e associativas do crebro humano.
Alm desta introduo, este artigo conta com mais trs sees,
onde discutimos, separadamente, o modelo de RNA em formato genrico, o
modelo perceptron multi-camada que o mais apropriado ao problema de
previso de sries temporais e interpretao das RNA como um tipo de
modelo economtrico de previso.

2 REDES NEURAIS ARTIFICIAIS:


CONCEITOS BSICOS

As Redes Neurais Artificiais fundamentam-se nos estudos sobre


a estmtura do crebro humano para tentar emular sua forma inteligente de
processar informao. Alguns estudos da neurofisiologia consideram que a
riqueza computacional do crebro humano est associada ao grande nmero
de neurnios, interconectados por uma rede complexa de sinapses (Carvalho,
1988).
Estima-se que a quantidade de neurnios existentes no crebro
humano esteja na casa dos bilhes. Contudo, a velocidade de processamento
destes componentes relativamente baixa, quando comparada aos computa-
dores tradicionais. Esta deficincia na velocidade de processamento dos
neurnios superada pela imensa quantidade de neurnios existentes ope-
rando de forma paralela (Simpson, 1990). Estima-se que existam cerca de
1011 a 1014 neurnios operando em paralelo no crebro humano. Cada um
destes est conectado atravs de 103 a 104 sinapses, em mdia (Cottrell, 1985).
Tais caractersticas permitem ao crebro humano executar ra-
pidamente certas funes (por exemplo, reconhecer fisionomias e sons) que

Nova Economia I Belo Horizonte I v. 6 I n. 1 I jul. 1996. 53


os computadores convencionais no conseguem realizar com o mesmo desem-
penho. No Quadro 1 apresentada uma comparao das principais diferenas
existentes entre os computadores tradicionais e o crebro humano. Esta
comparao fornece uma idia mais clara sobre a capacidade adaptativa do
crebro humano, em contraste com a rigidez e preciso dos computadores
convencionais.

Quadro 1
DIFERENAS ENTRE O COMPUTADOR E O CREBRO HUMANO

COMPUTADOR CREBRO
TRADICONAL HUMANO
Elementos computacionais processadores poderosos neurnio simples
Velocidade de processamento 10,9 segundos 10,3 segundos
Tipo de processamento serial paralelo
Confiabilidade dos elementos confivel no'confivel
Tolerncia a falhas quase nenhuma grande
Tipo de sinal preciso, simblico impreciso
Tipo de controle centralizado distribudo
Armazenamento de informao substituvel adaptvel

Fonte: Cottrell (1985) e Simpson (1990).

Uma definio possvel de modelos conexionistas de computa-


o, tambm chamados de redes neuronais artificiais (RNAs), redes neurais
ou sistemas de processamento paralelo distribudo (PDP), consiste em enca-
r-los como
"uma estrutura de processamento de informao
distribuda e paralela. Ela formada por unidades
de processamento, comumente chamadas de ns,
neurnios ou clulas, interconectadas por arcos uni-
direcionais, tambm chamados de ligaes, conex-
es ou sinapses. Os ns possuem memria local e
podem realizar operaes de processamento de in-
formao localizada. Cada clula possui uma nica
sada (axnio), a qual pode se ramificar em muitas
ligaes colaterais (cada ramificao possuindo o
mesmo sinal de sada do neurnio). Todo o proces-
samento que se realiza em cada unidade deve ser
completamente local, isto , deve depender apenas

54 Nova Economia I Belo Horizonte I v. 6 I n. 1 I jul. 1996.


dos valores correntes dos sinais de entrada que
chegam dos neurnios atravs das conexes. Estes
valores atuam sobre os valores armazenados na
memria local da clula." (Hecht-Nielsen, 1988,
p.2-3).

Os principais elementos utilizados na descrio de RNAs so a


representao distribuda, as operaes locais e o processamento no-linear
(Simpson, 1990). Estes atributos especificam duas aplicaes bsicas das
RNAs: situaes onde poucas decises tm que ser tomadas a partir de uma
grande quantidade de dados e situaes onde um complexo mapeamento
no-linear deve ser aprendido.
Nesta seo feita uma reviso sobre as RNAs. Sero descritos
os componentes bsicos destas redes, bem como suas interrelaes.

2.1 Componentes das RNAs

De acordo com Rumelhart (1986), um modelo conexionista pode


ser descrito por oito elementos principais:
um conjunto de unidades de processamento;
um estado de ativao;
uma funo sada;
um padro de interconexo;
uma regra de propagao;
uma regra de ativao;
uma regra de aprendizado;
um ambiente onde o sistema deve funcionar.

i) Unidade de Processamento

A unidade de processamento (neurnio) o componente bsico


das RNAs e corresponde ao neurnio humano. Na Figura 1, apresentamos
uma ilustrao de um neurnio como unidade que representa um limite a ser
ultrapassado. As entradas que chegam a ele representam os dendritos. Cada
dendrito possui um sinal (x) que adicionado (L). Depois da adio, este sinal
processado atravs da funo que representa o limite ou funo de ativao
f ( ), a qual produz um sinal de sada. Nesta figura, o neurnio pode ser
considerado como uma representao simplificada dos neurnios biolgicos.

Nova Economia I Belo Horizonte I v. 6 I n. 1 I jul. 1996. 55


Figura 1

NEURNIO COMO UNIDADE LIMIAR

x1

dendritos x2

x3

Neste trabalho, as unidades de processamento da rede so


designadas pela letra u, seguida de um ndice i que indica a posio que o
neurnio ocupa na rede. Cada neurnio Ui da rede calcula um estado de
ativao, que um valor numrico lquido de sada. O clculo desta ativao
realizado a partir dos sinais das sadas dos demais neurnios conectados
diretamente a este neurnio, dos correspondentes pesos destas conexes e da
funof( ).

ii) Estado de Ativao

O estado de ativao de todos os neurnios da rede, ou seja, o


estado de ativao do sistema, especifica o que est sendo representado na
rede em um determinado instante t qualquer. Os valores das ativaes
existentes na rede podem ser discretos, por exemplo assumindo os valores
{O,I} ou {-l,O,I}, como tambm podem ser contnuos, assumindo valores no
intervalo [0,1] ou [-1,1], que so calculados pela regra de ativao (Lippman,
1987; Gallant, 1988).

iii) Funo de Sada

Os neurnios interagem entre si atravs de um valor que


transmitido pelas conexes. Este valor determinado pela ativao do
neurnio estimulador. A funo de sada o mapeamento do estado de
ativao num sinal de sada. A funo de sada pode ser a funo identidade,
isto , o sinal de sada igual ao estado de ativao. Em muitos casos, a funo
de sada uma funo porteira (patamar, limiar) que s emite sinal quando
o seu estado ultrapassa um certo limite.

56 Nova Economia I Belo Horizonte I v.6 I n. 1 I jul. 1996.


iv) Padro de Interconexo

Pode-se representar o padro de interconexo da rede por uma


matriz de pesos w, onde um elemento WiJ corresponde influncia do
neurnio Ui sobre o neurnio Uj. Conexes com pesos positivos, chamadas de
excitatrias, indicam o reforo na ativao do neurnio Uj. Conexes com
pesos negativos, chamadas de inibitrias, indicam inibio na ativao do
neurnio Uj. O conjunto das ligaes excitatrias e inibitrias existentes l).a
rede determina o comportamento da mesma.
Topologicamente, as RNAs podem ser organizadas em camadas.
A camada de entrada da rede no recomputa suas sadas, ela usada somente
para a entrada dos dados. Portanto, no existem arcos de entrada em suas
clulas. Os valores resultantes das clulas pertencentes camada de sada
so considerados os resultados finais da rede como um todo. Na Figura 2, os
neurnios U9 e UlO so considerados as sadas da rede. Os neurnios que no
pertencem nem camada de entrada e nem de sada so chamadas de
intermedirios ou ocultos.

Figura 2

EXEMPLO DE RNA

clulas de
sada

clulas
intermedirias

clulas de
entrada

Nova Economia I Belo Horizonte I v.6 I n. 1 I jul. 1996. 57


Observando a Figura 2 quando UlO ativado o valor de sua
ativao determinado pelas ativaes de UJ, U4, U5, U7 e UB e os pesos W4,B,
W5,B, WJ,7, W7,B e WB,lO. Podem existir conexes que ligam neurnios da mesma

camada, sendo chamados de sinapses intra-camadas. As ligaes inter-cama-


das conectam clulas de camadas diferentes. No caso da Figura 2, as conexes
que unem os neurnios U6 e U7 so sinapses intra-camadas inibitrias. A
ligao que conecta o neurnio U7 ao UlO uma inter-camada excitatria.
Com relao s conexes que ligam os neurnios U6 e U7 elas so
chamadas de ligaes recorrentes. Estas conexes formam um ciclo, voltando
para o neurnio de origem (aquele que foi ativado primeiro). Podem existir
conexes que liguem os neurnios de diferentes camadas de modo a formar
ciclos entre as mesmas. Por exemplo, uma ligao que conectasse o neurnio
UIO a U5 formaria um outro ciclo na rede da Figura 2. Portanto, as RNAs
podem ser classificadas em redes cclicas ou acclicas, em funo da existncia
ou no de ligaes cclicas (Lippman, 1987).

v) Regra de Propagao

Cada neurnio Ui calcula sua nova ativao atravs de uma regra


de propagao. Em geral, ela defInida como sendo uma funo somatrio
da entrada lquida dos pesos (net) dos neurnios Uj que esto diretamente
conectados a Ui. Isto feito atravs da multiplicao do estado do j-simo
neurnio (Uj) pelo peso da conexo Wij, do i-simo para o j-simo neurnio,
para cada um dos} neurnios que esto conectados entrada do neurnio i.
A regra de propagao se completa atravs do limite que deve ser ultrapas-
sado pelo somatrio explicado acima. Este limiar, que pode ser nulo inclusive,
deve ser superado para que ocorra a ativao da clula.

vi) Regra de Ativao

necessria uma regra que calcule o valor de ativao de um


neurnio no instante t. preciso uma funo f que calcule a nova ativao
a(t) utilizando as entradas lquidas (net). Geralmente, esta funo possui a
formaalt+ 1) = ff alO, neMt)], onde f a funo de ativao, tambm chamada
de funo limiar. Esta funo mapeia os neurnios de entrada para um
intervalo pr-especifIcado de sada. As quatro funes de ativao mais
utilizadas so linear, rampa, degrau e sigmide (Simpson, 1990), repre-
sentadas na Figura 3.
A Figura 3D e a equao abaixo apresentam a funo sigmide
ou funo logstica, cujos pontos de saturao so O e l.
S(x) = _1_
1+ e-x

58 Nova Economia I Belo Horizonte I v.6 I n. 1 I jul. 1996.


Figura 3
EXEMPLOS DE FUNES DE ATIVAO

f(x) f(x)

A) B)

f(x) f(x)

C) D)

v) Regra de Aprendizado

A modificao do processamento ou da estrutura de conhecimen-


to de uma rede neural envolve a alterao do seu padro de interconexo
(Rumelhart, 1986). Em princpio, isto pode ser feito de trs maneiras:
desenvolvimento de novas conexes;
perda de conexes existentes na rede;
modificao dos pesos das conexes j existentes.

Quando o padro de interconexo for uma matriz de pesos W, os


dois primeiros itens podem ser simulados atravs do ltimo. Tomando-se uma
ligao com peso zero, e modificando-a para um valor positivo ou negativo,
equivale a desenvolver esta conexo. Da mesma forma, alterar o peso de uma
conexo para zero significa desconect-la. Portanto, as regras de aprendizado
alteram os pesos das conexes das redes atravs da experincia.

Nova Economia I Belo Horizonte I v. 6 I n. 1 I jul. 1996. 59


Em geral, as regras de aprendizado podem ser consideradas
como uma variante da Regra de Hebb (Hebb, 1949), que estabeleceu o
princpio da alterao da eficincia das conexes como base do aprendizado.
Segundo o postulado,
"quando o neurnio A se encontra prximo do neu-
rnio B de forma a poder excit-lo, e o faz repetidas
vezes, algum processo desconhecido provoca o cres-
cimento de conexes entre as clulas A e B, facilitan-
do assim a excitao de B por A".

Especificamente, se um neurnio Uj recebe uma entrada de outro


Ui, e ambos esto fortemente ativos, o peso Wij (de Ui para Uj) deve ser
fortalecido.
Devido sua importncia, a questo do aprendizado no contexto
das RNAs ser tratada em separado na prxima seo.

viii) Ambiente

o ltimo componente de RNAs o ambiente onde a rede deve


funcionar. necessrio especificar a natureza do ambiente, estabelecendo os
possveis padres de entrada e sada. Em alguns modelos, por exemplo PDP
de Rumelhart, o ambiente representado como uma funo estocstica que
varia ao longo do tempo sobre um espao de padres de entrada. Geralmente,
o ambiente caracterizado como uma distribuio de probabilidade estvel
sobre um conjunto de padres de entrada. Esta distribuio pode ser inde-
pendente, ou no, de entradas ou de respostas passadas do ambiente.

3 APRENDIZADO EM REDES NEURAIS

Nesta seo, realizamos uma anlise das tcnicas de aprendiza-


do utilizadas nos modelos conexionistas e apresentamos algumas considera-
es sobre os principais modelos clssicos encontrados na literatura,
destacando-se suas propriedades mais relavantes.

3.1 Diferentes tipos de Aprendizado

Na sua essncia, o conceito de aprendizado envolve mudana


associada a aperfeioamento (Pessoa, 1990). Carbonell (1989) defrne o con-
ceito de aprendizado, dentro do campo da inteligncia artificial, como a
habilidade de realizar tarefas novas que no podiam ser realizadas anterior-
60 Nova Economia I Belo Horizonte I v. 6 I n. 1 I jul. 1996.
mente, ou melhorar a realizao de tarefas antigas, como resultado de
mudanas produzidas pelo processo de aprendizado.
Uma classificao, apresentada por Lippman (1987), relacionou
as redes quanto ao tipo de controle realizado durante o aprendizado (super-
visionado ou no-supervisionado). No supervisionado existem, basicamente,
rtulos que especificam a classe correta para os padres de entrada, enquanto
que no aprendizado no-supervisionado no existem tais rtulos.
Diversas tcnicas de aprendizado podem ser utilizadas nas
RNAs (Simpson, 1990), entre elas destacamos as mais relevantes:
Correo de erros: aprendizado supervisionado que ajusta os
pesos das conexes entre ns, na proporo da diferena entre
os valores desejados e computados de cada neurnio,da cama-
dade sada;
Reforo: aprendizado supervisionado onde os pesos so re-
compensados quando o sistema executa aes apropriadas e
punidos caso contrrio;
Regra de Hebb: aprendizado onde o ajuste dos pesos das cone-
xes realizado em funo da relao de valores dos dois neur-
nios que ela conecta. Pode ser aplicado tanto ao aprendizado
supervisionado quanto ao aprendizado no-supervisionado.

3.2 Principais Modelos de Redes Neurais

Existem muitos modelos conexionistas, e uma quantidade razovel


de publicaes que se dedicam a classific-los (Lippman, 1987; Hinton, 1989;
Simpson, 1990). Dentre estes modelos, foram selecionados cinco que so apre-
sentados a seguir em conjunto com os pesquisadores que os desenvolveram .
Perceptron - proposto por F. Rosenblatt em 1957;
Perceptron de Multi-Camadas (backpropagation)
- proposto por P. Werbos, D. Parker, D. Rumelhart em 1974;
Classificador de Carpenter-Grossberg (Sistema ART)
- proposto por G. Carpenter, S. Grossberg em 1978;
Rede de Kohonen - proposto por T. Kohonen em 1980;
Rede de Hopfield - proposto por J. Hopfield em 1982.

i) Perceptron

o perceptron de duas camadas que pode ser usado com valores


contnuos foi o primeiro modelo conexionista desenvolvido. Suas principais
caractersticas so:
Nova Economia I Belo Horizonte I v.6 I n. 1 I jul. 1996. 61
Classe de tarefas: reconhecimento de padres (ex.: caracteres
impressos);
Propriedades dos neurnios: possuem entradas binrias e
sadas que assumem os valores + 1 ou -1. A funo de ativao
a funo degrau;
Propriedades das redes: rede aCclicade duas camadas;
Aprendizado: utiliza a tcnica de reforo.
Esta rede gerou muito interesse pela habilidade de aprender a
reconhecer padres linearmente separveis. Contudo, como a grande maioria
dos problemas prticos relevantes no so linearmente separveis, o percep-
tron nao tem uso generalizado (Simpson, 1990).

) Perceptrons multi-camadas (backpropagation)

Foram desenvolvidos no comeo da dcada de setenta. So redes


aCclicas com uma ou mais camadas de neurnios intermedirios entre as
camadas de entrada e sada. Um algoritmo capaz de treinar os perceptrons
multi-camadas o backpropagation (Rumelhart, 1986). Suas principais ca-
ractersticas so:
Classe de tarefas: reconhecimento de padres (ex.: controle
adaptativo de braos de robs) e processamento de fala;
Propriedades dos neurnios: so do tipo perceptron e possuem
valores contnuos. A funo de ativao a sigmide;
Propriedades das redes: rede acclica de trs camadas, no
mnimo;
Aprendizado: utiliza tcnica de Correo de Erros com o uso
da regra delta generalizada.
O algoritmo backpropagation foi testado em uma srie de pro-
blemas clssicos, e em problemas relacionados com reconhecimento de pa-
dres visuais. Na maioria dos casos, ele encontrou boas solues para os
problemas propostos, apesar do algoritmo, s vezes, fornecer uma configura-
o de pesos correspondente a um mnimo local da funo erro. Isto devido
ao fato do backpropagation utilizar o mtodo do gradiente e, a princpio, a
superfcie de erro possuir uma forma qualquer.

i) Classificador de Carpenter-Grossberg (Sistema ART)

No fmal da dcada de setenta, Carpenter e Grossberg (Gros-


sberg, 1986), projetaram uma rede capaz de formar aglomerados de informa-
es (clusters), e de ser treinada sem superviso, chamada de sistema ART.

62 Nova Economia I Belo Horizonte I v. 6 I n. '1 I jul. 1996.


Classe de tarefas: reconhecimento de padres (ex.: reconheci-
mento de sinais de radar ou sonar) e processamento de ima-
gens;
Propriedades dos neurnios: possuem entradas binrias, po-
dendo assumir valores contnuos. A funo de ativao a
sigmide;
Propriedades das redes: rede cclic~ de trs camadas;
Aprendizado: utiliza tcnica de aprendizado competitivo e
cooperativo que foi introduzida pelo prprio Grossberg.
O sistema ART comea com o algoritmo principal selecionando
a primeira entrada como um exemplo para o primeiro aglomerado. A entrada
seguinte comparada com este primeiro exemplo. Ela agrupada com o
mesmo, se a distncia para o primeiro for menor que um certo limite,
chamado de limiar de vigilncia. Caso contrrio, este exemplo formar um
novo aglomerado. Este pro'Cessose repete para todas as entradas existentes.
O nmero de aglomerados cresce em funo do limiar e da mtrica da
distncia usada para comparar os exemplos de entrada dos aglomerados.

iv) Rede de Kohonen

No comeo da dcada de oitenta, Kohonen(1982) props uma


rede onde se corroborou os estudos tericos sobre a organizao dos caminhos
de sensoriamento na mente. Suas principais caractersticas so:
Classe de tarefas: reconhecimento de padres (ex.: reconheci-
mento da fala) e aprendizado da distribuio de probabili-
dades dos dados (ex.: auto-organizao de mapas de caracte-
rsticas);
Propriedades dos neurnios: possuem entradas contnuas. A
funo de ativao a sigmide;
Propriedades das redes: rede cclica de duas camadas;
Aprendizado: utiliza tcnica de SCA, que foi introduzida pelo
prprio Kohonen. .
Segundo esta teoria, o crebro humano foi considerado como
uma coleo estruturada de neurnios. Com isto, foi admitida uma ordem
espacial das unidades de processamento que permitiu elaborar uma rede
neural dotada de mecanismos que permitem formar representaes estrutu-
radas dos estmulos de entrada. Aps o aprendizado, as unidades respondem
a diferentes estmulos de maneira ordenada, formando um sistema de coor-
denadas de caractersticas sobre a rede.

Nova Economia I Belo Horizonte I v. 6 I n. 1 I jul. 1996. 63


v) Rede de Hopfield

Tambm na dcada de oitenta, o trabalho de Hopfield (1982)


contribuiu substancialmente para o ressurgimento das pesquisas em RNAs.
A rede de Hopfield so mais apropriadas quando representaes binrias
permitem modelar a situao desejada. Por exemplo, imagens em preto e
branco, onde os elementos de entrada podem ser representados pelos valores
de cada ponto da imagem (O = branco, 1 = preto) (Lippman, 1987). Suas
caractersticas so:
Classe de tarefas: reconhecimento de padres (ex.: reconheci-
mento de dados ou imagens completas a partir de fragmentos)
e memria associativa;
Propriedades dos neurnios: possuem entradas binrias e
sadas que assumem os valores + 1 ou -1. A funo de ativao
a sigmide;
Propriedades das redes: rede cclica de uma camada;
Aprendizado: os padres so armazenados no comeo.
A Rede de Hopfield p'ossui duas limitaes quando usada como
memri de acesso por contedo. Primeiro, apesar dos padres armazenados,
a rede pode convergir para um novo padro diferente dos padres exemplo
existentes. Isto pode produzir uma situao em que a rede no casa com um
padro j existente. Uma segunda limitao que o padro exemplo ser
considerado instvel se ele compartilhar muitos bits com outros padres
exemplo, o que pode ocasionar uma convergncia da rede para este outro
exemplo.

3.3 O modelo perceptron multi-camadas


e seu algoritmo de aprendizado

Como j vimos anteriormente, o algoritmo de retropropagao


utilizado para o treinamento do modelo dos perceptrons multi-camadas.
Nesta seo, apresentamos o algoritmo de retropropagao (backpropaga-
tion) o qual utilizado para a realizao de prognsticos de valores futuros
de sries temporais.

i) Caractersticas Bsicas

o modelo dos perceptrons multi-camadas com aprendizado ba-


seado no algoritmo de retropropagao o paradigma mais utililizado em
reas como reconhecimento de padres, processamento de fala e na previso
de sries temporais.

64 Nova Economia I Belo Horizonte I v.6 I n. 1 I jul. 1996.


A base terica deste modelo foi apresentada originalmente em
1974 por Paul Werbos, David Parker e David Rumelhart. Em 1986 Rume-
lhart e McClelland publicaram o livro "Parallel Distributed Processing", cujo
oitavo captulo inteiramente dedicado a anlises e aprendizado deste
modelo.
o modelo do perceptron multi-camadas utiliza uma topologia de
trs ou mais camadas. As conexes entre as unidades so do tipo intercama-
das e so direcionadas da camada de entrada para a camada de sada (Figu-
ra4).

Figura 4
TOPOLOGIA GENRICA DO PERCEPTRON MULTI-CAMADAS

No modelo dos perceptrons multi-camadas, entre uma camada


e outra, existe uma matriz de pesos. A regra de propagao a combinao
entre as sadas de cada unidade e a matriz de pesos. Ela realizada atravs
da soma ponderada de cada sinal que chega, via conexes, pelo respectivo
peso. O estado de ativao assume valores contnuos e devido a isto a regra
de ativao das unidades utiliza como funo de ativao uma funo do tipo
sigmide.
A funo sigmide tambm se faz necessri pela regra de
aprendizado que utiliza uma funo de ativao contnua, no-decrescente e
diferencivel.

Nova Economia I Belo Horizonte I v. 6 I n. 1 I jul. 1996. 65


ii) Aprendizado

Antes de enunciar o procedimento para o aprendizado do modelo


perceptron multicamada faz-se necessrio estabelecer que:
Regra delta: o mtodo de treinamento para redes sem
camada escondida utilizado no modelo do perceptron;
li Regra delta generalizada: procedimento de aprendizado por
minimizao de erro. Consiste da aplicao do mtodo do
gradiente decrescente ao problema de mltiplas camadas;
Retropropagao: propagao do erro gerado na camada de
sada para trs na rede. Utiliza a regra da cadeia no clculo da
derivada do erro em relao aos pesos.
O aprendizado representado pelo algoritmo de retro propagao
do tipo supervisionado. Ou seja, apresenta pares de entrada e sada. Utiliza
o vetor de entrada e produz sua prpria sada, comparando-a com a sada alvo
(real). Se no houver diferena, no 'h mudanas. Caso contrrio, os pesos
sero modificados com o objetivo de reduzir esta diferena. A regra de
modificao dos pesos para um determinado padro p dada pela seguinte
frmula:
D.p Wi,j = 11. p,j . 8p,i

onde o padro p corresponde ao conjunto de entradas da rede. No caso de .


sries temporais, por exemplo,p corresponder aos valores que influenciaro
na realizao do prognstico do prximo valor da srie. O termo representa
uma constante de proporcionalidade, tambm conhecida como taxa de apren-
dizado. O termo pj representa a diferena entre a sada alvo e a sada da rede
(erro local da unidadej para o padro p). esse o termo que ser retropro-
pagado para as camadas anteriores e ser calculado utilizando-se o algoritmo
do gradiente descendente. E finalmente o termo 8p,i a sada produzida pela
rede para o padro p na conexo i.

iii) Algoritmo Backpropagation

Este algoritmo apresenta duas fases bem identificadas. A pri-


meira fase a responsvel pelo processo de treinamento da rede. onde
ocorre o ajuste dos pesos das conexes entre os neurnios. A segunda fase
representa a validao da fase anterior, ou seja onde ocorre a verificao se
o treinamento foi satisfatrio atravs da comparao de sadas geradas pela
rede com valores reais.
A fase de treinamento da rede apresenta os seguintes passos:

66 Nova Economia I Belo Horizonte I v.6 I n. 1 I jul. 1996.


iniciar os pesos e tendncias com valores aleatrios dentro de
certo intervalo;
apresentar o vetor de entrada com a respectiva sada desejada:
Xp = (xo, Xl, . , x,J e tp;

calcular a sada
n-l

Ypj = IWi,j 8p,j


i~O

em cada camada e o valor 8pJ na ltima camada, sendo 8p,i , na


camada inicial, igual a Xi.
adaptar pesos, comendo pela camada de sada,
Wi,j (t+ 1) = Wi,j (t) + a. p,j . 8p,j ,

onde wilt) o peso da unidade i para a unidade} no tempo t.


O algoritmo do gradiente descendente requer apenas que a
modificao dos pesos seja proporcional ao negativo da deri-
vada do erro relativo ao padro p com relao a cada peso. Esta
constante de proporcionalidade a taxa de aprendizado. Va-
lores altos para esta constante implicam grandes modificaes
nos pesos. Na prtica, a taxa de aprendizado deve ser tomada
to grande quanto possvel para acelerar a convergncia do
algoritmo, mas deve-se evitar as oscilaes. O valor timo de
depende do problema. Para superfcies de erro do tipo plancie,
um valor maior de resultar numa convergncia mais acele-
rada, enquanto que para superfcies ngremes poder gerar
oscilaes. Finalmente, o termo pj representa o erro para o
padro p na unidadej. Na unidade de sada o erro calculado
por:
p,j = (tp,j - 8p,j ) . 8p,j. ( 1 - 8p,j);

enquanto que para as unidades das camadas intermedirias


(escondidas), o erro calculado por:
p,j = 8p,j. ( 1- 8p,j) . Ip, k Wk,j ;
k

apresentar nova entrada at que todos os padres sejam


apresentados e o erro esteja to pequeno quanto se deseja.

A segunda fase ocupa-se da validao do treinamento Nesta fase


deve-se conservar na rede o ltimo conjunto de pesos resultante da fase de
treinamento e apresentar vetores de entrada sem valor de sada associado.
O valor de sada dever ser calculado pela rede.

Nova Economia I Belo Horizonte I v.6 I n. 1 I jul. 1996. 67


iv) Problemas no Aprendizado

O maior problema da utilizao do algoritmo de retropropagao


ocorre quando a rede neural obtm uma soluo que corresponde a um
mnimo local da funo do erro. Existem diversas alternativas que visam a
diminuir a ocorrncia de mnimo local. As mais utilizadas so:
diminuio da taxa de aprendizado: se a taxa de alterao dos
pesos diminuda progressivamente, ento o algoritmo do
gradiente decrescente est apto a alcanar uma soluo me-
lhor (Beale, 1990).
adio de unidades internas: possvel considerar que quando
um mnimo local apresentado como soluo, duas classes
diferentes so classificadas como a mesma. Para evitar isso,
ao serem colocadas mais unidades na camada escondida, a
rede far um reconh~cimento melhor, diminuindo a ocorrn-
cia de mnimo local.
introduo de um termo de momento: termo introduzido para
que se possa aumentar a taxa de aprendizado sem que ocorra
oscilao:
Dwi,j (t + 1) = a. . p,j . 6p,j + ~ . [(wi,j(t) - Wi,j (t - 1)]

onde ex o fator de momento (O < P < 1) e determina o efeito


da modificao do peso passado na direo do espao de pesos.
O termo de momento atua tambm no aumento da velocidade
de convergncia. Em muitas simulaes realizadas por Rume-
lhart (1986) o termo de momento assume o valor 0.9.
Outro problema enfrentado pela retropropagao a quebra de
simetria, ou seja, se os pesos comeam todos com o mesmo valor e se a soluo
s pode ser alcanada com pesos diferentes, o sistema no poder aprender
(Rumelhart, 1990). Isto ocorre porque o erro retropropagado em proporo
ao valor dos pesos, o que significa que todas as unidades escondidas conecta-
das diretamente s unidades de entrada e sada cometem erros iguais. Como
a modificao dos pesos depende deste erro, os pesos destas unidades em
relao s unidades de sada sero sempre os mesmos.

4 REDES NEURAIS E MODELOS ECONOMTRICOS

Ao contrrio do que pode parecer primeira vista, os modelos


de redes neurais artificiais tm vrios pontos de contato com os modelos
economtricos tradicionais. Por modelos economtricos tradicionais referi-
mo-nos tanto ao modelo de regresso, quanto aos modelos mais usuais de

68 Nova Economia I Belo Horizonte I v.6 I n. 1 I jul. 1996.


sries de tempo, tais como os modelos ARIMA, o modelo linear dinmico
bayesiano e o modelo estrutural de sries de tempo. Muitas das semelhanas
existentes ficam embotadas pelo uso de jarges tcnicos diferentes por parte
dos economistas e conexionistas.4
No caso do modelo de regresso, por exemplo, temos uma vari-
vel dita endgena sendo explicada por diferentes variveis exgenas. Nas
RNA, as variveis exgenas podem ser vistas como os sinais que entram nos
neurnios da camada de entrada, enquanto que a varivel endgena
representada pelo sinal de sada desejvel para a rede. Em outras palavras,
a varivel endgena o padro que objeto do aprendizado da RNA. Na
verdade, uma RNA que tenha apenas uma camada de entrada e outra de sada
(perceptron) pode ser facilmente relacionada ao modelo de regresso linear.

Figura 5

x1

x2 y

x3

Neste caso, o vetor de pesos da RNA da Figura 5 (w 14, W24 e W34),


que no tem nenhuma camada oculta, nada mais que o vetor de parmetros
do modelo de regresso. Eles indicam, assim como os parmetros da regres-
so, a importncia de cada sinal de entrada no que diz respeito a explicao
do padro de sada. Contudo, quando utilizamos uma camada oculta (percep-
tron multi-camada), como comum na literatura de RNA, estamos introdu-
zindo no-linearidades na relao entre as entradas Xl, X2 e X3 e a sada y.
Portanto, a relao entre as variveis exgenas e a varivel endgena deixa
de ser linear, e a comparao, ento, tem de ser feita com modelos de
regresso no-lineares.

4 Para uma comparao rigorosa das redes neurais e modelos economtricos ver
White (1992), principalmente os captulos 7 e 8.

Nova Economia I Belo Horizonte I v. 6 I n. 1 I jul. 1996. 69


Figura 6

tendncia

ciclo y

sazonal idade

Mesmo no caso de modelos de sries de tempo, como os ARIMAs


ou os modelos de decomposio em componentes no observados, a relao
com as RNA segue o mesmo padro descrito acima. No caso dos modelos de
decomposio em componentes no observados, tambm chamados de mode-
los estruturais, cada neurnio de entrada pode representar uma caracters-
tica no observvel da srie de tempo que se deseja modelar. Temos ento,
neurnios especializados para representar a sazonalidade, a tendncia e o
ciclo da srie. No caso da sazonalidade, podemos utilizar s neurnios sazonais,
onde s = 4 ou 12, dependendo do tipo de dados que se disponha. No caso de
dados trimestrais teramos quatro neurnios sazonais com entrada igual a 1
para o trimestre em questo e zero para os demais. Isto , teramos quatro
neurnios com sinais de entrada (1 OO O), (O 1 OO), (OO 1 O)e (O OO 1) para
cada perodo de tempo. Alternativamente, poderamos introduzir a varivel
dependente defasada em 4 ou 12 perodos conforme o caso, como um neurnio
de entrada.
J a tendncia pode ser modelada como uma seqncia de sinais
de entrada do tipo a+bt, onde t=l, 2, ... T, para o caso linear. As constantes
a e b podem, por exemplo, ser obtidas atravs de uma regresso da varivel
dependente contra o tempo, ou estabelecidas em funo de conhecimentos a
priori. No caso de outros formatos de tendncia, tais como quadrtica ou
exponencial, basta utilizar-se uma outra funo do tempo para obter os sinais
de entrada para o neurnio que representa a tendncia. Candidatos bvios
para a gerao dos sinais de entrada neste caso so as funes a+bt+cr e
aert Para a obteno dos sinais de entrada para o neurnio que represente o
componente cclico podemos, novamente, utilizar funes do tempo. Neste
caso, o procedimento mais razovel consiste na utilizao de funes peri-
dicas, tais como o seno ou cosseno. Uma possibilidade, neste sentido, a
funo A cos(t - 8).

70 Nova Economia I Belo Horizonte I v.6 I n. 1 I jul. 1996.


Portanto, na aplicao de RNA ao problema de previso de sries
temporais econmicas, a escolha dos neurnios de entrada pode ser feita
utilizando-se a teoria econmica, para determinar as variveis exgenas
relevantes, e os procedimentos comumente utilizados em anlise de sries de
tempo, tais como funes de auto-correlao e auto-correlao parcial, testes
para razes unitrias, anlise grfica etc. Estes procedimentos auxiliam na
determinao dos neurnios da camada de entrada, mas no ajudam muito
no que diz respeito a determinao da arquitetura global da rede.
A determinao do nmero de camadas ocultas e o nmero de
neurnios em cada camada oculta , basicamente, uma questo emprica.
Novamente podemos fazer uma analogia com o modelo de regresso, onde a
teoria econmica usada para identificar as variveis exgenas envolvidas,
mas a determinao das relaes dinmicas entre estas e a varivel endgena
uma questo emprica. Para a obteno de uma arquitetura adequada para
a RNA devemos utilizar algum critrio de poda. Assim como ocorre no modelo
de regresso, onde aplica-se o procedimento general to specific (Hendry,
1995, capo 7-8). para o estabelecimento da relaes dinmicas, tambm nas
RNA usual comear-se com uma rede" grande" que sofre ento um processo
sucessivo de poda at que se atinja a arquitetura ideal. O processo de poda
consiste em eliminar aquelas ligaes que mostrem pouca contribuio para
a capacidade preditiva da RNA. Isso pode ser feito, por exemplo, utilizando-se
algum critrio de informao, tais como o AlC, ElC ou SC.
Podemos ainda incluir, como o caso da Figura 7, as prprias
variveis endgenas como sinais de entrada para a RNA. Temos apenas de
tomar o cuidado de no estabelecer ligaes entre variveis iguais. Caso
contrrio, todas as demais ligaes acabariani por ser eliminadas pois existi-
ria uma correlao perfeita entre um dos sinais de entrada e o sinal de sada.

Figura 7

y1
y1
y2

x1
y2
x2

Nova Economia I Belo Horizonte I v.6 I n. 1 I jul. 1996. 71


Nos modelos economtricos tradicionais, os parmetros do mo-
delo so obtidos atravs de algum processo de estimao que envolve a
minimizao da soma do quadrado dos resduos ou a maximixao da funo
de verossimilhana. J os pesos das RNA so obtidos, segundo o jargo
conexionista, por um processo de aprendizado. Contudo, a estimao dos
pesos das RNA, a partir de um processo de aprendizagem, e a estimao dos
coeficientes de modelos tradicionais, tais como os modelos ARIMA, so, do
ponto de vista matemtico e estatstico, exatamente a mesma coisa. Em
ambos os casos, o que se procura atingir minimizao da funo de erro
mdio quadrado, ou qualquer outra funo objetivo escolhida. Backpropaga-
tion apenas um algoritmo numrico utilizado para obter-se o mnimo local
da funo objetivo em questo. Existem muitos outros algoritmos que reali-
zam o clculo numrico para a obteno de mnimos locais ou globais e que
podem ser aplicados. Neste sentido, o processo de aprendizagem das RNAs
equivalente estimao dos parmetros realizada nos modelos economtri-
coso Na verdade, o mtodo de retro-propagao um caso especial do proce-
dimento de "aproximao estocstica" proposto por Robbins, Monro (1951).5
A principal diferena entre os modelos economtricos tradicio-
nais e as RNA, tal como utilizadas atualmente, que estas no contam com
uma base estatstica pr-determinada. Enquanto que nos modelos econom-
tricos estamos lidando com variveis aleatrias que possuem uma determi-
nada distribuio conjunta de probabilidade, nas RNA temos apenas sinais
de entrada e sada da rede.A ausncia de um modelo estatstico bem especi-
ficado impede, por exemplo, a construo de intervalos de confiana para as
previses geradas pelas RNA A previso gerada pelas RNA sempre pontual,
ao contrrio do que ocorre com os modelos economtricos.

5 CONSIDERAES FINAIS

Vrios experimentos de previso, realizados nas mais diferentes


reas do conhecimento, tm mostrado a eficcia das RNA em gerar previses de
boa qualidade. No caso especfico de sries de tempo econmicas, Zandonade
(1993), Portugal (1995) e Fernandes, Portugal, Navaux (1994) entre outros,
apresentam estudos comparativos das RNA com modelos economtricos tradi-
cionais e concluem que estas representam um instrumento indispensvel para
aqueles economistas que trabalham com previso. Especialmente para previses
com mais de um passo frente, vrios estudos tm mostrado que as RNAs so
em geral superiores aos modelos economtricos convencionais.

5 Para maiores detalhes sobre a comparao entre os mtodos de aproximao


estocstica e retro-propagao, ver White (1992, p. 87-88).

72 Nova Economia I Belo Horizonte I v.6 I n. 1 I jul. 1996.


REFERNCIAS

BEALE, R, JACKSON, T. Neural computing: an introduction. Adam Hilger


Publishers. 1990.
CARBONELL, J. G. Introduction: paradigms for machine leaming. Artificial
Intelligence, v. 40, p. 1-9, 1989.
CARVALHO, L. A. V. Redes neuronais e a tradio conexionista da intelign-
cia artificial. Relatrio Interno. Programa de Eng. Mecnica, COPPEI
UFRJ, 1988.
COTTRELL, G. W. A connectionist aproach to word sense disambiguation.
University of Rochester, 1985. (Tese de Doutorado).
FERNANDES, L. G. L., PORTUGAL, M. S. NAVAUX, P. O. A. Um estudo
de poder preditivo das redes neurais artificiais comparado a mtodos
economtricos tradicionais. Anais do I Simpsio Brasileiro de Redes
Neurais. Caxambu, p. 139-144, 1994.
GALLANT, S. L connectionist expert systems. Communications of the ACM,
v. 31, n. 2, p. 152-168, fev. 1988.
GROSSBERG, S. the adaptative brain I: cognition, leaming, reinforcement,
and rhythm and the adaptative brain II: Vision, Speech, Language and
Motor Control, EIsevier North Holland, Amsterdam, 1986.
HEBB, D. O. The organization of behavior: a neuropsychological theory.
Science Editions Inc., 1949.
HECHT-NIELSEN, R Applications of counterpropagation networks. Neu-
ral Networks, v. 1, p. 131-140, 1988.
HENDRY, D. F. Dynamic econometrics. Oxford: Oxford University Press,
1995.
HINTON, G. E. Connectionist learning procedures. Artificial Intelligence, v.
40,~ 185-234, 198a
HOPFIELD, J. J. Neural networks and physical systems with emergent
collective computational abilities. Proc. Nat. Acad. Science, USA, v. 79, p.
2554-2558, 1982.
KOHONEN, T. Clusteringtaxonomy and topological maps ofpattems. Proc.
ofthe Sixth Intern. Conference on Patiern Recognition, p. 114-128, 1982.
LIPPMAN, R P. An introduction to com puting with neural nets. IEEE ASSP
Magazine, p. 4-22,1987.
PESSOA. Aprendizado no-supervisionado em redes neuronais. COPPE
Sistemas, UFRJ, 1990. (Tese de Mestrado).

Nova Economia I Belo Horizonte I v. 6 I n. 1 I jul. 1996. 73


PORTUGAL, M. S. Neural networks versus time series methods: a forecas-
ting exercBe. Revista Brasileira de Economia, v. 49, n. 4, p. 611-629, 1995.
ROBBINS, H., E MONRO, S. A Stochastic approximation method. Annals of
Mathematical Statistics, v. 25, p. 737-744, 1951.
RUMELHART, D. E. , MCCLELLAND, J. Parallel Distributed Processing,
v. 1, MIT Press, 1986.
RUMELHART, D. E., HINTON, G. E., WILLIAMS, R. J. Learning internal
representatioins by error propagation. Parallel Distributed Processing, v.
1, MIT Press, p. 318-362, 1986.
RUMELHART, D. E., WEIGEND, S. A. Predicting the future: A connectio-
nist approach. Stanford PDP-90-01, PARC-SSL-90-20, 1990.
SIMPSON, P. Artificial neural systems: foundations, paradigms, applica-
tions and implementations, pergamon press inc., 1990.
TURING, A. M. On computable numbers, with an application to the ents-
cheidungs problem. Proceedings ofthe London Mathematical Society 2, v.
42, p. 230-265, 1936.
WHITE, H. Artificial neural networks: approximation and learning theory,
blackwell publishers, Oxford: 1992.
ZANDONADE, E. Aplicao da metodologia de redes neurais em previso de
sries temporais. Dep. de Engenharia Eltrica, PUC-RJ, 1993. (Tese de
Mestrado).

74 Nova Economia I Belo Horizonte I v.6 I n. 1 I jul. 1996.

Vous aimerez peut-être aussi