Aprendizagem Hebbiana e PCA

Aprendizagem Hebbiana e PCA
Prof. Jlio Cesar Nievola

PPGIA
PUCPR
PPGIA - PUCPR Prof. Jlio Cesar Nievola 2
Aprendizagem Hebbiana
A comunicao entre dois neurnios facilitada
pela excitao repetida
A Regra de Hebb diz que se a sada do i-simo PE
y
i
e a ativao do j-simo PE x
j
, ento

onde q o tamanho do passo
Para aplicar a regra de Hebb, somente os sinais de
entrada precisam fluir atravs da rede
A regra de Hebb local ao peso
i j ij
y x w q = A
Sistemas biolgico e artificial
Efeito da atualizao Hebbiana
A aprendizagem Hebbiana atualiza os pesos de
acordo com

onde n o nmero da iterao e q o tamanho do passo
Para um PE linear, y = wx e, portanto,

A aprendizagem Hebbiana intrinsecamente
instvel, produzindo pesos muito grandes
( ) ( ) ( ) ( ) n y n x n w n w q + = +1
( ) ( ) ( ) | | n x n w n w
2
1 1 q + = +
Exemplo 01
PE com vrias entradas
Em notao vetorial a sada do PE

Assumindo entradas e pesos normalizados, y
maior significa que ele est mais prximo da
direo do vetor peso
Durante a aprendizagem os pesos expostos aos
dados condensam toda informao em seus
valores
Os pesos so a memria de longo termo
u cos , x w y seja ou y
T T
= = = w x x w
Aprendizagem Hebbiana com
vrias entradas
PE linear com
D entradas
Sada de um PE linear no
espao vetorial
Exemplo 02
Memria
O PE Hebbiano simples e cria uma medida de
similaridade (produto interno) no espao de entrada
de acordo com a informao contida nos pesos
A sada do PE responde em nvel alto ou baixo, de
acordo com a similaridade entre entrada atual e o
que ele recorda do treinamento
O PE Hebbiano implementa um tipo de memria
chamada memria associativa
Exemplo 03
Regra de Hebb e
Aprendizagem por Correlao
Na aprendizagem batch a regra de Hebb atualiza os
pesos com uma estimativa amostral da funo de
autocorrelao

Com a regra de Hebb, o algoritmo faz a subida do
gradiente (busca do mximo) dos dados de entrada
A regra de adaptao on-line simplesmente uma
verso estocstica e tem o mesmo comportamento
( ) | |
T
x x
E onde xx R w R w = = A 0
q
Exemplo 04
Representao de Dados em
Espaos Multidimensionais
Os pesos da rede treinada com a regra de
aprendizagem de Hebb indicam a direo do
gradiente do campo de entrada
A sada da rede indica a projeo de maior
varincia, ou seja, os eixos do sistema principal de
coordenadas onde a sada projetada tem a maior
varincia
uma forma de criar pesos de rede ajustados s
estatsticas de segunda ordem dos dados de entrada
Sistema de coordenadas principais
Regra de Oja
Para criar uma forma til da aprendizagem de Hebb
necessrio normalizar os pesos
A forma mais simples foi proposta por Oja

Assumindo um tamanho de passo pequeno, Oja
aproximou a equao anterior por
( )
( ) ( ) ( )
( ) ( ) ( ) ( )
+
+
= +
i
i i
i i
i
n x n y n w
n x n y n w
n w
2
1
q
q
( ) ( ) ( ) ( ) ( ) ( ) | |
( ) ( ) | | ( ) ( ) n y n x n y n w
n w n y n x n y n w n w
i i
i i i i
q q
q
+ =
+ = +
2
1
1
Regra de Oja
A regra de Oja pode ser considerada a atualizao
de Hebb com uma atividade normalizada
Ela evita o crescimento ilimitado dos pesos
aplicando um termo de esquecimento
proporcional ao quadrado da sada
Se o padro no estiver presente freqentemente,
ele ser esquecido, j que a rede esquece
associaes antigas
Exemplo 05
A Regra de Oja implementa o
Mximo Autofiltro
O treinamento de um PE linear com o algoritmo de
Oja produz
um vetor de pesos que o autovetor da matriz de
autocorrelao de entrada
na sada o maior autovalor
O vetor de pesos obtido usando o algoritmo de Oja
indica a direo onde os dados produzem a maior
projeo
Uma rede com um nico PE treinada com a regra
de Oja extrai o mximo possvel de informao da
entrada
Projeo de um agrupamento de
dados nos componentes principais
Anlise da Componente Principal
Suponha-se ter uma entrada de dados de uma alta
dimensionalidade (D dimenses)
Busca-se projetar estes dados em um espao de
dimensionalidade M menor (M < D). Isto
chamado extrao de caractersticas
Deseja-se esta projeo preservando ao mximo a
disperso (varincia) sobre os dados de entrada
A projeo linear que realiza isto chamada de
PCA (Principal Component Analysis)
PCA
PCA o melhor extrator linear de caractersticas para
reconstruo de sinais. Com o uso de M caractersticas, o
erro e na aproximao ser de

Representando o sinal em subespaos cada vez maiores
cujos eixos so determinados a partir dos dados chamada
decomposio subespacial
usada para encontrar o melhor subespao com uma dada
dimenso que preserva ao mximo a informao dos dados
{ }
T
D
D
M i
i
E e yy = A
(
(
(
= A =

+ =
,
0
0
,
1
1
2

Rede PCA
Pode-se construir uma RNA que implementa PCA online
com regras de aprendizagem local
Calcula-se o maior autovetor usando a regra de Oja
Projeta-se os dados sobre um espao perpendicular ao maior
autovetor
Aplica-se novamente o algoritmo para encontrar o segundo maior
componente principal
Repete-se o procedimento at obter ordem M s D
Mtodo da deflao: a projeo sobre o espao ortogonal
obtida subtraindo a sada de todos os componentes de sada
anteriores (aps convergncia) da entrada
Rede PCA
Regra de Sanger
Assume-se que a rede tem D entradas e M sadas
(M s D), cada uma dada por

Os pesos so atualizados atravs da frmula

Isto implementa a deflao aps a convergncia do
sistema.
A atualizao no local
( ) ( ) ( ) M i n x n w n y
D
i
j ij i
, , 1 ,
1
= =
=
( ) ( ) ( ) ( ) ( )
(
= A

=
i
k
k kj j i ij
n y n w n x n y n w
1
q
Exemplo 06
PCA em aplicaes
Pode-se modelar compresso de dados como uma
operao de projeo onde o objetivo encontrar
um conjunto de bases que produz uma grande
concentrao do sinal em poucos componentes
Embora a princpio imagine-se que pelo sistema
PCA poder ser capaz de preservar o sinal em um
subespao, ele tambm um projetor timo para
classificao, tal idia no corresponde realidade
Exemplo 07
Relao entre autodirees e
classificao
Aprendizagem Anti-Hebbiana
A regra anti-Hebbiana inclui um sinal de menos:

A adaptao busca o mnimo da superfcie de
desempenho e a varincia de sada minimizada
Os pesos buscam buscam direes no espao de
entrada onde os grupos de dados tem projeo
pontual, chamada espao nulo (ou ortogonal) dos
dados
A sada da rede sempre produzir sada zero
j i ij
x x w q = A
Exemplo 08
Aprendizagem Anti-Hebbiana
Se os dados preenchem o espao de entrada a nica
maneira de minimizar a sada da rede tornar os
pesos iguais a zero
Se os dados existem em um subespao os pesos
encontram as direes onde os dados so projetados
em um ponto
O comportamento de aprendizagem anti-Hebbiana
decorrelaciona a sada de sua entrada
Convergncia da Regra
Anti-Hebbiana
A convergncia da regra anti-Hebbiana pode ser
controlada pelo tamanho do passo, pois

ser estvel se q < 2 / , onde o autovalor da
funo de autocorrelao da entrada. Para um
sistema com vrias entradas o requisito deve ser

onde
max
o maior autovalor da funo de
autocorrelao de entrada
( ) ( ) ( ) n w n w q = + 1 1
max
2
q <
Exemplo 09
Estimando a Correlao Cruzada
em Redes Hebbianas
Suponha-se ter dois conjuntos de dados formados
por N exemplos de dados de dimenso D: x
1
,...,x
D
e
d
1
,...,d
D
e deseja-se estimar a correlao cruzada
entre eles
A correlao cruzada uma medida de similaridade
entre dois conjuntos de dados que estende a idia do
coeficiente de correlao
Para calcular a correlao cruzada, usa-se uma rede
linear com D entradas x e com D sadas y. Substitui-
se a sada y na regra Hebbiana pelo conjunto de
dados d

Rede Hebbiana com vrias
entradas e vrias sadas
Aprendizagem Hebbiana Forada
Para calcular a correlao cruzada usa-se a
aprendizagem Hebbiana forada, dada por

Se w
ij
(0)=0, aps N iteraes tem-se

Se q=1/N e as condies iniciais so nulas os
elementos da matriz de correlao cruzada so
exatamente os pesos da rede linear
Uma rede linear treinada com a aprendizagem
Hebbiana forada chamada correlacionador ou
heteroassociador
i j ij
d x w q = A
( ) ( ) ( )
=
=
N
n
i j ij
n d n x N w
1
q
Exemplo 10
Dissimilaridade
Tem-se dois conjuntos de dados x e d. Tomando x
como entrada, deseja-se obter uma sada y to
dissimilar quanto possvel do conjunto de dados d
Isto equivalente a encontrar a rotao de x tal que
y ortogonal a d (ou seja, no espao nulo de d)
Com a regra Aw
ij
= - qx
j
d
i
o sistema adiante realiza
esta funo:
Funo de um
PE de decorrelao
Exemplo 11
Inibio Lateral
Outra estratgia til para decorrelacionar sinais
criar conexes laterais entre PEs adaptados com
aprendizagem anti-Hebbiana
um mtodo para construir redes que encontram o
espao da componente principal com uma regra
local
Conexes laterais
de inibio
Modelo APEX para PCA
Diamantaras demonstrou que a rede APEX pode
implementar o PCA adaptando os pesos atravs de

Neste caso, a regra de Oja adapta os pesos e a
aprendizagem anti-Hebbiana as conexes laterais
A regra local
As componentes principais so aprendidas em
paralelo e no usando deflao
( ) ( ) ( ) | |
( ) ( ) ( ) | |
+ = A
= A
ji i j i ji
i i i i
c n y n y n y c
w n y n x n y w
q
q
Topologia APEX para PCA
Whitening Transform
Ela ortogonaliza os dados de entrada e tambm
normaliza os autovalores
Transforma quaisquer dados descritos por uma
autocorrelao R com uma faixa de autovalores
arbitrrios em uma matriz ortonormal
Isto melhora sensivelmente a velocidade de
sistemas de aprendizagem lineares, que usam
mtodos de primeira ordem
Whitening Transform
A topologia a APEX, adaptando todos os vetores
de uma s vez, levando a uma estrutura adaptativa
simtrica. A regra de adaptao

A adaptao dos pesos no local, mas com a
inibio lateral isto pode ser facilmente
implementado por uma rede de camada nica
Ela cria um espao ortonormal na sada equalizando
os autovalores e no rotacionando os eixos
( ) ( ) ( ) ( ) ( ) ( )
=
+ = +
D
k
kj k i ij ij
n w n y n y n w n w
1
1 1 q q
Memria Associativa Linear
(LAM)
O associador linear, tambm chamado memria
associativa linear (LAM) fornece um paradigma
alternativo memria computacional
A topologia do associador linear, treinado com a
regra Hebbiana forada pode ser usado como uma
memria associativa
Tal dispositivo pode ser treinado para associar uma
entrada x a uma resposta d. Ento, na ausncia de d,
x pode produzir uma sada y que similar a d
Exemplo 12
Crosstalk em LAMs
Assume-se ter K pares de vetores entrada-sada
x
k
d
k
. A memria associativa treinada pela
apresentao repetida de cada entrada
Usando o princpio da superposio a matriz de
pesos final a soma das matrizes individuais:

Quando um vetor de entrada x
l
apresentado
rede, sua sada
T
k k k
K
k
k
x x W W W = =
=
cada onde ,
1
= =
+ = =
K
l k k
l
T
k k l
T
l l l
, 1
x x d x x d Wx y
Exemplo 13
Crosstalk em LAMs
O segundo termo o crosstalk e indica o quanto as
outras sadas interfere com a verdadeira. Ele uma
funo de quo similar a entrada x
l
em relao a
outras entradas x
k
Se todas as entradas so ortogonais, o produto
interno de x
l
e x
k
zero (crosstalk zero)
Neste caso, o associador linear produz recuperao
perfeita
Crosstalk em LAMs
Capacidade de armazenamento definido como o
mximo numero de padres que pode ser
armazenado e recuperado sem degradao
Na prtica as entradas devem ser ortogonais entre si
para que o crosstalk no seja grande. Para isto basta
encontrar um conjunto de vetores ortogonais
Neste caso, o nmero de padres para recuperao
perfeita igual ao tamanho da camada de entrada
O padro mais prximo entrada recuperado
LMS como uma combinao de
regras Hebbianas
A regra LMS expressa por

Portanto,

A regra LMS a combinao de um termo de Hebb
entre a resposta desejada e a entrada e um termo
anti-Hebbiano entre o PE de sada e sua entrada
Portanto, o princpio de correlao de Hebb
tambm surge na aprendizagem supervisionada
i i i j i ij
y d onde x w = = A c c q ,
( )
j i j i ij
x y x d w = A q
Melhorando o desempenho de
Memrias Associativas Lineares
Aprendizagem supervisionada pode ser aplicada
para treinar um associador linear para hetero-
associao. P.ex. treinar os pesos com LMS como

O segundo termo (anti-Hebbiano) reduz crosstalk
em cada iterao. LAM com LMS tima (OLAM)
Memrias associativas com termo de Hebb forado
trabalham bem somente com padres esparsos, tal
como o crebro humano que tem muitos neurnios
( ) ( ) ( ) ( ) ( ) ( ) ( ) n n n n n n n
T T T
x y x d x W q q q = = A
Exemplo 14
LAM e Regresso Linear
As topologias da LAM e do problema do regressor linear
so semelhantes. O que isto implica?
Quantidade de padres x camada de entrada:
LAM: mais equaes que dados
Regressor: mais dados que equaes
A rede linear pode memorizar (trabalhando como uma
LAM) ou generalizar as propriedades estatsticas dos pares
entrada-sada (trabalhando como um regressor)
Uma funo de aproximao com um pequeno nmero de
exemplos (para regresso no-linear ou classificao) torna-
se no final uma memria associativa e no generaliza bem!!!
Auto-associao
Em auto-associao o padro de sada igual
entrada e o sistema treinado com aprendizagem
Hebbiana forada ou com o LMS
O auto-associador realiza uma autodecomposio
da funo de autocorrelao, isto , as sadas sero
os autovalores da funo de autocorrelao e os
pesos sero os autovetores associados
Se as entradas no forem ortogonais e o sistema
treinado com LMS o crosstalk decai at zero, o que
no acontece com a aprendizagem Hebbiana
forada (crosstalk diferente de zero)
Reconstruo de sinal
Auto-associador com W
2
= W
1
T
Exemplo 15
Auto-Associador
A rede auto-associadora normalmente treinada
com o backpropagation (com PEs lineares)
O quadrado dos sinais z
i
so realmente os
autovalores e seu nmero seleciona o tamanho do
espao de reconstruo
A superfcie de desempenho do auto-associador
no-convexa, com pontos de sela mas no tem
mnimos locais, ou seja, a convergncia para os
mnimos locais assegurada pelo controle das taxas
de aprendizagem
Exemplo 16
Exemplo 17
Exemplo 19
Exemplo 18

Aprendizagem Hebbiana e PCA

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Aprendizagem Hebbiana e PCA

Transféré par

Droits d'auteur :

Formats disponibles

Aprendizagem Hebbiana e PCA

Prof. Jlio Cesar Nievola

PPGIA - PUCPR Prof. Jlio Cesar Nievola 17

Vous aimerez peut-être aussi