Perceptron Multicapa

PERCEPTRON MULTICAPA
1. Regla Delta Generalizada (BackPropagation)

1.1. Caractersticas
1.2. Arquitectura de Pesos
- Capa de Salida
- Capas Ocultas
1.3. Consideraciones Prcticas
- Datos de Entrada
- Funciones de Transferencia
- Dimensionamiento de la estructura
1.4. Control de Convergencia
- Mnimos Locales
- Momento
- Heursticas para incrementar la velocidad de aprendizaje
REGLA DELTA GENERALIZADA (BACKPROPAGATION)
La Regla Delta o LMS: Entrena un PE o una capa de PE.

Existencia de Capas Ocultas: la Regla Delta no servira para el entrenamiento de la
estructura:
Conocemos la salida deseada para cada patrn de entrenamiento.
No conocemos la salida deseada para los PE de las capas ocultas.
La Regla Delta Generalizada o Backpropagation fue creada para generalizar la Regla
Delta sobre Redes Neuronales de mltiples capas y funciones de transferencia no
lineales y diferenciables.
Caractersticas:
Entrenamiento Supervisado: Correccin de Error.
Aprendizaje Off Line.
Capacidad de Generalizacin.
netapj w ji x pi
i0
Notacin:
h
pj
f j (netahpj)
o
opj f j (netapj)
n- nmero de entradas de cada patrn.

o- indica la capa.
p- indica el patrn.
j- PE j.
Wji- conexin PE i (capa h-1) con PE j (capa h)
Opj- salida PE j en la capa de salida.
ARQUITECTURA DE PESOS
Capa de Salida
Como en la capa de salida puede haber un n >1 de PE, en este caso no nos basta
con un nico valor de error:
pk ( y p opk )
k
El error que se debe minimizar es la suma de los cuadrados de los errores de

todas las unidades de salida.
2
1
( y o )
2
E p 21
pk
pk
pk
2 k
k 1
E p
E p
o pk
( y
)
pk
o
k
wkj
(neta pk )
o
(neta pk
)
o o1
o1
(
) i pj
o
o wkj
wk
wkj
i
j
Todo
implica
pj
que:
( y pk opk )
o
k
o1
(neta pk )
o
wkj
(neta pk ) i pk
De tal manera que los pesos en la capa de salida se modificarn de la siguiente manera:
o
wkj (t 1) wkj (t) p wkj

o
(t)
o pk )
p wkj (t)
( y pk
o1
f (neta pk )ipj
Condicin NECESARIA: f debe ser derivable. Dos casos:
f neta neta
fo ok 11 o
neta f
f (
)
(1 e k
k
k netak
)
o
(
ko
o
k)
o
o
k
( y
)( f o
fo (1 foo)
pk
k
k
(1 o )
pk
f o (netao
pk
pk
o pk
neta pk
Sea:
o1
wkj (t 1) wkj (t) pk i pj
pk
pk
Capas Ocultas
Como determinamos los valores esperados de los PE en las capas ocultas?
Ep est relacionado con la salida de los PE en capas ocultas de la siguiente manera:
1
E p (ypk opk)
))
pk
o
(y
f
pk k(netao
o h
o
(ypk f k(wkji pj ))
j
Por otra parte:

h
h h1
i pj f j (netapj) f j ( w ji i pi
De tal manera:
Ep
h
w ji
w ji
( y pk opk)
(ypk
opk )
pk
pk
opk
o )
(netaopk)
h1
f k ( netapk ) wkj f (netapj)ipi
j k
Con lo que:
wh f h (netah )ih1
(y
) f o ( netao
)wo
netapk
h
i pj
i pj
netapj
netahpj whji
ji
h
ji
pj
pi
pk
k
f h (netah )ih1 o o
wkj
pj pi pk
j
pk
k
pk
kj
Las actualizaciones de los pesos en la capa oculta dependen de todos los trminos de
errores de la capa de salida. Esto es a lo que se refiere uno con el nombre de
propagacin hacia atrs.
pj f
h
h
j
(neta pj )pk wkj

h
h1
Entonces:
h
ji
(t 1) w j (t)
pj i
Los trminos de error de las unidades ocultas, se calculan antes de que hayan sido
modificado los pesos de conexiones con las unidades de la capa de salida.
CONSIDERACIONES PRCTICAS
Este tipo de estructuras se introducen para resolver problemas que no son linealmente
separables.
Datos de entrada (entrenamiento)
Se pueden emplear todos los datos disponibles para entrenar la red. Lo que se
necesita es: Subconjunto de datos que cubran todo el espacio de los mismos.
La BPN admite la Generalizacin:
Dados varios vectores de entrada
(no pertenecientes al conjunto de
entrenamiento), similares
a
patrones existentes en el conjunto
de entrenamiento, la red reconocer
las similitudes entre dichos
patrones.
La BNP no extrapola bien es
decir: Si la red se entrena mal o
insuficientemente, las salidas
pueden ser imprecisas.
Regin de Incertidumbre: (vectores de entrenamiento A,B). Red con 2 unidades

ocultas ( 1 capa oculta). Al minimizar el error los planos que se generan se
alinean tan cerca de los patrones de entrenamiento como sea posible.
Otras Funciones de Transferencia

La eleccin de la funcin de transferencia para los diferentes elementos de una red es
un aspecto importante a tener en cuenta para el funcionamiento correcto de la red.
Ejemplo: Anlisis de Fourier.
f(
x)
(an cos nx
n0
bn
2
2
sen
nx)
a0
n1
c
n
s
e
n
(
n
x
cn (an bn )
n )
F=sen(i)
C1
1
C2
F=sen(i)
2
Cn
F=sen(i)
n arctang(b a)
X
f(x)
a0
FuncinTransferencia F=sen(i).
Funcin Transferencia sigmoidal.
CONTROL DE CONVERGENCIA
En las tcnicas de gradiente descendente es conveniente avanzar por la superficie

de error con incrementos pequeos de los pesos.
Informacin local de la superficie.
Incrementos grandes: se corre el riesgo de pasar por encima del punto mnimo
sin conseguir estacionarse en l.
Incrementos pequeos: aunque se tarde ms en llegar, se evita que ocurra esto.
El elegir un incremento adecuado influye en la velocidad con la que converge el

algoritmo. Sabemos que este control lo podemos realizar mediante el parmetro
denominado ganancia. Normalmente se le asigna un valor pequeo (0,05-0,25) para
asegurar que la red llegue a asentarse en una solucin.
Otra manera de incrementar la velocidad de aprendizaje, consiste en utilizar otro

parmetro llamado Momento:
o
kj
(t 1) wkj (t )
o1
o
pk
pk
p wkj (t 1)
Un ltimo aspecto a tener en cuenta es la posibilidad de convergencia hacia alguno de

los mnimos locales.
No se puede asegurar en ningn momento que el mnimo que se encuentre sea

global.
Una vez que la red se asienta en un mnimo, sea local o global, cesa el
aprendizaje, aunque el error siga siendo demasiado alto, si se ha alcanzado un
mnimo local.
Si se alcanza un mnimo local y el error es satisfactorio, el entrenamiento ha sido un

xito, si no sucede as, puede realizarse varias acciones para solucionar el problema:
Cambio de arquitectura (ms capas ocultas o ms PE)

Modificacin de parmetros de aprendizaje.
Emplear un conjunto de pesos iniciales diferentes.
Modificar el conjunto de entrenamiento o presentar los patrones en distinta
secuencia.
Procedimientos para incrementar la velocidad de aprendizaje.
En este apartado describiremos diferentes procedimientos que permitan incrementar

la velocidad de aprendizaje manteniendo intacto la propiedad de Localidad que
tienen este tipo de redes, referido a que la computacin de un PE est solamente
influenciado por aquellos PEs que estn fsicamente conectados con l.
Heurstica 1: Cada parmetro ajustable de la red que determina la funcin de coste
debera tener su propio parmetro de control de velocidad de aprendizaje.
Esta heurstica reconoce el hecho de la posible existencia de diferentes ganancias

para cada conexin ajustable de la estructura.
Heurstica 2: Cada parmetro de control de velocidad debera variar de un paso a otro.
Normalmente la superficie de error tiene diferentes formas en un mismo espacio.

En funcin de dichas diferencias, esta heurstica establece que as como cambia
la forma del error, debera cambiar la velocidad de aprendizaje.
Heurstica 3: Cuando la derivada de la funcin error (coste) con respecto a una

conexin determinada, tiene el mismo signo algebraico durante varios pasos del
algoritmo, el parmetro ganancia para dicha conexin debera ser incrementado.
Esta heurstica, establece que en las condiciones mencionadas anteriormente, el

nmero de pasos requeridos para moverse en una cierta parte de la superficie de
error, puede ser reducido, incrementando convenientemente la ganancia.
Heurstica 4: Cuando el signo algebraico de la derivada de la funcin error con

respecto a una particular conexin cambia durante pasos consecutivos, la ganancia para
el peso en cuestin debera decrecer.
El cambio de signo en pasos consecutivos viene a significar la existencia de

picos y valles. En orden de tratar de localizar el punto mnimo del valle y as
evitar esas oscilaciones, la ganancia debera ser reducido (ajuste de pesos ms
fino).
APLICACIONES
Compresin y Codificacin de Informacin
Clasificacin de Caracteres (Segmentacin)
Reconocimiento de Palabras.
Reconocimiento de Objetos.
Deteccin de Caras.
Reconocimiento de Patrones
Segmentacin de Imgenes
Bibliografia.
http://www.varpa.org/
http://catarina.udlap.mx/
www.ibiblio.org

Perceptron Multicapa

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Perceptron Multicapa

Transféré par

Droits d'auteur :

Formats disponibles

PERCEPTRON MULTICAPA

1. Regla Delta Generalizada (BackPropagation)

REGLA DELTA GENERALIZADA (BACKPROPAGATION)

La Regla Delta o LMS: Entrena un PE o una capa de PE.

n- nmero de entradas de cada patrn.

El error que se debe minimizar es la suma de los cuadrados de los errores de

wkj (t 1) wkj (t) p wkj

Condicin NECESARIA: f debe ser derivable. Dos casos:

wkj (t 1) wkj (t) pk i pj

Por otra parte:

f k ( netapk ) wkj f (netapj)ipi

(neta pj )pk wkj

Datos de entrada (entrenamiento)

Regin de Incertidumbre: (vectores de entrenamiento A,B). Red con 2 unidades

Otras Funciones de Transferencia

Funcin Transferencia sigmoidal.

En las tcnicas de gradiente descendente es conveniente avanzar por la superficie

El elegir un incremento adecuado influye en la velocidad con la que converge el

Otra manera de incrementar la velocidad de aprendizaje, consiste en utilizar otro

Un ltimo aspecto a tener en cuenta es la posibilidad de convergencia hacia alguno de

No se puede asegurar en ningn momento que el mnimo que se encuentre sea

Si se alcanza un mnimo local y el error es satisfactorio, el entrenamiento ha sido un

Cambio de arquitectura (ms capas ocultas o ms PE)

Procedimientos para incrementar la velocidad de aprendizaje.

En este apartado describiremos diferentes procedimientos que permitan incrementar

Esta heurstica reconoce el hecho de la posible existencia de diferentes ganancias

Heurstica 2: Cada parmetro de control de velocidad debera variar de un paso a otro.

Normalmente la superficie de error tiene diferentes formas en un mismo espacio.

Heurstica 3: Cuando la derivada de la funcin error (coste) con respecto a una

Esta heurstica, establece que en las condiciones mencionadas anteriormente, el

Heurstica 4: Cuando el signo algebraico de la derivada de la funcin error con

El cambio de signo en pasos consecutivos viene a significar la existencia de

Clasificacin de Caracteres (Segmentacin)

Vous aimerez peut-être aussi