Redes Neuronales

REDES NEURONALES ARTIFICIALES
Carlos Montenegro A.
2017
AGENDA
z 2.1 Analogía de Redes Neuronales biológicas y Artificiales (RNA)

z 2.2 El Perceptrón
z 2.3 El algoritmo de Backpropagation
z 2.4 Redes de Aproximación e Interpolación
z 2.5 Modelos de Redes Recurrentes
z 2.6 Herramientas para implementación
z 2.7 Aprendizaje mediante evolución simulada o Algoritmos Genéticos
z 2.8 Ejercicios y Aplicaciones
2.1 Redes Neuronales Biológicas y Artificiales
z Neurona: base del funcionamiento del cerebro.
z Sistema de procesamiento cerebral de la información:

 Complejo, No lineal y Paralelo.
z Elementos de que consta: sinapsis, axón, dentritas y soma o cuerpo

z 10 exp(11) neuronas en una persona, 10 exp(5) sinapsis por
neurona, 10 exp(16) sinapsis en el cerebro
z Fenómeno químico de una Neurona: Bomba de Sodio-Potasio, que

produce un potencial de reposo, que se rompe hacia la activación
(1) o la inhibición (0), en el proceso de sinapsis
z Luego de una activación se produce un período refractario de
aproximadamente 1 mseg
z Teoría de McCulloch-Pitts
 La actividad de una neurona es un proceso todo-nada (0-1)
 Se requiere un número fijo de sinapsis (>1) para activar una

neurona
 Se produce el retardo sináptico
 Una sinapsis inhibitoria impide por completo la activación
 La estructura de la red de interconexiones no cambia en el

transcurso del tiempo, a menos que cambien las condiciones
generales
z Aprendizaje de Hebb
 La actividad persistente de una neurona puede influenciar en el
comportamiento de neuronas relacionadas.
 Ej: condicionamiento de una conducta
z Kohonen:
 Redes interconectadas masivamente en paralelo, de elementos
simples (usualmente adaptivos) y con organización jerárquica,
las cuales intentan actuar con los objetos del mundo real del
mismo modo que lo hace el sistema nervioso biológico
z Hecht-Nielsen
 Sistema de computación hecho con un gran número de
elementos de proceso simples interconectados, que procesan
información como respuesta a entradas externas
z En el ámbito de la IA débil, las RNA son sistemas distribuidos sub-

simbólicos que se implementan mediante modelo numéricos
z Neurona artificial: unidad de procesamiento de la información. Es

un dispositivo simple de cálculo que ante un vector de entradas
proporciona una única salida.
z Elementos:
 Conjunto de entradas, xj
 Pesos sinápticos, wi a
 Función de activación: y
w1·x1+ w2·x2 + ... + wn·xn = a
 Función de transferencia:
y = F (w1·x1+ w2·x2 + ... + wn·xn )
 Bias o polarización: entrada constate de magnitud 1, y peso b
que se introduce en el sumador
z Principales funciones de transferencia:

 Lineal: y=ka
 Escalón: y = 0 si a<0; y=1 si a>=0
 Sigmoide
 Gaussiana.
z Una red ad-hoc:

 Como funciona
 Resiste ciertos niveles de cambio en los datos

z Una neurona aislada dispone de poca potencia de cálculo.

z Los nodos se conectan mediante la sinapsis
z Las neuronas se agrupan formando una estructura llamada capa.
z Los pesos pasan a ser matrices W (n x m)
z La salida de la red es un vector: Y=(y1, y2, ... , yn)T
z Y=F(W·X+b)
a1
y1
a2
y2
an
yn
z Redes multicapa: capas en cascada.

z Tipos de capas:
 Entrada
 Salida
 Oculta
z No hay realimentación => red

feedforward
l Salida depende de entradas y pesos.
z Si hay realimentación => red recurrente
 Efecto memoria
 Salida depende también de la historia

pasada.
z Una RNA es un aproximador general de
funciones no lineales.
z Entrenamiento: proceso de aprendizaje de la red.

z Objetivo: tener un comportamiento deseado.
z Método:
 Uso de un algoritmo para el ajuste de los parámetros libres de
la red: los pesos y las bias.
 Convergencia: salidas de la red = salidas deseadas.
z Tipos de entrenamiento:
 Supervisado.
 Pares de entrenamiento: entrada - salida deseada.

 Error por cada par que se utiliza para ajustar parámetros
 No-supervisado.
 Solamente conjunto de entradas.

 Salidas: la agrupación o clasificación por clases
 Reforzado.
z El objetivo del algoritmo de entrenamiento es obtener en cada

paso, los cambios de los valores de pesos y umbrales que
proporcionen la máxima mejora de la medida de calidad. Esto es lo
que se denomina ascenso del gradiente (dirección en la que se
encuentra la máxima variante de la función).
z Es conveniente tratar a pesos y umbrales de manera similar, por
esto se unifica dicho tratamiento. En lugar de considerar una
función de activación
1 si F > umbral
0 si F <= umbral
se considera una nueva F’
1 si F’=F – umbral > 0
0 si F’=F – umbral <= 0
z De esta manera, el umbral es tratado como un peso de una entrada
extra que siempre está en –1.
2.2 Perceptrón
z McCulloch y Pitts, en 1943, publicaron el primer estudio sobre RNA.

z El elemento central: perceptrón.
z Si hay m entradas, existen 2exp(m) combinaciones posibles de las

mismas. Por lo tanto, si este número es muy grande no puede ser
atendido por una sola caja lógica
2.2 Perceptrón
z Puede hacerse la siguiente clasificación de perceptrones:

 Limitado por el orden n: cada caja lógica atiende n o menos
entradas.
 Limitado por el diámetro d: si las entradas se disponen
bidimensionalmente (denominadas retina), cada caja lógica
atiende entradas que están dentro de un círculo de diámetro d.
 Directo: cada caja lógica atiende una entrada igual a la salida
(equivale a perceptrón sin cajas lógicas).
2.2 Aprendizaje del Perceptrón.
z Algoritmo supervisado, con aprendizaje de Hebb:

 Aplicar patrón de entrada y calcular salida de la red
 Si salida correcta, volver a aplicar
 Si salida incorrecta
 0 sumar a cada peso su entrada

 1 restar a cada peso su entrada
 Volver a aplicar
z Proceso iterativo, si el problema es linealmente separable este

algoritmo converge en un tiempo finito.
z Nos da los pesos y las bias de la red que resuelve el problema.

z Ejemplo: OR
Salida
Muestra x1=l1 x2=l2 x3=l3
deseada
1 0 0 1 0
2 0 1 1 1
3 1 0 1 1
4 1 1 1 1
z Inicializar el vector w = (0,0,0)

z Ejecutar el aprendizaje hasta que la salida obtenida con cada una sea igual a la salida deseada:
z Muestra 1, salida = (0,0,1) (0,0,0) = 0, igual a la salida deseada.
Muestra 2, salida = (0,1,1) (0,0,0) = 0, diferente a la salida deseada. Ajustar el vector w =
(0,0,0) + (0,1,1) = (0,1,1)
Muestra 3, salida = (1,0,1) (0,1,1) = 1, igual a la salida deseada.
(0,1,1) - (0,0,1) = (0,1,0)
(0,1,0) + (1,0,1) = (1,1,1)
(1,1,1) - (0,0,1) = (1,1,0)
z El algoritmo converge encontrando el vector w = (1,1,0)

2.2 Perceptrón y XOR
El problema XOR es un problema no lineal pues no se puede

trazar una recta que deje las cruces a un lado y los círculos
al otro. La no linealidad está íntimamente relacionada con el
solapamiento de las clases. La posición de las medias es una
medida sencilla del solapamiento de las clases. En este caso,
las medias de las dos clases coinciden.
# x1 x2 t
x2 -------------
3 4
1 0 0 0
3 0 1 1
1 2 2 1 0 1
x1 4 1 1 0
-------------
z Laboratorio: dado un sistema de dígitos en pantallas digitales, que

informa cuál de los 7 segmentos están encendidos, realizar un
perceptrón que aprenda a identificar un dígito en concreto, por ej.
el 0.
Dígito X0 X1 X2 X3 X4 X5 X6 X7 Salidai
0 0 1 1 1 1 1 1 1 1
9 1 1 1 1 1 1 0 1 0
8 1 1 1 1 1 1 1 1 0
7 0 0 1 1 1 0 0 1 0
6 1 1 1 0 1 1 1 1 0
5 1 1 1 0 1 1 0 1 0
4 1 1 0 1 1 0 0 1 0
3 1 0 1 1 1 1 0 1 0
2 1 0 1 1 0 1 1 1 0
1 0 0 0 1 1 0 0 1 0
2.2 Regla Delta
z Generalización del algoritmo del perceptrón para sistemas con

entradas y salidas continuas.
z Se define: d=T-A= (salidas deseadas - salidas de la red).
z Minimiza una función de coste basada en ese vector de error:
 Widrow-Hoff o Delta
Di =d lr xi
 Wi (t+1) = Wi (t) + D i
 Razón de aprendizaje lr
 Si las neuronas son
lineales=> un único
mínimo
2.2 Redes Neuronales Lineales
z Función de transferencia lineal.

z Algoritmo de entrenamiento de Widrow-Hoff o Delta, tiene en
cuenta la magnitud del error.
z Entrenamiento:
 Suma de los cuadrados de los errores sea mínima.
 Superficie de error con mínimo único.
 Algoritmo tipo gradiente.
z Aproximan funciones lineales.

2.2 Red Perceptrón Multicapa (MLP)
z Función acotada, monótona creciente y diferenciable.

z Red de tipo feedforward.
z Suficiente con dos capas.
2.2 Problema XOR
z El nuevo Perceptrón no está conectado a las entradas (x1,x2) sino

al cálculo efectuado por los otros dos perceptrones (z1,z2):
1
-0.5
1 -0.5
1 z1 1 y
-1.5
x1 1 -1
1 z2
x2 1
z1   (x1  x2 0.5)
y   (z1  z2  0.5)
z2   (x1  x2 1.5)
2.2 Problema XOR
Veamos cuál es la salida propuesta por el perceptrón para cada

ejemplo:
# x1 x2 t z1 z2 y
z2 -------------------------
4
1 0 0 0 0 0 0
3 0 1 1 1 0 1
1 2 3
z1 2 1 0 1 1 0 1
4 1 1 0 1 1 0
-------------------------
Se ha resuelto un problema no lineal mediante un perceptrón

con una capa oculta de pesos.
2.2 Problema XOR
Veamos la respuesta de estos perceptrones a los cuatro ejemplos

del problema XOR, es decir, sus coordenadas z1 y z2:
x2 z1  (x1  x2  0.5) z2   (x1  x2 1.5)
3 4
# x1 x2 t z1 z2
---------------------
1 2
x1
1 0 0 0 0 0
3 0 1 1 1 0
2 1 0 1 1 0
4 1 1 0 1 1
z2 ---------------------
4 Los dos círculos pasan a ocupar la

misma posición.
1 2 3
z1 Por lo tanto, en el espacio (z1,z2) el
problema XOR se ha convertido en
un problema separable
linealmente.
2.3 Algoritmo Backpropagation
z Clave en el resurgimiento de las redes neuronales.

z Primera descripción del algoritmo fue dada por Werbos en 1974
z Generalización del algoritmo de Widrow-Hoff para redes multicapa
con funciones de transferencia no-lineales y diferenciables.
z 1989 Hornik, Stinchcombe y White
 Una red neuronal con una capa de sigmoides es capaz de
aproximar cualquier función con un número finito de
discontinuidades
z Propiedad de la generalización.
z La función de transferencia es no-lineal, la superficie de error tiene
varios mínimos locales.
2.3 Algoritmo backpropagation I
z Descripción:
 Tras inicializar los pesos de forma aleatoria y con valores
Adelante
pequeños, seleccionamos el primer par de entrenamiento.

 Calculamos la salida de la red
 Calculamos la diferencia entre la salida real de la red y la salida

deseada, con lo que obtenemos el vector de error
 Ajustamos los pesos de la red de forma que se minimice el error

Atrás
 Repetimos los tres pasos anteriores para cada par de

entrenamiento hasta que el error para todos los conjuntos de
entrenamiento sea aceptable.
z Descenso por la superficie del error

z Cálculo de derivadas del error respecto de los pesos y de las bias.
2.3 Algoritmo backpropagation II
z Detalles:
 SSE: E=SEp=S (ypk-opk)2
 Dwij=-h E/ wij
z Pasos:
 Inicialización:
 Construcción de la red.
 Inicialización aleatoria de pesos y umbrales (-0.5, 0.5)
 Criterio de terminación (número máximo de iteraciones,…).
 Contador de iteraciones n=0.
 Fase hacia delante:
 Calcular la salida de la red para cada patrón de entrada.

 Calcular el error total cometido (SSE)
 Si la condición de terminación se satisface, parar
2.3 Algoritmo backpropagation III
 Fase hacia atrás:

 Incrementar el contador n=n+1.
 Para cada neurona de salida calcualr: dk=(ok-yk)f’(netk)
donde netj=Siwijxi+bj
 Para cada unidad oculta, calcular dj=f’(netj)Skdkwjk
 Actualizar pesos: Dwij(n+1)=hdjoi+aDwij(n)
 Volver a la fase hacia delante.
z Inconvenientes del algoritmo backpropagation:

 Tiempo de entrenamiento no acotado.
 Dependiente de las condiciones iniciales:
 Parálisis de la red.
 Mínimos locales.
2.3 Algoritmo Backpropagation IV
 Subaprendizaje o Underfitting.
 Memorización o Sobreaprendizaje (Sobreentrenamiento).
 Caracterización de la red. ¿Cuantas capas, cuantas neuronas en
cada capa, factor de aprendizaje…?
Herramientas para RNA
Backpropagation en MATLAB
Retropropagación
z Laboratorio: dado un sistema de dígitos en pantallas digitales, que

informa cuales de los 7 segmentos están encendidos, correr una
red de retropropagación que aprenda a identificar los dígitos
Dígito X0 X1 X2 X3 X4 X5 X6 X7
0 0 1 1 1 1 1 1 1
9 1 1 1 1 1 1 0 1
8 1 1 1 1 1 1 1 1
7 0 0 1 1 1 0 0 1
6 1 1 1 0 1 1 1 1
5 1 1 1 0 1 1 0 1
4 1 1 0 1 1 0 0 1
3 1 0 1 1 1 1 0 1
2 1 0 1 1 0 1 1 1
1 0 0 0 1 1 0 0 1
2.4 Redes de Aproximación e
Interpolación
z Redes de Base Radial (RBF)

 Redes multicapa con conexiones hacia delante
 Única capa oculta

 Las neuronas ocultas poseen carácter local
 Cada neurona oculta se activa en una región distinta del espacio
de entrada
 El carácter local se debe al uso de las funciones de base radial
como funciones de activación. Generalmente la función
gaussiana.
 Las neuronas de salida realizan una combinación lineal de las
activaciones de las neuronas ocultas
2.4 Redes de Aproximación e
Interpolación
 Son aproximadores universales

 Las funciones de base radial (RBF) definen hiperesferas o
hiperelipses que dividen el espacio de entrada
 Cada RBF (cada neurona) construye una aproximación local no
lineal en una determinada región del espacio de entrada
 Las RBN construyen aproximaciones que son combinaciones
lineales de múltiples funciones locales no lineales
 Se han aplicado a gran variedad de problemas
 Análisis de series temporales
 Procesamiento de imágenes
 Reconocimiento automático del habla
 Diagnósticos médicos, etc
2.4 Redes de Aproximacion e
Interpolacion

Interpolacion

Interpolacion

Interpolacion
2.5 Redes Recurrentes
z Representación del tiempo.

 Tratamiento de señales.
 Identificación de modelos dinámicos
 Control de sistemas.
z Redes dinámicas:
 Respuesta a:
 Las entradas actuales

 La historia pasada del sistema.
 Dotar de memoria a la red:
 Introduciendo directamente en la red tanto la señal actual

como los valores pasados.
 Mediante conexiones recurrentes.
z Autoorganizativas: durante el proceso de aprendizaje la red debe

descubrir por si misma regularidades o categorías => la red debe
autoorganizarse en función de las señales procedentes del entorno.
z Mapa de Rasgos Autoorganizados, SOM (Kohonen, 80)
z Características:
 Red competitiva
 Arquitectura unidireccional de dos capas:
 Capa de entrada: m neuronas una por cada vector de

entrada.
 Capa segunda se realiza el procesamiento, formando el
mapa de rasgos. Tiene nx X ny neuronas operando en
paralelo.
 Todas las neuronas de entrada están conectadas a las
neuronas de la segunda capa, a través de los pesos wij
z Cada neurona (i,j) calcula la similitud entre el vector de entradas y

su vector de pesos
z Vence la neurona cuyo vector de pesos es más similar al vector de
entrada.
z Cada neurona sirve para detectar alguna característica del vector
de entrada.
z Función de vecindad:
relación entre neuronas
próximas en el mapa.
z Aprendizaje:
 Inicialización de los pesos wij
 Presentación de las entradas x(t)
 Cada neurona calcula, la similitud entre su vector de pesos wij y

el vector de entrada x, usando la distancia Euclídea
 Determinación de la neurona ganadora:

 Actualización de los pesos de la neurona ganadora y sus vecinas
 Las demás neuronas no actualizan su peso

 Si se ha alcanzado el número de iteraciones parar, si no volver
al paso 2.
Ej: Clasificación de Animales
Vive en el agua?
Tiene escamas?
Tiene plumas?
Pone huevos?
Tiene pelo?
Vuela?
Perro 1 0 0 0 0 0
Gato 1 0 0 0 0 0
Murciélago 1 0 0 1 0 0
Ballena 1 0 0 0 1 0
Canario 0 0 1 1 0 1
Petirojo 0 0 1 1 0 1
Avestruz 0 0 1 1 0 1
Serpiente 0 1 0 0 0 1
Lagarto 0 1 0 0 0 1
Caimán 0 1 0 0 1 1
2.5 Hopfield
z Hopfield:
 Las redes de Hopfield pueden usarse como un modelo sencillo
para explicar como ocurren las asociaciones entre ideas (o
recuerdos) en las redes de neuronas del cerebro.
 Así, una idea parcial sería un estado de activación que formaría
parte del área de atracción de una idea más general, la cual
actuaría como punto de equilibrio del área de atracción. De
forma que al introducir la idea parcial en la red, se puede llegar
a alcanzar la idea general (el equilibrio).
 A su vez, debido a que las áreas de atracción indican sólo una
probabilidad (generalmente diferente de 1), este modelo
permite explicar también la incertidumbre que se produce en las
asociaciones: una idea parcial, a pesar de tener alta
probabilidad de desembocar en la idea general, puede
desembocar también en otras ideas diferentes (que actúen
como puntos de equilibrio).
2.5 Hopfield
z Hopfield:
 Una posible aplicación informática de las redes de Hopfield es el
desarrollo de memorias direccionadas por contenido: los
elementos de la memoria no estarían ordenados según índices
numéricos, sino según parte de su contenido.
 Así, las en memorias actuales cada conjunto de datos presenta
asociada una dirección numérica (dirección de memoria), de
manera que es necesario usar esta dirección para poder
recuperar los datos asociados a ella. Mientras que las memorias
basadas en redes de Hopfield permitirían que introduciendo
datos parciales (que formen parte de un área de atracción) la
memoria devolviera el conjunto de datos completo (equilibrio
para el área de atracción).
2.5 Hopfield
2.5 Hopfield
2.5 Hopfield
2.5 Hopfield
2.5 Hopfield
Ejemplo: Hopfield
Ejemplo: Hopfield
Ejemplo: Hopfield
Redes No Supervisadas en MATLAB
2.6 RNA en MATLAB
2.6 RNA en MATLAB
2.6 RNA en MATLAB
2.6 RNA en MATLAB
2.6 RNA para Deep Learning (DNN)
z Los enfoques de aprendizaje profundo consisten en agregar

múltiples capas a una red neuronal que pueden repetirse. Al discutir
el asunto, la mayoría de las estrategias de aprendizaje profundo se
basan al menos en los siguientes seis tipos de arquitecturas:
 Redes neuronales convolucionales
 Redes neuronales recurrentes
 Redes neuronales recursivas
 Perceptrón multicapa
 Red neuronal de retropropagación
 DNN estándar, que son una combinación de capas de diferentes

tipos sin ninguna repetición o orden particular.
Hay poca investigación sobre el uso recomendado de las
arquitecturas.
2.6 LABORATORIO: AlexNet de MATLAB
2.6 CONSIDERACIONES PRÁCTICAS
z Número de Capas
z Número de Neuronas
z Interpolación y Extrapolación
z Convergencia
2.6 Trabajo con RNA
z El número de neuronas ocultas dependerá de:

 El número de unidades de entrada y de salida.
 El número de caso de entrenamiento.
 La cantidad de ruido en los valores objetivos.
 La complejidad de la función o clasificación que será aprendida.
 La arquitectura.
 El tipo de la función de activación en las unidades ocultas.
 El algoritmo de entrenamiento.
2.6 Trabajo con RNA
z No hay forma de determinar el número óptimo de neuronas en

la capa oculta sin antes entrenar varias redes y estimar el error
de generalización.
z Muy pocas neuronas en la capa oculta conducirían a un alto
error de entrenamiento y también a un alto error de
generalización debido al underfitting (subentrenamiento)
z Si se tienen muchas neuronas en la capa oculta se podría
obtener un bajo error de entrenamiento pero todavía tener un
alto error de generalización debido al overfitting
(sobreentrenamiento).
2.6 Trabajo con RNA
z Existen ciertas reglas llamadas “rules of thumb” para escoger la

arquitectura. Por ej.
 Para calcular el numero de neuronas ocultas se utiliza la
regla general:
h= (2/3) *(n+m) n entradas, m salidas
 El número de neuronas en la capa oculta nunca requerirá
ser más de dos veces el número de entradas.
h < 2n
 El número de pesos no debe ser mas de 1/30 del número de
casos de entrenamiento.
 En variables objetivo libres de ruido, puede ser más que
suficiente el doble de casos de entrenamiento respecto al
número de pesos.
#Casos Entrenamiento >= 2.2 * #Pesos Capa Oculta
2.6 Selección del Tipo de Aprendizaje
z Dependerá de los datos disponibles

 Aprendizaje Supervisado: Requiere de patrones de entrada
con la salida correcta.
 Tiene mayor potencialidad.
 Tiempos de entrenamiento relativamente largos.
 Usadas para predicción, evaluación o generalización
 Aprendizaje Autosupervisado: Clasifica patrones
internamente y no requiere de resultados esperados.
 Su capacidad es significativamente menor
 Usos: clasificación o reconocimiento
2.6 Recomendaciones
z Selección de la salida
 Estará determinada por la naturaleza del problema.
 Pueden ser:
 Salidas binarias o
 Escala de grises (valores continuos)
z Función de activación de la neurona

 La función de Activación mas común es la función Logística:
(sigmoidal exponencial “logsig”)
 El algoritmo de retropropagación requiere que la derivada de la
función sea continua. Las funciones recomendadas son la
sigmoidal y la continua.
2.6 Recomendaciones
z Número de capas
 La red de retropropagación usa generalmente tres capas.
 Se pueden usar cuatro capas .
 Es mejor usar dos capas ocultas pequeñas que una sola muy
grande
z Función de la Capa Oculta
 Actúa como Sintetizador.
 Extractor de características de entrada.
 Un número grande de neuronas en la capa oculta aumenta la

potencia de la red pero aumenta el tiempo de procesamiento y
requiere de muchos ejemplos de entrenamiento.
2.6 Recomendaciones
z Número de neuronas
 El número adecuado de neuronas ocultas se determina a
través de la experimentación.
 Muy pocas neuronas ocultas impide el correcto mapeo de la
entrada a la salida
 Muchas neuronas ocultas conduce a la memorización de los
datos sin extraer las características para la generalización.
 Para una sola capa oculta se recomienda el número de
neuronas ocultas como 2/3 de número de entradas.
 Cuando se usan dos capas ocultas el numero de neuronas
es significativamente menor en cada capa
 Las redes neuronales con mayor número de entradas
respecto al numero de salidas trabajan mejor.
 Un número mayor de salidas hacen mas duro el
entrenamiento.
2.6 Recomendaciones
z Normalización de Datos:
 Los datos numéricos deben ser normalizados o escalados
 Consiste en dividir todos valores del conjunto de entrada en un

valor de referencia; usualmente el valor mas grande.
VENTAJAS
z Ventajas de las RNA:
 Aprendizaje adaptativo: lo necesario es aplicar un buen

algoritmo y disponer de patrones (pares) de entrenamiento.
 Auto-organización => conduce a la generalización
 Tolerancia a fallos: las redes pueden aprender patrones que
contienen ruido, distorsión o que están incompletos.
 Operación en tiempo real: procesan gran cantidad de datos en
poco tiempo.
 Facilidad de inserción en tecnología ya existente.
DESVENTAJAS
z Desventajas de las RNA:
 Complejidad del Aprendizaje: Aumenta con la complejidad de la

tarea.
 Tiempo de aprendizaje: Elevado de acuerdo a la cantidad de
patrones y a la flexibilidad requerida
 No interpreta los resultados: Tarea externa
 Elevada cantidad de datos: de acuerdo a la flexibilidad requerida
Donde aplicar las Redes Neuronales
z Donde la tecnología computacional es inadecuada.

z En problemas que requieran de un razonamiento cualitativo o
cuantitativo complejo.
z El fenómeno involucrado dependa de múltiples parámetros
interactuando.
z Gran cantidad de datos multivariados y con ruido o con errores.
z Algunos de los datos pueden ser erróneos o faltantes.
z En general: Reconocimiento de patrones, mapeo estadístico, o
modelización.
2.7 Aprendizaje mediante Evolución
Simulada (Algoritmos Genéticos)
z Algoritmos Genéticos
2.8 APLICACIONES
z Detección de patrones
z Conversión de texto a voz
z Procesado de lenguaje natural
z Filtrado de señales
z Segmentación de datos
z Predicción
z Identificación de sistemas
2.8 TRABAJO: S&P500
z Datos de cada empresa para predecir el Índice S&P500

Date Open High Low Close Volume
08/05/2018 2670.26 2676.34 2655.20 2671.92 2671.92
09/05/2018 2678.12 2701.27 2674.14 2697.79 2697.79
10/05/2018 2705.02 2726.11 2704.54 2723.07 2723.07
11/05/2018 2722.70 2732.86 2717.45 2727.72 2727.72
14/05/2018 2738.47 2742.10 2725.47 2730.13 2730.13
15/05/2018 2718.59 2718.59 2701.91 2711.45 2711.45
16/05/2018 2712.62 2727.76 2712.17 2722.46 2722.46
17/05/2018 2719.71 2731.96 2711.36 2720.13 2720.13
18/05/2018 2717.35 2719.50 2709.18 2712.97 2712.97

2.8 Aplicación: S&P500
z Datos para calcular la estadística descriptiva: Valores de “Open” en

el tiempo para cada empresa. No se usa “Date”
Date Emp1 Emp2 Emp3 …….. Emp500
08/05/2017 26.70 76.34 265.5 ……… 671.92

………
09/05/2017 26.78 67.27 267.4 697.79
………
10/05/2017 27.45 26.11 270.4 723.07
………
11/05/2017 27.32 32.86 271.7 727.72
………
14/05/2017 27.79 42.10 272.5 730.13
………
15/05/2017 27.18 18.59 270.1 711.45
………
16/05/2017 29.12 27.76 271.2 722.46
………
17/05/2017 28.19 31.96 271.1 720.13
………
18/05/2017 26.17 19.50 270.9 712.97
z Código R para procesar la estadística básica
Job <- read.table("C:\\...\\datos.txt",header=TRUE,sep="")

names(job)
summary(job)
S <- cov(job)
R <- cor(job)
library("car")
scatterplotMatrix(job[1:10])
2.8 Aplicación: S&P500 y DNN
z Variables
 Month
 MonthDay
 WeekDay
 OpenPerc: Para slots S1 and S2. Sea el valor Open de S1 como X1, y S2
para X2, OpenPerc para S2 is (X2 - X1)/X1*100
 LowDiff: Para S1 and S2. Si L1 y L2 son los valores minimos para S1 y
S2, el valor para S2 es (L2 - L1).
 HighDiff: similar a LowDiff.
 CloseDiff: si S1 and S2 tienen valores de cierre C1 y C2, es (C2 - C1).
 VolDiff: si S1 and S2 tienen valores de cierre V1 y V2, es (V2 - V1).
 RangeDiff: Para S1 y S2, los valores altos y bajos son H1, H2, L1 y L2.
Range para S1 es R1 = (H1 - L1) y para S2 es R2 = (H2 - L2).
RangeDiff para S2 is (R2 - R1).
z Datos para DNN: de S&P500

OPENPERC es la variable a predecir
MONTHDAY
RANGEDIFF
OPENPERC
CLOSEDIFF
WEEKDAY
HIGHDIFF
LOWDIFF
VOLDIFF
MONTH
6 7 6 0 0 0 0 0 0
6 10 2 13.98999 4.289917 -0.569946 -393260000 -9.700073 1.193649287
6 11 3 -16.339966 -8.559936 -16.680054 456980000 7.78003 -0.366640654
6 12 4 -12 -2.420044 -13.609985 -233160000 9.579956 -0.530932598
6 13 5 -2.850098 1.540039 23.839965 176070000 4.390137 -1.091446166
6 14 6 15.890015 1.550049 -9.630005 -439220000 -14.339966 1.449616701
…. …. …. …. …. …. …. …. ….
z Arquitectura
z Resultados (Extracto)

Redes Neuronales

Transféré par

Informations du document

Description originale:

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Redes Neuronales

Transféré par

Droits d'auteur :

Formats disponibles

REDES NEURONALES ARTIFICIALES

z 2.1 Analogía de Redes Neuronales biológicas y Artificiales (RNA)

z Neurona: base del funcionamiento del cerebro.

z Sistema de procesamiento cerebral de la información:

z Elementos de que consta: sinapsis, axón, dentritas y soma o cuerpo

z Fenómeno químico de una Neurona: Bomba de Sodio-Potasio, que

 Se requiere un número fijo de sinapsis (>1) para activar una

 Una sinapsis inhibitoria impide por completo la activación

 La estructura de la red de interconexiones no cambia en el

z En el ámbito de la IA débil, las RNA son sistemas distribuidos sub-

z Neurona artificial: unidad de procesamiento de la información. Es

z Principales funciones de transferencia:

 Escalón: y = 0 si a<0; y=1 si a>=0

z Una red ad-hoc:

 Resiste ciertos niveles de cambio en los datos

z Una neurona aislada dispone de poca potencia de cálculo.

z Redes multicapa: capas en cascada.

z No hay realimentación => red

 Salida depende también de la historia

z Entrenamiento: proceso de aprendizaje de la red.

 Pares de entrenamiento: entrada - salida deseada.

 Solamente conjunto de entradas.

z El objetivo del algoritmo de entrenamiento es obtener en cada

z McCulloch y Pitts, en 1943, publicaron el primer estudio sobre RNA.

z Si hay m entradas, existen 2exp(m) combinaciones posibles de las

z Puede hacerse la siguiente clasificación de perceptrones:

z Algoritmo supervisado, con aprendizaje de Hebb:

 Si salida correcta, volver a aplicar

 0 sumar a cada peso su entrada

z Proceso iterativo, si el problema es linealmente separable este

z Nos da los pesos y las bias de la red que resuelve el problema.

z Inicializar el vector w = (0,0,0)

z El algoritmo converge encontrando el vector w = (1,1,0)

El problema XOR es un problema no lineal pues no se puede

z Laboratorio: dado un sistema de dígitos en pantallas digitales, que

z Generalización del algoritmo del perceptrón para sistemas con

z Función de transferencia lineal.

 Superficie de error con mínimo único.

 Algoritmo tipo gradiente.

z Aproximan funciones lineales.

z Función acotada, monótona creciente y diferenciable.

z El nuevo Perceptrón no está conectado a las entradas (x1,x2) sino

Veamos cuál es la salida propuesta por el perceptrón para cada

Se ha resuelto un problema no lineal mediante un perceptrón

Veamos la respuesta de estos perceptrones a los cuatro ejemplos

4 Los dos círculos pasan a ocupar la

z Clave en el resurgimiento de las redes neuronales.

pequeños, seleccionamos el primer par de entrenamiento.

 Calculamos la diferencia entre la salida real de la red y la salida

 Ajustamos los pesos de la red de forma que se minimice el error

 Repetimos los tres pasos anteriores para cada par de

z Descenso por la superficie del error

 Dwij=-h E/ wij

 Calcular la salida de la red para cada patrón de entrada.

 Fase hacia atrás:

z Inconvenientes del algoritmo backpropagation:

 Dependiente de las condiciones iniciales:

z Laboratorio: dado un sistema de dígitos en pantallas digitales, que

z Redes de Base Radial (RBF)

 Única capa oculta

 Son aproximadores universales

z Redes de Base Radial (RBF)

z Redes de Base Radial (RBF)