NN en El Acp Ley de Oja

Métodos Matemáticos para la Economía y la Empresa
REDES NEURONALES ARTIFICIALES PARA EL ANÁLISIS DE

COMPONENTES PRINCIPALES. LA RED DE OJA
Piedad Tolmos Rodríguez-Piñero
Área de Matemáticas
Universidad Rey Juan Carlos
Resumen: El análisis de componentes principales es una herramienta estadístico-

matemática de gran utilidad en multitud de campos, especialmente en el de la
compresión de datos. En este artículo se estudia el proceso de la extracción de
componentes principales, y se detalla una Red Neuronal Artificial, la red de Oja,
diseñada específicamente para el cálculo de la primera componente principal de la
matriz de momentos de segundo orden asociada al vector de datos. Se concluye
exponiendo algunas redes que generalizan la red de Oja, y permiten extraer el n º
deseado de componentes principales. Finalmente se explican algunas aplicaciones,
fundamentalmente la del procesamiento de imágenes, y la compresión de datos.
Palabras clave: Análisis de componentes principales, Matriz de momentos de segundo

orden, autovalor, autovector, Redes Neuronales Artificiales, entrenamiento de redes
neuronales, Aprendizaje Hebbiano.
611
Tolmos P.
1. El análisis de componentes principales.
El objetivo del análisis de componentes principales es la reducción de la

dimensión en el conjunto de datos de entrada, reteniendo tanta varianza como sea
posible. Esta reducción de dimensión ayuda a eliminar la información redundante y el
“ruido” de los datos, y se lleva a cabo mediante una transformación lineal que
disminuye el número de variables hasta un número deseado, de modo que se mantenga
máxima la cantidad de varianza en los datos de entrada.
Surge en muchas disciplinas científicas y en aplicaciones de ingeniería, como

son el reconocimiento de patrones, el procesamiento de imágenes, el análisis espectral
de alta resolución para la estimación de frecuencias y en la modelización y reducción de
sistemas de control.
El análisis de componentes principales es quizás la técnica más antigua y mejor

conocida en el análisis multivariante (Preisendorfer, 1988; Jolliffe, 1986). Fue
introducido primeramente por Pearson (1901), quien lo utilizó dentro de un contexto
biológico para rehacer el análisis de regresión lineal de una nueva forma. Fue entonces
desarrollado por Hotelling (1933) en un trabajo de psicometría. Apareció un vez más y
de modo independiente en el ámbito de la teoría de la probabilidad, considerada por
Karhunen (1947); y fue subsecuentemente generalizada por Loéve (1963). De hecho, en
la teoría de la comunicación , al análisis de componentes principales se le conoce con el
nombre de transformación de Karhunen-Loéve.
Veamos ahora con detalle en qué consiste exactamente esa transformación que
logra reducir la dimensión reteniendo la máxima varianza:
Sea x un vector aleatorio de dimensión p que representa el conjunto de datos de

E [x ] = 0
interés. Suponemos que el vector aleatorio x tiene media cero:
donde E es el operador estadístico esperanza. Si x tuviera media distinta de cero,

entonces le restaríamos la media antes de proceder al análisis. Vamos a proyectar el
vector x en otro vector unitario (de norma euclídea 1) u. Para ello
a = xtu = ut x (1)
612
en donde a sería la proyección de x sobre u, que es otra variable aleatoria con media
σ 2 = u t Ru = Ψ(u )
cero y varianza
La matriz R de orden p es la matriz de momentos de segundo orden

(frecuentemente denominada matriz de correlación) del vector de datos (más
correctamente, de la variable aleatoria de la cual el vector x es una muestra
independiente idénticamente distribuida), que tiene como propiedad el ser simétrica
( R t = R ).
Planteemos ahora el problema que mencionamos al comienzo: reducir la

dimensión maximizando la varianza. En los nuevos términos, esto equivale a encontrar
los vectores unitarios u a lo largo de los cuales Ψ(u ) tiene valores extremos o
estacionarios (máximos o mínimos locales).
Se puede probar que los valores de u que verifican esas condiciones son las
soluciones de la ecuación
Ru = λu (3)
Esta ecuación es la que gobierna el problema de los autovalores de la matriz R:
tiene soluciones no triviales (u ≠ 0)sólo para ciertos valores de λ llamados autovalores
de la matriz R. Los valores de u asociados a cada λ son los autovectores. Una matriz de
momentos de segundo orden tiene la propiedad de poseer autovalores reales y positivos
(es simétrica y definida positiva). Si los autovalores son además distintos entre si, los
autovectores correspondientes son “únicos” (salvo proporcionalidades). Supongamos
que es así, y denotemos a los autovalores de R en orden decreciente,
λ0 > λ1 > λ2 > ..... > λ j > ..... > λ p−1

de modo que λ0 = λmax , y sean sus autovectores asociados
u0 , u1 , u2 ,..., u j ,..., u p−1

Se puede demostrar que los vectores u j son ortonormales
1, j =i
ui u j = 
0, j ≠i
613
Tolmos P.
Y que la varianza dependiente de cada autovector coincide con el autovalor al

que está asociado
Ψ(u j ) = λ j j=0,1,...,p-1 (4)
Resumiendo, se ha probado que:

• Los autovectores de la matriz de momentos de segundo orden R del vector de datos
de media cero x , define los vectores unitarios u j , que representan las direcciones
principales a lo largo de las cuales la varianza tiene valores extremos.

• Los autovalores asociados definen esos valores extremos para la varianza
correspondiente.
Esto es, hemos resuelto el problema que nos habíamos planteado, a falta de ver
la reducción en la dimensión.
Lo que se conoce como componentes principales son las p posibles proyecciones

sobre el vector x. Como veíamos en (1)
a j = xtu j = u j x ,
t
j=0, 1,..., p-1
Las componentes principales tienen las mismas dimensiones físicas que el vector
de datos x. Para reconstruir el vector original de datos x exactamente a partir de las
componentes principales basta con realizar la operación:
p −1
x = ∑ a ju j (5)
j =0
Se observa que, en este sentido, los vectores u j constituyen una base del espacio
de datos. Decíamos que el valor práctico de las componentes principales reside en

proporcionar una técnica efectiva para realizar una reducción en la dimensión. En
particular podemos reducir el número de rasgos necesarios para una representación
efectiva de los datos descartando aquellas combinaciones lineales en (5) que tengan
varianzas pequeñas, reteniendo sólo aquellos términos que tengan las varianzas mayores
(Oja 1983). Concretamente, calcularemos los autovalores y autovectores de la matriz de
momentos de segundo orden del vector de datos de entrada, y proyectaremos los datos
ortogonalmente sobre el subespacio generado por los autovectores correspondientes a
los máximos autovalores. Este método de representación de datos es conocido
habitualmente como descomposición de subespacio (Oja, 1983).
614
2. La red de Oja.
Recientemente se ha mostrado mucho interés en la conexión entre el análisis de
componentes principales y las redes neuronales. Cottrell, Munro y Zipser (1987) han
sugerido utilizar un Perceptron Multicapa que aprende con el algoritmo de
retropropagación de modo autoasociativo supervisado, para la compresión de datos, y
Baldi y Hornik (1989), Bourlard y Kamp (1988) han probado que está íntimamente
relacionado con el análisis de componentes principales. Otra clase de modelos, iniciados
con la neurona para el análisis de componentes principales de Oja (1982) con la regla de
aprendizaje Hebbiana restringida, son las redes de una sola capa feedforward que
calculan las componentes principales de modo no supervisado. Tales modelos fueron
creados y analizados, entre otros, por Baldi y Hornik (1991); Becker (1991); Chauvin
(1989); Földiak (1989); Hornik y Kuan (1991); Karhunen (1984); Karhunen
yJoutensalo (1991); Krogh y Hertz (1990); Krung y Diamantras (1990); Linsker (1988)
ja (1983); Oja y Karhunen (1985); Oja (1989, 1991); Oja, Ogawa y Wangviwattana
(1991); Rubner y Tavan (1989); Sanger (1989); Sirat (1991); Williams (1985); y Xu,
Krzyzak, Oja (1991). La mayoría de los modelos utilizan neuronas lineales, pero pueden
verse también no lineales para aproximar las componentes principales (Sirat 1991), o
para calcular otras expansiones estadísticas relacionadas (Oja et al. 1991)Un resumen
general relacionando los modelos de componentes principales fue dado por Becker en
1991.
Existe por tanto una correspondencia entre el comportamiento de las redes

neuronales auto-organizadas y el método estadístico del análisis de las componentes
principales que se ha explicado en el punto anterior. Tal relación se probará
estableciendo el siguiente hecho, que conviene resaltar: una neurona lineal con
aprendizaje Hebbiano puede evolucionar en un filtro para la primera componente
principal de la distribución de entrada (Oja 1982).
La red de Oja es un tipo de red neuronal con aprendizaje no supervisado que se

emplea en el contexto de determinación de componentes principales de matrices de
momentos de segundo orden.
La red está definida por una entrada x (n ) ∈ ℜ p , n = 0,1,... modelable como un
proceso estocástico definido en instantes de tiempo discreto. Dicho proceso se
615
Tolmos P.
construye de la siguiente manera: x(1), x(2),...son muestras independientes

idénticamente distribuidas según la distribución de una variable aleatoria X. Esta forma
de definir x(n) concede al proceso propiedades muy específicas:
• x(n) es un proceso estocástico estacionario. Ello implica que es un caso
particular de proceso homogéneo.
• x(n) es un proceso incorrelado.
La salida de la red se define como otro proceso estocástico y(n) ∈ ℜ ,
n=0,1,...función de la entrada y de los parámetros de la red. Finalmente, la relación entre
la entrada y la salida viene definida por un vector de pesos w(n ) ∈ ℜ p , n = 0,1,... que se
ajustan en función de la entrada y la salida en cada instante de tiempo.
La red está diseñada con la idea de extraer el máximo autovalor-autovector
asociado a la matriz de momentos de segundo orden de X.
El modelo es lineal en el sentido de que la salida es una combinación lineal de
sus entradas. La neurona recibe un conjunto de señales de entrada x 0 , x1 ,..., x p −1 a través
del correspondiente conjunto de p sinapsis con pesos w0 , w1 ,..., w p−1 , respectivamente.
El modelo que se obtiene para la salida es por tanto

p −1
y = ∑ wi xi (6)
i =0
Gráficamente obtendríamos el sencillo modelo:
x0 ( n )
x1 ( n )
y(n)
x p−1 (n )
Figura 1
De acuerdo con el postulado de aprendizaje de Hebb un peso sináptico wi varía
en el tiempo , fortaleciéndose cuando la señal presináptica xi y la señal postsináptica y
coinciden. Más concretamente
616
wi (n + 1) = wi (n ) + ηy (n ) xi ( n ), i = 0,1,..., p − 1 (7)
donde n denota tiempo discreto, y η es el parámetro tasa de aprendizaje. Sin embargo,

esta regla de aprendizaje en su forma básica conduce a un crecimiento ilimitado del
peso sináptico wi , lo que es inaceptable desde el punto de vista físico. Superaremos este
problema incorporando una forma de saturación o normalización en la regla de

aprendizaje para la adaptación de los pesos sinápticos. El uso de la normalización tiene
el efecto de introducir competición entre las sinapsis de la neurona sobre recursos
limitados, lo que es esencial para la estabilización. Desde un punto de vista matemático,
la siguiente fórmula (Oja, 1982) describe una forma conveniente de normalización:
wi (n ) + ηy (n ) xi ( n )
wi (n + 1) = 1/ 2
(8)
 p −1
2
 ∑ [wi ( n ) + ηy (n ) xi (n )] 
 i =0 
donde el sumatorio del denominador se extiende sobre el conjunto completo de las
sinapsis asociadas con la neurona. Asumiendo que la tasa de aprendizaje η es pequeña,
podemos expandir (8) en serie de potencias de η , obteniendo
wi (n + 1) = wi (n ) + ηy (n )[xi (n ) − y (n ) wi (n )] + O (η 2 )
Para valores pequeños de η podemos justificadamente ignorar ese término, y

aproximar (8) por la ecuación de primer orden en η :
wi (n + 1) = wi (n ) + ηy (n )[xi (n ) − y (n ) wi (n )] (9)
Esta ecuación, junto a (6), es la que rige la evolución en la red de Oja.

El término ηy (n ) xi ( n ) representa a las usuales modificaciones Hebbianas al
peso sináptico wi , y produce el efecto de auto-amplificación que mencionamos antes.
La inclusión del término − y (n ) wi ( n ) es la responsable de la estabilización: modifica la
xi ' (n ) = xi (n ) − y (n ) wi (n )
entrada xi (n ) en una forma dependiente del peso sináptico asociado wi (n ) y de la
salida y(n), como muestra la expresión

que puede verse como la entrada efectiva de la sinapsis i-ésima. Sustituyendo, podemos
rescribir (9) como:
617
Tolmos P.
wi (n + 1) = wi ( n ) + ηy (n ) xi ' ( n )
El término − y (n ) wi ( n ) está relacionado con un factor de olvido o pérdida que
se utiliza frecuentemente en las reglas de aprendizaje, pero con una diferencia: el factor
de olvido se hace más pronunciado ante una respuesta más fuerte y(n). Esta clase de
control parece tener apoyo neurobiológico (Stent, 1973).
La ecuación (9) es una ecuación en diferencias recursiva, estocástica y que varía
en el tiempo. El algoritmo de aprendizaje que hemos descrito es asintóticamente estable
en el sentido de que la solución de la ecuación (9) expresada vectorialmente converge a
un punto fijo estable cuando el número de iteraciones n tiende a infinito. Además, se
prueba que ese punto fijo es un autovector de la matriz de momentos de segundo orden
R.
La elección de la tasa de aprendizaje η >0 (normalmente, dependiente de n) tiene
un gran efecto sobre la rapidez de convergencia del algoritmo. En particular, η no
puede ser demasiado grande, pues de otro modo, el algoritmo se haría inestable. Para
conservar la estabilidad del algoritmo, la tasa de aprendizaje debe satisfacer la
condición 0<η <1/(1.2 λ0 ), donde λ0 es el mayor autovalor de la matriz R. En la
práctica, una buena estrategia es utilizar al principio un valor de η relativamente grande
[
para asegurar una convergencia inicial (por ejemplo η = 0.5 x t (n ) x ( n ) ]
−1
proporciona
una buena convergencia inicial) e ir haciendo gradualmente pequeño η hasta lograr la
precisión deseada.
Normalmente se necesitan cientos de muestras para que el algoritmo logre la
precisión requerida. Si se dispone de una pequeña cantidad de muestras, éstas deberán
utilizarse cíclicamente varias veces hasta alcanzar la precisión adecuada.
En resumen, podemos establecer que el modelo lineal neuronal gobernado por la
regla de aprendizaje autoasociativa expresada en (9) tiende a extraer la primera
componente principal de un vector estacionario de entrada, esto es, aquella
correspondiente al mayor autovalor de la matriz de momentos de segundo orden de X
(Oja, 1982).
618
3. Generalizaciones de la red de Oja.
Acabamos de establecer que vector de pesos sinápticos w(n) de una neurona

lineal auto-organizada que opera bajo la regla de aprendizaje Hebbiana modificada
dada en (9), converge con probabilidad 1 a un vector de norma euclídea 1, que se
encuentra en la dirección del autovector máximo de la matriz de momentos de segundo
orden de la variable aleatoria X que “caracteriza” al vector de entradas x(n) (Oja, 1982).
Eso proporciona sólo una fracción de la información contenida en el conjunto de datos.
Normalmente, se requiere encontrar las m componentes principales (con m<<p).
Afortunadamente, en la práctica la varianza de las salidas y j suelen decrecer
rápidamente con su índice, j=0,1,...,m-1, y necesitaremos hallar sólo unas pocas de las
primeras componentes principales, cuya varianza supere cierto umbral. Vamos por tanto
a generalizar esta regla de aprendizaje que podrá usarse para entrenar una red
feedforward compuesta de una sola capa de neuronas lineales. El objetivo aquí es
producir una red que desarrolle el análisis de componentes principales de tamaño
arbitrario en el vector de entrada (Sanger, 1989b).
Consideraremos la red neuronal siguiente:
x0
y0
x1
x2 y1
y m −1
x p −1
Figura 2
Para esta red se realizan dos hipótesis de naturaleza estructural:

• Cada neurona de la capa de salida es lineal.
• La red tiene p entradas y m salidas, con m<p (esto es, tiene menos salidas
que entradas).
619
Tolmos P.
El único aspecto de la red sujeto a entrenamiento es el conjunto de pesos

{ }
sinápticos w ji que conectan los nodos fuente i de la capa de entrada con los nodos de
computación j en la capa de salida, donde i=0, 1,..., p-1, y j=0, 1,..., m-1.
p −1
y j (n ) = ∑ w ji (n ) xi ( n ) j = 0,1,..., m − 1
i =0
La salida de la neurona j en el instante n, generada como respuesta al conjunto
de entradas { xi (n ) : i=0, 1,..., p-1}viene dado por:
Karhunen y Oja propusieron la ley de aprendizaje siguiente como extensión de

la propia red de Oja para una neurona (de hecho, obsérvese cómo ésta es un caso
particular del nuevo algoritmo para m=1, i=1):
 m −1
 i = 0,1,..., p − 1
∆w ji ( n ) = η  y j (n ) xi (n ) − y j ( n )∑ wkj (n ) y k ( n ) (10)
 k =0  j = 0,1,..., m − 1
Esta regla recibe el nombre de “algoritmo de aprendizaje del subespacio
simétrico”. Krogh y Hertz probaron que el algoritmo converge a una base ortonormal
del subespacio m-dimensional de componentes principales de la matriz R
(concretamente, proporciona una base rotada del subespacio de autovectores dominante,
pero no da los autovectores de R propiamente dichos).
Recientemente ha surgido una versión mejorada del algoritmo del subespacio,
propuesta por Oja, Ogawa y Wangviwattana (1992). Es el algoritmo del “subespacio
ponderado”:
 m −1
 i = 0,1,..., p − 1
∆w ji ( n ) = η  y j (n ) xi (n ) − y j ( n )γ j ∑ wkj (n ) y k ( n )
 k =0  j = 0,1,..., m − 1
donde
0 < γ 0 < γ 1 < ... < γ m−1 η > 0

La nueva característica de esta regla es el uso de los parámetros escalares en
orden ascendiente de magnitud, que rompen la simetría de la regla del subespacio (10) y
asegura que los vectores w j (n ) converjan a los auténticos autovectores.
Otra extensión de la red de Oja es la que se conoce como el algoritmo de Hebb

generalizado (GHA), dado por Sanger en 1989b, y se expresa con la ecuación:
620
 j
 i = 0,1,..., p − 1
∆w ji ( n ) = η  y j (n ) xi (n ) − y j ( n )∑ wkj (n ) y k ( n ) (11)
 k =0  j = 0,1,..., m − 1
Nótese que la única diferencia con (10) está en el límite superior del sumatorio.
Para una compresión heurística de cómo actúa el GHA, rescribiremos (11) en
forma matricial:
∆w j (n) = ηy j (n) x' (n) − ηy j (n) w j (n) j = 0,1,..., m − 1
2
donde
j −1
x' (n) = x (n) − ∑ wk (n) y k (n)
k =0
El vector x ' (n ) representa una modificación del vector de entrada. Se pueden

hacer ahora las siguientes observaciones (Sanger, 1989b):
1. Para la primera neurona de la red que se mostró en la Figura 2 se tiene que
j=0: x ' (n ) =x(n)
En este caso, el algoritmo generalizado de Hebb se reduce a la forma vectorial de la red
de Oja para una sola neurona., que ,ya habíamos expuesto antes, convergía hacia la
primera componente principal del vector de entrada x(n).
2. Para la segunda neurona de la red, se tiene:
j=1: x ' (n ) = x (n ) − w0 (n ) y 0 (n )
Sabiendo que la primera neurona ya ha convergido a la primera componente principal,

la segunda neurona ve un vector de entrada x ' (n ) del que ha sido eliminado el primer
autovector de la matriz de momentos de segundo orden R. La segunda neurona extrae
por tanto la primera componente principal de x ' (n ) , que equivale a la segunda
componente principal del vector original de entrada x(n).
3. Para la tercera neurona escribimos:
j=2: x ' (n ) = x (n ) − w0 (n ) y 0 (n ) − w1 (n ) y1 (n )
Suponiendo que las dos primeras neuronas han convergido a la primera y segunda
componente principal, la tercera lo hará a la que equivale a la tercera componente
principal del vector original de entrada x(n), como ocurría en el paso anterior.
4. Procediendo de este modo para las restantes neuronas, parece que cada salida
de la red entrenada con el GHA representa la respuesta a un particular autovector de la
621
Tolmos P.
matriz de momentos de segundo orden R, y que las salidas individuales están ordenadas
correspondiendo a cada autovalor en sentido decreciente.
Este método de calcular autovectores es similar a una técnica conocida como
técnica de deflación de Hotelling (Kreyszig, 1988); sigue un proceso similar a la
ortogonalización de Gram-Schmidt.
La explicación que hemos seguido neurona a neurona pretende simplemente
simplificar la exposición. En la práctica, todas las neuronas del GHA tienden a
converger juntas, y el tiempo total de entrenamiento es menor que si se entrenara cada
vez a una neurona. Sin embargo, es poco probable que la segunda neurona (autovector)
converja correctamente hasta que la primera lo haya hecho al menos en parte hacia el
primer autovector.
Podemos asegurar, en resumen, que el GHA actúa, en el equilibrio, como un
analizador de autovectores de los datos de entrada.
Intimamente relacionado (pero no exactamente equivalente) al GHA , está el
algoritmo de ascenso del gradiente estocástico propuesto por Oja (1992). Su principal
ventaja es que se comporta mejor que el GHA para extraer las componentes menos
dominantes (por lo que se mejora ligeramente la velocidad de convergencia). De hecho,
se puede extender fácilmente para extraer las componentes menores.
Existen otras muchas extensiones de la red de Oja, entre las que cabe destacar la
regla de Földiák (1989), el modelo de Rubner (Rubner y Tawan, 1989; Rubner y
Schulten, 1990) y el modelo APEX (Kung y Diamantaras1990).
4.Aplicaciones. El procesamiento de imágenes.
Además de la utilidad en el campo de la Estadística que tiene el análisis de

componentes principales, y como consecuencia la red de Oja y sus extensiones, existen
dos aplicaciones que merece la pena destacar: el reconocimiento de patrones y la
compresión de datos. Ambas requieren una representación eficiente de los datos.
La tarea del reconocimiento de patrones es decidir a qué clase de objetos
pertenece un patrón observado. Los patrones dentro de una misma clase pueden variar
considerablemente, de modo que encajar la observación con alguna plantilla
característica puede ser un procedimiento de clasificación ineficiente. Tomemos por
622
ejemplo el reconocimiento de caracteres escritos: la misma letra varía

considerablemente cuando la escriben personas diferentes, o incluso la misma persona
en circunstancias distintas. Otro claro ejemplo sería el del reconocimiento de sonidos.
Por tanto, sería deseable extraer medidas que sean invariantes o insensibles a las
variaciones dentro de cada clase. El proceso mediante el cual se extraen tales medidas
se conoce con el nombre de extracción de rasgos. Los rasgos o características constantes
dentro de una clase, pero diferentes entre clases, ayudan al clasificador, que
normalmente sigue al extractor de características, mejorando su funcionamiento.
Por otro lado, la compresión de datos, está motivada por la necesidad de ahorrar
en el número de bits para representar los datos incurriendo en la menor distorsión
posible. La tasa de bits es un valeroso recurso en el almacenamiento de datos o en las
aplicaciones de transmisión. Por ejemplo, en un televisor de Alta Definición, la tasa de
bits requerida para las imágenes en color de 1500x1000 (24 bits por pixel) a 30
fotogramas por segundo es de 1Gbit/sg El coste de un canal con tal capacidad de
transmisión , o el coste de la memoria de tamaño apropiado para sostener incluso
películas cortas sin comprimir, es prohibitivo Esto convierte a la compresión una
necesidad más que una opción. Un sistema de compresión consta de un codificador y un
decodificador. El codificador proyecta los datos de alta dimensión en un pequeño
número de parámetros, mientras que el decodificador aplica esos parámetros de nuevo
en el espacio de datos. El proceso de codificación es en cierto modo un tipo especial de
extracción de características. En este sentido ambos procesos comparten un entramado
matemático muy similar en la fase de preprocesamiento: el análisis de componentes
principales. Un caso en que la compresión de datos representa un valioso instrumento es
el del procesamiento de imágenes: ya se ha hablado de que los sistemas artificiales
tratan de emular al cerebro en aquellas tareas en las que es muy eficiente. En este caso,
el comportamiento del cerebro nos sugiere que el modelo computacional más eficiente
debería ser una red neuronal paralela altamente interconectada, puesto que la
información visual en los mamíferos se procesa mediante redes paralelas
interconectadas compuestas de unidades de procesamiento: el paralelismo es evidente
desde la retina a las estructuras de mayor orden en el córtex.
Un tipo de aproximación a la compresión de imágenes es el uso de
transformaciones que operan sobre una imagen para producir un conjunto de
623
Tolmos P.
coeficientes, un subconjunto de los cuales se escogerá y cuantificará para la transmisión

a través de un canal o para el almacenamiento. El objeto de esta técnica es escoger
aquella transformación para la cual ese subconjunto sea adecuado para reconstruir la
imagen con el mínimo de distorsión perceptible.
El tipo más simple, aunque poderoso, de codificación mediante transformaciones
es la codificación por transformaciones en bloques lineales. Una imagen se divide en
bloques que no se solapen de nxn pixels que se pueden considerar como vectores x N-
dimensionales, donde cada componente de x es un bloque de nxn.
La transformación lineal se puede escribir mediante una matriz W de orden
MxN, con M menor o igual que N:
y=Wx
El vector y M-dimensional contendrá los coeficientes buscados.
La transformación inversa, si W es ortonormal, se da por:
xˆ = W t y
La transformación lineal óptima en cuanto a que minimiza el error cuadrático
medio, es la transformación de Karhunen-Loève. Esta transformación, al producir
coeficientes incorrelados, resulta más eficiente al codificar los datos, pues se elimina la
redundancia debida al alto grado de correlación entre los pixels vecinos.
Sabemos que existen algunas dificultades prácticas a la hora de implementar esta
transformación: el cálculo de la covarianza en una imagen puede ser inabordable y
requerir una enorme cantidad de memoria. Además hallar los autovalores-autovectores
resulta computacionalmente muy intensivo. Por último, el cálculo de la transformación
y su inversa es de orden o(MN) para cada bloque de imágenes.
Estas son algunas de las razones por las que conviene utilizar las redes
neuronales para el cálculo de componentes principales que se han estudiado en el
presente artículo :al presentarse los datos individualmente requieren menos capacidad
de almacenamiento (fundamental para procesar conjuntos que contienen muchos datos,
como es el caso de las imágenes), y por su naturaleza iterativa son más eficientes
computacionalmente y son capaces de adaptarse a variaciones en la estadística de la
imagen.
624
5. Ejemplo práctico.
Se tienen los datos correspondientes a 21 ratios aplicados a 916 empresas

utilizados para el rating desarrollado por una entidad financiera con objeto de decidir la
concesión de un préstamo.
Se utiliza una red neuronal artificial lineal para extraer las 21 componentes
principales (cuenta entonces con 21 nodos de entrada y 21 de salida, sin capa oculta). El
tiempo de computación fue de 0 segundos en un ordenador Pentium III con 256Mb de
RAM. Dada la magnitud de la matriz que contiene las componentes principales nos
limitaremos a expresar los autovalores obtenidos:
7105.963 89.21397 52.84737 38.30308 13.38952

10.77246 10.17179 7.810141 5.203828 3.474355
2.996311 2.439973 2.0989 1.857289 1.555682
1.045962 0.8539508 0.8167676 0.1958096 0.05778
0.0182
La red empleada está preparada además para calcular las cantidades acumuladas
de variabilidad representada por el correspondiente nº de componentes principales. Por
ejemplo si en la columna correspondiente a la componente principal M aparece 0,75,
significa que el 75% de la variabilidad de los datos está contenida en las M primeras
componentes principales (el último de estos datos será siempre 1, obviamente).
Utilizaremos esto para decidir cuántas componentes principales utilizar.
En nuestro ejemplo, el cálculo condujo a :
0.9666548 0.978791 0.9859801 0.9911906 0.993012

0.9944774 0.9958612 0.9969236 0.9976315 0.9981041
0.9985117 0.9988437 0.9991292 0.9993818 0.9995935
0.9997358 0.9998519 0.999963 0.9999897 0.9999975
1
625
Tolmos P.
Bibliografía:
Dony R. and Simon Haykin. "Neural network approaches to image compression"

Proceedings of the IEEE. Feb 1995. pp 288-303.
Haykin, S. 1994 “Neural Networks: a comprehensive foundation”Macmillan College
publishing Company
Oja, E., 1982. “A simplified neuron model as a pricipal component analyzer” Journal of
Mathematical Biology 15, 267-263.
Oja, E., 1989. “Neural Networks, principal components and subspaces”. International
journal of Neural Systems 1, 61-68.
Oja, E., 1991. “Data compression, feature extraction, and autoassociation in
feedforward neural networks” Artificial Neural Networks vol 1 pp.737-746.
Sanger, T.D. 1989 “Optimal unsupervised learning in a single-layer linear feedforward
neural network” Neural Networks 12, 459-473.
626

NN en El Acp Ley de Oja

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

NN en El Acp Ley de Oja

Transféré par

Droits d'auteur :

Formats disponibles

Métodos Matemáticos para la Economía y la Empresa

REDES NEURONALES ARTIFICIALES PARA EL ANÁLISIS DE

Piedad Tolmos Rodríguez-Piñero

Universidad Rey Juan Carlos

Resumen: El análisis de componentes principales es una herramienta estadístico-

Palabras clave: Análisis de componentes principales, Matriz de momentos de segundo

1. El análisis de componentes principales.

El objetivo del análisis de componentes principales es la reducción de la

Surge en muchas disciplinas científicas y en aplicaciones de ingeniería, como

El análisis de componentes principales es quizás la técnica más antigua y mejor

Sea x un vector aleatorio de dimensión p que representa el conjunto de datos de

donde E es el operador estadístico esperanza. Si x tuviera media distinta de cero,

La matriz R de orden p es la matriz de momentos de segundo orden

Planteemos ahora el problema que mencionamos al comienzo: reducir la

λ0 > λ1 > λ2 > ..... > λ j > ..... > λ p−1

u0 , u1 , u2 ,..., u j ,..., u p−1

Y que la varianza dependiente de cada autovector coincide con el autovalor al

Resumiendo, se ha probado que:

principales a lo largo de las cuales la varianza tiene valores extremos.

Lo que se conoce como componentes principales son las p posibles proyecciones

de datos. Decíamos que el valor práctico de las componentes principales reside en

Existe por tanto una correspondencia entre el comportamiento de las redes

La red de Oja es un tipo de red neuronal con aprendizaje no supervisado que se

construye de la siguiente manera: x(1), x(2),...son muestras independientes

del correspondiente conjunto de p sinapsis con pesos w0 , w1 ,..., w p−1 , respectivamente.

El modelo que se obtiene para la salida es por tanto

Gráficamente obtendríamos el sencillo modelo:

De acuerdo con el postulado de aprendizaje de Hebb un peso sináptico wi varía

en el tiempo , fortaleciéndose cuando la señal presináptica xi y la señal postsináptica y

coinciden. Más concretamente

donde n denota tiempo discreto, y η es el parámetro tasa de aprendizaje. Sin embargo,

problema incorporando una forma de saturación o normalización en la regla de

Para valores pequeños de η podemos justificadamente ignorar ese término, y

Esta ecuación, junto a (6), es la que rige la evolución en la red de Oja.

peso sináptico wi , y produce el efecto de auto-amplificación que mencionamos antes.

La inclusión del término − y (n ) wi ( n ) es la responsable de la estabilización: modifica la

salida y(n), como muestra la expresión

práctica, una buena estrategia es utilizar al principio un valor de η relativamente grande

3. Generalizaciones de la red de Oja.

Acabamos de establecer que vector de pesos sinápticos w(n) de una neurona

Consideraremos la red neuronal siguiente:

Para esta red se realizan dos hipótesis de naturaleza estructural:

El único aspecto de la red sujeto a entrenamiento es el conjunto de pesos

Karhunen y Oja propusieron la ley de aprendizaje siguiente como extensión de

0 < γ 0 < γ 1 < ... < γ m−1 η > 0

Otra extensión de la red de Oja es la que se conoce como el algoritmo de Hebb

El vector x ' (n ) representa una modificación del vector de entrada. Se pueden

Sabiendo que la primera neurona ya ha convergido a la primera componente principal,

4.Aplicaciones. El procesamiento de imágenes.

Además de la utilidad en el campo de la Estadística que tiene el análisis de

ejemplo el reconocimiento de caracteres escritos: la misma letra varía

coeficientes, un subconjunto de los cuales se escogerá y cuantificará para la transmisión

Se tienen los datos correspondientes a 21 ratios aplicados a 916 empresas

7105.963 89.21397 52.84737 38.30308 13.38952

0.9666548 0.978791 0.9859801 0.9911906 0.993012

Dony R. and Simon Haykin. "Neural network approaches to image compression"

Vous aimerez peut-être aussi