Académique Documents
Professionnel Documents
Culture Documents
Área de Matemáticas
611
Tolmos P.
Veamos ahora con detalle en qué consiste exactamente esa transformación que
logra reducir la dimensión reteniendo la máxima varianza:
a = xtu = ut x (1)
612
Métodos Matemáticos para la Economía y la Empresa
en donde a sería la proyección de x sobre u, que es otra variable aleatoria con media
σ 2 = u t Ru = Ψ(u )
cero y varianza
Se puede probar que los valores de u que verifican esas condiciones son las
soluciones de la ecuación
Ru = λu (3)
Esta ecuación es la que gobierna el problema de los autovalores de la matriz R:
tiene soluciones no triviales (u ≠ 0)sólo para ciertos valores de λ llamados autovalores
de la matriz R. Los valores de u asociados a cada λ son los autovectores. Una matriz de
momentos de segundo orden tiene la propiedad de poseer autovalores reales y positivos
(es simétrica y definida positiva). Si los autovalores son además distintos entre si, los
autovectores correspondientes son “únicos” (salvo proporcionalidades). Supongamos
que es así, y denotemos a los autovalores de R en orden decreciente,
1, j =i
ui u j =
0, j ≠i
613
Tolmos P.
a j = xtu j = u j x ,
t
j=0, 1,..., p-1
Las componentes principales tienen las mismas dimensiones físicas que el vector
de datos x. Para reconstruir el vector original de datos x exactamente a partir de las
componentes principales basta con realizar la operación:
p −1
x = ∑ a ju j (5)
j =0
Se observa que, en este sentido, los vectores u j constituyen una base del espacio
614
Métodos Matemáticos para la Economía y la Empresa
2. La red de Oja.
Recientemente se ha mostrado mucho interés en la conexión entre el análisis de
componentes principales y las redes neuronales. Cottrell, Munro y Zipser (1987) han
sugerido utilizar un Perceptron Multicapa que aprende con el algoritmo de
retropropagación de modo autoasociativo supervisado, para la compresión de datos, y
Baldi y Hornik (1989), Bourlard y Kamp (1988) han probado que está íntimamente
relacionado con el análisis de componentes principales. Otra clase de modelos, iniciados
con la neurona para el análisis de componentes principales de Oja (1982) con la regla de
aprendizaje Hebbiana restringida, son las redes de una sola capa feedforward que
calculan las componentes principales de modo no supervisado. Tales modelos fueron
creados y analizados, entre otros, por Baldi y Hornik (1991); Becker (1991); Chauvin
(1989); Földiak (1989); Hornik y Kuan (1991); Karhunen (1984); Karhunen
yJoutensalo (1991); Krogh y Hertz (1990); Krung y Diamantras (1990); Linsker (1988)
ja (1983); Oja y Karhunen (1985); Oja (1989, 1991); Oja, Ogawa y Wangviwattana
(1991); Rubner y Tavan (1989); Sanger (1989); Sirat (1991); Williams (1985); y Xu,
Krzyzak, Oja (1991). La mayoría de los modelos utilizan neuronas lineales, pero pueden
verse también no lineales para aproximar las componentes principales (Sirat 1991), o
para calcular otras expansiones estadísticas relacionadas (Oja et al. 1991)Un resumen
general relacionando los modelos de componentes principales fue dado por Becker en
1991.
615
Tolmos P.
x0 ( n )
x1 ( n )
y(n)
x p−1 (n )
Figura 1
616
Métodos Matemáticos para la Economía y la Empresa
wi (n + 1) = wi (n ) + ηy (n ) xi ( n ), i = 0,1,..., p − 1 (7)
wi (n + 1) = wi (n ) + ηy (n )[xi (n ) − y (n ) wi (n )] + O (η 2 )
xi ' (n ) = xi (n ) − y (n ) wi (n )
entrada xi (n ) en una forma dependiente del peso sináptico asociado wi (n ) y de la
617
Tolmos P.
wi (n + 1) = wi ( n ) + ηy (n ) xi ' ( n )
El término − y (n ) wi ( n ) está relacionado con un factor de olvido o pérdida que
se utiliza frecuentemente en las reglas de aprendizaje, pero con una diferencia: el factor
de olvido se hace más pronunciado ante una respuesta más fuerte y(n). Esta clase de
control parece tener apoyo neurobiológico (Stent, 1973).
La ecuación (9) es una ecuación en diferencias recursiva, estocástica y que varía
en el tiempo. El algoritmo de aprendizaje que hemos descrito es asintóticamente estable
en el sentido de que la solución de la ecuación (9) expresada vectorialmente converge a
un punto fijo estable cuando el número de iteraciones n tiende a infinito. Además, se
prueba que ese punto fijo es un autovector de la matriz de momentos de segundo orden
R.
La elección de la tasa de aprendizaje η >0 (normalmente, dependiente de n) tiene
un gran efecto sobre la rapidez de convergencia del algoritmo. En particular, η no
puede ser demasiado grande, pues de otro modo, el algoritmo se haría inestable. Para
conservar la estabilidad del algoritmo, la tasa de aprendizaje debe satisfacer la
condición 0<η <1/(1.2 λ0 ), donde λ0 es el mayor autovalor de la matriz R. En la
[
para asegurar una convergencia inicial (por ejemplo η = 0.5 x t (n ) x ( n ) ]
−1
proporciona
una buena convergencia inicial) e ir haciendo gradualmente pequeño η hasta lograr la
precisión deseada.
Normalmente se necesitan cientos de muestras para que el algoritmo logre la
precisión requerida. Si se dispone de una pequeña cantidad de muestras, éstas deberán
utilizarse cíclicamente varias veces hasta alcanzar la precisión adecuada.
En resumen, podemos establecer que el modelo lineal neuronal gobernado por la
regla de aprendizaje autoasociativa expresada en (9) tiende a extraer la primera
componente principal de un vector estacionario de entrada, esto es, aquella
correspondiente al mayor autovalor de la matriz de momentos de segundo orden de X
(Oja, 1982).
618
Métodos Matemáticos para la Economía y la Empresa
rápidamente con su índice, j=0,1,...,m-1, y necesitaremos hallar sólo unas pocas de las
primeras componentes principales, cuya varianza supere cierto umbral. Vamos por tanto
a generalizar esta regla de aprendizaje que podrá usarse para entrenar una red
feedforward compuesta de una sola capa de neuronas lineales. El objetivo aquí es
producir una red que desarrolle el análisis de componentes principales de tamaño
arbitrario en el vector de entrada (Sanger, 1989b).
x0
y0
x1
x2 y1
y m −1
x p −1
Figura 2
619
Tolmos P.
computación j en la capa de salida, donde i=0, 1,..., p-1, y j=0, 1,..., m-1.
p −1
y j (n ) = ∑ w ji (n ) xi ( n ) j = 0,1,..., m − 1
i =0
La salida de la neurona j en el instante n, generada como respuesta al conjunto
de entradas { xi (n ) : i=0, 1,..., p-1}viene dado por:
620
Métodos Matemáticos para la Economía y la Empresa
j
i = 0,1,..., p − 1
∆w ji ( n ) = η y j (n ) xi (n ) − y j ( n )∑ wkj (n ) y k ( n ) (11)
k =0 j = 0,1,..., m − 1
Nótese que la única diferencia con (10) está en el límite superior del sumatorio.
Para una compresión heurística de cómo actúa el GHA, rescribiremos (11) en
forma matricial:
∆w j (n) = ηy j (n) x' (n) − ηy j (n) w j (n) j = 0,1,..., m − 1
2
donde
j −1
x' (n) = x (n) − ∑ wk (n) y k (n)
k =0
Suponiendo que las dos primeras neuronas han convergido a la primera y segunda
componente principal, la tercera lo hará a la que equivale a la tercera componente
principal del vector original de entrada x(n), como ocurría en el paso anterior.
4. Procediendo de este modo para las restantes neuronas, parece que cada salida
de la red entrenada con el GHA representa la respuesta a un particular autovector de la
621
Tolmos P.
matriz de momentos de segundo orden R, y que las salidas individuales están ordenadas
correspondiendo a cada autovalor en sentido decreciente.
Este método de calcular autovectores es similar a una técnica conocida como
técnica de deflación de Hotelling (Kreyszig, 1988); sigue un proceso similar a la
ortogonalización de Gram-Schmidt.
La explicación que hemos seguido neurona a neurona pretende simplemente
simplificar la exposición. En la práctica, todas las neuronas del GHA tienden a
converger juntas, y el tiempo total de entrenamiento es menor que si se entrenara cada
vez a una neurona. Sin embargo, es poco probable que la segunda neurona (autovector)
converja correctamente hasta que la primera lo haya hecho al menos en parte hacia el
primer autovector.
Podemos asegurar, en resumen, que el GHA actúa, en el equilibrio, como un
analizador de autovectores de los datos de entrada.
Intimamente relacionado (pero no exactamente equivalente) al GHA , está el
algoritmo de ascenso del gradiente estocástico propuesto por Oja (1992). Su principal
ventaja es que se comporta mejor que el GHA para extraer las componentes menos
dominantes (por lo que se mejora ligeramente la velocidad de convergencia). De hecho,
se puede extender fácilmente para extraer las componentes menores.
Existen otras muchas extensiones de la red de Oja, entre las que cabe destacar la
regla de Földiák (1989), el modelo de Rubner (Rubner y Tawan, 1989; Rubner y
Schulten, 1990) y el modelo APEX (Kung y Diamantaras1990).
622
Métodos Matemáticos para la Economía y la Empresa
623
Tolmos P.
624
Métodos Matemáticos para la Economía y la Empresa
5. Ejemplo práctico.
La red empleada está preparada además para calcular las cantidades acumuladas
de variabilidad representada por el correspondiente nº de componentes principales. Por
ejemplo si en la columna correspondiente a la componente principal M aparece 0,75,
significa que el 75% de la variabilidad de los datos está contenida en las M primeras
componentes principales (el último de estos datos será siempre 1, obviamente).
Utilizaremos esto para decidir cuántas componentes principales utilizar.
En nuestro ejemplo, el cálculo condujo a :
625
Tolmos P.
Bibliografía:
626