Vous êtes sur la page 1sur 19

Previsi on de series temporales mediante Redes Neuronales Evolutivas

Paulo Cortez, University of Minho, Portugal Miguel Rocha, University of Minho, Portugal Jos e Neves, University of Minho, Portugal 5 de mayo de 2013

1.

Resumen

En este cap tulo se presenta un h brido de la computaci on evolutiva / combinaci on de redes neuronales para la predicci on de series de tiempo. Las redes neuronales son candidatas innatas para el dominio de previsi on debido a ventajas como el aprendizaje no lineal y tolerancia al ruido. Sin embargo, la b usqueda de la estructura de red ideal es una tarea compleja y crucial. En este contexto, la computaci on evolutiva, guiada por el criterio de informaci on bayesiano, hace un enfoque prometedor para la b usqueda global de caracter sticas y selecci on del modelo. Un conjunto de 10 series de tiempo, a partir de diferentes dominios, se utilizaron para evaluar esta estrategia, compar andolo con una selecci on del modelo heur stico, as como con m etodos de pron ostico convencionales (por ejemplo, la metodolog a Holt-Winters y Box-Jenkins).

2.

Introducci on

Hoy en d a, la feroz competencia entre los individuos y las organizaciones es una marca comercial de las sociedades modernas, donde la ganancia de ventajas estrat egicas puede ser la clave del exito. La capacidad de predecir el futuro, basado en datos del pasado, hace un apalancamiento importante que puede empujar organizaciones hacia adelante. Series de previsi on de tiempo, es una herramienta importante en este escenario, donde el objetivo es predecir el comportamiento de los sistemas complejos s olo observando los patrones en los datos del pasado. De hecho, un creciente de inter es se ha puesto sobre la materia. Las contribuciones de los ambitos de la investigaci on operativa, estad stica y de las ciencias de la computaci on ha dado lugar a m etodos de pron ostico s olidos que reemplazaron a la intuici on, como la de Holt-Winters (Winters, 1960) y la metodolog a de Box-Jenkins (1976). Sin embargo, estos modelos fueron desarrollados hace d ecadas, donde mayores restricciones computacionales prevalecieron. Aunque estos m etodos dan pron osticos precisos sobre las series de tiempo lineal, que llevan una desventaja con componentes ruidosos o no lineales (Shoneburg, 1990), que son comunes en las situaciones de la vida real (por ejemplo, datos nancieros). Un enfoque alternativo para la previsi on de series temporales surge de la utilizaci on de redes neuronales articiales, los modelos conexionistas inspirados en el comportamiento del sistema nervioso central, siendo los artefactos atractivos para el dise no de sistemas inteligentes en aplicaciones de miner a y control de datos. En particular, el perceptr on multicapa es la m as popular arquitectura neuronal, donde las neuronas se agrupan en capas y s olo existen conexiones hacia adelante, proporcionando una poderosa 1

INTRODUCCION

base-alumno con ventajas tales como el aprendizaje no lineal y tolerancia de ruido (Haykin, 1999). De hecho, el uso de perceptrones multicapa para el modelado de series comenz o a nales de 1980 y el campo ha estado creciendo constantemente desde (Lapedes y Farber, 1987, Cortez, Rocha, Machado, y Neves, 1995, Huang, Xu, y Chan-Hilton , 2004). El inter es en perceptrones multicapa fue estimulada por el advenimiento del algoritmo de propagaci on hacia atr as en 1986, y desde entonces se han propuesto varias variantes r apidas, tal como el algoritmo RProp (Riedmiller, 1994). Sin embargo, estos procedimientos de formaci on minimizan una funci on de error mediante la regulaci on de los par ametros modicables (o peso) de una arquitectura ja, que debe establecerse a priori. Por otra parte, el rendimiento neuronal ser a sensible a esta elecci on: Una peque na red proporcionar a capacidades de aprendizaje limitados, mientras que un gran uno se overt los datos de entrenamiento, la inducci on de la p erdida de generalizaci on. El dise no de la topolog a de red neuronal (es decir, la conectividad) es una tarea compleja y, com unmente abordados por los procedimientos de ensayo y error simples (por ejemplo, mediante la exploraci on de un n umero distinto de nodos ocultos), en una estrategia de b usqueda ciega que s olo pasa a trav es de un peque no conjunto de posibles conguraciones. Se han propuesto m etodos m as elaborados, tales como la poda (Thimm y Fiesler, 1995) y los algoritmos constructivos (Kwok y Yeung, 1999), que presentan un esfuerzo hacia un dise no neuronal autom atica. Sin embargo, estos procedimientos de colina-escalada presentan dos inconvenientes principales: Ellos tienden a quedar atrapados en m nimos locales, y que la b usqueda a trav es de una peque na porci on de las arquitecturas, en lugar de todo el espacio de b usqueda. Una alternativa diferente es ofrecido por la computaci on evolutiva, lo que denota una familia de procedimientos computacionales inspirados en el proceso de selecci on natural. Los algoritmos evolutivos son candidatos innatas para tareas de optimizaci on, la realizaci on de un multipunto global (o haz) de b usqueda, localizando r apidamente las areas de alta calidad, incluso cuando el espacio de b usqueda es muy grande y compleja (Michalewicz, 1996). La combinaci on h brida de computaci on evolutiva y redes neuronales, a menudo llamado redes neuronales evolutivos (Yao, 1999), es un candidato adecuado para el dise no de la topolog a debido a las caracter sticas de la supercie de error: La asignaci on de la estructura de los nervios a su rendimiento es indirecta; cambios son discretas y pueden proporcionar efectos discontinuos, y similares topolog as pueden presentar diferentes actuaciones mientras arquitecturas distintas pueden proporcionar salidas similares. El campo de la previsi on de series temporales es un dominio f ertil para la prueba de combinaciones neuronales evolutivas, ya que el rendimiento neuronal depender a no s olo de la conguraci on de topolog a interna, sino tambi en en el conjunto correcto de sus entradas (retrasos de tiempo). Por lo tanto, el presente trabajo presenta un mecanismo de auto-adaptativo para el dise no de perceptrones multicapa con el n de predecir una amplia gama de series de tiempo real y articiales, tales como los pasajeros de l neas a ereas (Box Jenkins, 1976). La optimizaci on evolutiva se materializa mediante un algoritmo gen etico, siendo todo el proceso guiado por el criterio de informaci on bayesiano, una informaci on estad stica simple teor a de que impide overtting mediante la adici on de una pena de complejidad del modelo (Schwarz, 1978). La desventaja de esta estrategia es comparada con un enfoque heur stico para la selecci on del modelo de red neuronal y m etodos de previsi on convencional, siendo competitivo. El cap tulo se organiza de la siguiente manera. En primer lugar, los conceptos b asicos son introducidos

ANALISIS DE SERIES DE TIEMPO

para el an alisis de series de tiempo y modelos de predicci on neuronales. A continuaci on, los datos de series de tiempo utilizadas en los experimentos se describe. A continuaci on, se presentan los dos temas principales para el pron ostico neural, es decir, los retardos de entrada y selecci on de topolog a. En la siguiente secci on, se describe el enfoque para el dise no evolutivo neuronal y probado, siendo los resultados en comparaci on con los m etodos de pron ostico convencionales. Por u ltimo, las tendencias de futuro son discutidos y las conclusiones nales se dibujan.

3.

An alisis de Series de Tiempo

Una serie temporal es un conjunto de observaciones ordenadas peri odicos (x1, x2, ..., xt), que aparecen en una amplia serie de ambitos como la agricultura, la f sica, las nanzas o ingenier a, s olo para nombrar unos pocos. En efecto, el an alisis de series de tiempo cabos un area importante de la disciplina estad stica (Makridakis, Wheelwright, y Hyndman, 1998). Un modelo de serie temporal (t x) asume que las observaciones son dependientes, es decir, los patrones del pasado se producir an en el futuro. El objetivo de un modelo de predicci on es capturar (es decir, predecir) el comportamiento de un fen omeno complejo (con un enfoque de recuadro negro) y no a las relaciones de causa y efecto de sus principales componentes. Esto es debido al hecho de que hay varios sistemas que son muy dif ciles de comprender (por ejemplo, el comportamiento del mercado de valores), a pesar de ser tangible a la predicci on. Una serie se denota como determinista si es posible predecir completamente con 100 % de precisi on. En la pr actica, la mayor a de las series de tiempo contendr a un componente estoc astico, dando lugar a un error de predicci on. Por lo tanto, el rendimiento global de un modelo es evaluado por medidas de precisi on, es decir, la suma de errores cuadrados (SSE) y la ra z del error cuadr atico medio (RMSE), que se dan por las ecuaciones:

+L 2 SSE= t i=t+1 ei SSE RM SE = L

(1)

donde ttte = x - x denota el error de predicci on y L el n umero de pron osticos. Una estad stica com un para el an alisis de series de tiempo es el coeciente de autocorrelaci on (dentro del rango [-1,0; 1,0]), que da una medida de la correlaci on entre una serie y en s , retardado de k per odos, se calcula como (Box Jenkins, 1976 ): rk =
k s t=1 (xt x) (xt+k x) s t=1 (xt x)

(2)

donde s y x representan el tama no de series y media. Autocorrelaciones pueden ser u tiles para la descomposici on de las series principales caracter sticas de tiempo, tales como la tendencia y los efectos estacionales (Figura 1). Una tendencia representa una constante crecer (o disminuci on) en los datos, siendo

ANALISIS DE SERIES DE TIEMPO

debido a factores como la inaci on o mejoras tecnol ogicas. El factor estacional se encuentra en serie con un comportamiento peri odico y es muy com un en serie mensual (por ejemplo, las ventas de helados). El Holt-Winters es una t ecnica de pron ostico importante de la familia de m etodos de suavizado exponencial. El modelo predictivo se basa en algunos patrones subyacentes (por ejemplo, mostraron una tendencia y estacionales) que se distinguen del ruido aleatorio promediando los valores hist oricos (Winters, 1960). Su popularidad se debe a las ventajas tales como la sencillez de uso, la demanda computacional reducida, y la exactitud de las predicciones a corto plazo, sobre todo con la serie de temporada. El modelo general puede ser denido por cuatro ecuaciones (Hanke y Reitsch, 1989):

Ft =

xt + (1 )(Ft1 + Tt1 ) Stk

Tt = (Ft Ft1 ) + (1 )Tt1 St = xt (1 )Stk Ft

xt = (Ft1 + Tt1 )Stk (3)

Figura 1: Coecientes de autocorrelaci on (rk ) de las tendencias de temporada y la tendencia, estacional, t picos y series
de no transables (eje x denota los retardos k.

donde Ft, Tt y St indican la suavizaci on, tendencia y previsiones estacionales, K el per odo de temporada, y , y los par ametros del modelo. Por lo general, las constantes (, y ) son establecidos por los procedimientos de ensayo y error. Cuando no hay componente estacional, el par ametro se desecha y el factor de St-k en la u ltima ecuaci on se sustituye por la unidad. Otro enfoque previsi on popular es la metodolog a de Box-Jenkins (1976), pasando por una serie de medidas tales como la identicaci on del modelo, estimaci on de par ametros y la validaci on del modelo. La principal ventaja de este m etodo se basa en la precisi on sobre un dominio m as amplio de la serie, a pesar de ser m as compleja, en t erminos de facilidad de uso y el esfuerzo computacional, de Holt-Winters.

DE SERIES TEMPORALES REDES NEURONALES ARTIFICIALES EN LA PREDICCION

El modelo global, sobre la base de una combinaci on lineal de los valores anteriores (componentes AR) y los errores de los componentes (MA), se denomina MovingAverage integrado autorregresivo (ARIMA), mientras que la versi on de temporada se llama SARIMA. Ambos modelos SARIMA Arima y se pueden postular como un ARMA (OA, OM) uno, dada por:

OM A xt = + O i=1 Ai xti + j =1 Mj etj (4)

donde OA y OM denotan la AR y MA ordenes; Ai y Mj la AR y los coecientes de MA, y es un valor constante. Tanto los coecientes y las constantes del modelo se calculan utilizando m etodos estad sticos (por ejemplo, los m nimos cuadrados). La serie mostr o una tendencia requiere una diferenciaci on de los valores originales y la metodolog a tambi en puede utilizar transformaciones en los datos originales (por ejemplo, la funci on logaritmo).

4.

Redes Neuronales Articiales en la predicci on de series temporales

Los modelos conexionistas son candidatos innatas para pronosticar debido a sus capacidades de tolerancia no lineales y el ruido. La idea b asica es formar una red neuronal con datos del pasado y luego utilizar esta red para predecir valores futuros. En efecto, el uso de sistemas de previsi on de los nervios comenz o a nales de 1980 con la obra de Lapedes y Farber (1987), donde se utilizaron perceptrones multicapa para predecir series ca oticas. Desde entonces, se han propuesto varias arquitecturas neuronales, tales como funciones de base radial (Shi et al, 1999.) O redes recurrentes (Ulbricht, 1994), aunque la mayor a de los estudios de adopci on de la red de m ultiples capas (Shoneburg, 1990; Tang y Fishwick, 1993; Cortez et al, 1995;. Faraday y Chateld, 1998;. Huang et al, 2004). Concursos de pron ostico, se enfrentan las redes neuronales con los m etodos tradicionales, han informado bien pobre (Chateld, 1993) o favorable (Tang y Fishwick, 1993) los resultados, lo que sugiere que el gran cuidado que se necesita cuando el ajuste de modelos de predicci on neuronales. Para llevar a cabo el modelado de series con un perceptr on multicapa, un conjunto de casos de entrenamiento tiene que ser creado a partir de los datos mediante la adopci on de una ventana de tiempo deslizante. En la literatura, esta combinaci on se conoce por el momento plazo qued o red feedforward. Una ventana deslizante se dene por la secuencia de k1, k2, ??c, kI, para una red con entradas I y retardos. Por ejemplo, considere la serie mensual determinado por la secuencia:?? C, 8January, 11February, 16March, 20April, 17May y 22June. Al asumir una ventana de tiempo de 1, 2, 4, los u ltimos casos de entrenamiento que se pueden crear en junio son: 8, 16, 20 17 y 11, 20, 17 22????. En este trabajo, una base completamente conectado topolog a se adoptar a, con una capa oculta, el sesgo y las conexiones de acceso directo directo, desde la entrada a los nodos de salida (Figura 2). Para mejorar la no linealidad, la funci on de activaci on log stica se aplic o en los nodos ocultos, mientras que en el nodo de salida, se utiliza la funci on lineal en lugar, a la escala de la gama de las salidas, ya que la funci on log stica tiene una [0, 1] rango de salida. Esta arquitectura, a menudo adoptado por la comunidad pron ostico (Faraday y Chateld, 1998;. Huang et al, 2004), se evita la necesidad de procedimientos de ltrado (por ejemplo, cambio de escala), lo que puede dar lugar a la p erdida de informaci on. Por lo tanto, el modelo general se da en la forma:

LOS DATOS DE SERIES DE TIEMPO

out1 I xt = wout,o + I i=1 xtki wout,i + j =i+1 f i=1 xtki wj,0 wout,i (5)

donde wi, j denota el peso de la conexi on desde el nodo j a i (si j = 0, entonces es una conexi on de sesgo), Fuera denota el nodo de salida, F la funci on log stica (1 1 + ex) y el n umero de entrada neuronas.

Figura 2: Un perceptr on multicapa totalmente conectado con 2 entradas, 2 neuronas ocultas, 1 de salida, los prejuicios y
las conexiones de acceso directo.

5.

Los datos de series de tiempo

Para los experimentos llevados a cabo en este trabajo, un conjunto de 10 series fue seleccionado de diferentes dominios y fuentes. La intenci on era escoger dos conjuntos de datos para representar a cada una de las cinco categor as principales, a saber: de temporada y mostr o una tendencia, estacional, mostr o una tendencia, no mostraron una tendencia, y ca otico. Con la excepci on de los datos generados articialmente (cuadr atica y Henon), todas las series est an disponibles en el repositorio de Serie Biblioteca de Datos en Tiempo, que es mantenido por Hyndman y Akram (2005) y contiene series de m as de 800. El primer tipo, la serie de temporada y mostr o una tendencia, es muy com un en los datos mensuales, tales como los que se encuentran en las ventas. Conjunto de datos de los pasajeros es un ejemplo, lo que representa el n umero de pasajeros internacionales (en miles) de una compa n a a erea, 1949-1969. Esta es una serie bien conocida, que se analiza en el estudio cl asico de Box y Jenkins (1976). La serie de documentos presenta las mismas caracter sticas, informes sobre las ventas de la industria francesa para impresi on y escritura (en miles de francos), desde enero 1963 hasta diciembre 1972 (Makridakis et al., 1998). Los conjuntos de datos con s olo componentes estacionales incluyen las muertes y series maxtemp. El primero est a relacionado con el n umero de muertes mensuales y heridos graves en accidentes de tr aco del Reino Unido, desde enero 1969-enero 1983 (Harvey, 1989). El u ltimo es una serie meteorol ogicos, que contiene la temperatura m axima media mensual (en grados Celsius) medido en Melbourne, Australia, de enero 1971 a diciembre 1990 (Hyndman y Akram, 2005). En cuanto a la serie mostr o una tendencia, que se presentaron por primera vez en la obra de Box y Jenkins (1976). El conjunto de datos de precios contiene los datos nancieros, en relaci on con los precios de las acciones de IBM de cierre diarios, medidos desde 17 mayo 1961-2 noviembre 1962. El otro conjunto denota lecturas de temperatura (siendo recogido cada minuto) de un proceso qu mico. Ambas series no mostraron una tendencia se obtiene del dominio f sica. Los n umeros de manchas solares anuales fueron recogidos desde 1700 hasta 1999, siendo utilizada para poner a prueba las t ecnicas de predicci on lineal (Tong, 1983). Los datos de kobe, que tambi en es no lineal, contiene los primeros 200

DEL MODELO ENFOQUE HEUR ISTICO DE SELECCION

registros de un sism ografo, tomadas del terremoto de Kobe y grabado en la Universidad de Tasmania, Australia, el 16 de enero de 1995, comenzando a las 20:56:51 GMT (Hyndman y Akram, 2004). Finalmente, las dos u ltimas series fueron creadas articialmente mediante la generaci on de 200 puntos utilizando f ormulas ca oticas, a saber (Peitgen, J urgens, y Saupe, 1992): cuadr atica xt = axt-1 (1-xt-1), donde a = 4 y x0 = 0,2; y Henon xt = 1-AXT-1 2 + 2 + BXT-N (0.0,0.1), donde a = 1,4, b = 0,3, x0 = 0,11 y el u ltimo denota un factor de ruido Gaussiano con una desviaci on est andar de 0,1. La Tabla 1 presenta un resumen de las caracter sticas m as relevantes de cada uno de los 10 conjuntos de datos, mientras que la gura 3 que muestra en una perspectiva gr aca. Para los experimentos, cada serie se divide en un conjunto de entrenamiento, que contiene los primeros 90 % de los valores y un conjunto de pruebas, con el u ltimo 10 % (columna Tama no muestra la longitud de la serie). S olo el conjunto de entrenamiento se utiliza para la selecci on del modelo y de los par ametros de optimizaci on, siendo el conjunto de prueba utilizado para comparar el m etodo propuesto con otros m etodos.

6.

Enfoque heur stico de selecci on del modelo

Al modelar series de tiempo de las redes neuronales, una cuesti on fundamental es la selecci on del modelo, es decir, cu al es la mejor ventana de tiempo deslizante y la estructura neural para una serie determinada? Ambas opciones pueden realizar un gran impacto en el rendimiento de los pron osticos. Una peque na ventana proporcionar a escasa informaci on a la red, mientras que un gran n umero de retardos de tiempo puede aumentar la entrop a, afectando el aprendizaje. Por ejemplo, los modelos SARIMA utilizan a menudo s olo el 1, 12, 13retardos para la serie mostrado una tendencia estacional mensual. Del mismo modo, una red con pocas neuronas ocultas tendr a las capacidades de aprendizaje limitados. En contraste, el uso de un exceso de nodos ocultos se overt los datos de entrenamiento. El enfoque estad stico para la selecci on del modelo es considerar diferentes modelos candidatos, que se eval uan de acuerdo con una estimaci on de la generalizaci on. Varios estimadores complejos se han desarrollado (por ejemplo, validaci on de K-pliegue transversal), que son computacionalmente gravosa (Sarle, 1995). Una alternativa razonable es penalizar la complejidad del modelo, utilizando una estad stica simple, como el criterio de informaci on bayesiano (BIC) (Schwarz, 1978): BIC = N ln SSE N + P ln(N ) (6)

donde N denota el n umero de casos de entrenamiento y P el n umero de par ametros. Aunque originalmente propuesto para los modelos lineales, este criterio tambi en ha sido advertido para la estimaci on neural (Faraday y Chateld, 1998). Cuando se aplica a las redes neuronales, el n umero de par ametros (P) es igual al n umero de pesos de conexi on.

DEL MODELO ENFOQUE HEUR ISTICO DE SELECCION

Tabla 1: Las caracter sticas principales de la serie de tiempo utilizadas en los experimentos. Con el n de extraer algunas conclusiones preliminares, se pondr a a prueba un modelo de selecci on heur stico. Cuatro reglas se utilizan para generar el tiempo de ventanas correderas, a saber, (Cort es et al, 1995.): 1. Utilice todos los tiempos rezagos de 1 a un m aximo determinado m: 1,2, ..., m(m se establece en 13, un valor que se consideraron sucientes para abarcar los efectos estacionales de tendencias e mensuales); 2. Utilizar todos los rezagos que contienen valores de autocorrelaci on por encima de un determinado umbral (establecido en 0.2); 3. Utilice los cuatro rezagos con los m as altos autocorrelaciones y 4. El uso de la informaci on de descomposici on, es decir, 1, K, K 1 si la serie es de temporada (per odo K) y mostraron una tendencia; 1, K si la serie es estacional, y 1y 1, 2 si la serie es tendencia. Varios perceptrones multicapa, con un n umero de nodos ocultos (H) que van de 0 a 13, se utilizaron para explorar todas estas ventanas para cada serie de la Tabla 1. El algoritmo RProp se adopt o para la formaci on (Riedmiller, 1994), ya que permite una convergencia m as r apida, de ser detenido cuando la pendiente error se aproxima a cero despu es de 1000 o epocas. Durante este proceso, los casos de entrenamiento se presentaron en un orden temporal a la red, con el n de preservar la secuencia cronol ogica de los patrones, ya que no son independientes de los u ltimos cuatro columnas se dan en t erminos de la media de 30 carreras, ya que los pesos iniciales se generan de forma aleatoria. Los intervalos de conanza del 95 % tambi en se muestran los errores de predicci on (Flexer, 1996). Las estad sticas calculadas como el n umero de pesos (P), las estimaciones de formaci on (RMSEt y BIC), y el error de predicci on (RMSEf). En este ejemplo, el art culo 4 no se aplica ya que la serie no es ni manchas ni mostrado una tendencia estacional.

DEL MODELO ENFOQUE HEUR ISTICO DE SELECCION

Figura 3: La serie de 10 veces de la Tabla 1, en una perspectiva temporal).

Tabla 2: El enfoque de selecci on de modelo heur stico aplicado a la serie de manchas solares.

DEL MODELO ENFOQUE EVOLUTIVO DE LA SELECCION

10

Tabla 3: Los mejores pron osticos modelos neuronales dadas por el enfoque heur stico. El mejor modelo de error de entrenamiento (RMSEt) contiene un gran n umero de par ametros y overts. Uso de nodos m as ocultos conduce a valores de RMSE de formaci on m as bajos. Sin embargo, cuando una red se especializa su rendimiento general degrada. En contraste, el criterio BIC funciona mejor mediante la selecci on de una red que proporciona una de las mejores previsiones (RMSEf columna). Este comportamiento se produjo consistentemente en todas las series. La Tabla 3 muestra los mejores redes neuronales (con valores BIC inferiores) dadas por el enfoque heur stico. Como era de esperar, el criterio sugiere ventanas de tiempo peque nas y modelos lineales (sin nodos ocultos) para todas las series lineal. Sin embargo, la estad stica de BIC tambi en favorece modelos simples (con cero o uno nodos ocultos) para la serie lineal (kobe y las manchas solares). para ejemplo, los mejores pron osticos para manchas solares serie se dan para una red con cinco nodos ocultos, a pesar de que resulta en un valor m as alto BIC, debido a un n umero excesivo de pesos (Tabla 2). La estrategia de selecci on de modelo heur stico presenta algunas limitaciones. En t erminos del criterio BIC, la adopci on de redes totalmente conectados parece perjudicar redes con nodos ocultos. Por otra parte, las normas de ventana corrediza se basan en los valores de autocorrelaci on, que s olo miden las interacciones lineales, no siendo as adecuado para la serie no lineal. En la siguiente secci on, se propone un enfoque evolutivo para resolver estos inconvenientes.

7.

Enfoque evolutivo de la selecci on del modelo

El algoritmo gen etico fue presentada por primera vez por Holland (1975) y desde entonces el concepto ha evolucionado varias variantes de c alculo que comparten una serie de caracter sticas comunes. Hay una serie de soluciones potenciales (individuos) a un problema, en evoluci on simult aneamente (una poblaci on). Cada individuo se codica por una cadena (cromosoma) de s mbolos (genes), tomada de un alfabeto bien denido. Cada individuo se le asigna un valor num erico (tness) que es sin onimo de idoneidad de la soluci on. En cada generaci on, una fracci on de los individuos se sustituye por la descendencia, que son generados por la aplicaci on de los operadores gen eticos, tales como cruce y mutaci on, a n de crear nuevas soluciones (reproducci on). Todo el proceso es evolutivo, donde los individuos m as aptos tienen m as posibilidades de sobrevivir. La optimizaci on evolutiva de topolog as neural ha sido un campo f ertil de investigaci on en los u ltimos a nos (Yao, 1999). Los modelos propuestos se diferencian principalmente en dos temas: la funci on f sica y la representaci on de la red neural. En cuanto al primer tema, el enfoque m as habitual es considerar

DEL MODELO ENFOQUE EVOLUTIVO DE LA SELECCION

11

una medida de error sobre un conjunto de validaci on independiente. Por otra parte, el esquema de representaci on ha sido abordado por dos alternativas, a saber, codicaciones directos e indirectos. El primero codica todos los detalles de topolog a (pesos y conexiones), siendo el m etodo m as utilizado, ya que es m as eciente y f acil de implementar. La u ltima representa los par ametros m as importantes o hace uso de las reglas de construcci on. Un ejemplo interesante de un esquema indirecta viene dada por el trabajo de Gruau (1992), donde se utiliza un conjunto de reglas gramaticales para la construcci on de la estructura de los nervios. La codicaci on indirecta es m as escalable y biol ogicamente posible, favoreciendo redes regulares. Sin embargo, ya que s olo las redes modulares se consideran, el espacio de b usqueda de la mejor topolog a es limitado y este enfoque se ha puesto de maniesto algunos inconvenientes en los problemas de mundo real (Siddiqi Lucas, 1998). En el dise no de perceptrones multicapa para la previsi on de series temporales, es com un el uso de los procedimientos de ensayo y error, como probar varias combinaciones de nodos ocultos (Tang y Fishwick, 1993, Faraday y Chateld, 1998). El uso de cabos dise no evolutivo un intento alternativo para la serie de tiempo de selecci on topolog a neuronal. En efecto, se han propuesto varias redes neuronales evolutivos, la mayor a de ellos usando la representaci on param etrica indirecta, factores tales como el n umero de nodos de entrada y ocultos, la codicaci on pesos iniciales, funciones de activaci on, o las tasas incluso de aprendizaje (Falco, Cioppa, Iazzetta, Natale, y Tar, 1998, Chen y Lu, 1999). Sin embargo, desde un punto de selecci on del modelo de vista, parece m as importante ajustar la conectividad del perceptr on multicapa.

Figura 4: Demostraci on del proceso de codicaci on para una estructura neuronal dado.

Figura 5: Ejemplo de un nodo oculto (izquierda) y el lapso de tiempo de entrada (a la derecha) la poda. En este trabajo, se propone un enfoque de red neural evolutiva novela, usando una representaci on binaria directa. Dado que los experimentos anteriores han demostrado que la serie de tiempo a menudo se modela mediante redes peque nas, esta codicaci on evitar a que las topolog as se haga demasiado grande, adem as de ser m as eciente. Por lo tanto, cada gen representa una posible conexi on, si su valor es 1, entonces existe la conexi on correspondiente, de lo contrario, no se considera. Las conexiones entre los nodos ocultos y la salida de uno siempre existen, ya que esta estrategia de mejora de la creaci on de redes v alidos. Para prop ositos de demostraci on, la Figura 4 muestra c omo funciona el esquema de codicaci on.

DEL MODELO ENFOQUE EVOLUTIVO DE LA SELECCION

12

Suponiendo un m aximo de entrada I y H nodos ocultos, el sesgo, y conexiones de acceso directo, el tama no del cromosoma est a dada por (I 1) (1 H). Poda nodo oculto se producir a cuando no hay conexiones de nodos de entrada, y la poda nodo de entrada se producir a cuando un nodo de entrada no tiene salidas (Figura 5). Esto permite una representaci on completa, que dene un espacio de b usqueda que contiene todas las topolog as neuronal perceptr on lineal de la m as simple a la red multicapa totalmente conectado, y tambi en para llegar a cualquier subconjunto de nodos de entrada (la realizaci on de la selecci on de caracter sticas).

Tabla 4: Los mejores pron osticos modelos neuronales dadas por el enfoque evolutivo. En cuanto a la funci on de aptitud, mediante un conjunto de validaci on conduce a la p erdida de informaci on, ya que las series de entrenamiento m as peque nos son considerados. Por otra parte, la naturaleza temporal del dominio series de tiempo aumenta este efecto, una vez que los casos de validaci on son t picamente el m as reciente de los datos de entrenamiento. Una alternativa es hacer uso del criterio BIC, el cual presenta las ventajas de que requiere un c alculo simple, mientras que el aumento de la presi on de selecci on a favor de estructuras m as simples, siguiendo el principio de la navaja de Occam. Genes de las poblaciones iniciales fueron asignados al azar en el alfabeto 0, 1. El n umero m aximo de entrada (n) y los nodos ocultos (H) se establece en 13 y 6, ya que los experimentos anteriores ya han favorecido redes peque nas, lo que lleva a un cromosoma 98 con los genes. Dado que el algoritmo gen etico funciona como un segundo (de alto nivel) procedimiento de optimizaci on, el ajuste de sus par ametros no se considera crucial. Con el respaldo de experimentos preliminares, el tama no de la poblaci on se establece en 100 individuos, siendo el operador de cruce de dos puntos responsable de la cr a de 80 % de las cr as, mientras que el operador de mutaci on bits es responsable de las restantes. Bajo el enfoque propuesto, los principales bloques de construcci on se pueden identicar con el conjunto de conexiones que alimentan una neurona oculta. Por lo tanto, para evitar su interrupci on, se restringieron los puntos de corte de cruce (Opitz y Shavlik, 1994). El procedimiento de selecci on se realiza mediante la conversi on del valor de aptitud en su clasicaci on en la poblaci on y a continuaci on, se aplica un sistema de rueda de ruleta. El proceso evolutivo se detiene despu es de un n umero conveniente de generaciones GMax, aqu establece en 200, una vez que se encontraron los mejores individuos en generaciones anteriores. Por u ltimo, 30 carreras se aplican a la mejor topolog a evolucionado. La estructura algoritmo evolutivo se describe por la siguiente pseudo-c odigo:

BEGIN Initialize time (t=0).

DISCUSION

13

Generate the initial neural forecasting population (P0). Evaluate the individuals (BIC computation) in P0. WHILE NOT (tGMax) DO Select from Pt a number of individuals for reproduction. Breed the ospring by applying to the genetic operators. Evaluate the ospring (BIC computation). Select the ospring to insert into the next population (Pt+1). Select the survivors from Pt to be reinserted into Pt+1. Increase the current time (t := t+1). END

Tabla 4 y la Figura 6 muestran los mejores modelos obtenidos por el enfoque gen etico neuronal. Columna R denota el factor de reducci on, al comparar el n umero de pesos de la topolog a obtenida (P) con la base equivalente totalmente conectado uno (PFC): R=1 P Pf c (7)

Los valores de I est an dentro del rango de 67 a 97 %, mostrando una poda sustancial por el algoritmo gen etico. En efecto, todos los nodos ocultos reciben un corto n umero de conexiones (de 1 a 4). Por otra parte, las arquitecturas seleccionados parecen ser ajustado a la complejidad serie, con un total de 3 a 13 pesos para la serie lineal 17, para la serie no lineal, el aumento de hasta 23 y 34 para las conexiones de datos ca oticos. Todos evolucionado topolog as presentes conexiones de acceso directo, en el que conste su utilidad, en cambio, las conexiones de polarizaci on parecen menos importantes. A modo de ejemplo, la Figura 7 representa los pron osticos de los u ltimos 29 elementos (10 %) de las manchas solares en serie. En este caso, las curvas de valores reales y las previsiones est an cerca, revelando un buen ajuste por el modelo neuronal.

8.

discusi on

Esta secci on comienza con una comparaci on entre los enfoques de series cronol ogicas de los nervios y convencionales. Los par ametros de Holt-Winters se optimizan usando una red de b usqueda 0,01 para la mejor formaci on de error (RMSE), que es una pr actica com un en el campo de la predicci on (Tabla 5). Una estrategia diferente se adopt o la metodolog a Box-Jenkins, desde la etapa de selecci on de modelos no es trivial, lo que requiere el uso de expertos. Por lo tanto, se decidi o utilizar el paquete de predicci on Pron ostico PRO (Rycroft, 1993), que incluye el modelo de selecci on autom atica (Tabla 6). Aunque hay modelos conocidos en la literatura (Box Jenkins, 1976), estos no se consideran ya que s olo cubren cuatro de la serie de prueba. Por otra parte, los modelos de la literatura presentan errores de predicci on superior.

DISCUSION

14

Figura 6: El mejor pron ostico neuronal evolucionada topolog as.

Figura 7: Los valores reales de las manchas solares y de las previsiones dadas por el algoritmo neuronal evolutiva durante
los u ltimos 29 elementos.

DISCUSION

15

Tabla 5: Los modelos de predicci on de Holt-Winters obtenidos por una b usqueda en la red 0.01. En la Tabla 7, el rendimiento del m etodo propuesto se compara con las t ecnicas de previsi on convencional: el Holt-Winters (HW) y Box-Jenkins (BJ). Los valores de error en la tabla se dan en t erminos de estad stica de la U de Theil, que se dene por: T heil sU = RM SEF RM SEn (8)

donde RMSEn representa el error de predicci on dada por un ingenuo ninguna predicci on cambio (t = t 1-xx). Esta medida toma valores de entre 0 (perfecta pron ostico) para alrededor de la unidad, por lo que la comparaci on entre las diferentes series y los m etodos m as f aciles. BNN columna denota el resultado obtenido por el modelo neuronal de base-alumno, es decir, una red totalmente conectada con la entrada 13 y 6 nodos ocultos.

Tabla 6: Los modelos de predicci on obtenidos por la metodolog a de Box-Jenkins. * Los valores indican los coecientes (Ai y Mj) y los sub ndices denotan los retrasos (iyj). SARIMA Modelos se utilizaron para la serie de temporada. ... Los datos fueron pre-procesados por un logaritmo natural transformar. Un an alisis de la Tabla 7 revela que la arquitectura base-alumno proporciona el peor rendimiento neuronal, probablemente debido al exceso de peso, lo que lleva a la p erdida de generalizaci on. Esto demuestra que m as sosticadas estrategias de selecci on de modelos necesitan ser perseguido. De hecho, cuando se comparan los enfoques conexionistas, los mejores resultados se obtienen mediante la red neuronal evolutiva (la excepci on es el papel de serie), apoyando el uso del algoritmo gen etico.

DISCUSION

16

Una comparaci on con los m etodos convencionales revela que el m etodo de Holt-Winters da un mejor rendimiento en la serie mostraron una tendencia estacional. Esto no es sorprendente, ya que ha sido desarrollado espec camente para este tipo de datos. En la serie mostr o una tendencia, todas las t ecnicas tienen dicultades para llevar a cabo mejor que la previsi on del cambio no, tanto con el Holt-Winters y la red neuronal evolutiva producir resultados comparables. Este escenario diere al considerar otras series, donde el algoritmo gen etico exhibe su fuerza, superando ambos m etodos de pron ostico convencionales, especialmente para la u ltima cuatro series no lineal. La metodolog a de Box-Jenkins destaca el m etodo de Holt-Winters en cuatro series (muertes, manchas solares, Kobe, y HENON) y s olo supera a la estrategia neural evolutivo en dos conjuntos de datos (pasajeros y qu micas). El principal inconveniente del enfoque propuesto para la selecci on del modelo es el aumento de esfuerzo computacional. La optimizaci on evolutiva requiere cinco veces m as procesamiento computacional de la estrategia de selecci on de modelo heur stico. Por lo tanto, si la necesidad de la precisi on no es abrumadora, el uso de la heur stica m as simples puede proporcionar soluciones aceptables. Sin embargo, la complejidad de tiempo podr a ser reducido si un subconjunto de modelos prometedores se pusieron en poblaci on inicial del algoritmo gen etico, aunque esto requerir a el uso de la informaci on a priori. Dado que la mayor a de las series temporales utilizan datos diarios o mensuales, esto no se considera una preocupaci on importante. Como un ejemplo del esfuerzo de procesamiento

Tabla 7: La comparaci on (valores U de Theil) entre los enfoques de predicci on convencionales (Holt-Winters y
Box-Jenkins) y neuronal (red neuronal que aprende de base, la selecci on del modelo heur stico y red neuronal evolutiva).

Figura 8 parcelas de la mejor aptitud (BIC) obtenido en cada generaci on de la serie de las manchas solares. En este caso, una convergencia m as alta se observ o en las primeras iteraciones, siendo la mejor soluci on obtenida en la generaci on 86. Este comportamiento, que se produjo en todas las series, muestra que las soluciones aceptables pueden obtenerse en etapas anteriores del proceso. Otra cuesti on importante es la previsi on relacionada con el conocimiento explicativo. En las aplicaciones de miner a de datos, adem as de obtener una buena precisi on predictiva, tambi en es importante proporcionar conocimientos u tiles acerca de lo que el modelo se ha enterado (Fayyad, Piatetsky Shapiro, y Smyth, 1996). Sin embargo, es dif cil para los seres humanos para entender c omo perceptrones multicapa totalmente conectado explicar el comportamiento de una serie dada. Guiado por el criterio BIC, el enfoque evolutivo realiza una poda sustancial, lo que lleva a los modelos m as simples, que son m as comprensible. Por ejemplo, las manchas solares neuronal de la topolog a de la Figura 6, es posible inferir que existe una inuencia lineal con respecto a la 1, 2, 8, 11 y retrasos de tiempo y un efecto no lineal moderada de las otras (3, 12, y 13).

TENDENCIAS FUTURAS

17

Figura 8: El mejor valor de tness (BIC) obtenido en cada generaci on por el algoritmo evolutivo para la serie de manchas
solares.

9.

Tendencias futuras

En las u ltimas d ecadas, ha habido un creciente esfuerzo para mejorar el proceso de toma de decisiones. De hecho, hay tres factores importantes han contribuido a un mayor enfasis en el uso de m etodos de pron ostico: el crecimiento de la industria de semiconductores, lo que lleva a una alta potencia de c alculo a bajos costos; el aumento exponencial de almacenamiento de datos y dispositivos de adquisici on autom aticas; y el desarrollo de nuevas herramientas de detecci on autom atica. A pesar de los benecios no lineales proporcionados por las redes neuronales articiales, la mayor a de las organizaciones todav a s olo utilizan m etodos de previsi on convencional (Makridakis et al., 1998), aunque se espera que este escenario cambie, ya que los analistas y gestores se familiaricen m as con los modelos conexionistas. Hoy en d a, la principal argumentaron neuronales obst aculos de predicci on de la red son la falta de comprensibilidad, debido a la modelizaci on de recuadro negro, y la complejidad de uso, en comparaci on con otros m etodos. Sin embargo, estas armaciones se desvanecer a como la investigaci on contin ua en el conocimiento explicativo, como la extracci on de reglas de redes capacitados (Setiono, 2003), y metodolog as de selecci on de modelos, como el que se presenta en este cap tulo. Con respecto a las arquitecturas de redes neuronales, perceptrones multicapa seguir a siendo una opci on popular ya que est an disponibles en varios paquetes fuera de la plataforma. Sin embargo, se espera que otros tipos de redes a cobrar importancia, tales como funciones de base radial y redes recurrentes. M as recientemente, ha habido un creciente inter es en el uso de m aquinas de vectores de soporte, las t ecnicas no lineales que presentan ventajas te oricas (por ejemplo, ausencia de m nimos locales) a trav es de redes neuronales. Por ejemplo, Cao y Tay (2003) han aplicado las m aquinas de vectores soporte para series nancieras, obteniendo resultados competitivos en comparaci on con las redes de propagaci on hacia atr as. Otro enfoque no convencional potencial de predicci on se basa en el uso de la computaci on evolutiva, que se espera que aumente en importancia, motivadas por ventajas tales como la representaci on de modelos

10

CONCLUSION

18

expl citos y adaptativo de b usqueda global. En la actualidad, hay dos enfoques prometedores: en primer lugar, la optimizaci on de los m etodos de previsi on tradicionales, como el modelo ARMA (ecuaci on 4), con algoritmos evolutivos basados en representaciones de valor real (Cortez, Rocha, y Neves, 2004), en segundo lugar, el uso de la programaci on gen etica, mediante la construcci on de una expresi on num erica hecha de una serie de retrasos y de los operadores, como las adoptadas en el alfabeto +, -, *y / (Kaboudan, 2003). En este cap tulo se presenta un enfoque de codicaci on directa de dise no de la red neuronal, siendo los pesos de las conexiones establecidas por el algoritmo RProp. Sin embargo, estos procedimientos basados en gradiente no est an libres de quedar atrapados en m nimos locales (Rocha, Cortez, y Neves, 2003). Una posibilidad para aliviar este problema ser a la evoluci on simult anea de arquitecturas y los pesos de conexi on (Yao, 1999). Los algoritmos evolutivos son atractivos para el entrenamiento con pesas, ya que realizan una b usqueda global de m ultiples puntos. Adem as, es posible combinar ambas b usqueda evolutiva y el gradiente para la formaci on neural mediante el uso de una optimizaci on lamarckiana (Rocha et al., 2003). En el futuro, ser a posible para lograr un m etodo universal para predecir cualquier tipo de series de tiempo? Como se nala Weigend y Gershenfeld (1994), la respuesta es negativa y se relaciona con la visi on de reducir todas las matem aticas a un conjunto de axiomas bien denidos, un sue no que se termin o con el teorema de G odel de Hilbert. Como una alternativa, Weighend y Gershenfeld que proponga un objetivo m as realista, para encontrar el mejor modelo para una serie dada, donde mejor signica el modelo que requiere menos informaci on para explicar correctamente un fen omeno dado. Se espera que la futura evoluci on de los sistemas no lineales, la inform atica y las redes neuronales articiales contribuyan a la soluci on de este objetivo.

10.

Conclusi on

El auge de las t ecnicas conexionistas, como perceptrones multicapa, ha abierto nuevas posibilidades para el campo de la previsi on. Actualmente, la aplicaci on de estos m etodos requiere un cierto esfuerzo por parte de un analista, en procesos tales como el an alisis de datos y la selecci on del modelo. En este cap tulo, se presenta un enfoque adaptativo, suponiendo que no hay conocimiento previo sobre cada serie. Por otra parte, el sistema propuesto funciona de forma autom atica, la realizaci on de la selecci on del modelo sobre la marcha, pudiendo elegir entre los perceptrones multicapa distintas, que van desde los modelos lineales para los complejos no lineales. Sin embargo, esta autonom a a nadido tiene la desventaja de aumentar la complejidad computacional. Se realizaron experimentos comparativos, entre los enfoques convencionales (por ejemplo, Holt-Winters y Box-Jenkins) y conexionistas, con varias series reales y articiales de diferentes dominios,. Estos han demostrado que la Holt - m etodo de Winters, aunque muy sencilla, presenta un buen rendimiento en la serie lineal con componentes estacionales de tendencias e. Sin embargo, cuando el dominio se vuelve m as complejo, con el comportamiento no lineal, los m etodos tradicionales no son claramente apropiado. El enfoque propuesto neuronal muestra su fuerza exactamente en estos escenarios. Por otra parte, fue posible conrmar que las redes neuronales, tales como los perceptrones multicapa, de hecho son herramientas muy poderosas para tareas de regresi on, a pesar de que se basan en gran medida en el dise no de la red. Estructuras pobres proporcionan capacidades de aprendizaje insucientes, mientras que los que son de plomo demasiado complejo para sobreajuste. Una posibilidad prometedora para la selecci on de topolog a es utilizar una combinaci on h brida de los procedimientos evolutivos y de los nervios. De hecho, el algoritmo gen etico, aqu se toma como el motor principal, ha demostrado ser una

10

CONCLUSION

19

poderosa herramienta de selecci on del modelo. En cuanto a la evaluaci on de la capacidad de generalizaci on de pron ostico neuronales, la estad stica de BIC, que penaliza la complejidad, se ha revelado como una soluci on adecuada. Este criterio tambi en presenta la ventaja de exigir un c alculo simple, mientras que el aumento de la presi on de selecci on a favor de estructuras m as simples, que son m as comprensible. En el futuro, que est a destinado a aplicarse las redes neuronales evolutivos a otros tipos de predicci on, como la predicci on a largo plazo, multivariante, o en tiempo real, en aplicaciones del mundo real (por ejemplo, bioingenier a o el tr aco de Internet). Aunque la metodolog a propuesta obtuvo resultados interesantes en el campo de la previsi on, es potencialmente u til en otros ambitos en los perceptrones multicapa se pueden aplicar (por ejemplo, las tareas de clasicaci on). Por u ltimo, tambi en se tuvo como objetivo explorar la optimizaci on evolutiva con diferentes arquitecturas neuronales (por ejemplo, redes neuronales recurrentes).

Vous aimerez peut-être aussi