Académique Documents
Professionnel Documents
Culture Documents
DE LA
MIXTECA
PRONOSTICO
DE UNA SERIE TEMPORAL
USANDO REDES NEURONALES
TESIS
PARA OBTENER EL TITULO DE:
LICENCIADO EN MATEMATICAS
APLICADAS
PRESENTA:
WILLIAMS GOMEZ
LOPEZ
DIRECTOR:
DEL CARMEN JIMENEZ
M.C. JOSE
HERNANDEZ
CO-DIRECTOR:
TRUJILLO ROMERO
DR. FELIPE DE JESUS
Huajuapan de Le
on, Oaxaca
Agosto de 2010.
ii
Pron
ostico de una serie temporal usando redes
neuronales
Williams Gomez Lopez
Agosto de 2010
iv
Indice general
1. Preliminares
1.1. Introducci
on a la prediccion . . . . . . . . . . .
1.1.1. Metodos de pronosticos . . . . . . . . .
1.1.2. Seleccionando una tecnica de pronostico
1.2. Pronosticos y series de tiempo . . . . . . . . . .
1.2.1. Error del pronostico . . . . . . . . . . .
1.3. Pronostico y Redes Neuronales Artificiales . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2. Series de tiempo
2.1. Procesos Estoc
asticos . . . . . . . . . . . . . . . . . . . . .
2.2. Modelos de series de tiempo . . . . . . . . . . . . . . . . . .
2.3. Series de tiempo estacionarias . . . . . . . . . . . . . . . . .
2.4. Eliminacion de las componentes . . . . . . . . . . . . . . . .
2.4.1. Eliminacion mediante diferenciaci
on . . . . . . . . .
2.5. Modelos estoc
asticos usados en series de tiempo . . . . . . .
2.5.1. Modelo de media m
ovil . . . . . . . . . . . . . . . .
2.5.2. Modelos autorregresivos . . . . . . . . . . . . . . . .
2.5.3. Proceso Lineal . . . . . . . . . . . . . . . . . . . . .
2.5.4. Procesos autorregresivos de promedios m
oviles . . .
2.5.5. Funci
on de Autocorrelaci
on parcial . . . . . . . . . .
2.6. Modelado y prediccion de series de tiempo . . . . . . . . . .
2.6.1. Algoritmo Innovations . . . . . . . . . . . . . . . . .
2.6.2. Prediccion en procesos ARMA . . . . . . . . . . . .
2.6.3. Estimacion por m
axima verosimilitud . . . . . . . .
2.7. Diagn
ostico y verificaci
on . . . . . . . . . . . . . . . . . . .
2.8. Modelo ARIMA para series de tiempo no estacionarias . . .
2.8.1. Identificaci
on de tecnicas . . . . . . . . . . . . . . .
2.9. Races unitarias en modelos de series de tiempo . . . . . . .
2.9.1. Races unitarias en polinomios autorregresivos . . .
2.9.2. Races unitarias en polinomios de promedios m
oviles
2.9.3. Prediccion para modelos ARIMA . . . . . . . . . . .
v
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
4
5
6
8
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
11
13
15
17
18
19
19
19
20
21
23
24
27
30
34
37
38
39
40
40
42
43
INDICE GENERAL
vi
2.9.4. Funci
on predictora . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.10. Modelos estacional ARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.10.1. Proceso de prediccion en el modelo SARIMA . . . . . . . . . . . . .
3. Redes neuronales artificiales y biol
ogicas
3.1. Redes neuronales biol
ogicas . . . . . . . . . . . .
3.2. Modelo neuronal artificial . . . . . . . . . . . . .
3.2.1. Funci
on de transferencia . . . . . . . . . .
3.2.2. Arquitectura de la red . . . . . . . . . . .
3.2.3. Regla de aprendizaje . . . . . . . . . . . .
3.3. Perceptron simple . . . . . . . . . . . . . . . . .
3.3.1. Arquitectura y aprendizaje del perceptron
3.4. Perceptron multicapa . . . . . . . . . . . . . . . .
3.4.1. Backpropagation . . . . . . . . . . . . . .
3.5. Variaciones del algoritmo backpropagation . . . .
3.5.1. Algoritmos heursticos . . . . . . . . . . .
3.5.2. Tecnicas de optimizaci
on numerica . . . .
4. Aplicaci
on
4.1. Datos . . . . . . . . . . . . . .
4.2. Pronostico con series de tiempo
4.3. Pronostico con redes neuronales
4.4. Comparacion . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
46
47
48
.
.
.
.
.
.
.
.
.
.
.
.
51
51
52
54
55
57
58
59
63
63
67
68
69
.
.
.
.
77
77
78
82
86
5. Conclusiones
91
C
odigo
93
Pesos sin
apticos
95
Bibliografa
101
Pr
ologo
El pronosticar alg
un fenomeno repercute en la toma de decisiones de una empresa y en
la planificacion de recursos para una mayor y eficiente producci
on. Ademas de lo anterior
el conocer que suceso va a pasar en el futuro permite tomar ciertas medidas preventivas.
El realizar pronostico conlleva desde entender la tecnica que se esta utilizando hasta
saber los posibles costos que se generara al realizar esto. Claro esta que los datos que se
coleccionen deber
an ser fiables ya que al momento de la construccion de alg
un modelo, la
prediccion deba ser lo mas realista posible y adem
as ser confiable.
Por lo cual en este trabajo de tesis el objetivo principal es realizar la prediccion y la
comparacion de estos para un conjunto de datos los cuales corresponden a las demandas
m
aximas mensuales de energa electrica proporcionados por la Comision Federal de Electricidad. Son dos los enfoques estudiados para lograr tal objetivo, la metodologa de Box y
Jenkins para series de tiempo y el uso de las redes neuronales artificiales. Esta u
ltima ha
brindado soluciones a problemas en donde los datos presentan alg
un ruido o que se tengan
datos faltantes a la hora de resolver dicho problema. A continuaci
on se describe de manera
general los puntos importantes de cada Captulo que esta conformada la tesis.
En el primer Captulo se revisan algunos puntos en la realizaci
on de pronosticos adem
as
de discutir las diferentes tecnicas que existen para llevarlo a cabo.
En el Captulo dos se revisa la teora de series de tiempo como son procesos estocasticos,
la definicion formal de series de tiempo, los principales modelos, los criterios utilizados para
el buen ajuste de estos y finalmente el pronostico.
Los modelos de redes neuronales, su estructura, las diferentes topologas y principalmente la revisi
on de las redes neuronales multicapa adem
as del algoritmo backpropagation
y sus diferentes variantes se estudian en el Captulo tres.
El pronostico para los datos utilizando los dos enfoques y la comparacion se realizan en
el Captulo cuatro.
Finalmente en el Captulo cinco se muestran las conclusiones obtenidas en este trabajo.
Como punto final, para el an
alisis de los datos se utiliz
o el software estadstico R project
[16] el cual se distribuye gratuitamente bajo los terminos de la GNU General Public Licence
vii
viii
INDICE GENERAL
Captulo 1
Preliminares
Toda institucion, empresa o el gobierno tienen que hacer planes para el futuro si desea
progresar o utilizar adecuadamente sus recursos financieros, para ello se requiere conocer el
comportamiento futuro de ciertos fenomenos con el fin de planificar o prevenir. Una planificaci
on exige prever los sucesos del futuro que probablemente vayan a ocurrir. La previsi
on
a su vez se suele basar en lo que ha ocurrido en el pasado. Una tecnica estadstica para
hacer inferencia sobre el futuro con base en lo que ha ocurrido en el pasado es el an
alisis de
series de tiempo, es decir, uno de los problemas que intenta resolver esta es la prediccion.
Existen muchas
areas de la ciencia en donde se presenta este problema, por ejemplo, la economa, fsica-qumica, electricidad, telecomunicaciones, etc. Como alternativa para resolver
este problema, sin argumentos puramente estadsticos, se encuentran las redes neuronales
artificiales. Son una nueva herramienta de computacion capaz de manejar imprecisiones e
incertidumbre, los cuales aparecen cuando se trata de resolver problemas relacionados con
el mundo real, ofreciendo soluciones robustas y de facil implementacion.
1.1.
Introducci
on a la predicci
on
La acci
on de predecir hechos o condiciones futuras se le denomina pronosticar , en otras
palabras, realizar un pron
ostico es obtener nocion acerca de hechos futuros. Por ejemplo:
En la producci
on de una empresa es necesario conocer la demanda de un artculo en
el siguiente periodo. Esta prediccion se realizan en periodos especficos y permiten a
la empresa realizar la planificacion de la producci
on, el mantenimiento del inventario
y adem
as de conocer la cantidad de materia prima que ser
an necesarios para poder
cubrir la demanda del artculo en el siguiente periodo.
En el control de procesos de una industria es importante el pronosticar el comportamiento que va a tener el proceso. Por ejemplo, un proceso industrial podra comenzar
a producir cantidades de productos defectuosos cuando el proceso opera en tiempo
extra. Si fuese posible predecir este comportamiento, entonces se podra realizar una
inspecci
on y el mantenimiento preventivo necesario de modo que el n
umero de productos defectuosos sean mnimos.
1
1.1. Introducci
on a la predicci
on
Con el objeto de realizar una prediccion confiable se debe de analizar los datos disponibles, esto para identificar alg
un patr
on que pueda utilizarse en la descripcion de los mismos.
El patr
on obtenido se extrapola, es decir, se amplia hacia el futuro y con esto obtener un
pronostico, aclarando que el patr
on identificado anteriormente no sufra alg
un cambio en el
futuro. Si el patr
on que se identifico sufre alg
un cambio, entonces la tecnica de prediccion
obtenida no generara un buen pronostico, sin embargo se puede realizar cambios apropiados
en el patr
on de modo tal que se evite la inexactitud en el pronostico.
1.1.1.
M
etodos de pron
osticos
Existen una gran gama de metodos para realizar pronosticos, los cuales podemos dividirlos en dos tipos b
asicos: los metodos cuantitativos y los metodos cualitativos.
Los m
etodos cualitativos requieren la opini
on de expertos para realizar una prediccion
de forma subjetiva y obtener as hechos futuros. Este tipo de metodo se utiliza cuando
los datos hist
oricos no est
an disponibles o no son lo suficiente para realizar el modelo de
prediccion. Por ejemplo, para pronosticar las ventas de un producto nuevo en el mercado
la compa
na debe de confiar en la opini
on de expertos para la construccion de un modelo
para la prediccion.
Ademas de proporcionar modelos para el pronostico, los metodos cualitativos son utilizados para describir el comportamiento de las variaciones del patr
on que fue utilizado para
el desarrollo del modelo.
Existen varias tecnicas cualitativas para realizar un pronostico, una de estas tecnicas
requiere un ajuste de curva subjetiva (Vease [2]). Por ejemplo, una empresa podra
estar interesada en el pronostico de las ventas de un artculo nuevo que sacar
a al mercado,
para esto la empresa recurre a la opini
on de sus expertos de ventas y mercadotecnia para la
construccion subjetiva de una curva S, la cual se construye al aplicar la experiencia que tiene
la empresa en la venta de otros artculos similares con la finalidad de realizar la prediccion
del crecimiento de las ventas y tambien del tiempo que durara este crecimiento y cuando
se estabilizar
an las ventas en el mercado.
Uno de los problemas que tiene este tipo de tecnica es el elegir la forma que tendra la
curva S incluyendo adem
as la gran dificultad de la construccion de la curva, as el experto
requerir
a de una gran experiencia y criterio en la elaboraci
on de la curva.
Otro metodo cualitativo bastante conocido para el pronostico es el m
etodo Delphi
(Vease [2]). Funciona de la siguiente manera, suponga que un equipo de expertos (reconocidos en el campo de interes) plantean predicciones relacionadas acerca de un hecho
especifico, haciendo el supuesto de que la combinaci
on del conocimiento de cada uno de
ellos generara una prediccion m
as fiable que la que nos brindara cada experto por separado. As mismo, se evita el problema que existira a la hora de obtener el pronostico de
todo el equipo, puesto que habra ideas que muchos de los expertos no estaran de acuerdo
y adem
as las discusiones estaran bajo un s
olo experto o un peque
no grupo de ellos. Por
1. Preliminares
este motivo se separa a cada experto y se obtiene el pronostico de cada uno de ellos, el
cual ser
a entregado a un coordinador que reorganizara los pronosticos y que posteriormente este nuevo pronostico sea revisado por cada experto. En lo anterior, cada uno de ellos
evaluar
a por separado este nuevo pronostico esperando que despues de varias rondas se
obtenga un buen pronostico. Delphi no trata de llegar a una unanimidad de los pronosticos
de cada uno de los expertos, por el contrario, permite realizar diferencias justificadas de las
opiniones de cada uno de ellos.
Una tercera tecnica cualitativa para hacer pronosticos es la que realiza una comparaci
on de t
ecnicas que son independientes del tiempo, esta tecnica junto con las que se
mencionaron anteriormente reciben el nombre de m
etodos de pron
osticos que requieren
una opini
on.
Por otra parte las t
ecnicas cuantitativas de predicci
on consisten en encontrar alg
un
patr
on en los datos disponibles para poder proyectarlo al futuro, es decir estos metodos
requieren de un an
alisis de la informaci
on para poder efectuar la prediccion de la variable
que sea de interes. Estos metodos son muy utilizados y se clasifican en dos tipos de modelos,
modelos univariados y modelos causales.
Los modelos univariables analizan los datos con el objeto de identificar alg
un patr
on,
suponiendo que dicho patr
on no se vea afectado en el transcurso del tiempo, se extrapola
para poder generar la prediccion. Por ejemplo, se puede usar un modelo univariable para
predecir las ventas que una compa
na espera tener al usar alguna estrategia de mercado. Sin
embargo, dicho modelo no podr
a predecir los cambios de las ventas esto por el resultado del
incremento del precio, gastos excesivos de publicidad o el cambio de la campa
na publicitaria,
entre otras causas que repercutan en el cambio del patr
on obtenido de los datos.
Los modelos causales requieren identificar variables que se relacionan con la variable
a predecir. Una vez que se hayan encontrado estas variables, se desarrolla un modelo estadstico que describir
a la relaci
on que existe entre estas variables con la variable que se
desea pronosticar. Como ejemplo, las ventas de un producto puede estar relacionado con
los gastos de publicidad, los precios de los competidores del mismo producto adem
as del
precio del producto que la compa
na esta ofreciendo en el mercado. En este caso, la variable
venta recibe el nombre de variable dependiente mientras que las dem
as variables reciben
el nombre de variables independientes.
En los negocios, los modelos causales ofrecen ventajas al momento de realizar alg
un
pronostico, ya que eval
ua el impacto que tendran sus estrategias de mercado en el mundo
financiero. Sin embargo, existen varias desventajas al aplicar este modelo, como son
Dificultad en el desarrollo.
Requieren de datos anteriores de cada variable que se incluya en el modelo.
Requieren de una gran habilidad por parte del experto para poder realizar el pronostico.
1.1. Introducci
on a la predicci
on
1.1.2.
Seleccionando una t
ecnica de pron
ostico
Antes de elegir una tecnica de pronostico, es necesario considerar los siguientes factores:
1. Periodo.
2. Patr
on de los datos.
3. Costo del pronostico.
4. Exactitud deseada.
5. Disponibilidad de informaci
on.
6. Facilidad de operar y entender.
La duracion del periodo contribuye en la eleccion de la tecnica de prediccion, donde este
se clasifica en:
Inmediato, el cual contemplan un plazo de menos de un mes.
Corto Plazo, que va desde un mes a tres meses.
Medio Plazo, transcurre m
as de tres meses a menos de dos a
nos.
Largo Plazo, este periodo va de dos a
nos o m
as.
Los costos llevados a cabo en la realizaci
on del pronostico son considerables (costos por
desarrollar el modelo y el costo de operaci
on del mismo), ya que algunos de los metodos de
pronosticos son muy sencillos de operar, sin embargo otros son complejos, as el grado de
complejidad puede tener una influencia definitiva en el costo total del pronostico.
Otro punto a considerar es la exactitud deseada en el pronostico. Este dependera del
ambito en donde se desea realizar el pronostico pues bien, un error de prediccion de hasta
un 20 % podra ser a veces aceptable pero otras veces un pron
ostico que tenga un error de
1 % podra ser no muy conveniente para diversas situaciones en los cuales la precision debe
ser casi exacta.
Por otra parte distintas tecnicas de pronosticos requieren diferentes cantidades de datos,
con ello no solo la disponibilidad de los datos es importante si no que tambien la exactitud
y la puntualidad de los datos con que se cuentan, puesto que si los datos son obsoletos o
inexactos originaran predicciones inexactas adem
as de esto se necesita alg
un procedimiento
para poder recabar los datos eficazmente.
Como u
ltimo punto el entendimiento del metodo que se esta aplicando es importante
ya que al no saber y comprender la tecnica que se desea aplicar, no se tendra confianza en
los resultados del modelo y por lo tanto estos resultados no se tendran en cuenta, como por
ejemplo la toma de decisiones de una empresa.
1. Preliminares
1.2.
Pron
osticos y series de tiempo
1.2. Pron
osticos y series de tiempo
1.2.1.
Al realizar alg
un pronostico, se considera tener un error en la prediccion. Recuerde que
la componente irregular de una serie de tiempo est
a representada por fluctuaciones inexplicables o impredecibles en los datos, por esto se espera alg
un error al realizar el pronostico
puesto que si la componente irregular es notable los pronosticos ser
an inexactos. Por el
contrario, si dicha componente no es notoria, la determinacion de las dem
as componentes
permitira un pronostico confiable.
Hay que destacar aqu, que no solamente la componente irregular brinda incertidumbre
al momento de realizar el pronostico, si no que tambien existe incertidumbre al momento
de predecir las dem
as componentes de la serie, motivo por el cual no se pueda realizar con
exactitud un pronostico en la pr
actica.
De lo anterior, se dice que con errores de prediccion muy grandes, la componente irregular
es tan grande que ninguna tecnica ser
a capaz de generar un pronostico exacto o que la tecnica
utilizada no es la adecuada para poder predecir la tendencia, la variaci
on estacional o el
componente cclico.
1. Preliminares
1.3. Pron
ostico y Redes Neuronales Artificiales
1.3.
Pron
ostico y Redes Neuronales Artificiales
1. Preliminares
10
1.3. Pron
ostico y Redes Neuronales Artificiales
Captulo 2
Series de tiempo
2.1.
Procesos Estoc
asticos
El proposito del an
alisis de una serie de tiempo es entender o modelar mecanismos
estoc
asticos que se dan lugar en una serie observada y adem
as, predecir o pronosticar
valores futuros de la serie bas
andose en la historia de esta y posiblemente otros factores
relacionados con la serie. Para poder estudiar de manera adecuada una serie de tiempo,
es necesario tener la noci
on acerca de lo que es un proceso estoc
astico, cuya definicion se
menciona a continuaci
on.
Definici
on 2.1.1. Un proceso estoc
astico es una familia de variables aleatorias
{Xt : t T } las cuales est
an asociadas a un conjunto de ndices T , com
unmente interpretado como el tiempo, de tal forma que a cada elemento del conjunto le corresponda
una y s
olo una variable aleatoria. Al conjunto de todos los posibles valores que la variable
aleatoria pueda tomar se le llama espacio de estados el cual se denota por S.
Si el conjunto de ndices que se est
a considerando es un intervalo ya sea cerrado o abierto,
se dir
a que el proceso estoc
astico es en tiempo continuo, por otro lado, si el conjunto de
ndices es un conjunto finito o infinito numerable el proceso ser
a llamado proceso estoc
astico
en tiempo discreto. Adem
as de la clasificaci
on que se ha dado anteriormente, existe otro
tipo de divisi
on en donde los procesos estocasticos se clasifican de acuerdo a la cardinalidad
del espacio de estados, as se tendran procesos estocasticos en tiempo continuos con espacio
de estado discreto o continuo y proceso estocastico en tiempo discreto con espacio de estado
discreto o continuo.
Una manera para poder describir a un proceso estocastico, es conociendo su distribucion de probabilidad conjunta, sin embargo, en la pr
actica suele ser muy complicado y hasta
imposible conocerse. Otra forma es conociendo los momentos del proceso, particularmente el primer y segundo momento, es decir, las medias y las varianzas de las variables
involucradas en el proceso estocastico. Por otra parte, la varianza no es lo suficiente para
poder especificar el segundo momento del proceso, motivo por el cual es necesario definir
funciones que ayuden a caracterizar ciertas propiedades del proceso. Estas funciones son la
funci
on media y la funci
on de autocorrelaci
on las cuales se definen a continuaci
on.
11
12
Definici
on 2.1.2. Sea {Xt : t T } un proceso estocastico.
1. La funci
on media se define como:
X (t) = E[Xt ] para t T.
2. Si para cada t T se tiene que Var(Xt ) < , entonces la funcion Funci
on autocovarianza , denotada por X (t, s) se define como:
X (t, s) = Cov(Xt , Xs )
= E[(Xt X (t))(Xs X (s))]
para t, s T.
3. La funci
on autocorrelaci
on, denotada por X (t, s), esta definida por:
X (t, s) = Corr(Xt , Xs ) para t, s T
Cov(Xt , Xs )
=p
Var(Xt ) Var(Xs )
X (t, s)
=p
.
X (t, t)X (s, s)
Para realizar inferencia estadstica acerca de un proceso estocastico, se deben de realizar
ciertas suposiciones acerca de la estructura o comportamiento del proceso, y una de las m
as
importante es la estacionalidad.
Definici
on 2.1.3. Un proceso estoc
astico es estrictamente estacionario si la distribucion de probabilidad conjunta de cualquier coleccion de variables {Xt1 , Xt2 , . . . , Xtk } es la
misma que de la colecci
on de variables con un desplazamiento h, {Xt1 +h , Xt2 +h , . . . , Xtk +h },
es decir
P {Xt1 x1 , . . . , Xtk xk } = P {Xt1 +h x1 , . . . , Xtk +h xk },
para cualquier k, t, todo n
umero x1 , . . . , xk y todo desplazamiento h Z.
Aunque en la pr
actica, suele definirse la estacionalidad de un proceso estocastico un
poco menos restringida.
Definici
on 2.1.4. Un proceso estoc
astico {Xt : t T } se dice que es d
ebilmente estacionario o de estacionalidad de segundo orden si
1. E[Xt ] = para todo t T .
13
2. Series de tiempo
2. X (t + h, t) es independiente de cualquier valor t para cada valor h.
De esta u
ltima definicion, se tiene que todo proceso que cumpla que su primer y segundo
momento no dependan del tiempo, se les llamar
an procesos estacionarios de segundo orden.
Si se tiene que el segundo momento central de un proceso estocastico estrictamente estacionario es finito, es decir, E[Xt2 ] < entonces dicho proceso es debilmente estacionario.
Un proceso estoc
astico importante es aquel en donde las variables aleatorias son independientes e identicamente distribuidas con media cero y varianza 2 , tal colecci
on de
variables aleatorias, {Xt : t T }, es conocido como ruido independiente e identicamente
distribuido, el cual estar
a denotado por Xt IID(0, 2 ). Dicho proceso tiene un papel importante para poder construir modelos que permitan describir series de tiempo. Por otra
parte, si adem
as se tiene que las variables no est
an correlacionadas entonces {Xt : t T }
es llamado ruido blanco que ser
a denotado mediante Xt WN(0, 2 ). A continuaci
on se
define lo que es una serie de tiempo.
Definici
on 2.1.5. Una serie de tiempo es una sucesion de observaciones generadas por
un proceso estoc
astico {Xt : t T } donde el conjunto de ndice T esta en funcion del
tiempo.
De esta forma, un modelo de serie de tiempo para un conjunto de datos observados {xt },
es la especificaci
on de la distribucion de probabilidad conjunta de una sucesion de variables
aleatorias Xt , para las cuales {xt } se toma como una realizaci
on del proceso.
2.2.
Modelo de tendencia
Un modelo en el an
alisis de series es el que hace el supuesto de que la componente de
variaci
on estacional esta ausente, es decir, la serie de tiempo tiene una estructura simple de
tendencia mt , el cual puede ser expresado de la siguiente manera:
Definici
on 2.2.1 (Modelo no estacional con tendencia).
Xt = mt + t ,
para t = 1, . . . , n,
donde E[t ] = 0.
Si E[t ] 6= 0 entonces se hace un reemplazo para mt y t mediante mt + E[t ] y t E[t ]
respectivamente. Es usual el suponer que mt = +t, el cual representa un modelo lineal de
tendencia,
y puede ser estimado mediante mnimos cuadrados, en donde se busca minimizar
P
2
(x
m
t
t) .
t
14
Modelo de estacionalidad
Otro modelo de serie de tiempo, es suponer que la tendencia no esta presente en la serie
y s
olo quede expresada mediante la componente de variaci
on estacional st .
Definici
on 2.2.2 (Modelo con variaci
on estacional sin tendencia).
Xt = st + t ,
para t = 1, . . . , n.
15
2. Series de tiempo
2.3.
Definici
on 2.3.1. Sea {Xt : t T } una serie de tiempo. Se dice que {Xt : t T } es
estrictamente estacionaria si
d
= X (h, 0).
16
Ademas, se puede observar que X (h, h) = X (0, 0), as se concluye que la funcion de
autocorrelaci
on queda como
X (h, 0)
.
X (r, s) =
X (0, 0)
Con el an
alisis anterior, se definen las funciones de autocorrelaci
on y autocovarianza
para series de tiempo estacionarias de la siguiente manera:
Definici
on 2.3.3. La funci
on autocovarianza (ACVF) de una serie de tiempo estacionaria {Xt : t T }, esta definida por:
X (h) = X (h, 0) = Cov(Xt+h , Xt ) ,
para todo t T.
X (h)
= Corr(Xt+h , Xt ) ,
X (0)
para todo t T.
Para la u
ltima propiedad se verifica al considerar que
17
2. Series de tiempo
Proposici
on 2.3.2. Sea {Xt : t T } una serie de tiempo estacionaria, entonces la funci
on
de autocorrelaci
on cumple lo siguiente:
1. La funci
on de autocorrelaci
on es una funci
on par.
2. |X ( )| 1.
3. La funci
on de autocorrelaci
on no es u
nica.
n. Estas propiedades son consecuencias inmediatas de las propiedades de la
Demostracio
funci
on de autocovarianza, s
olo recordando que la funci
on de autocorrelaci
on se define con
respecto a esta.
En la practica X (h) y X (h) son desconocidas y se deben estimar estos valores a
partir de los datos que se dispongan {x1 , x2 , . . . , xk }. Ademas, para evaluar el grado de
dependencia en los datos y poder seleccionar un modelo se requiere de una herramienta que
ayude a realizarlo y para esto se utiliza la funcion de autocorrelaci
on muestral.
Definici
on 2.3.4. Sea {xt }nt=1 observaciones de una serie de tiempo. La funcion de autocorrelaci
on muestral se define como
(h) = n
nh
X
t=1
(xt+h x
) ,
P
con (h) = (h) para h = 0, 1, . . . , n 1 y x
= n1 nt=1 xt el cual corresponde a la media
on de autocorrelaci
on muestral est
a definida como
muestral de {xt }nt=1 . La funci
(h) =
(h)
,
(0)
h < n.
Si se tiene la creencia de que los datos provienen de valores obtenidos de una serie de
tiempo estacionaria {Xt : t T }, entonces la funcion de autocorrelaci
on muestral brindar
a una estimaci
on de la funcion de autocorrelaci
on de {Xt : t T }. Esta estimaci
on
deber
a de sugerir cual ser
a el posible modelo de la serie para poder representar la dependencia en los datos.
2.4.
Eliminaci
on de las componentes
18
2.4. Eliminaci
on de las componentes
2.4.1.
Eliminaci
on mediante diferenciaci
on
Definici
on 2.4.1. Se define el operador de retraso mediante
BXt = Xt1 ,
el cual se extiende de manera natural en potencias; por ejemplo,
B 2 Xt = B(BXt )
= BXt1
= Xt2 ,
as sucesivamente. Entonces, para cualquier potencia k se tiene
B k Xt = Xtk .
Definici
on 2.4.2. El operador de diferencia de orden d se define mediante
d = (1 B)d ,
donde el operador se puede expander de manera algebraica para poder evaluar la potencia
d.
El objetivo de efectuar diferencias a la serie de tiempo es volverla estacionaria, sin embargo, al tratar una serie de tiempo que ya es estacionaria, esta seguira siendo estacionaria,
lo cual significara que la serie se esta sobrediferenciando y esto puede generar problema como el de no poder identificar el modelo que pueda representarla, el incremento de la varianza
(Vease [7]) y adem
as perder observaciones al tratar con este tipo de operadores, ya que al
aplicar dicho operador d veces, es decir d , se perderan autom
aticamente d observaciones
de la serie.
Si se tiene un modelo de tendencia, Xt = mt + t , donde mt = + t, al aplicar el
operador a la funci
on mt , entonces se tendra una funcion constante mt = . Si la
tendencia mt es una funci
on polinomial de grado k entonces es posible reducirlo a una
funcion constante aplicando sucesivamente este operador k veces, es decir k . Por ejemplo,
19
2. Series de tiempo
si se supone que mt =
obtendra
Pk
j=0 cj t
2.5.
2.5.1.
Modelos estoc
asticos usados en series de tiempo
Modelo de media m
ovil
Definici
on 2.5.1. La serie de tiempo {Xt : t T } es un proceso de media m
ovil de
orden q, denotado por MA(q), si
Xt = 0 Zt + 1 Zt1 + + q Ztq ,
(2.1)
2.5.2.
Modelos autorregresivos
Otro tipo de modelo que es usado habitualmente son los llamados modelos autorregresivos.
Definici
on 2.5.2. Una serie de tiempo {Xt : t T } es un proceso autorregresivo de
orden p, denotado por AR(p), si la serie puede ser escrita de la siguiente manera:
Xt = 1 Xt1 + + p Xtp + Zt ,
(2.2)
20
2.5.3.
Proceso Lineal
Las clases de modelos lineales de series de tiempo dan un panorama general en el estudio
de los procesos estacionarios. Todo proceso estacionario de segundo orden es un proceso
lineal o puede ser transformado a un proceso lineal, esto se realiza sustrayendo componentes
deterministas al proceso, a este procedimiento se le da el nombre de descomposici
on de Wold
(Vease [3]).
Definici
on 2.5.3. La serie de tiempo {Xt : t T } es un proceso lineal , si esta tiene la
siguiente representaci
on:
Xt =
j Ztj ,
(2.3)
j=
para todo t, P
donde {Zt } WN(0, 2 ) y adem
as {j } es una sucesion de constantes el cual
cumple que
|
|
<
.
j
j=
En terminos del operador de retraso B, (2.3) puede ser reescrita como
Xt = (B)Zt ,
(2.4)
j Ztj .
j=0
El operador (B) de (2.4) puede ser visto como un filtro lineal, el cual al ser aplicado a
la serie {Zt }, produce como salida la serie {Xt }. El siguiente resultado asegura que al aplicar
un filtro lineal a una serie que es estacionaria, la serie resultante sigue siendo estacionaria.
Proposici
on 2.5.1. Sea {YtP
: t T } una serie de tiempo estacionaria con media 0 y
funci
on de covarianza Y . Si
j= |j | < , entonces la serie de tiempo
Xt =
j Ytj = (B)Yt ,
j=
j= k=
j k Y (h + k j).
(2.5)
j=
j j+h 2 .
(2.6)
21
2. Series de tiempo
n. Como se tiene que E[Yt ] = 0 para t T , entonces
Demostracio
X
X
j Ytj =
j E[Ytj ] = 0,
E[Xt ] = E
j=
j=
adem
as
h
i
X (h) = E (Xt+h )(Xt )
= E[Xt+h Xt ]
X
= E
j Yt+hj
j=
=
=
j= k=
X
X
j= k=
k=
!
k Ytk
j k E[Yt+hj Ytk ]
j k Y (h j + k).
De esto u
ltimo, se tiene que {Xt : t T } es estacionario y con funcion de autocovarianza
(2.5). Ahora, si {Xt : t T } es un proceso lineal, se tiene que {Yt : t T } es una sucesion
de ruido blanco, as Y (h j + k) = 2 siempre que k = j h y 0 para cualquier otro caso,
esto por la no correlaci
on de la serie {Yt : t T }. As se concluye (2.6).
2.5.4.
Definici
on 2.5.4. Sea {Xt : t T } una serie de tiempo. Se dice que es un proceso
autorregresivo de promedios m
oviles, denotado por ARMA(p, q), si {Xt : t T } es
estacionario y para todo t se tiene que:
Xt 1 Xt1 p Xtp = Zt + 1 Zt1 + + q Ztq ,
(2.7)
(z) = 1 1 z q z q ,
(2.8)
22
adem
as B es el operador de retraso. Como caso particular se tiene que la serie {Xt : t T }
es un proceso AR(p) si (z) 1 y es un MA(q) si (z) 1.
Una condici
on para la existencia de una soluci
on para el proceso estacionario es que el
polinomio (z) = 1 1 z p z p sea distinto de cero para todo n
umero complejo z con
|z| = 1. Si (z) 6= 0 para todo z en el circulo unitario, entonces existe > 0 que cumple,
X
1
j z j ,
=
(z)
j=
P
y
on anterior como un
j= |j | < . Definiendo entonces la parte derecha de la ecuaci
filtro lineal cuyos coeficientes de los sumandos son positivos,
X
1
j B j ,
=
(B)
j=
1
en ambos lado de (2.8) se tiene entonces:
(B)
X
j Ztj ,
Xt = (B)(B)Xt = (B)(B)Zt = (B)Zt =
j=
j= j z
j.
Proposici
on 2.5.2 (Existencia y unicidad). Una soluci
on de (2.7) existe y adem
as ser
au
nica para la serie {Xt : t T } si y s
olo si,
(z) = 1 1 z p z p 6= 0,
Proposici
on 2.5.3 (Causal). Un proceso ARMA(p, q), {X
Pt: t T } es causal o una
funci
on causal de {Zt } si existen contantes {j } tal que j=0 |j | < y adem
as,
Xt =
X
j=0
j Ztj ,
para todo t T.
(2.9)
Una condici
on equivalente para que la serie sea causal es
1 1 z p z p 6= 0,
(2.10)
j z j =
j=0
(1 1 z p z p )(0 + 1 z + . . . ) = 1 + 1 z + + q z q .
(z)
, o
(z)
23
2. Series de tiempo
1 = 0
1 = 1 0 1
2 = 2 1 1 0 2
..
.
o equivalentemente,
j
p
X
k jk = j ,
con j = 0, 1 . . . ,
k=1
j Xtj ,
para todo t.
j=0
La condici
on de invertibilidad es equivalente a:
(z) = 1 1 z + + q z q 6= 0
q
X
k=1
k jk = j ,
para j = 0, 1, . . . ,
2.5.5.
Funci
on de Autocorrelaci
on parcial
Definici
on 2.5.5. La funci
on de autocorrelaci
on parcial (PARC) de un proceso
ARMA(p, q) {Xt : t T } esta dada por la funcion () la cual esta definida mediante
las siguientes ecuaciones
(0) = 1
(h) = hh , con h 1,
donde hh es la u
ltima componente correspondiente de
h = 1
h h ,
24
=1
(h) = hh con h 1,
donde hh es la u
ltima componente correspondiente de
1 h .
h =
h
La funci
on de autocorrelaci
on parcial mide la relaci
on que existe en las observaciones
hechas en la serie de tiempo separadas por un retraso de h unidades de tiempo eliminando
el efecto de las observaciones intermedias.
2.6.
Modelado y predicci
on de series de tiempo
Se considera el problema de predecir valores Xn+h , para h > 0 de una serie de tiempo estacionaria con media conocida y funcion de autocovarianza , en termino de los
valores {Xn , . . . , X1 } hasta el tiempo n. El objetivo es hallar una combinaci
on lineal de
1, Xn , Xn1 , . . . , X1 que prediga Xn+h con el mnimo error cuadratico medio. El mejor predictor lineal que depende de 1, Xn , Xn1 , . . . , X1 ser
a denotado mediante
Pn Xn+h = a0 + a1 Xn + an X1 ,
el cual queda determinado mediante los coeficientes a0 , a1 , . . . , an al buscar valores que
minimicen
S(a0 , . . . , an ) = E [Xn+h a0 a1 Xn an X1 ]2 .
Donde S es una funci
on cuadratica de a0 , a1 , . . . , an el cual esta acotado inferiormente
por cero. As existe un valor peque
no de (a0 , . . . , an ) que minimiza a S y adem
as satisface
que
S(a0 , . . . , an )
= 0,
aj
j = 0, . . . , n.
(2.11)
E Xn+h a0
E
"
n
X
ai Xn+1i = 0,
i=1
n
X
Xn+h a0
i=1
ai Xn+1i
Xn+1j = 0,
(2.12)
j = 1, . . . , n.
25
2. Series de tiempo
n an = n (h),
(2.14)
donde
an = (a1 , . . . , an )0 ,
n = [(i j)]ni,j=1 ,
y
0
n (h) = (h), (h + 1), . . . , (h + n 1) .
As,
Pn Xn+h = +
n
X
i=1
ai (Xn+1i ) ,
(2.15)
donde an satisface (2.14). De (2.15) el valor esperado del error de prediccion Xn+h Pn Xn+h
es cero, y el error cuadratico medio de la prediccion esta dado por:
ai (h
i=1
a0n n (h),
n
X
+ i 1) +
n
n X
X
i=1 j=1
ai (i j)aj
(2.16)
esta u
ltima ecuaci
on se sigue por (2.14).
Proposici
on 2.6.1. Sea {Xt : t T } una serie de tiempo estacionaria con media ,
sea Pn Xn+h el mejor predictor lineal definido como (2.12). Entonces Pn Xn+h satisface las
siguientes propiedades:
1. Pn Xn+h = +
n
X
i=1
26
n
X
= E[Xn+h ] +
= 0.
ai (Xn+1i )]
i=1
n
X
i=1
ai E[Xn+1i ]
Para el u
ltimo inciso, se tiene que:
"
"
Xn+h +
n
X
i=1
= E Xn+h Xj Xj
= E [Xn+h Xj ] 2
ai (Xn+1i ) Xj
n
X
i=1
n
X
i=1
ai (Xn+1i ) Xj
ai E[Xn+1i Xj ] 2
n
i X
ai E[(Xn+1i )(Xj )]
= E (Xn+h )(Xj )
i=1
= (n + h j)
n
X
i=1
ai (n + 1 j i).
n
X
i=1
ai (i j),
ai (n + 1 j) i = h 1 + (n + 1 j)
= (h + n j).
27
2. Series de tiempo
2.6.1.
Algoritmo Innovations
0,
si n = 1;
Pn1 Xn , si n = 2, 3, . . . ,
y
vn = E[Xn+1 Pn Xn+1 ]2 ,
donde Pn1 Xn se define como el mejor predictor lineal en terminos de 1, Xn1 , . . . , X1 .
Se define ahora el innovations, o el error de predicci
on de un paso como
n.
Un = Xn X
Con lo anterior, en termino de vectores se tendra que Un = (U1 , . . . , Un )0 y
Xn = (X1 , . . . , Xn )0 . Luego, la u
ltima ecuaci
on puede ser reescrita como
Un = An Xn .
(2.17)
donde
An =
1
a11
a22
..
.
0
1
a21
..
.
0
0
1
..
.
..
.
0
0
0
0
1
Cn =
1
11
22
..
.
0
1
21
..
.
0
0
1
..
.
..
.
0
0
0
0
1
(2.18)
28
n =Xn Un
X
=Cn Un Un
= (Cn In ) Un
n
= (Cn In ) Xn X
n ,
=n Xn X
donde,
n =
0
11
22
..
.
0
0
21
..
.
0
0
0
..
.
y Xn satisface tambien
(2.19)
..
.
0
0
0
0
0
n ).
Xn = Cn (Xn X
(2.20)
n+1
X
0,
si n = 0;
n
=
X
n+1j ), si n = 1, 2, . . . .
nj (Xn+1j X
(2.21)
j=1
1 , X
2 , . . . se puede calcular recursivamente una vez que se
Los predictores de un paso X
hayan obtenido los coeficientes ij los cuales se calculan de la siguiente manera.
Definici
on 2.6.1. Los coeficientes n1 , n2 , . . . , nn se calculan de manera recursiva por
medio de las siguientes ecuaciones:
v0 = (1, 1),
n,nk = vk1 (n + 1, k + 1)
vn = (n + 1, n + 1)
n1
X
k1
X
j=0
2
n,nj
vj .
j=0
k,kj n,nj vj ,
0 k n,
29
2. Series de tiempo
C
alculo recursivo de predictores en h-pasos
Para la prediccion en h-pasos se utiliza la siguiente igualdad (Vease [3])
Pn (Xn+k Pn+k1 Xn+k ) = 0,
k 1.
(2.22)
lo cual se sigue de
E[(Xn+k Pn+k1 Xn+k 0) Xn+j1 ] = 0,
j = 1, . . . , n.
(2.23)
n+h1
X
n+hj
= Pn
n+h1,j Xn+h1 X
j=1
n+h1
X
j=1
n+h1
X
j=h
n+hj ,
n+h1,j Xn+hj X
(2.24)
n+h1
X
j=h
2
n+h1,j
vn+hj1 .
(2.25)
30
2.6.2.
Para poder determinar un modelo apropiado ARMA(p, q) que pueda describir una serie
de tiempo observada involucra un conjunto de problemas relacionados entre s. Esto incluye
la eleccion de p y q (selecci
on de orden) adem
as de la estimaci
on de la media, los coeficientes
{i : i = 1, 2 . . . , p}, {i : i = 1, 2 . . . , q} incluyendo la varianza del ruido blanco 2 .
El algoritmo innovations provee un algoritmo recursivo para el pronostico de un proceso
con media cero el cual no necesariamente sea estacionario.
Para un proceso un proceso ARMA(p, q) causal {Xt : t T } con media cero definido
como
(B)Xt = (B)Zt ,
{Zt } WN(0, 2 ).
(2.26)
donde
m = m
ax(p, q).
(2.28)
(i, j) =
2
X (i j),
1 i, j m;
#
"
r=1
r r+|ij|,
r=0
0,
mn(i, j) > m;
otro caso.
(2.29)
31
2. Series de tiempo
n.
Demostracio
CASO I
Sea 1 i, j m, luego
(i, j) = E [Wi Wj ]
= E 1 Xi 1 Xj
= 2 E [Xi Xj ]
= 2 X (i j) .
CASO II
Suponga que mn(i, j) = i luego m
ax(i, j) = j entonces se sigue que:
E(Wi Wj ) = E 1 Xi 1 (B)Xj
= 2 E [Xi (B)Xj ]
= 2
=
E [Xi Xj ]
p
X
r E [Xi Xjr ]
r=1
p
X
X (i j)
r=1
r X (j k i) ,
CASO III
Supongase que mn(i, j) = i, luego i > m y se tiene
E[Wi Wj ] = E 1 (B)Xi 1 (B)Xj
= 2 E [(B)Xi (B)Xj ]
= 2 E [(B)Zi (B)Zj ]
= 2 E [(Zi + 1 Zi1 + + q Ziq ) (Zj + 1 Zj1 + + q Zjq )]
"
#
q
q
X
X
= 2 E Zi Zj +
k Zi Zjk + +
q k Ziq Zjk ,
k=1
k=1
32
puesto que {Zt } WN(0, 2 ), esto significa que {Zt } es no correlacionado es decir,
0, si i 6= j;
E[Zi Zj ] =
(2.30)
2 , si i = j.
Bajo el supuesto de que mn(i, j) = i entonces se tiene que i < j, luego existe h > 0 tal
que i + h = j y usando (2.30) se tiene entonces
E[Wi Wj ] = 2 h E[Zi Zjh ] 1 h+1 E[Zi1 Zjh+1 ] q h+q E[Ziq Zjh+q ]
= h 1 h+1 q h+q
q
X
r r+(ji) ,
r=0
n+1 =
W
n
X
n+1j , 1 n < m;
nj Wn+1j W
j=1
q
n+1j ,
n+1j
nj
j=1
(2.31)
n m,
n+1 ]2 se encuentran
donde los coeficientes nj y el error cuadratico medio rn = E[Wn+1 W
de forma recursiva por medio de dicho algoritmo.
Cabe destacar que la funci
on predictora (2.31) se hace cero por medio de nj donde
n m y j > q el cual es consecuencia de la forma en que se da la funcion (i, j), (proposici
on
2.6.2).
Se puede observar que en (2.27) cada Xn con n 1 puede ser escrito como una combinacion lineal de Wj con 1 j n y recprocamente cada Wn con n 1 puede escribirse como
una combinaci
on lineal de Xj para 1 j n, luego el mejor predictor lineal de cualquier
33
2. Series de tiempo
n+1 = Pn Xn+1 ,
X
respectivamente.
Usando lo anterior y (2.27), se observa que:
1
t = 1, 2, . . . , m;
Xt ,
Wt =
h
i
1 X
t 1 Xt1 p Xtp , t > m,
para todo t 1.
(2.32)
(2.33)
j ) mediante 1 (Xj X
j ) en (2.31) y haciendo
Realizando el reemplazo de (Wj W
despues la sustitucion en (2.32) se obtiene:
n+1 =
X
n
X
n+1j
n+1j ,
nj
j=1
1 n m;
q
X
+
X
+
n+1j
n+1j , n m.
nj
p n+1p
1 n
(2.34)
j=1
y adem
as,
i2
i2
h
h
n+1 = 2 E Wn+1 W
n+1 = 2 rn .
E Xn+1 X
(2.35)
2 , X
3 , . . . recursivamente para un
Con esto se determina la prediccion de un paso X
modelo ARMA(p, q) causal.
Predicci
on de procesos ARMA(p, q) en h-pasos
De (2.24) se tiene que
Pn Wn+h =
n+h1
X
j=h
= 1
n+hj
n+h1,j Wn+hj W
n+h1
X
j=h
n+hj .
n+h1,j Xn+hj X
34
Pn Xn+h =
n+h1
X
n+hj ,
X
n+h1,j
n+hj
j=h
1 h m n;
n+h1
X
X
P
X
+
X
i n n+hi
n+h1,j
n+hj
n+hj ,
i=1
h > m n.
j=h
(2.36)
p
X
i Pn Xn+hi +
i=1
q
X
j=h
n+hj .
n+h1,j Xn+hj X
(2.37)
1 , . . . , X
n han sido calculados de (2.34), es sencilla la
Una vez que los predictores X
obtenci
on (con n fijo) de los predictores Pn Xn+1 , Pn Xn+2 , Pn Xn+3 , . . . .
El error medio cuadratico de Pn Xn+h se calcula mediante (Vease [3])
n2 (h) = E[Xn+h Pn Xn+h ]2 =
h1
X
j=0
j
X
r n+hr1,jr
r=0
!2
vn+hj1
j =
k jk
(2.38)
k=1
2.6.3.
Estimaci
on por m
axima verosimilitud
Suponga que {Xt : t T } es una serie de tiempo gaussiana1 con media cero y funcion
n = (X
1 , . . . , X
n )0 ,
de autocovarianza (i, j) = E[Xi Xj ]. Sean Xn = (X1 , . . . , Xn )0 y X
1 = 0 y X
j = E[Xj |X1 , . . . , Xj1 ] = Pj1 Xj con j 2. Sea n la matriz de
donde X
covarianzas, esto es n = E[Xn X0n ] y suponiendo que la matriz n es no singular se tiene
que la verosimilitud de Xn esta dada mediante:
1 0 1
n/2
1/2
L(n ) = (2)
(det n )
exp Xn n Xn .
(2.39)
2
El calculo directo del det n y 1 puede evitarse expresando estos en terminos de los
j junto con sus varianzas vj1 para j = 1, . . . , n los
errores de prediccion de un paso Xj X
cuales se obtiene de manera recursiva mediante el algoritmo innovations.
1
35
2. Series de tiempo
Para esto, sea ij con j = 1, 2, . . . ; i = 1, 2, . . . los coeficientes que son obtenidos cuando
se aplica el algoritmo innovations a la funcion de autocovarianza a la serie {Xt : t
T } adem
as sea Cn la matriz triangular inferior de n n definida en (2.18). Entonces, se
tendra que:
n .
Xn = C n Xn X
Luego,
n = E Xn X0n
0
= E Cn Xn Xn Xn Xn Cn0
0
Cn0 .
= Cn E Xn Xn Xn Xn
1
Xn
(2.40)
n
2
X
1
Xj Xj .
vj1
j=1
Adem
as,
det n = det Cn Dn Cn0
(2.41)
36
L(n ) = p
(2)n v
1
0 v1 vn1
2
1 X Xj Xn
.
exp
vj1
(2.42)
j=1
L(, , 2 ) = p
1
(2 2 )n r0 r1 . . . rn1
2
j
n
X
X
j
1
exp 2
.
rj1
2
(2.43)
j=1
j y rj son
Al diferenciar ln L(, , 2 ) parcialmente respecto a 2 y observando que X
2
donde
,
2 = n1 S ,
(2.44)
j
n
X
Xj X
=
,
S ,
rj1
(2.45)
j=1
(2.46)
j=1
2 =
S ,
npq
37
2. Series de tiempo
2.7.
Diagn
ostico y verificaci
on
, y
2 de m
axima verosimilitud respecto a los par
ametros , y 2 respectivamente.
Se define los residuos mediante
t ,
Xt X
t =
W
1/2 ,
rt1 ,
t = 1, . . . , n ,
(2.47)
)
denota a los valores predichos de Xt basado en X1 , X2 , , Xt1 los cuales
t (,
donde X
son calculados al ajustar el modelo.
Si se asume que el modelo de m
axima verosimilitud ARMA(p, q) genera a
{Xt : t T }, entonces se tiene que {Wt } WN(0, 2 ). Sin embargo, para mostrar que
el modelo ARMA(p, q) sea el apropiado para los datos se asume que s
olo X1 , . . . , Xn son
t (, )
Xt X
(rt1 (, ))1/2
t = 1, . . . , n.
(2.48)
El residuo reescalado
r P Rt , t = 1, . . . , n se obtiene al dividir los residuos Wt , t = 1, . . . , n
n
2
t=1 Wt
del ruido blanco. Esto es
por el estimador
=
n
t = Wt .
R
(2.49)
38
{Rt , t = 1, . . . , n} deber
a asemejarse a una secuencia de ruido blanco con varianza uno. Si
t } para esta gr
bien es difcil el identificar la estructura de la correlaci
on de {R
afica, puesto
que la desviaci
on de la media en cero es a veces indicado por la componente de tendencia o
t
componente cclica y la varianza, la cual es no constante debido por la fluctuaciones en R
cuya magnitud depende de t.
La funci
on de autocorrelaci
on muestral de los residuales
Para n lo suficientemente grande se tiene que la funcion de autocorrelaci
on muestral de
una sucesion i. i. d., Y1 , . . . , Yn con varianza finita es aproximadamente i. i. d. cuya distribuci
on es N(0, 1/n). De esto se puede realizar una prueba de hip
otesis sobre los residuales
observados los cuales son consistentes con un ruido i. i. d., esto al examinar las autocorrelaciones muestrales de los residuos y rechazar la hip
otesis de ruido i. i. d. si mas de dos o tres
2.8.
Definici
on 2.8.1. Si d es un entero no negativo, entonces {Xt : t T } se dice que es un
proceso ARIMA(p, d, q) si
Yt := (1 B)d Xt
es un proceso ARMA(p, q) causal.
De la definicion anterior, se afirma que {Xt : t T } satisface la siguiente ecuaci
on de
diferencia
(B)Xt (B)(1 B)d Xt = (B)Zt , donde {Zt } WN(0, 2 ),
(2.50)
39
2. Series de tiempo
esto u
ltimo se tiene que los procesos ARIMA son usados para poder representar datos que
tengan alg
un tipo de tendencia, sin embargo, cabe destacar tambien que estos procesos son
apropiados para el modelado de series los cuales no tengan tendencia alguna, exceptuando el
caso cuando se tiene d = 0, en el cual la media de {Xt : t T } no es posible determinarla por
(2.50). Dado que d 1, (2.50) determina propiedades de segundo orden para {(1 B)d Xt }
pero no para Xt luego los estimadores , y 2 estar
an basados en las diferencias (1B)d Xt .
2.8.1.
Identificaci
on de t
ecnicas
f (Ut ) =
1
Ut 1 ,
ln Ut ,
Ut 0, > 0;
Ut > 0, = 0.
40
S(, )
AICC(, ) = 2 ln L , ,
n
2n(p + q + 1)
,
npq2
(2.51)
2.9.
2.9.1.
En esta parte se discutira el uso del operador diferencial en una serie no estacionaria cuya funcion de autocorrelaci
on muestral decae lentamente. El grado de diferenciaci
on de una
41
2. Series de tiempo
{Zt } WN(0, 2 ),
(2.52)
(2.53)
donde
0 = (1 1 );
1 = 1 1.
donde
c 1 )
SE(
=S
n
X
t=2
Xt1 X
2
!1/2
2
Xt 0 1 Xt1
S2 =
,
n3
t=2
n
X
1
,
c
SE
1
(2.54)
otesis nula
bajo el supuesto de races unitarias 1 = 0, por la que una prueba de la hip
H0 : 1 = 1 puede ser construida.
42
El procedimiento anterior puede ser extendida para el caso en donde {Xt : t T } sigue
un modelo AR(p) con media dado por
Xt = 1 (Xt1 ) + + p (Xtp ) + Zt ,
{Zt } WN(0, 2 ).
0 = (1 1 p ),
1 =
p
X
i=1
i 1,
j =
p
X
(2.55)
i , j = 2, . . . , p .
i=j
1
,
c
SE
1
(2.56)
c es el error est
donde SE
andar estimado de 1 que tiene la misma distribucion lmite
1
como el estadstico de prueba en (2.54).
2.9.2.
{Zt } WN(0, 2 ).
Xt = c0 + c1 t + + ck tk + Wt
donde {Vt } y {Wt } son procesos ARMA invertibles. Para el modelo de la serie diferenciada
{k Xt } no tiene races unitarias de promedios m
oviles, mientras que el segundo modelos
43
2. Series de tiempo
{k Xt }, tiene m
ultiples races de promedios m
oviles de orden k. As, se puede distinguir
entre dos modelos observando los valores de {k Xt } para detectar la presencia de races
unitarias de promedios m
oviles.
Como primer caso, se estudiara el modelo MA(1), puesto que el caso general es mucho
m
as complicado y no es facil de resolver. Sea X1 , . . . , Xn observaciones del modelo MA(1)
Xt = Zt + Zt1 ,
{Zt } IID(0, 2 ).
2.9.3.
Predicci
on para modelos ARIMA
t
X
Yj .
j=1
Se tiene que {Xt : t T } es una proceso ARIMA(p, 1, q) con media E(Xt ) = E(X0 )
y funci
on de autocovarianza E(Xt+h Xt ) E(X0 )2 el cual s
olo depende de Var(X0 ) y de
Cov(X0 , Yj ) para j = 1, 2, . . . .
En efecto, se tiene que para cada t = 1, 2, . . . se observa que,
Yt = (1 B)Xt .
Puesto que {Yt : t T } es un proceso ARMA(p, q), se tiene que
(B)Yt = (B)Zt ,
as, al sustituir el valor de Yt en terminos de Xt , se obtiene que
(B)(1 B)Xt = (B)Zt ,
por definicion, se tiene que {Xt , t 0} es un proceso ARIMA(p, 1, q). Ademas,
44
E[Xt ] = E X0 +
= E[X0 ] +
t
X
j=1
t
X
Yt
E[Yt ]
j=1
= E[X0 ],
la u
ltima igualdad se da, puesto que se tiene que {Yt : t T } es un proceso causal. Por otra
parte, para el c
alculo de la funci
on de autocovarianza se tiene:
h
i
Cov(Xt+h , Xt ) = E (Xt+h E[Xt+h ]) (Xt E[Xt ])
h
i
= E (Xt+h E[X0 ]) (Xt E[X0 ])
= E[Xt+h Xt ] (E[X0 ])2
= X (h).
= Xn + Pn Yn+1 .
Para el caso general, se asumira que el proceso observado {Xt : t T } satisface la
ecuaci
on de diferencia
(1 B)d Xt = Yt ,
t = 1, 2, . . . ,
d
X
d
j=1
(1)j Xtj ,
t = 1, 2 . . . .
(2.57)
45
2. Series de tiempo
d
X
d
j=1
(1)j Pn Xn+hj .
(2.58)
n 1,
as de (2.37) si n > m = m
ax(p, q) y h 1, se obtiene que,
Pn Yn+h =
p
X
i Pn Yn+hi +
i=1
q
X
j=h
n+hj .
n+h1,j Xn+hj X
(2.59)
p+d
X
j Pn Xn+hj
j=1
q
X
j=h
n+hj ,
n+h1,j Xn+hj X
(2.60)
la cual es an
aloga a la formula de prediccion en h pasos (2.37) para un proceso ARMA.
El error medio cuadratico para el predictor en h-pasos esta dado por:
h1
X
j=0
j
X
r=0
r n+hr1,jr
!2
vn+hj1 ,
done n0 = 1, adem
as
(z) =
X
r=0
1
,
r z r = 1 1 z p+d z p+d
(2.61)
46
2
2
n+hj = E Yn+hj Yn+hj .
vn+hj1 = E Xn+hj X
Los coeficientes j pueden ser hallados de manera recursiva mediante (2.38)con j reemplazado por j . Para n suficientemente grande, se puede aproximar (2.61), siempre y
cuando () sea invertible, mediante:
n2 (h)
h1
X
j2 2 ,
(2.62)
j=0
donde
(z) =
j z j = ( (z))1 (z).
j=0
2.9.4.
Funci
on predictora
h > q,
(2.63)
g(h) = a0 + a1 h + + ad hd1 + b1 ih + + bp ph ,
h > q p d,
(2.64)
47
2. Series de tiempo
2.10.
Definici
on 2.10.1. Si d y D son enteros no negativos, entonces {Xt : t T } es un proceso
ARIMA estacional (SARIMA) de orden (p, q, d) (P, D, Q) con periodo s, si la serie
diferenciada Yt = (1 B)d (1 B s )D Xt es un proceso ARMA causal definido por:
(B)(B s )Yt = (B)(B s )Zt ,
{Zt } WN(0, 2 ),
(2.65)
(2.66)
donde (), () son polinomios de grado p+sP y q+sQ respectivamente, cuyos coeficientes
pueden ser expresados en terminos de 1 , . . . , p , 1 , . . . , P , 1 , . . . , q y 1 , . . . , Q . Bajo
la condici
on de que p < s y q < s las restricciones sobre los coeficientes de () y ()
pueden ser expresados como una relaci
on multiplicativa
is+j = is j ,
i = 1, 2, . . . ; j = 1, . . . , s 1
is+j
= is
j ,
i = 1, 2, . . . ; j = 1, . . . , s 1 .
48
0 = (0 , 0 , 0 , 0 ). La m
axima verosimilitud de es el valor que minimiza `(), y la m
axima
verosimilitud estimado de 2 esta dado por (2.44).
Un enfoque m
as directo para el modelado de series diferenciadas {Yt : t T } es simplemente ajustar a un subconjunto el modelo ARMA de la forma (2.66) sin hacer uso de los
multiplicadores que son de la forma () y () en (2.65).
2.10.1.
Proceso de predicci
on en el modelo SARIMA
d+Ds
X
aj Xn+hj
(2.67)
j=1
el cual es an
alogo a (2.58). Haciendo el supuesto de que las primeras d + Ds observaciones
XdDs+1 , . . . , X0 son no correlacionados con {Yt , t 1}, se puede determinar el mejor
predictor lineal Pn Xn+h de Xn+h basado en {1, XdDs+1 , . . . , Xn } aplicando Pn a cada
lado de (2.67) para obtener
Pn Xn+h = Pn Yn+h +
d+Ds
X
aj Pn Xn+hj ,
(2.68)
j=1
El primer termino del lado derecho coincide con el mejor predictor lineal del proceso
ARMA {Yt : t T } en terminos de {1, Y1 , . . . , Yn }. El predictor Pn Xn+h puede ser calculado
de forma recursiva para h = 1, 2, . . . de (2.68), si es que se cumple que Pn Xn+h = Xn+1j
para cada j 1.
Un argumento similar dado en (2.61) nos proporciona el error cuadratico medio
h1
X
j=0
j
X
r=0
r n+hr1,jr
!2
vn+hj1 ,
(2.69)
X
r=0
i1
h
r z r = (z)(z s )(1 z)d (1 z s )D
, |z| < 1.
(2.70)
49
2. Series de tiempo
h1
X
j2 2 ,
(2.71)
j=0
donde
(z) =
X
j=0
j z j =
(z)(z s )
, |z| < 1.
(z)(z s )(1 z)d (1 z s )D
50
Captulo 3
3.1.
52
red neuronal emplea interconecciones de manera masiva entre elementos simples de computo
llamados neuronas.
Definici
on 3.1.1. Una red neuronal es un procesador masivamente distribuido paralelo
compuesto de unidades simples de procesamiento los cuales tienen una propensi
on natural
para el almacenamiento de conocimiento y hacer disponible su uso.
La red neuronal se asemeja al cerebro en dos aspectos principales:
1. El conocimiento es adquirido por la red a traves de un proceso de aprendizaje.
2. Los fuerza de conexion entre las neuronas, llamado pesos sinapticos, son usados
para el almacenamiento del conocimiento adquirido.
Las neuronas est
an constituidas principalmente de tres partes, (ver Figura 3.1), dendritas, el cuerpo de la neurona y el ax
on. Las dendritas son el receptor de la neurona, son
ramificaciones de fibras nerviosas las cuales recibe las se
nales electricas de otras neuronas
y esta pasa a traves del cuerpo de la neurona que se encarga de la suma de estas se
nales
de entradas. El axon es una fibra larga cuyo objetivo es llevar la se
nal desde el cuerpo de
la neurona hacia otras neuronas mediante el contacto de las dendrita de estas. El punto de
contacto recibe el nombre de sinapsis.
3.2.
53
R
X
wkj pj
(3.1)
j=1
ak = f (uk + bk )
(3.2)
(3.3)
54
3.2.1.
Funci
on de transferencia
La funci
on de activaci
on o funci
on de transferencia f define la salida de la neurona en
terminos de la entrada neta nk . La eleccion de esta funcion dependera si satisface alguna
especificaci
on del problema que se desea resolver.
Existe una gran variedad de funciones de transferencia sin embargo, las siguientes funciones que se describen a continuaci
on son las m
as usadas.
1. Funci
on de transferencia lmite estricto (hard limit) o funci
on umbral . Establece
la salida de la neurona como 0 si el argumento es menor que 0 o 1 si su argumento es
mayor o igual a 0. Este tipo de funcion es utilizada para clasificar a la entrada de la
neurona en dos categoras diferentes.
f (nk ) =
0, si nk < 0;
1, si nk 1.
(3.4)
En la pr
actica, es aconsejable tener una funcion de transferencia el cual tome valor
de 1 o 1, en tal caso, la funci
on de transferencia hardlim se toma como una funcion
simetrica respecto al origen. De aqu que la funcion hardlims se define como la funcion
hardlim simetrica respecto al origen, es decir
f (nk ) =
1, si nk < 0;
1, si nk 1.
(3.5)
55
2. Funci
on lineal . La salida para esta funcion de transferencia ser
a igual a la entrada
neta.
f (nk ) = nk .
(3.6)
3. Funci
on sigmoidal . Este tipo de funcion es com
unmente usada en la construccion
de redes neuronales artificiales. Un ejemplo de la funcion sigmoidal es la funcion logsigmoidal el cual est
a definida mediante la expresi
on
f (nk ) =
1
.
1 + enk
(3.7)
3.2.2.
enk enk
.
enk + enk
(3.8)
Arquitectura de la red
56
57
3.2.3.
Regla de aprendizaje
(3.9)
58
3.3. Perceptr
on simple
3.3.
Perceptr
on simple
La primera red neuronal conocida, fue desarrollada en 1943 por Warren McCulloch y
Walter Pitts el cual consista en la suma de la se
nal de entrada que eran multiplicadas por
Estos
investigadores llegaron a afirmar que cualquier funcion aritmetica o logica podra ser
modelada por esta red. A diferencia de las redes biol
ogicas los par
ametros de su red tena
que ser dise
nado puesto que a
un no existian metodos de aprendizajes en ese tiempo.
En 1950 Frank Rosenblatt y otros investigadores desarrollaron una clase de red neuronal
llamado perceptr
on. Esta
red era muy similar a la red de McCulloch y Pitts sin embargo,
Rosenblatt haba introducido la regla de aprendizaje para el entrenamiento de esta y con
mostro que la regla
ello la red podra resolver problemas de reconocimiento de patrones. El
de aprendizaje, adem
as de ser simple y autom
atica, siempre converga a ciertos pesos de los
cuales podra dar soluci
on al problema, esto siempre y cuando existieran estos pesos que
pudieran resolver el problema.
Desafortunadamente, el modelo del perceptron tiene limitantes. Estas fueron publicadas
en el libro Perceptrons por Minsky y Seymour Papert. Ellos demostraron que la red era incapaz de solucionar ciertas problemas llamados problemas linealmente separables, los cuales
son conjuntos cuyo patrones son linealmente separable. Supongase dos conjuntos de puntos
A y B, entonces se dice que son linealmente separables en un espacio n-dimensional si
existen n + 1 P
n
umeros reales w1 , . . . , wn , de manera que para cada punto
Pn (x1 , . . . , xn ) A
n
satisface que i=1 wi xi y cada punto (x1 , . . . , xn ) B satisface i=1 wi xi < (Vease
Figura 3.6).
No fue que hasta en 1980 estas limitaciones fueron superadas con la implementacion de
mejoras en el perceptron. Algunas de estas mejoras fueron la inclusion de varias capas y de
las reglas de aprendizajes asociativos.
59
3.3.1.
El modelo del perceptron esta formada de una sola neurona y una o varias se
nales de
entrada. La funci
on de trasferencia o activacion consta de la funcion hardlim o funcion umbral. El modelo m
as simple consta de una sola se
nal de entrada el cual puede ser observado
en la Figura 3.7(a)
De acuerdo a (3.2), se tiene que la salida de este modelo esta dado por
1, si n 0;
a=
0, en otro caso.
(3.10)
Observe que los modelos que se ilustran en las Figuras 3.7(a) y 3.7(b), tienen una sola
se
nal de salida. Con esto una red de perceptron simple se puede clasificar la se
nal de entrada
en dos categoras, ya sea 1 o 0, (esto por la funcion de transferencia). Por otra parte, en
una red de perceptrones de una sola capa con m
ultiples neuronas, esta puede clasificar la
S
se
nal de entrada en 2 posibles categoras; en donde S es el n
umero de neuronas que tiene
la red.
Para el modelo mostrado en la Figura 3.7(c) el cual consta de una red neuronal de R
entradas y S neuronas (perceptrones) de una sola capa, se define la matriz de pesos W
asociado a la red neuronal mediante
W= .
(3.11)
..
..
.
.
.
.
wS,1 wS,2 wS,R
Adem
as se define el vector i w como el vector columna que esta compuesto de los elementos de la i-esima fila de la matriz W, es decir:
60
3.3. Perceptr
on simple
(a) Una se
nal de entrada
(b) Varias se
nales de entrada
iw
0
(3.12)
De esto u
ltimo, se tiene que i w consta de los pesos sin
apticos de la neurona i con las
correspondientes se
nales de entrada. Luego se tiene que W puede ser reescrito en terminos
de i w de la siguiente manera:
W=
1w
2w
Sw
0
(3.13)
(3.14)
61
p = p1 p2 pR
0
(3.15)
0
(3.16)
i = 1, 2, , S
(3.17)
Regla de aprendizaje
El perceptron es una red cuyo tipo de aprendizaje es supervisado. Su comportamiento
est
a definido por los pares de la forma
{p1 , t1 }, {p2 , t2 }, . . . , {pQ , tQ }
En la regla de aprendizaje se aplica el patr
on pq a la red el cual proporcionara una salida
que es comparada con el valor objetivo o esperado tq . Los valores de los pesos determinan el
funcionamiento de la red y estos valores se pueden fijar o adoptar con diferentes algoritmos
de entrenamiento.
El algoritmo m
as simple para el entrenamiento de una red tipo perceptron que consiste
de una sola neurona se resume en los siguientes pasos:
1. Se inicializa la matriz de pesos W y el valor de la ganancia b de forma aleatoria.
2. Se presenta el primer patr
on a la red junto con la salida objetivo en forma de pares
entrada/salida.
3. Se calcula la salida de la red mediante (3.14)
4. Cuando la red no retorna la salida correcta es necesario alterar el valor de los pesos
con el objetivo de que la salida que proporcione sea muy cercano al valor esperado.
Esto se logra sumando el vector p a la matriz de pesos W y de esta forma, despues de
un n
umero finito de pasos (n
umero de veces que el vector p es presentado a la red),
el vector W se aproxime asintoticamente al vector p.
El proceso de aprendizaje puede definirse en tres reglas las cuales cubren las combina
ciones de las salidas de la red, con sus correspondientes valores objetivos. Estas
reglas, junto
con la funci
on de transferencia hardlim, expresan lo siguiente:
62
3.3. Perceptr
on simple
nuevo
nuevo
= W
= W
anterior
anterior
(3.18)
(3.19)
(3.20)
(3.21)
As se deduce que
Si e = 1 entonces Wnuevo = Wanterior + p
Si e = 1 entonces Wnuevo = Wanterior p
Lo anterior, (3.18), (3.19) y (3.20) puede ser expresado mediante una sola ecuaci
on,
Wnuevo = Wanterior + ep.
(3.22)
(3.23)
nuevo
= i wanterior + ei p
3.4.
63
Perceptr
on multicapa
3.4.1.
Backpropagation
64
3.4. Perceptr
on multicapa
Estructura
Regiones de
decisi
on
2 Capas
Medio plano
limitado por
un
hiperplano
3 Capas
Regiones
cerradas o
convexas
4 Capas
Arbitraria
complejidad
limitada por
el n
umero de
neuronas
Problema de
la XOR
Clases con
regiones mezcladas
Formas de regiones
m
as generales
Tabla 3.1: Distintas formas de las regiones generadas por un perceptron multicapa.
se
nal de error para cada una de las salidas. Luego las salidas de error se propaga hacia
atr
as partiendo de la capa de salida hacia todas las neuronas de las capas ocultas que
contribuyeron directamente a la salida.
Las neuronas de la capa oculta s
olo reciben una fraccion de la se
nal total del error, esto
bas
andose en la contribucion relativa que haya aportado cada neurona a la salida original.
Lo anterior se repite capa por capa hasta que todas las neuronas de la red hayan recibido
una se
nal del error que describa la contribucion relativa al error que haya tenido. Basandose
en la se
nal del error percibida, se actualiza los pesos de conexion de cada neurona con el
objetivo de que la red converja hacia un estado que permita clasificar correctamente todos
los patrones de entrenamiento.
La importancia del desarrollo anterior consiste en que las neuronas de las capas intermedias se organizan a medida de que la red es entrenada de tal modo que las neuronas
aprenden a reconocer distintas caractersticas del espacio total de entrada.
Al presentarle a la red, despues del entrenamiento, un patr
on de entrada arbitrario que
contenga ruido o que este incompleto, las neuronas de la capa oculta de la red responderan
con una salida activa si la entrada contiene un patr
on que se asemeje a aquella caracterstica
que las neuronas individuales hayan aprendido a reconocer durante su entrenamiento. Caso
contrario, las unidades de las capas ocultas tienen una tendencia a inhibir su salida si el
patr
on de entrada no contiene la caracterstica para ser reconocida.
65
66
3.4. Perceptr
on multicapa
la funci
on log-sigmoidal o tan-sigmoidal definida en (3.9) y (3.8), respectivamente.
2. La red cuenta con al menos una capa oculta de neuronas. Estas neuronas disponen a
la red de un aprendizaje m
as completo, esto mediante la extraccion de caractersticas
significativas de los patrones de entrada.
3. La red exhibe un alto grado de conectividad, esto mediante las sinapsis de la red. Un
cambio en la conectividad requiere un cambio en el n
umero de conexiones o de los
pesos sinapticos.
Algoritmo Backpropagation
Sea R S 1 S 2 S M una red con M capas. La salida de cada capa de la red pasa
a convertirse en se
nal de entrada para la capa superior inmediata. Luego, la ecuaci
on que
describe lo anterior est
a dado por:
am+1 = f m+1 (Wm+1 am + bm+1 ) para m = 0, 1, . . . , M 1.
(3.24)
(3.25)
(3.26)
a0 = p
am+1
f m+1 (Wm+1 am
bm+1 ),
a=
aM
(3.27)
para m = 0, 1, . . . , M 1
(3.28)
(3.29)
sm
M (nM )(t a)
sM = 2F
(3.30)
(3.31)
67
f m (nm
1 )
nm
0
m (nm ) =
F
..
...
f m (nm
2 )
m
n2
...
...
..
.
..
m
m
f (nS m )
nm
Sm
(3.32)
Wm (k + 1) = Wm (k) sm (am1 )0
bm (k
+ 1) =
bm (k)
sm
(3.33)
.
(3.34)
3.5.
Existen variantes del algoritmo backpropagation los cuales se dividen en dos categoras,
esto se ilustra en el Cuadro 1. En la primera involucra el desarrollo de tecnicas heursticas
que surgen de un estudio del desempe
no que tiene el algoritmo backpropagation. Este tipo
de tecnicas incluyen ideas tales como variaci
on del factor de aprendizaje y momentos.
Por otra parte, la segunda categora esta formada por tecnicas de optimizaci
on numerica,
los cuales son variaciones del metodo de Newton tales como el algoritmo del gradiente
conjugado y el algoritmo de Levenberg-Marquardt. A continuaci
on se describira de manera
general cada una de estas variantes.
68
Backpropagation
Heur
sticos
Momentos.
Gradiente conjugado
Optimizaci
o
n
num
e
rica
Levenberg-Marquardt
3.5.1.
Algoritmos heursticos
Momento
De manera general este primer metodo suaviza las oscilaciones que se tienen durante las
trayectorias en busca del error mnimo, esto mediante la aplicaci
on de filtros, tal como
y(k) = y(k 1) + (1 )w(k)
(3.35)
donde w(k) es la entrada del filtro, y(k) es la salida del filtro y es el coeficiente de
momento con 0 < 1.
Al incrementar el valor de , las oscilaciones de la salida del filtro se reduce, adem
as
la media del filtro de salida es la misma que la media del filtro de entrada, aunque al
incrementar , el filtro de salida tiene una respuesta muy lenta.
Se pueden reescribir (3.33) y (3.34) como:
Wm (k) = sm (am1 )0 ,
bm (k)
sm .
(3.36)
(3.37)
bm (k
1) (1
)sm
(3.38)
(3.39)
69
cada iteraci
on que se realice, es recomendable que el valor del factor incremente a medida
que disminuya el error de la red durante la fase del entrenamiento. Esto podra garantizar
una r
apida convergencia teniendo cuidado de no tomar valores que sean demasiado grande.
Existe varios diferentes enfoques de la variaci
on del factor de aprendizaje. Aqu se presenta un enfoque en donde la taza de aprendizaje varia de acuerdo al rendimiento del
algoritmo. Las reglas para el algoritmo backpropagation con taza de aprendizaje variable
esta dado por:
1. Si el error cuadratico incrementa en un porcentaje tpicamente entre 1 % y 5 %
despues de la actualizaci
on de los pesos, entonces dicha actualizaci
on se descarta y
el factor de aprendizaje es multiplicado por un factor 0 < < 1 y el coeficiente de
momento , si es utilizado, se fija en cero.
2. Si el error cuadratico decrece despues de actualizar los pesos, entonces dicha actualizaci
on es aceptada y el factor de aprendizaje es multiplicado por alg
un factor > 1.
Si ha sido previamente fijado a cero, este vuelve a tomar su valor original.
3. Si el error cuadratico incrementa en menos que entonces los pesos actualizados son
aceptados pero el factor de aprendizaje cambia. Si ha sido previamente fijado a cero,
este vuelve a tomar su valor original.
Estos
algoritmos son los dos enfoques heursticos m
as utilizados para modificar el algoritmo backpropagation. Estas modificaciones garantiza una r
apida convergencia para algunos
problemas sin embargo presentan dos problemas principales:
1. Requiere de un gran n
umero de par
ametros (, , ), los cuales son definidos por un
metodo de ensayo y error.
2. El algoritmo puede no converger.
3.5.2.
T
ecnicas de optimizaci
on num
erica
Gradiente conjugado
Este algoritmo no involucra el calculo de las segundas derivadas de las variables y converge al mnimo de la funci
on cuadratica en un n
umero finito de iteraciones. El algoritmo
consiste en lo siguiente:
1. Seleccionar como condici
on inicial, la direcci
on de p0 en el sentido negativo del gradiente
p0 = g0 ,
(3.40)
gk = F (x)|x=xk .
(3.41)
donde
70
(3.42)
(3.43)
donde
k =
T g
gk1
k
T p
gk1
k1
, o k =
T g
gk1
gkT gk
k
,
o
=
k
T
T
gk1 gk1
gk1 gk1
(3.44)
4. Si el algoritmo a
un no converge, regresar al paso 2.
Este
algoritmo no puede ser aplicado directamente a una red neuronal puesto que el
error no es una funci
on cuadratica. Esto afecta el algoritmo de dos maneras:
1. No es h
abil para minimizar la funcion a lo largo de una lnea.
2. El error mnimo no es alcanzado en un n
umero finito de pasos. Es por esto que el
algoritmo necesita ser inicializado despues de un n
umero determinado de iteraciones.
A pesar de las limitaciones anteriores este tipo de modificaci
on converge en pocas iteraciones e incluso para la resolucion de ciertos problemas es uno de los algoritmos m
as r
apidos
para redes multicapa (Vease [5]).
Algoritmo Levenberg-Marquardt
Este algoritmo es una variaci
on del metodo de Newton, el cual permite minimizar funciones que son sumas cuadraticas de funciones no lineales. Este algoritmo tiene un excelente
desempe
no en el entrenamiento de redes neuronales donde el rendimiento est
a determinado
por el error cuadratico medio.
El metodo de Newton para la optimizaci
on del rendimiento de F (x) esta dado por
xk+1 = xk A1
k gk ,
(3.45)
N
X
i=1
(3.46)
71
[F (x)]j =
X
vi (x)
F (x)
vi (x)
=2
xj
xj
(3.47)
i=1
(3.48)
donde
v1 (x)
x1
v2 (x)
x1
J(x) =
..
v (x)
v1 (x)
x2
...
v2 (x)
x2
...
..
.
vN (x)
x2
x1
...
es la matriz Jacobiana .
v1 (x)
xn
v2 (x)
xn
..
v (x)
(3.49)
xn
[2 F (x)]k,j =
X
2 F (x)
=2
xk xj
i=1
vi (x) vi (x)
2 vi (x)
+ vi (x)
xk xj
xk xj
(3.50)
(3.51)
donde
S(x) =
N
X
vi (x)2 vi (x)
(3.52)
i=1
(3.53)
1
0
= xk J (xk )J(xk ) + k I
J0 (xk )v(xk )
(3.54)
72
(3.55)
(3.56)
Si se hace la suposici
on de que la ocurrencia de cada objetivo tiene la misma probabilidad
entonces el error medio cuadratico es proporcional a la suma de los cuadrados de los errores
sobre el objetivo Q en el conjunto de entrenamiento, es decir
F (x) =
Q
X
(tq aq )0 (tq aq )
q=1
Q
X
e0q eq
q=1
N
X
Q X
S
X
(ej,q )2
(3.57)
q=1 j=1
(vi )2
i=1
donde ej,q es el j-esimo elemento del error de la q-esimo par entrada/objetivo y se observa
adem
as que (3.46) es equivalente al ndice de rendimiento (3.57).
El paso principal del algoritmo de Levenberg Marquardt es el calculo de la matriz
Jacobiana. Sin embargo, en el algoritmo backpropagation se calcula las derivadas de los
errores al cuadrado con respecto a los pesos y ganancias de la red. As, para el calculo de la
matriz Jacobiana se realiza el calculo de las derivadas de los errores en lugar de las derivadas
de los errores al cuadrado.
De lo anterior, sea el vector de error v0 definido como
v = v1 v2 . . . vN
(3.58)
73
(3.59)
donde N = Q S M y n = S 1 (R + 1) + S 2 (S 1 + 1) + + S M (S M 1 + 1).
Por tanto, al realizar la sustitucion en (3.49) la correspondiente matriz Jacobiana para
el entrenamiento de una red multicapa puede ser reescrito como
e
1,1
1
w1,1
e2,1
w1
1,1
.
..
J(x) =
e M
S ,1
1
w1,1
e1,2
w1
1,1
..
.
e1,1
1
w1,2
e1,1
wS1 1 ,R
e1,1
b11
e2,1
1
w1,2
e2,1
wS1 1 ,R
e2,1
b11
..
.
..
.
..
.
eS M ,1
1
w1,2
eS M ,1
wS1 1 ,R
eS M ,1
b11
e1,2
1
w1,2
e1,2
wS1 1 ,R
e1,2
b11
..
.
..
.
..
.
(3.60)
Observe que cada elemento del Jacobiano, puede ser calculado de la siguiente manera
[J]h,l =
ek,q
vh
=
xl
xl
(3.61)
m
m
wi,j
nm
w
i
i,j
(3.62)
donde el primer termino del lado derecho corresponde a la sensibilidad de la red, es decir
sm
i
F
nm
i
(3.63)
74
sm
t,h
ek,q
vh
=
,
m
ni,q
nm
i,q
(3.64)
donde h = (q 1)S M + k.
As, los elementos del Jacobiano puede ser calculado mediante
ek,q
vh
=
m
xi
wi,j
nm
ek,q
i,q
=
i,h am1
j,q
m =s
nm
w
i,q
i,j
[J]h,i =
(3.65)
m1
= sm
i,h aj,q ,
i,h
m =s
m
nm
b
b
i,q
i
i
[J]h,i =
(3.66)
= sm
i,h .
Para la sensibilidad Marquardt de la u
ltima capa se tiene
sM
i,h =
=
aM
q
ek,q
vh
=
M
ni,q
nM
i,q
(tk,q aM
k,q )
aM
k,q
nM
nM
i,q
i,q
M (nM ), para i = k;
f
i,q
0,
(3.67)
para i 6= k.
Por tanto, cuando la entrada pq haya sido aplicado a la red y la correspondiente salida
haya sido calculada, el algoritmo backpropagation Levenberg Marquardt es inicializado
con
q = F M (nM ),
S
q
(3.68)
.
m = F
m (nm )(Wm+1 )0 Sm+1
S
q
q
q
75
(3.69)
As, la sensibilidad total Marquardt para cada capa puede entonces ser creada por medio
de la matriz aumentada calculada por cada entrada:
m m
m = S
|S
| |S
m
S
1
2
Q
(3.70)
Para cada nueva entrada que es presentada a la red, los vectores de sensibilidad son
propagados hacia atr
as, esto debido a que se ha calculado cada error en forma individual
en lugar de derivar la suma al cuadrado de los errores. Luego, para cada entrada aplicada
a la red habra S M errores, uno por cada elemento de salida de la red y por cada error
generara una fila de la matriz Jacobiana.
Las iteraciones del algoritmo backpropagation Levenberg Marquardt se resumen en los
siguientes pasos
1. Presentar todas las entradas a la red y calcular las correspondientes salidas de la red
(por medio de (3.27) y (3.28)), adem
as de los errores eq = tq aM
q . Calcular la suma
de los cuadrados de todas las entradas, F (x), esto u
ltimo mediante (3.57).
2. Calcular la matriz Jacobiana (3.60) adem
as de las sensibilidades con la relaci
on de recurrencia (3.69), despues inicializar con (3.68). Calcular (3.70) y calcular los elementos
de la matriz Jacobiana mediante (3.65) y (3.66).
3. Resolver (3.55) para obtener xk .
4. Recalcular la suma de los cuadrados de los errores usando xk + xk . Si esta suma es
peque
na en comparacion con la calculada en el paso 1, entonces dividir por y se
toma xk+1 = xk + xk y regresar al paso 1. Si la suma no se reduce multiplicar por
y regresar al paso 3.
En este trabajo se centrar
a en utilizar este u
ltimo algoritmo puesto que presenta una
convergencia mucho m
as r
apida que los dem
as algoritmos presentados anteriormente. En
el siguiente captulo se realiza los correspondientes an
alisis de los datos que se disponen y
posteriormente el pronostico utilizando los enfoques previamente revisados.
76
Captulo 4
Aplicaci
on
La electricidad constituye una de las principales fuentes energeticas con las que cuenta
la humanidad. Su empleo abarca un amplio abanico de actividades que se extiende desde
los usos exclusivamente industriales, hasta el consumo domestico de las familias.
En el mercado electrico se ha tenido la preocupaci
on de conocer con exactitud el consumo previsible en un tiempo relativamente corto, esto con el fin de ofertar precios que se
adapten en lo posible a estas demandas y poder planificar las producciones de los centros
de distribuci
on. Por tanto, el objetivo principal de los mercados es mejorar la calidad de los
servicios y esto depende de la capacidad que tiene la empresa de proveer y distribuir este
servicio.
Durante las decadas de los 50s y 60s las tecnicas m
as usadas para realizar prediccion
eran las tecnicas de predicci
on simples tales como la extrapolacion. Esto debido a la estabilidad de los precios y de que la tendencia demografica era predecible en muchas
areas
geogr
aficas. Sin embargo, dicha prediccion no ha sido lo suficientemente buena en la actualidad y se han realizado investigaciones para poder realizar predicciones aceptables. Tal es
el caso de los metodos estadsticos y el enfoque de las redes neuronales artificiales, los cuales
se han estudiado en los captulos anteriores.
4.1.
Datos
78
14
16
18
MW
20
22
24
4.2. Pron
ostico con series de tiempo
1996
1998
2000
2002
2004
2006
Tiempo
4.2.
Pron
ostico con series de tiempo
79
0.6
0.2 0.2
ACF
1.0
4. Aplicaci
on
0.0
0.5
1.0
1.5
0.6
0.2
0.2
Partial ACF
Lag
0.5
1.0
1.5
Lag
0
4
MW
1996
1998
2000
2002
2004
2006
Tiempo
80
0.4
0.2
ACF
0.8
4.2. Pron
ostico con series de tiempo
0.0
0.5
1.0
1.5
0.4 0.8
0.2
Partial ACF
Lag
0.5
1.0
1.5
Lag
Varianza
Estimada
1.48
1.38
1.46
1.48
1.52
1.58
1.48
1.48
1.48
1.61
LogVerosimilitud
221.21
218.52
220.71
221.21
223.24
225.69
221.44
221.48
221.45
226.83
Criterio
AICC
452.88
451.91
454.07
452.87
452.65
455.46
451.19
449.13
451.20
457.76
= 0.84
81
4. Aplicaci
on
as, el modelo ARIMA(1, 1, 1) estimado puede ser reescrito como:
Xt = 1.5415Xt1 0.5415Xt2 + Zt + 0.8387Zt1 ,
(4.1)
0.4
0.2
0.0
0.2
ACF
0.6
0.8
1.0
Para la validaci
on de este modelo se realiz
o un an
alisis de los residuales utilizando la
funci
on de autocorrelaci
on muestral de este. De acuerdo con la secci
on 2.7 en la p
agina 37
permite rechazar el modelo siempre y cuando m
as de dos o tres de cada 40 quedan fuera
de los lmites de la banda de confianza o si por lo menos uno est
a muy por fuera de estos
lmites. En la Figura 4.5 se ilustra la ACF muestral de los residuales, y como se observa,
los 40 valores caen dentro de la banda de confianza.
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Lag
82
24
4.3. Pron
ostico con redes neuronales
18
14
16
SE2.T2
20
22
Observado
Ajustado
1996
1998
2000
2002
2004
2006
Time
Valor Real
Pronostico
2006.7
2006.8
2006.9
2006.10
2006.11
2006.12
20.40
21.48
22.32
23.04
22.56
23.16
20.68
20.89
21.01
21.07
21.11
21.13
Error
absoluto
0.28
0.59
1.31
1.97
1.45
2.03
4.3.
Pron
ostico con redes neuronales
83
24
4. Aplicaci
on
18
20
MW
22
Ls
Predicho
Li
Meses
23
24
22
21
20
MW
Datos Reales
Prediccion
Tiempo
84
4.3. Pron
ostico con redes neuronales
Valor de la demanda
.
Demanda m
axima
Funciones de
transferencias
Tangente
sigmoidal
Funci
on lineal
Performance
N
umero de
iteraciones
Factor de
aprendizaje
0.003
500
0.2
85
4. Aplicaci
on
Grafica
26
Ajustado
Observado
24
22
20
18
16
14
12
20
40
60
80
100
120
140
22.5
22
21.5
21
20.5
20
10
11
12
86
4.4. Comparaci
on
Best Training Performance is NaN at epoch 500
0
10
Train
Best
Goal
1
10
10
10
10
10
50
100
150
200
250
300
500 Epochs
350
400
450
500
Funciones de
transferencias
Tangente
sigmoidal
Tangente
sigmoidal
Funcion lineal
Performance
N
umero de
iteraciones
Factor de
aprendizaje
9.91 105
0.2
Dato Real
Pronosticado
2006.7
2006.8
2006.9
2006.10
2006.11
2006.12
20.40
21.48
22.32
23.04
22.56
23.16
20.21
21.62
22.26
22.22
21.60
20.81
Error
absoluto
0.19
0.14
0.06
0.82
0.96
2.35
4.4.
Comparaci
on
Una vez que se han obtenido la prediccion de estos periodos mediante los dos modelos,
se realiza un peque
no an
alisis comparativo acerca de cada uno de estos.
87
4. Aplicaci
on
Best Training Performance is NaN at epoch 1
3
10
Train
Best
Goal
10
10
0.1
0.2
0.3
0.4
0.5
1 Epochs
0.6
0.7
0.8
0.9
22
20
18
16
14
12
20
40
60
80
100
120
140
88
4.4. Comparaci
on
Grafica
23.5
Pronstico
Dato Real
23
22.5
22
21.5
21
20.5
20
10
11
12
Figura 4.14: Comparacion entre el pronostico de la red contra los datos reales.
vez que se obtuvo esta serie, se sigui
o un conjunto de pasos los cuales proporcionaba, en
primer lugar, modelos que se ajustaran al modelo, en seguida la selecci
on de uno de ellos
mediante un criterio y finalmente se prosiguio la elaboraci
on del pronostico.
Por otra parte, la metodologa usada para la elaboraci
on de la red neuronal fue muy
distinta. Mientras que en la metodologa de series de tiempo en el seguimiento de los pasos
proporciona un modelo en especfico, en las redes neuronales no se tiene esto, puesto que en
primer lugar no se conoce de alguna manera que topologa es la adecuada para la resolucion
del problema. Se tuvieron de realizar diversos modelos y cada uno de ellos entrenarlos y
observar si la red proporcionaba datos que se ajustase a la serie o no.
Aunque el desarrollo del modelo de la red neuronal fue a prueba y error, los resultados
de prediccion que se obtuvieron fueron mucho mejor que los proporcionados por el modelo
de serie de tiempo. En la Figura 4.15 se muestra la comparativa gr
afica y se observa que la
curva dada por la red neuronal esta por arriba de la curva del modelo ARIMA(1, 1, 1), al
menos en los primeros cinco periodos.
89
4. Aplicaci
on
Periodo
Dato
Real
Pronostico
Serie de
tiempo
Pronosticado
Red neuronal
2006.7
2006.8
2006.9
2006.10
2006.11
2006.12
20.40
21.48
22.32
23.04
22.56
23.16
20.21
21.62
22.26
22.22
21.60
20.81
20.68
20.89
21.01
21.07
21.11
21.13
Error
absoluto
Serie de
tiempo
0.28
0.59
1.31
1.97
1.45
2.03
Error
absoluto
Red
neuronal
0.19
0.14
0.06
0.82
0.96
2.35
25
20
21
22
MW
23
24
Datos reales
Serie de tiempo
Red neuronal
Periodo
90
4.4. Comparaci
on
Captulo 5
Conclusiones
El objetivo de esta tesis fue el encontrar modelos de series de tiempo y de redes neuronales los cuales fueran capaz de pronosticar la demanda m
axima de energa electrica en un
periodo corto, adem
as de realizar una comparacion entre estos.
En el modelo de serie de tiempo antes de realizar el pronostico se aplic
o diferencia a la
serie para que resultara estacionaria y a partir de esta se procedi
o con el pronostico. Caso
contrario para el modelo de red neuronal se normalizaron los valores esperados de cada uno
de los patrones de entradas, esto debido a que los valores que proporcionaba cada red se
encontraban en el intervalo [1, 1].
Las predicciones que proporcion
o la red neuronal, en los cinco primeros meses, tuvieron
un error menor que los valores proporcionados por el modelo de serie de tiempo (Vease
Figura 4.15). Cabe destacar que conforme se va aumentando el periodo al cual se desea
pronosticar, el error absoluto de la prediccion usando series de tiempo incrementa, adem
as
de que existir
a un periodo en donde a partir de este, los valores que la serie proporcione
ser
an constantes.
En la red neuronal, no se conoce con exactitud el comportamiento que pueda tener la red
conforme se aumenta el n
umero de periodos que se desea pronosticar, pues como se observa
en la Figura 4.14, los periodos correspondientes a los meses de octubre a diciembre, tiene un
comportamiento parabolico, sin embargo este comportamiento podra no ser descrito por
los dem
as periodos que se desean predecir.
Al desarrollar el modelo de redes neuronales no existe previamente una estructura preliminar para poder resolver el problema que se plantea, pues bien solo se afirma de la
existencia de una estructura (al menos) el cual pueda dar respuestas adecuadas al problema.
Con lo anterior, al desarrollar las redes, se encontraron muchas estructuras de las cuales
se ajustaban muy bien a los datos, sin embargo los errores de prediccion estaban por encima
de los errores dados por el modelo de serie de tiempo.
El objetivo de esta tesis fue alcanzado y se concluye que las redes neuronales proporcionan buenas predicciones comparadas con las predicciones del modelo de serie de tiempo,
salvo que, como se comento anteriormente, se tuvo que buscar la estructura id
onea.
91
92
C
odigo
En este apartado se muestra el codigo generado para el desarrollo de la red neuronal
para el ajuste y el pronostico de los datos. Este codigo se ha dividido en tres partes: la
primera, construye la red junto con la estructura adecuada, posteriormente la visualizaci
on
del ajuste junto con la gr
afica original y por u
ltimo la comparativa gr
afica del pronostico
junto con los datos reales.
C
odigo 1 Construcci
on y entrenamiento de la red neuronal.
1
2
3
clear
clc
data=load (Datos.txt);%Obtencion de los datos
4
5
6
7
8
9
10
%Construcci
on del vector de entrada y de los valores esperados y normalizaci
on de los TARGET
P=(data(1:138,1:2));
T=(data(1:138,3));
T1=T;
maximo=max(data(1:144,3));
T=T/maximo;
11
12
%Definici
on de la estructura de la red
13
14
15
16
17
18
19
20
%Inicializaci
on de los pesos
21
22
23
24
25
26
27
net.IW{1,1}=load(PrimeraCapaWI.txt);
net.b{1}=load(PrimeraCapabI.txt);
net.LW{2,1}=load(SegundaCapaWI.txt);
net.b{2}=load(SegundaCapabI.txt);
net.LW{3,2}=load(TerceraCapaWI.txt);
net.b{3}=load(TerceraCapabI.txt);
28
29
[net,tr]=train(net,P,T);
93
94
C
odigo 2 Simulaci
on de la red neuronal.
1
x=1:138;
2
3
4
5
6
7
8
predicho=[];
predicho=cat(2,predicho,sim(net,P(:,1)));
for i=2:138
X=sim(net,P(:,i));
predicho=cat(2,predicho,X);
end
9
10
11
12
13
14
15
figure(1)
predicho=predicho*maximo;
plot(1:138,predicho,r, 1:138,T1,b, 1:138,predicho,r., 1:138,T1,b.,...
LineWidth,0.5, MarkerSize,10);
legend({Ajustado,Observado})
title(Grafica)
C
odigo 3 Comparativa gr
afica.
1
2
prueba=[2006 2006 2006 2006 2006 2006 2006 2006 2006 2006 2006 2006; 1 2 3 4 ...
5 6 7 8 9 10 11 12];
3
4
5
6
7
8
9
10
11
predicho1=[];
predicho1=cat(2,predicho1,sim(net,prueba(:,7)));
for i=8:12
X=sim(net,prueba(:,i));
predicho1=cat(2,predicho1,X);
end
12
13
14
15
16
17
18
19
20
predicho1=predicho1*maximo;
figure(2)
plot(7:12,predicho1,k, 7:12,dados,b, 7:12,predicho1,r., 7:12,dados,r.,...
LineWidth,0.5, MarkerSize,10);
legend({Pron
ostico,Dato Real},Location,NorthWest)
title(Grafica)
axis([6.5 12.5 20 23.5])
error=dados-predicho1
Pesos sin
apticos
En este apartado se muestran los pesos iniciales y finales que fueron utilizados y obtenidos en el aprendizaje de la red neuronal.
Primeramente se muestran las matrices o vectores iniciales de cada una de las capas
ocultas de la red, los cuales se ilustran en la Matriz 1, Matriz 2, Matriz 3. Las matrices que
fueron obtenidas despues del proceso de aprendizaje se ilustran en la Matriz 4, Matriz 5 y
Matriz 6.
1679.8
0.84
0.73
1293.2
0.65
1.34
0.22
469.7
0.49
2020.8
1.01 0.04
1699.9
0.85
1.53
1416.2
0.71
0.58
1827.0
0.91
0.32
1861.6
0.93
0.54
b1 =
W11 =
0.40
1864.5
0.93
1109.5
0.56 1.38
2032.6
1.01 0.76
2034.1
1.02
1.22
1483.9
0.74 0.51
2005.8
1.00 0.34
1560.1
0.78 0.13
919.7
0.46 0.31
Matriz 1: Pesos y ganancias correspondientes a la primera capa.
95
96
W 21
0.53
0.19
0.15
0.88
0.12
0.08
0.28
0.92
0.29
0.96
0.46
0.03
0.07
0.06
0.49
0.03
0.22
0.74
0.31
0.02
0.09
0.37
0.57
0.33
0.46
0.54
0.14
0.00
0.23
0.54
0.31
0.81
0.24
0.49
0.25
1.02
0.20
0.35
0.63
1.41
0.10
0.26
0.00
0.13
0.34
0.46
1.44
0.14
0.85
0.90
0.45
0.73
0.84
0.28
0.14
0.49
0.18
0.05
0.86
0.79
0.04
1.23
0.40
0.61
0.01
1.24
0.85
0.17
0.32
1.38
0.65
1.74
b2 =
1.62
1.44
1.13
0.50
0.38
0.36
0.57
1.20
0.67
0.78
1.10
1.80
0.65
0.17
0.62
0.21
0.28
0.83
0.26
0.97
0.44
0.88
0.63
0.13
0.88
0.13
1.13
1.03
0.67
0.33
0.04
1.15
0.07
0.30
1.46
0.03
0.92
0.22
1.35
0.08
0.37
1.16
0.79
0.25
0.92
0.69
0.09
0.77
0.47
0.23
1.02
0.85
0.87
0.56
0.88
0.55
0.90
0.80
0.46
0.24
0.43 0.52 0.90 0.32 0.05 0.79 0.65 0.80 0.51 0.77 0.44 0.43
b3 =
0.45
. Pesos sin
apticos
W32 =
W11
0.84
0.65
0.22
1.01
0.85
0.71
0.91
0.93
0.93
0.56
1.01
1.02
0.74
1.00
0.78
0.46
0.72
1.38
0.49
0.04
1.53
0.60
0.31
0.53
0.40
1.40
0.76
1.23
0.50
0.34
0.13
0.31
b1 =
1679.8
1293.2
469.7
2020.8
1699.9
1416.2
1827.0
1861.6
1864.5
1109.5
2032.6
2034.1
1483.9
2005.8
1560.1
919.7
98
W21
0.52
0.19
0.14
0.86
0.12
0.05
0.28
0.92
0.30
0.97
0.47
0.03
0.06
0.07
0.5
0.03
0.21
0.76
0.31
0.01
0.09
0.37
0.57
0.31
0.45
0.19 0.84 0.03
0.11 0.62 0.48
0.25 0.23
0.41
0.66 0.91 0.93 0.48
0.53
0.35 0.91
1.24
0.36
0.52
0.14 0.86 0.17 0.15
0.17
0.14 0.23
0.23
0.15
0.62 0.45 0.40
0.65
0.31
0.51
0.21 0.38
0.07 0.62 1.11
1.34
1.01
0
1.42
0.78
0.60
0.90
0.8
0.22
0.37 0.15 0.2 0.22
1.02
0.07
0.84
0.23 0.12
0.86
0.01
0.98
0.51
0.81
0.10
0.16 0.70 0.28 0.67
0.37 0.87
0.53
0.30
0.28
1.22 0.21
0.41
0.09 0.60
0.52 0.55
0.80 0.35
1.13
0.56
0.31
0.00
0.14 0.85
0.54
0.20 0.25 0.52 0.36
0.58 0.27 0.06
0.79
0.88
0.81
0.13 0.48
0.17 0.15
0.72 0.39
0.11
0.46 0.89
0.95 1.16
0.24 0.55
0.24
0.34 0.19 0.34
0.46 0.68
0.02 0.95
1.23
0.39
0.44
0.05 0.92 0.91
0.49
0.49 0.04
1.39
0.23
0.76
0.12 1.03
0.28 0.41
0.89
0.32
0.69
0.81
0.25 1.45
0.88 0.65 0.47
0.20
0.06 0.36 0.14
0.86
0.63
1.47 0.07 0.49
1.02 0.12
0.80
1.75 0.24 0.19
0.02
0.14
0.09 0.02 0.14 0.03 0.77
0.24
b2 =
1.63
1.42
1.12
0.51
0.38
0.36
0.57
1.20
0.67
0.78
1.10
1.80
. Pesos sin
apticos
W32 =
0.44 0.52 0.89 0.31 0.06 0.80 0.67 0.83 0.53 0.77 0.44 0.45
b3 =
0.43
99
100
Bibliografa
[1] Mutasem Khalil Sari Alsmadi, Khairuddin Bin Omar, and Shahrul Azman Noah. Back
propagation algorithm: The best algorithm among the multi-layer perceptron algorithm. International Journal of Computer Science and Network Security, 9(4):378383,
Abril 2009.
[2] Bruce L. Bowerman, Richard T. OConnell, and Anne B. Koehler. Pron
osticos, Series
de Tiempo y Regresi
on. Un Enfoque Aplicado. Cengage Learning, 2009.
[3] Peter J. Brockwell and Richard A. Davis. Introduction to Series and Forecasting.
Springer, 2002.
[4] Peter J. Brockwell and Richard A. Davis. Time Series: Theory and Methods. Statistics.
Springer, second edition, 2006.
[5] Maria Isabel Acosta Buitrago and Camilo Alfonso Zuluaga Mu
noz. Tutorial Sobre
Redes Neuronales Aplicada en Ingeniera Electrica y su implementaci
on en un sitio
Web. Universidad Tecnol
ogica de Pereira. Facultad de Ingenieria Electrica, 2000.
[6] Howard Demuth, Mark Beale, and Martin Hagan. Neuronal Network Toolbox 5. Users
Guide. The Math Works, 2007.
[7] Vctor M. Guerrero G. Modelos Estadsticos para Series de Tiempo Univariadas. Departamento de Matematicas, Centro de Investigaci
on y de Estudios Avanzados del IPN,
1987.
[8] Martin T. Hagan, Howard B. Demuth, and Mark Beale. Neural Network Design. PWS
Publishing Company, 1996.
102
BIBLIOGRAFIA
[11] Jose R. Hilera and Victor J. Martinez. Redes Neuronales Artificiales. Fundamentos,
Modelos y Aplicaciones. Alfaomega, 2000.
[12] T. Jayalakshmi and Dr. A. Santhakumaran. Improved gradient descent backpropagation neural networks for diagnoses of type ii diabetes mellitus. Global Journal of
Computer Science and Technology, 9(5):9497, Enero 2010.
[13] M. Asunci
on Gonzalez S. Williams G
omez L
opez Jose del C. Jimenez H. Demanda
de energa electrica: Un an
alisis usando series de tiempo. In Memorias de la Tercera
Semana Internacional de Estadstica y Probabilidad, 2010.
[14] Fidel Ernesto Hern
andez Montero and Wilfredo Falcon Urquiaga. Cancelaci
on de ruido
a traves de tecnicas neuronales. In IV Congresso Brasileiro de Redes Neurais, pages 16,
Sao Jose dos Campos, Brazil, Julio 1999. IV Brazilian Conference on neural networks.
[15] Robert H. Shumway and David S. Stoffer. Time Series Analysis and Its Applications
Whit R Examples. Springer, 2006.
[16] R Development Core Team. R: A language and environment for statistical computing,
2010.
[17] Iv
an Cruz Torres. Pron
ostico en el Mercado de Derivados utilizando Redes Neuronales y
Modelos ARIMA: una aplicaci
on al Cete de 91 das en el MexDer. PhD thesis, Facultad
de Contadura y Administracion. Universidad Nacional Autonoma de Mexico, 2007.