Vous êtes sur la page 1sur 76

UNIVERSIDAD NACIONAL DE

PIURA
ESCUELA DE POSTGRADO
SECCION DE CIENCIAS

PROGRAMA DE MAESTRIA EN CIENCIAS

“PREDICCION DE LA DEMANDA DE AGUA POTABLE PARA


LA CIUDAD DE PIURA, A CORTO PLAZO, BASADA EN
REDES NEURONALES”

TESIS
PARA OPTAR EL GRADO ACADEMICO DE MAGISTER EN
MATEMATICA APLICADA

LIC. LEMIN ABANTO CERNA

LIC. CELIA DOLORES SANCHEZ ARTEAGA

PIURA – PERU

AGOSTO - 2010

1
UNIVERSIDAD NACIONAL DE
PIURA
ESCUELA DE POSTGRADO
SECCION DE CIENCIAS

PROGRAMA DE MAESTRIA EN CIENCIAS

TESIS

“PREDICCION DE LA DEMANDA DE AGUA POTABLE PARA


LA CIUDAD DE PIURA, A CORTO PLAZO, BASADA EN
REDES NEURONALES”

LOS SUSCRITOS DECLARAMOS QUE EL PRESENTE TRABAJO DE


TESIS ES ORIGINAL, EN SU CONTENIDO Y FORMA

__________________________ _________________________

LIC. LEMIN ABANTO CERNA LIC. CELIA D SANCHEZ ARTEAGA

_____________________________________

M.Sc. FLAVIO GUTIERREZ SEGURA

2
UNIVERSIDAD NACIONAL DE
PIURA
ESCUELA DE POSTGRADO
SECCION DE CIENCIAS

PROGRAMA DE MAESTRIA EN CIENCIAS

“PREDICCION DE LA DEMANDA DE AGUA POTABLE PARA


LA CIUDAD DE PIURA, A CORTO PLAZO, BASADA EN
REDES NEURONALES”

APROBADA EN CONTENIDO Y ESTILO POR:

____________________________
Dr. CESAR HARO DIAZ
PRESIDENTE

___________________________________________
M. SC. JOSE DEL CARMEN SILVA MECHATO
SECRETARIO

_______________________________________
DR. ALEJANDRO IMAN ANCAJIMA
VOCAL

3
DEDICATORIA

"Para Alicia,
…por su apoyo incondicional”

"A mis hijos, Franco y Bruno


…los grandes sacrificados, por el tiempo que
dejé de
pasar con ellos y por su aliento constante para
realizar este trabajo”

4
DEDICATORIA

A Dios infinitas gracias


por permitirme culminar
con éxito esta etapa de
mi vida profesional.

A mi hijo Sergio Andrés


para que el presente trabajo
sea un estímulo en su vida.

A mi esposo Andres por


su apoyo incondicional
para lograr esta meta.

5
La búsqueda constante del conocimiento, conduce al descubrimiento de

nuevas herramientas, que ayudan al ser humano a solucionar problemas reales.

En este contexto, aparecen las redes neuronales inspiradas en los sistemas

biológicos para resolver diversos problemas, sobre todo aquellos en donde la

metodología tradicional tiene ciertas dificultades, como son aquellos sistemas

altamente no lineales.

Uno de estos problemas en donde estas herramientas están

demostrando gran desempeño, es la estimación de funciones, sobre todo para la

realización de pronósticos. La investigación tuvo como objetivo principal construir

una red neuronal, para pronosticar la demanda de agua en la ciudad de Piura,

utilizando para ello información histórica del consumo mensual de este elemento

durante los años 2007 al 2009.

La construcción y diseño de la red neuronal se hizo con ayuda del

programa matemático, MATLAB y de los programas estadísticos SPSS y

EVIEWS; estos últimos se utilizaron para el preprocesamiento de los datos, que

incluyó el análisis de la no estacionariedad de la serie y de su transformación a

serie estacionaria; requisito importante para incrementar la velocidad de

convergencia del algoritmo de entrenamiento de la red.

6
DEDICATORIA ..................................................................................................... 4
DEDICATORIA ..................................................................................................... 5
............................................................................................................... 6
.................................................................................................................... 7
INDICE DE TABLAS ............................................................................................ 8
........................................................................................... 9
................................................................................................ 10
....................................... 12
1.1 Problemática del agua en nuestro medio. ....................................... 12
1.2 Predicciones utilizando redes neuronales. ...................................... 14
1.3 Objetivos de la Investigación: ............................................................ 15
1.4 Importancia del estudio....................................................................... 15
1.5 Alcances y limitaciones ....................................................................... 17
1.6 Antecedentes. ...................................................................................... 19
CAPITULO II: MARCO TEORICO ................................................................... 22
2.1 Métodos tradicionales de predicción ................................................ 22
2.2 Métodos modernos de predicción ..................................................... 25
2.3 Inteligencia artificial (IA)...................................................................... 25
2.4 Redes neuronales................................................................................ 28
2.4.1 Neuronas Biológicas ................................................................ 28
2.4.2 Redes Neuronales Artificiales (RNA) .................................... 29
2.4.3 Arquitectura de las Redes Neuronales ................................. 31
2.4.4 Elementos de una Red Neuronal ........................................... 32
2.4.5 Forma de conexión (arquitectura) entre las redes .............. 39
2.4.6 Formas de Aprendizaje ............................................................ 42
2.4.7 Elección inicial de los pesos ................................................... 46
2.4.8 Entrenamiento de la red .......................................................... 46
2.4.9 Validación................................................................................... 47
2.4.10 Análisis de las series de tiempo utilizando una red neuronal
..................................................................................................... 49
CAPITULO III: METODOLOGIA ...................................................................... 51
3.1 Población y Muestra ............................................................................ 51
3.2 Diseño y Construcción de la Red Neuronal .................................... 51
3.2.1 Capas de entrada y salida....................................................... 51

7
3.2.2 Capas ocultas. Procesamiento ............................................... 52
3.2.3 Funciones de transferencia ..................................................... 52
3.2.4 Datos de entrenamiento .......................................................... 52
3.2.5 Normalización de datos ........................................................... 53
3.3 Datos de salida de la red .................................................................... 54
3.4 Proceso de Investigación ................................................................... 54
CAPITULO IV: DESCRIPCION DE RESULTADOS ..................................... 55
4.1 Evaluación del comportamiento de la serie de datos .................... 55
4.2 Evaluación del Autocorrelograma y Autocorrelograma parcial ..... 56
4.3 Análisis de la serie en primera diferencia ........................................ 60
4.4 Evaluación del Autocorrelograma y Autocorrelograma parcial de
las primeras diferencias ................................................................................ 60
4.5 Arquitectura de la red neuronal ......................................................... 64
4.6 Entrenamiento de la red nuronal ....................................................... 64
4.7 Pronóstico. ............................................................................................ 67
CAPITULO V: CONCLUSIONES Y RECOMENDACIONES ...................... 69
6.1. Conclusiones. ....................................................................................... 69
6.2. Recomendaciones ............................................................................... 69
REFERENCIAS BIBLIOGRAFICAS ................................................................ 70
ANEXO 1 ............................................................................................................. 73
ANEXO 2 ............................................................................................................. 75

INDICE DE TABLAS

Tabla 1 Población Total y Servida de Agua Potable de las localidades de EPS


Grau S.A. .................................................................................................... 20
Tabla 2 Autocorrelación y Autocorrelación parcial del consumo de agua (M3)
...................................................................................................................... 57
Tabla 3 Prueba de Dickey Fuller aumentada ....................................................... 59
Tabla 4 Volumen de consumo de agua (M3). Primera diferencia ..................... 61
Tabla 5 Prueba de Dickey Fuller aumentada ....................................................... 63
Tabla 6 Consumo de agua (en ) en la ciudad de Piura en el periodo 2007 y
2009 ............................................................................................................. 75
Tabla 7 Datos de las primeras diferencias, primeras diferencias rezagadas
uno y dos periodos. ................................................................................... 76

8
Figura 1 Areas de la inteligencia artificial ............................................................... 27
Figura 2 Neurona biológica ...................................................................................... 28
Figura 3 Red multicapa ............................................................................................. 31
Figura 4 Neurona ....................................................................................................... 32
Figura 5 Función de transferencia lineal ................................................................ 36
Figura 6 Función de transferencia signo ................................................................ 37
Figura 7 Función de transferencia escalón unitario .............................................. 37
Figura 8 Función de transferencia logística ........................................................... 38
Figura 9 Función de transferencia gausiana con: 10, 2 ........................ 39
Figura 10 (a) Red con tres capas con conexión hacia delante. (b) Red con
conexiones laterales. (c) Red con conexiones hacia atrás o recurrentes. ............ 41
Figura 11 Errores de prueba y entrenamiento como una función de las
épocas de entrenamiento ............................................................................................. 48
Figura 12 Volumen total de consumo de agua en Piura. Años 2007-2009
(Anexo2). .................................................................................................. 55
Figura 13 Estadísticos descriptivos del consumo de agua................................ 56
Figura 14 Autocorrelograma del consumo de agua en Piura, 2007-2009 ...... 58
Figura 15 Autocorrelograma parcial del consumo de agua en Piura, 2007-
2009 .......................................................................................................... 58
Figura 16 Gráfico del consumo de agua, en primeras diferencias ................... 60
Figura 17 Autocorrelograma del consumo de agua en primeras diferencias. 62
Figura 18 Autocorrelograma parcial del consumo de agua en primeras
diferencias. ............................................................................................... 62
Figura 19 Arquitectura de la red neuronal ............................................................ 64
Figura 20 Entrenamiento de la red ........................................................................ 65
Figura 21 Evaluación del rendimiento de la red. ................................................. 66
Figura 22 Grado de ajuste del modelo.................................................................. 67

9
En Piura, las deficiencias en la disponibilidad, suministro y calidad del

agua, se han acentuado en los últimos años y con mayor intensidad en los

meses de verano. Las razones son múltiples, así tenemos el efecto invernadero

generado por el deterioro de la capa de ozono, el crecimiento poblacional

caótico, la falta de información sobre el tema y las dificultades económicas que

enfrentan las autoridades locales. Estas dificultades se agravan debido a la mala

gestión de los recursos disponibles, siendo esto más evidente en empresas que

dependen de los gobiernos de turno, como lo es, la empresa del agua, en donde

hay un desequilibrio entre la oferta y la demanda de este elemento.

Es obvio que la oferta de este servicio, se sustenta en el conocimiento de

la demanda del mismo. Es indispensable entonces que la empresa encargada

del suministro de este elemento, cuente con un mecanismo adecuado, que le

permita conocer con bastante precisión cuál es la demanda de agua, en el corto,

mediano y largo plazo. Sin embargo, a pesar de los grandes progresos

tecnológicos en la informática, aún no estamos aprovechando adecuadamente

estos recursos. Esto es un reto, que requiere un mejor conocimiento de las

nuevas metodologías, en el campo de la elaboración de pronósticos.

10
Este trabajo, tiene un doble propósito; por un lado pretende llenar ese

vacío de conocimiento, proponiendo una nueva metodología para hacer

pronósticos, basada en las redes neuronales, y por otro lado, servir de base para

futuras investigaciones.

Las redes neuronales son programas de computadora que intentan

simular el comportamiento del cerebro humano, tratando de dar a éstos, cierta

capacidad de decisión e incluso un cierto grado de “inteligencia”.

La investigación aborda este tema, debido a que es una metodología

cuya utilidad ya está comprobada, y que sin embargo, muchas personas

desconocen y otras más, aun no las aceptan.

El objetivo de la investigación es construir una red neuronal artificial para

pronosticar la demanda de agua en la ciudad de Piura, a partir de datos

históricos del consumo de agua registrados por la empresa EPS GRAU S.A.

En el Capítulo I se describe la problemática del agua en nuestro medio,

las predicciones utilizando redes neuronales, los objetivos de la investigación, la

importancia del estudio, los alcances y limitaciones de la investigación y los

antecedentes. El Capitulo II, describe la teoría que sustenta la investigación,

incluyendo una revisión de los métodos modernos de predicción y una revisión

del concepto de Inteligencia Artificial y de manera particular de las Redes

Neuronales. El Capítulo III describe la metodología utilizada para el desarrollo de

la investigación. En el Capítulo IV, se presentan los resultados obtenidos en la

investigación. Finalmente en el Capitulo V, se detallan las conclusiones y

recomendaciones del presente trabajo.

11
1.1 Problemática del agua en nuestro medio.

El agua es un recurso que poco a poco se va volviendo más escaso,

sobre todo en lugares con grandes concentraciones de población, en donde no

existe un crecimiento planificado de la ciudad y menos aún de sus servicios

básicos indispensables. La provisión de agua dulce para el uso doméstico y

urbano en nuestra ciudad no ha seguido el ritmo de crecimiento económico y

demográfico y podemos observar diariamente el desabastecimiento de este vital

elemento en diferentes puntos de la ciudad. Entre los factores agravantes se

encuentra el mal manejo de este recurso, desperfectos en los equipos de

bombeo, disparidades estructurales entre la demanda y los recursos disponibles

y la falta de información sobre el tema y básicamente las dificultades

económicas. Estos factores han provocado un lento pero firme deterioro del

suministro de agua y los servicios asociados, junto al aumento consiguiente de

las enfermedades relacionadas a la carencia de este recurso.

Somos consientes también, de que el agua, por su disponibilidad, la cual

varía notoriamente a lo largo del año, con un marcado incremento en la

demanda en los meses de verano, no se puede usar sin control; su uso continuo

e indiscriminado, genera serios problemas de desabastecimiento. Esto implica

un análisis para adecuar el uso del agua a las disponibilidades existentes. Esta

debe ser una de las principales metas estratégicas en las políticas de

administración del agua en el largo plazo.

Esta problemática, no sólo es una preocupación local, sino que afecta a

toda la humanidad. Como consecuencia existe una renovada preocupación

mundial de la importancia que tiene el agua en el desarrollo económico, la

calidad de vida, la sustentabilidad del medio ambiente y la estabilidad política.

12
Según la FAO (Organización de las Naciones Unidas para la agricultura y

la alimentación) el agua será el recurso no renovable más estratégico del mundo,

será el petróleo del futuro y la humanidad pagará caro el no haber tenido

debidamente en cuenta las previsiones de oferta y demanda de bienes, en

función de la disponibilidad de agua y otros recursos naturales, especialmente

los no renovables.

En nuestra ciudad, casi la totalidad del agua de consumo proviene del

subsuelo, y presenta una serie de deficiencias, tanto en la calidad del agua así

como en la continuidad y presión del suministro, entre otros; pero también los

problemas están ligados a la deficiente gestión comercial, con grandes niveles

de pérdidas, sobrecostos laborales, entre otros (PROINVERSION, 2006). Según

datos estadísticos, la población de Piura atendida con agua en el año 2000

alcanzó el 46% y la servida con alcantarillado el 82%, porcentajes que no han

mejorado en los últimos años, y por el contrario se ha palpado un descenso en

relación a años precedentes1

Todos estos factores han contribuido a que, a comienzos del año 2001,

la empresa EPS GRAU S.A., proveedora de los servicios de agua en Piura,

fuera declarada en insolvencia por INDECOPI. Las autoridades al parecer han

comprendido la naturaleza del problema y han decidido promover la

Participación del Sector Privado como una alternativa de gestión para mejorar la

calidad de los servicios y actualmente ya se encuentra implementado el

Proyecto de Aguas Superficiales (PAS), el cual pretende solucionar los

problemas de agua y alcantarillado de alrededor de 400 mil pobladores de Piura

y Castilla. Con este proyecto, se pretende que la población cuente con el

servicio de agua, en forma fluida y permanente las 24 horas del día.

1
Documental Piura. Disponible en
http://www.documentalpiura.com/economia/economia_agua.htm.

13
Aunque el problema de desabastecimiento de agua ya se solucionó en

parte, la o las empresas encargadas de su gestión y distribución necesitan

contar con mecanismos adecuados (Pronósticos), que les permitan conocer cuál

es la demanda estimada de este elemento en el corto, mediano y largo plazo; es

decir necesitan herramientas que les permita conocer con algún nivel de

precisión, cuales son los volúmenes de consumo para los períodos

mencionados. Este conocimiento es crucial para elaborar planes de expansión

de la empresa y para tomar las previsiones del caso, con la finalidad de brindar

un servicio de óptima calidad.

1.2 Predicciones utilizando redes neuronales.

Los pronósticos son necesarios para la planificación de las operaciones

de las empresas, para detectar flujos de demanda insatisfecha y para analizar

las contingencias del sistema. La implementación óptima de una técnica de

predicción debe satisfacer ciertos requerimientos básicos. Las estimaciones

deben ser suficientemente precisas, sobre todo en los periodos críticos

(veranos). Los métodos de pronósticos existentes son múltiples, van desde los

más elementales, como por ejemplo los métodos tradicionales (métodos

cualitativos y cuantitativos), hasta los métodos más sofisticados de reciente

aplicación como los sistemas expertos, dentro de los cuáles, destacan las redes

neuronales. Los métodos de pronóstico cualitativo están basados en el juicio

personal, cuyas limitaciones saltan a la vista, mientras que los métodos

tradicionales cuantitativos están basados en el análisis clásico de las series de

tiempo o en la metodología de Box Jenkins, a través de los modelos ARIMA;

éstos últimos, además están basados en supuestos que muchas veces no se

cumplen, como por ejemplo el de linealidad de los parámetros del modelo o el de

que, las variables se encuentren relacionadas mediante alguna forma funcional

14
conocida. Una buena alternativa en estas situaciones y aún en aquellas en

donde si se cumplen los supuestos del modelo es la formulación y uso de las

redes neuronales artificiales (ANR).

1.3 Objetivos de la Investigación:

El objetivo de la presente investigación es diseñar y construir una red

neuronal que permita pronosticar la demanda de agua en la ciudad de Piura, a

partir de la demanda histórica del agua registrada por la empresa EPS GRAU

S.A e identificar los factores que dificultan su elaboración.

1.4 Importancia del estudio.

La elaboración de pronósticos es una actividad intrínseca a las

actividades de la empresa. El sector empresarial se ve cada vez más beneficiado

por este tipo de conocimientos, debido a que las expectativas sobre el futuro de

muchas variables, entre ellas la demanda y abastecimiento de sus productos,

generan impactos diversos que pueden tener consecuencias económicas

importantes. El futuro es en gran medida incierto, es por ello que la elaboración

de pronósticos requiere que se consideren posibles escenarios futuros,

exploración de rutas viables, e identificación de los riesgos y beneficios

asociados con diferentes resultados. Esto ha conducido, a un número cada vez

más creciente de investigadores interesados en elaborar pronósticos y a realizar

estudios a “futuro” (Schwartz, P. 1991). Los sistemas de planificación tradicional

dentro de las empresas, se inician con un proceso de pronóstico elemental, bien

sea elaborado con un simple crecimiento sobre resultados anteriores, o mediante

herramientas tecnológicas que permiten efectuar innumerables cálculos para

tratar de que el pronóstico sea lo más cercano a la realidad. Muchas de estas

herramientas son extremadamente costosas, y peor aún, son pocas las personas

15
que pueden efectuar un pronóstico seguro a partir de los resultados de las

mismas.

Los sistemas de pronóstico que mayormente utilizan las empresas en

nuestro medio son de tipo cualitativo y cuantitativo; los primeros están

relacionados con la experiencia personal y últimos con los métodos tradicionales,

los cuales están basados en algún modelo específico, como los modelos de

regresión y cuya aplicación requiere que se cumplan determinados supuestos.

Con ambos sistemas de pronósticos, existe una amplia variedad de

procedimientos, pero es importante comprender que “ninguno es universalmente

aplicable” (Chatfield, 1995, p.66). Es el analista quien debe elegir el

procedimiento más adecuado para un conjunto de condiciones dadas, como la

cantidad de información disponible, el nivel de dificultad que el pronóstico

presenta y el grado de precisión o confianza necesaria en éste. En relación a los

pronósticos de la demanda de agua potable en la ciudad de Piura, este trabajo

pretende llenar un vacío en esta materia, de manera que se pueda obtener un

panorama más amplio sobre el abastecimiento futuro de este elemento. El

renovado interés acerca de los aspectos del agua a nivel global ha estimulado

varios esfuerzos en este tema. Estos nuevos esfuerzos también aprovechan los

adelantos en las capacidades de las computadoras, la disponibilidad de mejores

datos sobre el agua, y los nuevos conceptos sobre el desarrollo de escenarios.

Las proyecciones sobre el uso global del agua, son cada vez más complejas en

cuanto a su enfoque, y cada vez más detalladas en cuanto a su escala en el

espacio y en el tiempo. Hasta hace algunos años, la mayoría de las

proyecciones eran variantes de la misma metodología –el futuro del uso del agua

se basaba en proyecciones sobre la población, y en la intensidad del uso

industrial, comercial y residencial (por ejemplo, agua por individuo o por hogar) y

16
en la utilización de los métodos denominados tradicionales. Con el advenimiento

de las computadoras, se han aperturado nuevas líneas de investigación que

combinan los dos enfoques: el cualitativo y cuantitativo y que en muchos países

desarrollados se vienen aplicando con bastante éxito.

Esta nueva tendencia, tiene que ver con la construcción de sistemas

inteligentes basados en redes neuronales, los cuáles son programas de

computadora que actúan como un experto humano y que bajo determinadas

circunstancias (sobre todo cuando el comportamiento de la variable es altamente

no lineal), proporcionan resultados iguales o mejores que los métodos

tradicionales (Nojek, Britos, Rossi & García, 2003). Esta nueva tendencia en la

elaboración de pronósticos, aún no tiene un uso extendido en países en vías de

desarrollo y menos en nuestra localidad, lo que ha guiado nuestro interés hacia

ésta investigación. El presente trabajo está motivado básicamente por las

siguientes razones importantes:

La creciente importancia de estas técnicas emergentes, como uno de los

mecanismos para el manejo de grandes volúmenes de información.

El poco conocimiento que tienen las empresas de las bondades de esta

metodología.

La necesidad de tener alternativas viables a los métodos tradicionales de

pronósticos.

1.5 Alcances y limitaciones

Este trabajo, se enmarca dentro de una serie de investigaciones sobre

pronósticos de las principales variables (como la demanda de agua y luz) que

manejan empresas que prestan servicios orientados a la satisfacción de las

17
necesidades básicas de la población; está orientado a la solución de un

problema de nuestra realidad. En este sentido, es uno de los primeros intentos

en aplicar estas herramientas de investigación emergentes, como lo son las

“redes neuronales” en la elaboración de pronósticos de demanda de agua en la

ciudad de Piura. Este intento, además permite sentar las bases para nuevas

investigaciones sobre pronósticos en otro tipo de empresas o mejorar los ya

existentes.

Sin embargo, la investigación ha tenido ciertas dificultades. La mayor de

ellas es el acceso y la disponibilidad de información y la calidad de la misma. En

cuanto a las limitaciones de los datos podemos mencionar las siguientes:

• Muchos datos no son registrados adecuadamente. La subestimación del

consumo doméstico o la falta de medición del mismo, atentan contra la

continuidad, confiabilidad y calidad de la serie de datos utilizados.

• Aún existen muchas instalaciones clandestinas y viviendas que no

cuentas con medidores del consumo de agua, y no parece cercana la

fecha en que esto se resuelva, lo que se traduce en una subestimación

del verdadero consumo familiar.

• Otra dificultad está relacionada a la actitud pasiva que tienen nuestras

autoridades, sobre la implementación de nuevas tecnologías y en general

sobre la investigación.

Como resultado de estas limitaciones, de las cuáles la más crítica en este

trabajo, es la relacionada a los datos, no se debe suponer que incrementando la

sofisticación del modelo, obtendremos mejores pronósticos. Siempre los

modelos “perfectos” alimentados con datos imperfectos serán de valor limitado.

18
1.6 Antecedentes.

El hombre, desde sus inicios se interesó por conocer el estado de las

cosas y en particular de los fenómenos que afectaban directamente a su sistema

de vida; la evolución hacia formas de vida mucho más humanas, se nutrió en

gran parte de las inquietudes de los seres humanos, sobre los acontecimientos

que se sucedían día a día y de los que aun estaban por suceder. El

conocimiento de estos hechos, en cierto modo dirigió sus actividades cotidianas

y a medida que evolucionó, fue perfeccionando sus conocimientos y se vio

obligado a estudiar científicamente el comportamiento futuro de muchos

fenómenos.

Este interés, se extendió al ámbito de la empresa, quienes aprovechan

este tipo de conocimientos para su propio beneficio. Los encargados de la

planificación de una empresa deben considerar el futuro, no sólo inmediato, sino

aquél que va más allá de algunos cuantos años.

En nuestro país, son pocas las empresas que cuentan con

departamentos y personas calificadas para realizar estas tareas; los métodos

que mayormente se utilizan son los cualitativos, relacionados con la experiencia

personal. En el caso de los métodos cuantitativos, los más usuales están

relacionados a métodos tradicionales de predicción, que básicamente están

sustentados en algún modelo específico y cuya aplicación requiere que se

cumplan determinados supuestos.

19
Tabla 1 Población Total y Servida de Agua Potable de las localidades de EPS
Grau S.A.

Piura-Castilla
Año Población total Población servida
hab. % Hab.
2005 348,618 91.0% 317,114
2006 359,862 91.0% 327,474
2007 365,260 92.0% 336,039
2008 370,739 93.0% 344,787
2009 376,300 94.0% 353,722
2010 381,945 95.0% 362,848
2015 405,418 95.0% 385,147
2020 430,334 95.0% 408,817
2025 454,529 95.0% 431,803
2030 480,276 95.0% 456,262
2035 519,343 95.0% 493,376

Fuente: Anexo 2 Software del PMO.

A raíz del proceso de privatización, desde la ciudad de Lima, la consultora

Hytsa-Ecsa (2003) ha elaborado pronósticos de demanda del servicio de agua

en Piura hasta el año 20352, en el cuál se estimó que para el año 2005 y 2006 la

cobertura de agua llegaría al 91% de la población (Tabla 1), cifra que en el año

2005 se encuentra muy alejada de la realidad, ya sea porque los supuestos en

que se basaron dichos pronósticos no se cumplieron (aún no se implementó la

concesión del agua a operadores privados) o por alguna deficiencia del método

utilizado, el cuál por cierto no se menciona en dicho estudio.

2
Hytsa –Ecsa. Estudio de Asesoría para el proceso de inversión privada en la EPS Grau
S.A, 2003.

20
En otro estudio hecho por Proinversión (2006), se utiliza el crecimiento

poblacional, el número de conexiones, y volúmenes demandados, nivel de

medición y porcentaje de agua no contabilizada, para estimar la demanda de los

servicios de agua potable y alcantarillado. Cabe destacar, que si bien éstas

variables son importantes en el establecimiento de las políticas de cobertura de

agua, por sí mismas, podrían tener ciertas limitaciones, en el sentido que no

toman en cuenta los cambios de actitud que se producen en los consumidores,

lo cual puede reorientar sus hábitos de consumo, hacia un uso más eficiente del

agua. Tampoco toman en cuenta factores relacionados con el tiempo (factores

estacionales) y que son notoriamente marcados en nuestra ciudad. Otra

limitación de estos resultados es que los pronósticos son anuales y no hay datos

sobre periodos más cortos, como meses o trimestres. Esto sugiere que los

métodos tradicionales usados, carecen de una dinámica importante del mundo

real y muchas de las estimaciones hechas anteriormente han subestimado la

cobertura de este servicio. La inexactitud de esas proyecciones enfatiza la

necesidad de desarrollar mejores métodos de proyecciones. Las proyecciones

que se realizan actualmente son mucho más complejas en cuanto a su enfoque,

y cada vez más detalladas en cuanto a su escala en el tiempo y en el espacio.

Recientemente, las proyecciones manejan escenarios mucho más complejos,

debido a la creciente capacidad de las computadoras para manejar un número

significativo de cálculos y al surgimiento de nuevos métodos dentro del área de

los sistemas expertos.

21
CAPITULO II: MARCO TEORICO

La elaboración de pronósticos está íntimamente relacionada con la

construcción de modelos. Estos, van desde el simple esquema mental,

sustentado en la experiencia del investigador, hasta la construcción de

sofisticados modelos estadísticos, que enlazan a través de ecuaciones, el

comportamiento presente y pasado, de la variable motivo del pronóstico. Los

primeros se denominan métodos cualitativos y los últimos métodos cuantitativos.

En los últimos años han surgido nuevas herramientas que combinan las

dos metodologías y que tienden a elaborar pronósticos de manera automática, a

través de una nueva metodología denominada redes neuronales, enmarcada

dentro de un campo del conocimiento más amplio llamado, Sistemas expertos, el

cual a su vez forma parte de lo que hoy en día se conoce como Inteligencia

Artificial. Para efectos de contextualizar el trabajo, optaremos por clasificar a los

métodos de pronóstico mencionados, de la siguiente manera:

2.1 Métodos tradicionales de predicción

Entre éstos se encuentran los métodos cualitativos y cuantitativos. Los

métodos cualitativos, están basados sólo en la experiencia del investigador y se

utilizan cuando no existen registros históricos de la variable a pronosticar. En

este caso los métodos estadísticos juegan un papel relativamente secundario.

Aquí lo más importante es contar con un grupo de expertos, dotados de

“intuición” (Uriel, 1995a), que tengan un buen conocimiento tecnológico o

especializado acerca del fenómeno en consideración. Dentro de los más

importantes se encuentran, los métodos Delphi y cross-impact (impacto

cruzado).

22
Los métodos cuantitativos, parten del supuesto que se tiene registros de

información sobre el pasado de la variable que se quiere estudiar. Esta

información forma una serie temporal, la cual se caracteriza por corresponder a

periodos regulares de tiempo, pudiendo ser anual, mensual, trimestral, etc. El

papel del investigador en este caso es, tratar de extraer todo los conocimientos

contenidos en los datos y en base al patrón de conducta observado en el

pasado, realizar conjeturas sobre el futuro (Uriel, E., 1995b). Aquí, Los patrones

observados en la serie se formalizan a través de un modelo estadístico, cuyos

parámetros se estiman a partir de los datos históricos. Existe una amplia

variedad de modelos, variando en la complejidad de la forma funcional y en los

procedimientos de estimación de sus parámetros. Dentro de éstos a su vez

podemos considerar a los modelos univariantes y multivariantes o causales.

En el análisis univariante, el procedimiento consiste en pronosticar

valores futuros de una variable, utilizando solamente, la información histórica de

la variable objeto del estudio. Aquí se pueden considerar los métodos de

descomposición (métodos clásicos), métodos de suavización exponencial y

modelos ARIMA univariantes.

Los métodos de descomposición, consideran en general, que la serie,

surge de la interacción de cuatro componentes (no necesariamente todas):

tendencia, factor cíclico, movimiento estacional y movimiento irregular

(Berenson, Levin, Krehbiel, 2001). La tendencia refleja las variaciones a largo

plazo y se puede estimar utilizando métodos de regresión. El factor cíclico

consiste en variaciones superiores a un año que pueden o no presentar

periodicidad. Los movimientos estacionales se presentan en forma regular en

series clasificadas en periodos menores a un año. Como por ejemplo la

demanda de agua en los meses de verano. El movimiento irregular está

asociado a factores no previsibles.

23
Los métodos de suavización exponencial, permiten también estimar la

tendencia, pero a diferencia de los otros métodos de estimación de la tendencia,

éste método asigna diferentes ponderaciones a las observaciones de la serie,

pudiéndose hacer que las observaciones más recientes tengan una mayor

importancia en el pronóstico.

En los métodos anteriores, el investigador, establece un “modelo” a priori

y después procede a los cálculos correspondientes.

En los modelos ARIMA, se considera que la serie temporal ha sido

generada por un proceso estocástico y se procede a identificar el modelo

generador de las observaciones, para luego estimar y verificar el modelo. Si se

acepta que éste representa a la serie, se lo utiliza para elaborar los pronósticos.

En el análisis multivariante, se considera que la serie no sólo es

determinada por su pasado, sino que pueden existir otras variables externas que

la determinan. En este caso tenemos los modelos causales como la regresión

múltiple y los modelos multivariantes de series temporales.

Otro de los aspectos que diferencian a las técnicas es el horizonte del

pronóstico. Algunas sirven para horizontes que van desde unos pocos minutos

hasta algunas semanas, meses o trimestres y otras permiten hacer pronósticos a

un horizonte mayor. Aunque estas técnicas suelen ser bastante automáticas, sin

embargo permiten la intervención humana, ya sea de un operador o un experto,

si esto se justifica, con el objetivo de evaluar constantemente los resultados y

ajustar los modelos si es necesario, con el fin de mejorar la predicción. La

elección de un “buen” modelo de predicción está basada en alguna medida de

error, sin embargo también es importante que sus resultados sean interpretables.

Aunque en muchas situaciones se han obtenido resultados bastante

buenos con éstos métodos, hoy en día han surgido nuevas alternativas, que

pueden proporcionar resultados con igual o mejor precisión. Estas tecnologías

24
están relacionadas con los sistemas expertos, motivo de la presente

investigación.

2.2 Métodos modernos de predicción

Los progresos de la ciencia en el área de la informática, han permitido

que cierto tipo de problemas de difícil tratamiento con los métodos tradicionales,

encuentren actualmente posibilidades de solución. Las técnicas actuales están

utilizando las capacidades humanas no sólo como instrumentos para el

desarrollo de más conocimientos, sino que tratan de utilizar dichas capacidades

para implementar algoritmos que simulen dichas capacidades. Es en esta línea

de investigación, que surge “La inteligencia artificial”, como una de las áreas más

fascinantes y prometedoras de la ciencia moderna, la cual tiene como uno de

sus instrumentos para solucionar sus problemas, a las redes neuronales.

2.3 Inteligencia artificial (IA)

El hombre desde sus inicios ha soñado con dominar al mundo; en este

intento, ha ido creando diferentes instrumentos, siendo uno de los más

significativos el descubrimiento de las máquinas. Pero no sólo se interesó en su

creación, sino que intentó dotarles de algún tipo de “inteligencia”. Muestras de de

ello se encuentra a través de toda la historia, como por ejemplo el mito del

coloso de rodas entre los griegos, el “motor analítico de Charles Babbage que

calculaba logaritmos (ELGUEA, 1987); sin embargo, fue sólo a partir de 1943,

cuando estos intentos vieron la luz, gracias a Warren Mc Culloch y Walter Pitts,

quienes propusieron un modelo de neurona de cerebro humano y animal. Estas

neuronas, inspiradas en el cerebro, proporcionaron una representación simbólica

de la actividad cerebral. Tiempo después, Nobert Wiener sistematizó estas y

otras ideas dentro de un campo denominado inteligencia artificial. Un evento que

marco el ingreso de la Inteligencia artificial en las Ciencias, fue el congreso de

Darthmouth en 1956 en el cuál se sentó las bases de esta nueva disciplina y se

25
reconoció explícitamente que el pensamiento puede ser comprendido de manera

formal y científica y que es posible transmitirlo a las máquinas (ELGUEA, J., Op.

Cit., p 24).

En los años 50, tras la propuesta de Alan Turin sobre la inteligencia de

las máquinas en su artículo “Maquinaria Computacional e Inteligencia” (Alan

Mathison TuringAlan Mathison Turing,Londres (1912-1954). Matemático,

Computador Científico y Filósofo, considerado el padre de la Ciencia de la

Computación y la computación digital moderna, fue el responsable por la

formalización de la idea del computador de propósito general), se generaron dos

propuestas de investigación. La primera corriente fue fundada por John Von

Neuman, quién trató de hacer analogías del cerebro humano y construyó a partir

de esto las computadoras y diseñó los primeros programas que se almacenaban

en su memoria (Ibid). La otra corriente fue la que inició Mc Culloch, quién se

centró más en la forma en que el cerebro procesa la información a diferencia de

Von Neuman, quien trataba de imitar las condiciones físico-químicas del cerebro.

El trabajo realizado por Mc Culloch y Walter Pitts fue el primero dentro de

la Inteligencia Artificial y aportó conocimientos sobre la fisiología básica y

funcionamiento de las neuronas en el cerebro. Ambos propusieron un modelo

constituido por neuronas artificiales, que podían estar “encendidas” o

“apagadas”, en respuesta a la estimulación producida por una cantidad suficiente

de neuronas vecinas. Aunque los primeros programas de IA fallaron, debido a

una falta de conocimiento del objeto de estudio, las investigaciones se

multiplicaron.

Esta nueva rama de conocimiento, surge ante la necesidad de solucionar

problemas complejos, los cuáles se pensaba, sólo podían ser resueltos por

personas, debido a que su formulación y resolución requerían ciertas habilidades

como la de pensar, memorizar, aprender, ver, etc.

26
Sistemas
Redes
expertos
bayesianas

Redes
neuronales

Reconocimiento
de patrones Algoritmos
evolucionarios

Lógica
Sistemas difusa
basados
en reglas

Figura 1 Areas de la inteligencia artificial

Desde entonces se han dado muchas definiciones, pero la mayoría de

autores, coinciden en que es la parte de la ciencia que se ocupa del diseño de

sistemas de computación inteligentes, con características muy similares a las

que se asocian al razonamiento humano (ver por ejemplo a Barr y Feigenbaum

(1981), página 4). Esta disciplina engloba varias áreas de interés, como son los

sistemas expertos, reconocimiento de patrones, redes bayesianas, redes

neuronales, algoritmos evolucionarios, lógica difusa, sistemas basados en

reglas, entre otras. Aunque cada una de ellas constituye por sí misma un área de

investigación particular, la mayor parte, si no todas, disponen de alguna

componente de los sistemas expertos, formando parte de ellas (Castillo,

Gutierrez y Haidi, 1999).

27
2.4 Redes neuronales

2.4.1 Neuronas Biológicas

El cerebro humano está conformado por millones de neuronas, que se

interconectan formando una “Red Neuronal”. Estas, continuamente reciben

señales de entrada de muchas fuentes (millones de instrucciones), las

procesan y emiten una respuesta que permiten la vida normal del ser

humano.

Las neuronas son las células que forman la corteza cerebral de los

seres vivos y cada una está formada por tres elementos: el cuerpo, axón y

dendritas, como se observa en la figura 02.

Axón
Dendritas

Figura 2 Neurona biológica

Las dendritas forman una estructura de filamentos muy fina que

rodean el cuerpo de la neurona. El Axón, es un tubo delgado y largo que se

ramifica en su extremo en pequeños bulbos finales que casi tocan las

dendritas de las células vecinas. La pequeña separación entre los bulbos

finales y las dendritas se le denomina sinápsis. Las neuronas, en forma muy

28
similar a las demás células del cuerpo, funcionan a través de impulsos

eléctricos y reacciones químicas. Los impulsos eléctricos que utiliza una

neurona para intercambiar información con las demás, viajan por el axón, que

hace contacto con las dendritas de la neurona vecina mediante la sinapsis. La

intensidad de la corriente transmitida depende de la eficiencia de la

transmisión sináptica. Una neurona en especial, transmitirá un impulso

eléctrico por su axón, si hay suficientes señales de las neuronas vecinas que

transmiten en un tiempo corto a través de sus dendritas. La señal que se

transmite a la neurona, podrá ser además, ya sea inhibitoria o excitatoria. La

neurona dispara, esto es, manda el impulso por su axón, si la excitación

excede su inhibición por un valor crítico, el umbral de la neurona.

2.4.2 Redes Neuronales Artificiales (RNA)

Las redes neuronales artificiales, constituyen un área de la IA y se

crearon con la finalidad de resolver problemas que en un principio se creía,

sólo podrían ser solucionados por el cerebro humano.

Las redes neuronales constituyen un enfoque totalmente diferente de

analizar los datos con respecto a las técnicas tradicionales. En lugar de

utilizar modelos preconcebidos, éstas utilizan el cerebro humano y su

estructura, para desarrollar una estrategia, que permita la solución de los

problemas en forma similar a la que resultaría de algún experto humano. Un

elemento esencial de una red neuronal, es su capacidad de aprendizaje a

partir de los datos disponibles. Este aprendizaje está inspirado en la forma de

aprender que tiene lugar en las neuronas, el cual se va perfeccionando en la

medida que la red adquiere más entrenamiento, es decir tienen la capacidad

de aprender a realizar tareas a partir de una experiencia inicial.

Las redes neuronales artificiales constan de una arquitectura en red

muy parecida a las redes neuronales biológicas, con un gran número de

29
elementos de procesamiento altamente interconectados (neuronas), los

cuales trabajan al mismo tiempo, para la solución de problemas específicos.

Las RNA, tal como las personas, aprenden de la experiencia y son capaces

de manejar las imprecisiones e incertidumbres que aparecen cuando se trata

de resolver problemas relacionados con el mundo real (reconocimiento de

formas, toma de decisiones, etc.), ofreciendo soluciones robustas (tolerantes

a cambios de las condiciones imperantes) y de fácil implementación. La

información contenida en ella, se codifica en la estructura de la red y en los

pesos de las conexiones, los cuáles se van modificando según el proceso de

entrenamiento. Basándose en las informaciones o impulsos recibidos, la

neurona realiza una serie de cálculos y envía su propia señal, la cual está

basada en el potencial de cada neurona. Si este potencial supera cierto

umbral, se envía un impulso eléctrico al axón; en caso contrario, no se envía

señal.

Se estima que el cerebro humano está compuesto de más de cien mil

millones de neuronas y más de 1000 sinápsis a la entrada y salida de cada

neurona, sin embargo, es importante notar que aunque el tiempo de

computación de la neurona (unos pocos milisegundos) es casi un millón de

veces menor que en los actuales elementos de las computadoras, ellas tienen

una conectividad miles de veces superior a las actuales supercomputadoras.

Como ya se menciono anteriormente una de las características de las

redes neuronales es su aprendizaje adaptativo, sin embargo hay que

mencionar que también poseen la capacidad de autorganizarse; mientras que

en la fase del aprendizaje se va modificando cada elemento procesal, la

autoorganización consiste en la modificación de la red completa en función de

algún objetivo específico. Esta característica de las redes permite la

generalización de resultados, es decir la capacidad de responder

30
apropiadamente cuando se les presentan datos o situaciones a las cuales no

había sido expuesta anteriormente. Otra característica importante es que las

redes son tolerantes a fallos; las redes pueden aprender a reconocer patrones

con ciertas distorsiones o ruido (tolerancia a fallos en los datos) o continuar

realizando su función (con cierta degradación), aunque se destruya cierta

parte de la red.

2.4.3 Arquitectura de las Redes Neuronales

Una red neural, relaciona un conjunto de variables de entrada o inputs

(independientes) , a un conjunto de una o más variables de

objetivo u outputs (dependientes) . La diferencia entre una red

neural y los otros métodos de pronóstico, es que, ésta hace uso de una o más

capas ocultas, en las cuales las variables de entrada son transformadas por

alguna función especial, denominada función de salida o de transferencia.

Mientras esta aproximación de capa oculta parece esotérica, representa una

forma muy eficiente para modelar procesos estadísticos altamente no

lineales.

La figura siguiente, muestra un esquema de una red neuronal:

Figura 3 Red multicapa

31
AXONES SINAPSIS
CUERPO
x1
W1 DENDRITAS
-1
i
x2
W2 AXON

y f ( wi xi )
 Salida
xn Neurona
Wn

Entradas
Pesos

Figura 4 Neurona

En la figura 3, se muestra una red neuronal artificial típica,

caracterizada por neuronas interconectadas y arregladas en tres capas

(aunque esto último puede variar). La información fluye por medio de la “capa

de entrada”, pasa a través de la “capa oculta” y se emite por la “capa de

salida”. La figura 4 muestra una unidad neuronal típica sugerida por

McCulloch y Pitts (1943). En ella se pueden distinguir las siguientes

componentes: un conjunto de conexiones de entrada, un conjunto de pesos,

una función procesadora, un umbral de activación y un valor de salida.

2.4.4 Elementos de una Red Neuronal

2.4.4.1 Neuronas: Unidades procesadoras

Las neuronas son los elementos procesadores de la red neuronal.

Aquí el cuerpo de la neurona se representa como una combinación lineal

de los estímulos. Es decir se trata de una unidad de proceso con n

entradas, 1 x , x2 , , xn y una unidad de salida:

32
n
yj f( wij x j )
j 0

Donde, f (x) es la función neuronal (función de salida o función de

transferencia) y wij son los pesos que indican la aportación que tiene cada

valor de entrada en la suma (el peso wi 0 i indica el valor umbral de

activación para la neurona, y x0 1 , es un valor auxiliar que permite

introducir el valor umbral en el proceso). Este modelo de neurona tiene

muchas similitudes con las neuronas biológicas: las conexiones son

análogas a las dendritas y axones, los pesos de las ponderaciones

equivalen a las sinapsis y el umbral de activación representa la actividad

de la neurona.

2.4.4.2 Capas de una red

Una red se caracteriza porque tiene capas de entrada, capas

ocultas y capas de salida; cada una de ellas está constituida por un

conjunto de nodos. La capa de entrada tiene como objetivo distribuir la

información contenida en las variables de entrada hacia la capa oculta y

está constituida por tantos nodos como variables de entrada existan. La

capa de salida por su parte se encarga de proporcionar los resultados del

entrenamiento de la red. Una vez que el modelo ha sido definido, la

determinación del número de nodos de entrada y salida es trivial, lo que no

ocurre con la determinación del número de capas ocultas y el número de

nodos ocultos en cada capa. La construcción de la estructura de

procesamiento de la red es arbitraria. En relación a la construcción de las

capas ocultas, existen múltiples aproximaciones que producen resultados

similares, sin embargo es importante seleccionar aquellos factores que

33
conduzcan a seleccionar una configuración óptima. Esos factores incluyen

la cantidad de patrones de entrenamiento (calidad de los datos), el número

de nodos de entrada y salida y la relación entre los datos de entrada y

salida. Puede ser tentador construir una red con muchas unidades de

procesamiento y capas ocultas, cayendo en la trampa de que “mientras

más grande es la red, mejor es el modelo”. Esta filosofía puede fácilmente

resultar en un pobre rendimiento del modelo. Cuando la estructura de

procesamiento oculta de una red es muy grande y compleja para el modelo

que está siendo desarrollado, la red puede tender a memorizar los

conjuntos de entrada y salida más que aprender las relaciones entre ellos.

Dicha red puede entrenar bien, pero tener un pobre rendimiento cuando se

le presentan valores de entrada fuera del rango del conjunto de

entrenamiento. Adicionalmente, el tiempo de entrenamiento de la red se

incrementará significativamente cuando la red es innecesariamente grande

y compleja. Es mejor iniciar con el diseño de una red simple que usa

relativamente pocas capas ocultas y nodos de procesamiento. Si el grado

de aprendizaje no es suficiente, o ciertas tendencias y relaciones no se

pueden captar, la complejidad de la red puede ser incrementada en un

intento por mejorar el aprendizaje. En la práctica usualmente es mejor

utilizar múltiples capas ocultas para solucionar problemas complejos. Para

modelar adecuadamente un problema complejo, un diseño con una capa

simple puede requerir un incremento sustancial en el número de nodos

ocultos comparados con la construcción de 3, 4 o 5 capas ocultas. En

términos sencillos, un diseño simple con una capa oculta con 10 nodos,

puede no aprender y rendir bien como una red con dos capas ocultas

conteniendo 5 nodos en cada una. Una razón para esto es que la

construcción de múltiples capas ocultas crea un creciente cruce de

34
información y de relaciones. De esta manera, la habilidad de aprendizaje

de la red es controlada tanto por el número total de capas y nodos ocultos.

2.4.4.3 Funciones de transferencia o de salida.

Las funciones de transferencia de un nodo, f (S ) , tienen el

propósito de controlar la potencia (fuerza) de la señal de salida del nodo.

Inicialmente McCulloch y Pitts, consideraban que estas funciones sólo

podían tomar los valores 0 y 1. Desde entonces se han dado numerosas

actualizaciones, empleando otro tipo de funciones, dentro de las cuales

destacan aquellas que tienen como salidas, valores que fluctúan entre -1 y

1. La entrada a una función de transferencia es el producto punto (interno)

del vector que contiene las señales de entrada al nodo y el vector que

contiene los pesos del nodo 3. Dentro de las funciones de transferencia

más usuales se encuentran la función lineal, escalar, sigmoide, gausiana y

tangente hiperbólica. Una red puede incorporar múltiples tipos de

funciones, en las diferentes capas. Para muchas tareas de modelación, la

función sigmoide debería ser el modelo base para medir los resultados.

Una regla general es que la función sigmoide produce el modelo más

preciso, pero su aprendizaje es más lento. Si frecuentemente se desea

entrenar modelos similares y la velocidad de entrenamiento es crítica,

diferentes combinaciones de funciones de transferencia, incluyendo redes

híbridas, son dignas de investigar para descubrir modelos de

entrenamiento más rápido que exhiban una aceptable precisión.

Las funciones de transferencia más utilizadas son las siguientes:

 Funcione lineal o identidad: son aquellas cuya salida es igual al nivel de

activación de la unidad. En las neuronas con este tipo de funciones, si la

3
, donde es el vector de entradas y es el vector de pesos.

35
suma de las señales de entrada es menor que un límite inferior, la

activación se define como 0 (ó -1). Si dicha suma es mayor o igual que el

límite superior, entonces la activación es 1. Si la suma de entrada está

comprendida entre ambos límites, la activación se define como una función

lineal de la suma de las señales de entrada. Simbólicamente:

f ( x) x; x .

Figura 5 Función de transferencia lineal

 Funcione escalón: utilizada cuando las salidas de la red son binarias. La

salida se activa sólo cuando el estado de activación es mayor o igual a

cierto umbral. Dos funciones clásicas son la función signo, sgn(x) y la

función escalón estándar, Y(x) , definidas como,

0, si x 0
1, si x 0
sgn(x ) , Y ( x)
1, en otro caso 1, en otro caso

36
Figura 6 Función de transferencia signo

Figura 7 Función de transferencia escalón unitario

 Funcion sigmoidal: son funciones monótonas que dan una salida gradual

no lineal para las entradas. Para la mayoría de los valores del estímulo de

entrada, el valor dado por la función es cercano a uno de los valores

asintóticos, es decir a los valores comprendidos en la zona alta o baja de la

1
función. Esta función está definida como: f ( x ) ax
, siendo a una
1 e

constante. Figura 8.

37
a=0.5 a=1 a=2

Figura 8 Función de transferencia logística

 Función Gaussiana: esta función altera significativamente la dinámica de

aprendizaje de una red neural. A diferencia de la función sigmoide, ésta

actúa como un controlador probabilístico de la salida. Además esta función

es más probable produzca un estado intermedio, es decir el centro y ancho

de estas funciones pueden ser adaptados, lo cual las hacen más

adaptativas que las funciones sigmoidales.

1 x
1 ( )2
2
f (x) e
2

38
Figura 9 Función de transferencia gausiana con: 10, 2

 Las funciones hiperbólicas, tangente hiperbólica y secante hiperbólica

son las contrapartes a las funciones sigmoides y gausianas. La tangente

hiperbólica es similar a la sigmoide, pero puede exhibir diferente dinámica

durante el entrenamiento. Puede acelerar el aprendizaje para algunos

modelos y también tiene un impacto sobre la precisión predictiva. El gráfico

de la tangente hiperbólica es similar a la función sigmoide (Figura 8), con la

diferencia que la salida varía en el intervalo [-1, 1]

La experimentación con las funciones de transferencia para cada

modelo individual es el único método concluyente para determinar si

alguna de las funciones de transferencia no sigmoides, ofrecen ambas

características, aprendizaje y precisión.ddd

2.4.5 Forma de conexión (arquitectura) entre las redes

Otra consideración del diseño de la red, está relacionada a la forma de

controlar sus conexiones. Esto permite que el flujo lógico sea introducido en

ella. La información puede ser canalizada y procesada en un área localizada

de la red. El paso a través de los nodos puede ser construido de manera que

39
reciban sólo una conexión de la capa precedente y pasar la información hacia

la próxima capa; así como también se pueden organizar en capas conectadas

por varios tipos de uniones, dependiendo de la manera como las salidas de

las neuronas están canalizadas para convertirse en entradas de otras

neuronas. Esto tiene el efecto de crear conexiones que salten una capa. La

mayoría de diseños trabajan mejor totalmente conectados. Entonces

atendiendo a estos criterios, las neuronas se pueden clasificar como:

- Propagación hacia delante: Conectan neuronas de una capa con neuronas de

la capa siguiente, es decir ninguna salida de las neuronas es entrada de

neuronas del mismo nivel o de niveles precedentes.

- Propagación hacia atrás: Cuando las salidas pueden estar conectadas como

entradas de neuronas de niveles previos o del mismo nivel, incluyéndose ellas

mismas. En el caso particular que las conexiones sean hacia atrás, la

arquitectura es adecuada para tratar modelos dinámicos y temporales, como

el que se pretende implementar en el trabajo. En la figura 10, se ilustran este

tipo de redes.

40
Figura 10 (a) Red con tres capas con conexión hacia delante. (b) Red con
conexiones laterales. (c) Red con conexiones hacia atrás o
recurrentes.

41
2.4.6 Formas de Aprendizaje

La característica principal de las redes es su capacidad de aprender a

partir de los datos. Dependiendo de este tipo de información, las formas de

aprendizaje se pueden clasificar en dos categorías, según lo señala Martín

del Brio, B. & Sanz M. (2002):

- Aprendizaje no supervisado: en este caso, es la red, la que tiene que

descubrir por si misma los patrones, sin información externa. Dentro de los

más importantes en esta categoría, tenemos: al aprendizaje Hebbiano, que

consiste en modificar los pesos de acuerdo con algún criterio de correlación

entre las actividades neuronales; el aprendizaje competitivo, donde

neuronas diferentes se conectan con pesos negativos (inhibitorios) que

fuerzan una competición para ganar la actividad neuronal.

- Aprendizaje supervisado: aquí se proporciona a la red, los patrones

para el aprendizaje junto con la salida deseada; si la respuesta de la red, no

coincide con la salida deseada, se procede a modificar los pesos de las

conexiones, con el fin de que la salida obtenida se aproxime a la deseada.

Este proceso es controlado por una especie de agente externo que determina

la respuesta que debería generar la red a partir de un patrón de entrada

determinado y los pesos se obtienen minimizando alguna función de error4,

que mide la diferencia entre los valores de salida deseados y los calculados

por la red.

En este grupo se encuentran el perceptron simple, la adalina y el

perceptrón multicapa. Estos modelos son los pioneros de las redes

42
neuronales, siendo propuestos los dos primeros a finales de los años

cincuenta. El auge de estos modelos, comenzó en la década del 80, debido a

la revolución informática que permitía llevar a cabo simulaciones antes

difícilmente abordables.

- Algoritmos de Aprendizaje para una neurona

Dependiendo los tipos de aprendizaje, también hay dos categorías de

algoritmos de entrenamiento, los algoritmos supervisados y los no

supervisados. En el aprendizaje supervisado, se requiere patrones de entrada

y patrones de salida deseada, es decir, la red necesita una especie de

instructor que le muestre las respuestas correctas; en cambio en el

aprendizaje no supervisado, la red neuronal establece su propia organización

de los datos de entrada.

En la investigación utiliza el aprendizaje supervisado, a través de la red

denominada peceptrón multicapa y con una variante del algoritmo de

entrenamiento de Backpropagation.

Los algoritmos de aprendizaje supervisado, se pueden clasificar de dos

maneras:

El algoritmo de corrección del error, que altera los pesos de la neurona

después de la presentación de un patrón para corregir el error de salida.

Algoritmo basado en el gradiente: modifica los pesos de la neurona después

de la presentación de un patrón5 para minimizar el error cuadrático medio

sobre todo los patrones. Esto se logra modificando los pesos en dirección

5
Cada caso u observación asociado a las variables de entrada del modelo y a las variables de
salida es denominado patrón de entrenamiento.

43
opuesta al gradiente de la función de error; este es el algoritmo que utiliza la

red utilizada en el presenta trabajo.

En la fase de entrenamiento, el algoritmo mencionado actualiza los pesos de

acuerdo a la siguiente regla:

, que matemáticamente está

dada por:

En este caso,

: se refiere a la etapa de aprendizaje

: el peso nuevo

: es la tasa de aprendizaje que varía entre 0 y 1. Hay que tener en cuenta

que este valor es fundamental en el proceso de entrenamiento de la red, ya

que controla el cambio de los pesos en cada iteracción. Un valor pequeño

hace disminuir la velocidad de convergencia y la posibilidad de quedar

atrapado en un mínimo local; en cambio, un ritmo de aprendizaje demasiado

grande puede provocar inestabilidades en la función de error y evitar que se

produzca la convergencia debido a que se darán saltos en torno al mínimo sin

alcanzarlo. En general la tasa de aprendizaje suele estar comprendida entre

0.05 y 0.5 (Rumelhart, Hinton y Williams, 1986).

: es el gradiente de la función de error con respecto a los pesos

Este algoritmo basado en la técnica del descenso por el gradiente, calcula las

derivadas de la superficie de error respecto a cada peso, E , con la

44
finalidad de encontrar el valor mínimo de la función de error, aunque nadie

garantiza que se llegue o que sea el camino más rápido hacia él. Frente a

estas dificultades surgen otros métodos, dentro de los cuáles se encuentra el

algoritmo de Levenberg-Marquardt. Este método, si bien acelera la

convergencia, es mucho más complejo de implementar. La actualización de

pesos con este algoritmo se realiza con la siguiente aproximación:

Donde:

: es un parámetro establecido generalmente en un valor pequeño como

0.01 (Hagan, Demuth, Beale, 1996).

6: es la matriz jacobiana.

: es el vector de errores.

45
2.4.7 Elección inicial de los pesos

El proceso de entrenamiento de la red, comienza con un conjunto

inicial de pesos para las diferentes conexiones. Esta asignación se puede

realizar de diversas formas, siendo una de las más utilizadas la asignación de

un peso aleatorio a cada conexión.

2.4.8 Entrenamiento de la red

Durante el proceso de aprendizaje, se debe distinguir dos fases: la

fase de aprendizaje o entrenamiento y la fase de operación o funcionamiento

de la red, existiendo un conjunto de datos de entrenamiento y un conjunto de

datos validación o de prueba, utilizados en la fase correspondiente (Bishop,

1995; Ripley, 1996)

Después del cálculo de los pesos en la fase de aprendizaje, es

importante comprobar la calidad del modelo resultante a través de alguna

medida de error. Algunas de las medidas más usuales son:

- La suma de los cuadrados de los errores, definida como:

r 2
bp b̂ p
p 1

- El error cuadrático medio, definido como:

r 2

ECM bp bˆ p / r
p 1

- La raíz cuadrada del error cuadrático medio, definida como:

r 2

bp bˆ p / r
p 1

46
- El error máximo:

2
max b p b̂ p
p 1,, r

donde b̂ p es la salida de la red para el vector de entrada b p


.

2.4.9 Validación

Así mismo es importante realizar una validación cruzada para obtener una

medida de la calidad del modelo. En este sentido, los datos disponibles

(patrones) se deben disponer en dos partes: una parte destinada al

entrenamiento de la red y la otra parte a la comprobación. El entrenamiento

es usualmente medido en épocas, el número de presentaciones del conjunto

de entrenamiento a la red.

Cuando el error de comprobación es mucho mayor que el error de

entrenamiento, entonces se produce un problema de sobreajuste durante el

proceso de entrenamiento. En realidad, ambos errores deberían ser similares,

lo cual indica que se han capturado las tendencias reales del modelo.

Típicamente cuando el número de épocas de entrenamiento se incrementa,

veremos los siguientes gráficos, independientemente del tipo de modelo de

ANN.

47
F

Conjunto prueba
Conjunto Entrenamiento

Epocas de entrenamiento

Figura 11 Errores de prueba y entrenamiento como una función de las


épocas de entrenamiento

El error del conjunto de entrenamiento, mide cuán bien la ANN modela

los datos. Debido a que nunca entrenamos sobre el conjunto de datos de

prueba y los términos de error son no correlacionados, el error del conjunto de

prueba es una medida de que tan bien el modelo sigue el patrón F o

generaliza los conjuntos de datos. En la sección A del gráfico, el error del

conjunto de prueba comienza a aprender el patrón de la serie de tiempo,

indicado por el error decreciente. En Z épocas, el error del conjunto de prueba

es mínimo-la red ANN ha encontrado la función F en su nivel óptimo. Más allá

de éste mínimo, en la sección B, el error del conjunto de entrenamiento

continúa decreciendo, mientras que error del conjunto de prueba se

incrementa. Este hecho se explica porque al inicio la red se adapta

progresivamente al conjunto de aprendizaje, adaptándose al problema y

mejorando la representación, luego en un momento dado, el sistema se ajusta

demasiado a las particularidades de los patrones empleados en el

entrenamiento, captando incluso el “ruido” en ellos presente, de manera que

el error que comete ante patrones diferentes a los empleados en el

48
entrenamiento comienza a crecer, produciéndose el sobreaprendizaje o sobre

ajuste (Del Brio, M., Sanz A., 2002).

2.4.10 Análisis de las series de tiempo utilizando una red neuronal

Teniendo en cuenta que el objetivo principal del estudio de las series

de tiempo es el pronóstico, entonces antes de seleccionar un método se debe

tener en cuenta la forma cómo éste va ha ser utilizado, que precisión se

espera de los pronósticos, cuál es la disponibilidad de recursos

computacionales, la cantidad de datos disponibles y que tan lejos se va a

pronosticar. Además algunos métodos de pronóstico producen sólo

pronósticos puntuales, sin embargo en algunos casos es deseable obtener

pronósticos en intervalos. A diferencia de los métodos tradicionales, las redes

neuronales necesitan una “reducida” cantidad de datos para pronosticar el

futuro de la serie; basadas en estos datos, los parámetros de la red son

afinados usando un algoritmo de aproximación.

La racionalidad para el uso de redes neurales en el pronóstico de las

series de tiempo, es, a partir de información histórica de la serie, construir un

modelo, que permita predecir valores futuros de ésta información.

En términos formales, una serie de tiempo es una secuencia de

vectores, que dependen del tiempo: Teóricamente, puede

ser vista como una función contínua de la variable temporal . Para propósitos

prácticos, sin embargo, la variable temporal, es vista en término de pasos

discretos del tiempo, conduciendo a una instancia del tiempo, en cada

intervalo de tiempo fijo. El tamaño del intervalo del tiempo, depende de la

naturaleza del problema y de la disponibilidad de los datos y puede ser

periodos de milisegundos, horas, días, meses, trimestres o años.

49
En el problema del pronóstico, formalmente, se trata de encontrar

, dónde d es llamado el intervalo para el

pronóstico y la función F, representa el patrón subyacente que determina a la

serie , tan cerca como sea posible, mientras que es el error de medida o

residual de los datos.

50
CAPITULO III: METODOLOGIA

El trabajo se enmarca dentro del tipo de investigación exploratoria

aplicada. La investigación se inicia con una exploración del comportamiento de

la demanda de agua durante el periodo de análisis (2007-2009), básicamente

para analizar si la serie es o no estacionaria. Luego, el estudio es típicamente

explicativo, puesto que aporta elementos para determinar el grado de influencia

de la serie con sus valores pasados. Teniendo en cuenta que el estudio busca

un instrumento que permita realizar pronósticos relacionados a una realidad

específica, la demanda de agua en la ciudad de Piura, se trata de una

investigación aplicada.

3.1 Población y Muestra

Para el desarrollo de la investigación, se consultarán las bases de datos

de la Empresa EPS GRAU S.A. Si bien, la empresa cuenta con información

histórica de varios años, en muchos de ellos, la información está incompleta o es

poco confiable, por lo que sólo se utilizarán los datos correspondientes a los

últimos 3 años (2007 a 2009), la cual constituye la muestra.

3.2 Diseño y Construcción de la Red Neuronal

Cuando se diseña una red, el investigador usualmente debe tener en

cuenta los siguientes aspectos:

3.2.1 Capas de entrada y salida

El número de nodos en la capa de entrada (dos) será igual al número

de variables de entrada del modelo. Como en total existen 33 observaciones

asociadas a las variables de entrada y de salida, el modelo es entrenado

usando el 70% de éstos patrones, dejando el resto de observaciones para la

validación (15%) y prueba (15%) del modelo.

51
3.2.2 Capas ocultas. Procesamiento

En la investigación se ha usado dos capas, la primera con dos

neuronas y la segunda con 30; esta configuración es el resultado de ensayar

diferentes valores o configuraciones.

3.2.3 Funciones de transferencia

La función de transferencia utilizada en la capa oculta es la función

sigmoidal, cuya expresión matemática es:

En la capa de salida se utilizó una función lineal, es decir:

3.2.4 Datos de entrenamiento

Antes de que la red sea creada y entrenada, los datos para el modelo

deben ser organizados y preprocesados, si es necesario. Mientras se

disponga de más datos de entrenamiento, es probable que mejor sea el

modelo y también el modelador puede considerar diseños mucho más

complejos. En este caso, es posible emplear rigurosos conjuntos de prueba

para el análisis del posible sobre entrenamiento y para chequear la

integridad del modelo. Una vez que la información para los modelos es

reunida o generada, se requiere la preparación y formateo de los datos y su

almacenamiento en disco en un formato adecuado. Esas tareas se pueden

lograr fácilmente utilizando hojas de cálculo o programas estadísticos.

El archivo de datos puede contener tanto los datos de entrenamiento

así como datos de prueba, puede tener un formato de texto o usar formato

de entrada universalmente compatible ASCII (tex). En este archivo, las

variables están dispuestas en columnas, donde cada una de ellas representa

a una variable y cada fila, representa un caso o patrón de entrenamiento.

52
La preparación apropiada de los datos, puede marcar la diferencia

entre modelos neurales exitosos y no exitosos. Algunos modelos pueden

obtener grandes beneficios de transformaciones elementales de los datos de

entrada y salida. Por esta razón es importante entender como diferentes

representaciones de datos de entrenamiento influyen sobre el modelo neural

que está siendo creado.

Los datos de entrenamiento de una red neural, pueden ser de dos

clases: continuos y binarios. Para muchas variables de entrada, los datos

pueden ser procesados y representados en algunos de esas clases. Cuando

se decide por una de ellas, se debería considerar el impacto sobre lo que

esta siendo modelado. El conocimiento de la magnitud de los cambios en las

variables continuas, mejora el aprendizaje del modelo, proporcionando

información adicional. La mayor falla que el modelador de la red neural debe

considerar es evitar el uso de variables de entrada o salida ilimitadas.

Otro problema puede ocurrir cuando se dispone de una gran cantidad

de datos como entradas del modelo.

3.2.5 Normalización de datos

Las redes neurales de backpropagación requieren que todas las

variables de entrenamiento sean normalizadas entre 0 y 1. Esto se debe a

que la señal de salida del nodo está restringida al rango 0 a 1. Aún si todo

los datos de entrenamiento ya estuvieran entre los límites 0 y 1, la

normalización puede ser deseable. Por ejemplo, si todos los datos de

entrenamiento estuvieran entre 0.01 y 0.02, sería mejor normalizar los datos

sobre un rango más amplio para que la red pueda resolver y predecir las

variables objetivo sobre un rango óptimo.

53
3.3 Datos de salida de la red

Cuando se grafica, imprime o pronostica, toda las entradas y salidas

deben ser retornadas a sus escalas originales. Si nuevos datos son

presentados a la red, hay siempre la posibilidad de normalizar los datos para

que caigan en el rango de 0 a 1. Esto puede no ser un problema, sin

embargo, se debería notar que cuando las entradas a una red son

significativamente diferentes del rango de los datos que fueron usados

durante el entrenamiento, la precisión del modelo puede ser cuestionable.

3.4 Proceso de Investigación

En la primera fase del proyecto, la información fue analizada utilizando el

análisis exploratorio de datos, con la finalidad de identificar posibles valores

anómalos y para caracterizar y estudiar si la serie es o no estacionaria. Como

ésta no cumplía con este requisito, ésta se diferenció y fueron los dos primeros

rezagos de las primeras diferencias ( ) las que sirvieron

como entradas a la red y las primeras diferencias ( ) como valores

deseados o variable de salida. Todo este análisis se realizó usando los

programas estadísticos StatGraphics y Eviews.

Con los resultados de los análisis previos de la serie, se procedió a

plantear el modelo conceptual (estructura de la red) y el modelo matemático. El

proceso de entrenamiento de la red, se realizó por medio del software Científico

Matlab, utilizando funciones neuronales básicas implementadas dentro de éste

programa.

54
CAPITULO IV: DESCRIPCION DE RESULTADOS

4.1 Evaluación del comportamiento de la serie de datos

La figura 12, muestra que la serie que representa el consumo de agua de

la ciudad de Piura entre los años 2007 y 2009 tiene una tendencia, sin embargo,

la tendencia no es suave y da la impresión de no ser estacionaria; es decir, al

parecer, tanto la media como la varianza cambian con el transcurso del tiempo.

CONSUMO DE AGUA EN LA CIUDAD DE PIURA


1250000

1200000
Volumen (m3)

1150000

1100000

1050000

1000000
Mar-07
May-07

Mar-08
May-08

Mar-09
May-09
Ene-07

Ene-08

Ene-09
Sep-07
Nov-07

Sep-08
Nov-08

Sep-09
Nov-09
Jul-08
Jul-07

Jul-09

Figura 12 Volumen total de consumo de agua en Piura. Años 2007-2009


(Anexo2).

El análisis del correlograma y correlograma parcial, nos darán mayores

elementos de juicio para comprobar esta presunción.

Por su parte el análisis descriptivo del consumo de agua (Figura 13), a

través del histograma y de la prueba de Jarque Bera, muestra que la distribución

del consumo de agua, se puede considerar que se aproxima a una distribución

55
normal, aunque con ciertas irregularidades en los extremos y centro de la

distribución. Esta apreciación se confirma al observar los valores de la asimetría

(Skewness) y curtosis, que en el caso de una distribución normal deberían ser 0

y 3 respectivamente, pero que en el caso en estudio, son de -0.703 y 2.40, los

cuales si bien es cierto no son iguales a los valores teóricos, no se desvían

significativamente. La prueba estadística lo confirma, si se observa el valor

P>0.05, con el cuál no se puede rechazar la hipótesis que los datos siguen una

distribución normal.

7
Series: AGUA
6 Sample 2007M01 2009M12
Observations 36
5
Mean 1168960.
Median 1177446.
4 Maximum 1225866.
Minimum 1072127.
3 Std. Dev. 46148.57
Skewness -0.703069
2 Kurtosis 2.400095

1 Jarque-Bera 3.505666
Probability 0.173282
0
1080000 1120000 1160000 1200000

Figura 13 Estadísticos descriptivos del consumo de agua

4.2 Evaluación del Autocorrelograma y Autocorrelograma parcial

En el Tabla 2, se muestra la función de autocorrelación (ACF) y la función

de autocorreloción parcial (PACF) del consumo de agua en Piura. Se puede

apreciar dos hechos significativos. En primer lugar, la ACF decrece rápidamente

como se aprecia en la Figura 14; esta función hasta el rezago 6 es

estadísticamente diferente de cero en forma individual, ya que todas ellas están

fuera de los límites de confianza del 95%; lo mismo sucede a partir del rezago 20

al 35. En segundo lugar, podemos apreciar que la PACF, Figura 15, después del

primer rezago decrece de manera considerable y todos sus valores son

56
estadísticamente no significativos. Por otra lado, la prueba de Ljung-Box (LB),

corrobora estos resultados; en todo los rezagos las pruebas son

estadísticamente significativas (p<0.05), lo cuál nos permite concluir que no

todos los coeficientes de autocorrelación muestral ( ) son cero.

Tabla 2 Autocorrelación y Autocorrelación parcial del consumo de agua (M3)

Std. Box-Ljung Statistic Partial Std.


Rezago Autocorrelation
Error(a) Autocorrelation Error
Value df Sig.(b)
1 .863 .160 29.138 1 .000 .863 .167
2 .744 .158 51.413 2 .000 -.006 .167
3 .645 .155 68.648 3 .000 .014 .167
4 .542 .153 81.190 4 .000 -.067 .167
5 .477 .151 91.239 5 .000 .090 .167
6 .374 .148 97.630 6 .000 -.186 .167
7 .287 .146 101.523 7 .000 .001 .167
8 .184 .143 103.179 8 .000 -.156 .167
9 .137 .140 104.129 9 .000 .183 .167
10 .070 .138 104.387 10 .000 -.193 .167
11 -.002 .135 104.388 11 .000 .011 .167
12 -.006 .132 104.389 12 .000 .137 .167
13 -.042 .130 104.495 13 .000 -.066 .167
14 -.024 .127 104.531 14 .000 .133 .167
15 -.035 .124 104.612 15 .000 -.134 .167
16 -.081 .121 105.066 16 .000 -.103 .167
17 -.113 .118 105.981 17 .000 -.060 .167
18 -.169 .115 108.158 18 .000 -.125 .167
19 -.210 .111 111.690 19 .000 -.099 .167
20 -.268 .108 117.813 20 .000 -.045 .167
21 -.277 .105 124.823 21 .000 .081 .167
22 -.317 .101 134.621 22 .000 -.137 .167
23 -.377 .097 149.584 23 .000 -.100 .167
24 -.389 .094 166.797 24 .000 .028 .167
25 -.399 .090 186.605 25 .000 .123 .167
26 -.371 .085 205.454 26 .000 -.047 .167
27 -.349 .081 223.960 27 .000 -.014 .167
28 -.312 .076 240.603 28 .000 .058 .167
29 -.252 .072 253.017 29 .000 .080 .167
30 -.198 .066 261.973 30 .000 -.032 .167
31 -.147 .060 267.914 31 .000 -.099 .167
32 -.149 .054 275.529 32 .000 -.092 .167
33 -.145 .047 285.116 33 .000 -.060 .167
34 -.122 .038 295.315 34 .000 .070 .167
Fuente: Consumo de agua

57
Volumen Total Consumo de Agua (M3)

1,0 Coeficiente
Límite de confianza
superior
Límite de confianza
inferior

0,5
ACF

0,0

-0,5

-1,0

1 2 3 4 5 6 7 8 9 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4

Rezago

Figura 14 Autocorrelograma del consumo de agua en Piura, 2007-2009

Volumen Consumo de Agua (M3)

1,0 Coeficientes
Límite de confianza
superior
Límite de Confianza
Inferior

0,5
PACF

0,0

-0,5

-1,0

1 2 3 4 5 6 7 8 9 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4

Rezago

Figura 15 Autocorrelograma parcial del consumo de agua en Piura, 2007-


2009

58
Otra prueba para verificar si la serie es o no estacionaria, es la prueba de

Dickey-Fuller aumentada. Los resultados de las pruebas, Tabla 3, muestran que

toda las pruebas son no significativas (P>0.05), lo cual nos conduce a aceptar la

hipótesis de que la serie tiene una raíz unitaria, lo que indica nuevamente que la

serie es no estacionaria.

Tabla 3 Prueba de Dickey Fuller aumentada

Modelo t-Statistic Prob.*

Sin intercepto 1.635464 0.9728

Con intercepto -1.850153 0.3515

Con intercepto y tendencia -2.203331 0.4731

*MacKinnon (1996) one-sided p-values.

Esta conclusión ya se podía visualizar del análisis de los diferentes

gráficos y de los análisis anteriores. Todos los resultados nos llevan a la

conclusión de que la serie es no estacionaria, por lo que se debe buscar alguna

transformación que conduzca a una serie estacionaria.

El requisito de estacionariedad para los datos de entrada a la red, es

importante porque cuando los datos están correlaconados, la velocidad de

convergencia del algoritmo de entrenamiento es menor y se corre el riesgo de

que la red no converja a su punto óptimo.

59
4.3 Análisis de la serie en primera diferencia

En contraste con la figura de los datos originales, no se observa ninguna

tendencia en esta serie, aunque si evidencia cierto comportamiento cíclico, entre

Enero-2007 a Abril-2008 y de aquí a Febrero del 2009.

PRIMERAS DIFERENCIAS
40,000

30,000

20,000

10,000

-10,000

-20,000

-30,000

-40,000
I II III IV I II III IV I II III IV
2007 2008 2009

Figura 16 Gráfico del consumo de agua, en primeras diferencias

4.4 Evaluación del Autocorrelograma y Autocorrelograma parcial de las

primeras diferencias

Tanto la función de autocorrelación, Tabla 4 y las funciones de

autocorrelación, Figura 17 y 18, no evidencian coeficientes de correlación ni de

correlación parcial significativos. Todos se encuentran dentro de los límites de

confianza al 95%, lo que es un indicativo que la serie en primeras diferencias es

estacionaria. Además la prueba de Ljung Box, resulta ser no significativa

(P>0.05) en casi todos los rezagos, a excepción del rezago 33, indica que la

60
correlación conjunta es cero hasta el rezago 32, lo que nuevamente confirma

que la serie es estacionaria.

Tabla 4 Volumen de consumo de agua (M3). Primera diferencia

Std. Box-Ljung Statistic Partial Std.


Rezago Autocorrelation
Error(a) Autocorrelation Error
Value df Sig.(b)
1 -.146 .162 .809 1 .368 -.146 .169
2 .061 .160 .954 2 .621 .040 .169
3 .021 .157 .972 3 .808 .036 .169
4 -.099 .155 1.385 4 .847 -.096 .169
5 .019 .152 1.400 5 .924 -.012 .169
6 -.264 .150 4.512 6 .608 -.261 .169
7 .069 .147 4.734 7 .692 .001 .169
8 -.256 .144 7.868 8 .447 -.257 .169
9 .187 .142 9.614 9 .383 .151 .169
10 .004 .139 9.615 10 .475 -.006 .169
11 -.176 .136 11.281 11 .420 -.190 .169
12 .280 .133 15.694 12 .206 .148 .169
13 -.078 .130 16.056 13 .246 -.007 .169
14 .133 .127 17.151 14 .248 .025 .169
15 -.040 .124 17.253 15 .304 .033 .169
16 .131 .121 18.419 16 .300 .123 .169
17 .068 .118 18.748 17 .343 .115 .169
18 -.189 .115 21.474 18 .256 -.123 .169
19 -.031 .111 21.554 19 .307 -.186 .169
20 -.196 .108 24.880 20 .206 -.017 .169
21 .026 .104 24.941 21 .250 -.071 .169
22 .033 .100 25.050 22 .295 .114 .169
23 -.054 .096 25.363 23 .332 .018 .169
24 -.032 .092 25.482 24 .380 -.171 .169
25 .069 .088 26.091 25 .403 .034 .169
26 .056 .083 26.549 26 .433 -.131 .169
27 -.103 .079 28.279 27 .397 -.086 .169
28 -.038 .074 28.550 28 .436 -.095 .169
29 .013 .068 28.585 29 .487 -.084 .169
30 -.022 .062 28.705 30 .533 .010 .169
31 .050 .056 29.515 31 .542 .000 .169
32 -.003 .048 29.519 32 .593 -.048 .169
33 .011 .039 29.593 33 .638 .069 .169

Fuente: Datos del consume de agua, 2007-2009

61
CONSUMO DE AGUA: PRIMERA DIFERENCIA

1,0 Coeficientet
Límite de confianza
superior
Límite de confianza
inferior

0,5
ACF

0,0

-0,5

-1,0

1 2 3 4 5 6 7 8 9 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3

Rezago

Figura 17 Autocorrelograma del consumo de agua en primeras diferencias.

CONSUMO DE AGUA: PRIMERA DIFERENCIA

1,0 Coeficiente
Límite de confianza
superior
Límite de confianza
inferior

0,5
PACF

0,0

-0,5

-1,0

1 2 3 4 5 6 7 8 9 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3

Lag Number

Figura 18 Autocorrelograma parcial del consumo de agua en primeras

diferencias.

La prueba de Dickey Fuller aumentada, corrobora además todo los

resultados anteriores, al rechazar la hipótesis (P<0.05) de que los modelos

62
sometidos a prueba tienen raíz unitaria, lo cual significa que la serie en primera

diferencia es estacionaria.

Tabla 5 Prueba de Dickey Fuller aumentada

Modelo t-Statistic Prob.*

Sin intercepto y sin tendencia -6.052467 0.0000

Con intercepto -6.534990 0.000

Con intercepto y tendencia -6.661749 0.000

*MacKinnon (1996) one-sided p-values.

El análisis anterior, nos permite entrenar la red, con los datos expresados

en primeras diferencias. Además al restringirse la muestra a 33 observaciones,

se ha trabajado con un modelo que contempla sólo dos rezagos para las

primeras diferencias, es decir:

Donde ; es el valor de las primeras diferencias rezagado en un

periodo y es el valor de las primeras diferencias rezagada en dos periodos.

63
4.5 Arquitectura de la red neuronal

La red tiene dos capas, una capa de entrada con dos neuronas, y una

capa oculta con 30 neuronas. La configuración elegida de 30 neuronas, es

consecuencias de una serie de ensayos, en donde se probó diferentes

configuraciones, siendo la mencionada la que da la solución obtenida.

Σ 1

Σ
1

Σ


1
Σ

1

Figura 19 Arquitectura de la red neuronal

4.6 Entrenamiento de la red nuronal

Los datos utilizados para entrenar la red, están basados en las primeras

diferencias, donde las entradas o patrones son los valores correspondientes a

y los valores deseados son los correspondientes a .

Antes de entrenar los datos en la red, éstos se han normalizado al

intervalo [0, 1], que es un requisito para las redes de Backpropagation. Para el

entrenamiento de la red, se utilizó el algoritmo de Levenberg-Marquardt (Figura

20).

64
Figura 20 Entrenamiento de la red

El algoritmo de entrenamiento para en la sexta iteración, aunque el

óptimo se logra en la iteración 4, a partir de la cual el error de validación

comienza a incrementarse (Figura 21). En esta figura, la forma decreciente que

toma el error cuadrático medio, muestra que la red está aprendiendo; el Error

Cuadrático Medio (EMC) se inicia en un valor grande que va decreciendo hasta

65
lograr un valor pequeño, a partir del cual nuevamente comienza a aumentar; es

en este punto que la red muestra su mejor rendimiento, en donde el error

cuadrático medio final es bastante pequeño (EMC=0.0361). Otra característica

de este gráfico es que el conjunto de prueba y de validación poseen

características similares. No ocurre ningún sobre ajuste significativo del modelo,

hasta la 4ta iteración, en donde ocurre el mejor rendimiento de la validación.

Figura 21 Evaluación del rendimiento de la red.

El gráfico de la regresión (Figura 22), muestra las regresiones entre las

salidas de la red y los correspondientes datos de entrada. Las salidas de la red,

se adecuan bastante bien a los datos de entrenamiento, prueba y validación, lo

que es corroborado con el coeficiente de correlación, el que se encuentra por

encima de 0.9 para la respuesta total.

66
Figura 22 Grado de ajuste del modelo

4.7 Pronóstico.

Una vez que la red ha sido entrenada y su rendimiento es el adecuado

(error de entrenamiento pequeño), se procede a la realización de pronósticos

utilizando para ello la función , la cuál usa los pesos de la red entrenada.

Los pronósticos se realizan mediante la transformación inversa a las

operaciones realizadas para calcular las primeras diferencias, es decir, los

67
valores pronosticados se obtienen con la ecuación: , siendo la

diferencia estimada con la red.

En la investigación se encontró el consumo de agua estimado para el

periodo siguiente al último mes de la serie, es decir para enero del 2010,

mediante: 1222381+11937=1234318

68
CAPITULO V: CONCLUSIONES Y RECOMENDACIONES

6.1. Conclusiones.

Luego de revisar los resultados arrojados por la investigación, se ha

llegado a las siguientes conclusiones:

1. Se ha logrado diseñar y construir una red neuronal a partir de la cual se

puede pronosticar el consumo de agua para periodos adicionales a los

utilizados en la investigación. En este punto hay que tener en cuenta que

una vez que se tienen nuevos datos, hay que ir entrenando nuevamente la

red; la elaboración de los pronósticos con esta metodología, es un proceso

dinámico, en el que hay que alimentar a la red con la nueva información

disponible, para mejorar su rendimiento y mejores pronósticos.

2. Este trabajo no se puede considerar como una investigación totalmente

completa y teniendo en cuenta que el estudio de las redes neuronales está

en una evolución contínua, hay mucho que investigar y profundizar

6.2. Recomendaciones

1. Para mejorar el rendimiento de la red, se debe intentar con

diferentes algoritmos de entrenamiento.

2. Difundir las bondades del uso de las Redes Neuronales, no solo en

la empresa sujeta de investigación, sino a otros ámbitos.

69
REFERENCIAS BIBLIOGRAFICAS
01. Acosta, B. A. y Zuluaga M. (2000). Tutorial sobre Redes Neuronales
Aplicadas en Ingeniería Eléctrica y su implementación en un sitio
Web. Revista Colombiana de Tecnologías Avanzadas. Pereira-
Colombia.
02. Ashley, R. (2003). Statistically significant forecasting improvements:
How much out-of-sample data is likely necessary? International
Journal of Forecasting, 19, 229–239.
03. Barr, A. & Feigenbaum, E. A. (1981). The Handbook of Artificial
Intelligence. Volume I. William Kaufman. Los Altos, California, CA.
04. Berenson, M. L., Levine, D. M. y Krehbiel T. C. (2001). Estadística
para Administración (2ª ed.). Pearson Educación. México.
05. Bishop, C. M. (1995). Neural networks for pattern recognition.
Oxford. Oxford University Press.
06. Castiglione, F. (2002). Forecasting price increments using an
artificial Neural Network. Adv. Complex Systems, 1, 1-12.
07. Castillo, E., Gutiérrez, J. M. & Hadi, A. S. (1999). Expert Systems
and Probabilistic Network Models. Edit. Springer Verlag. New York,
USA.
08. Castillo, E., Cobo, A. y Gutiérrez, J. M (1999). Introducción a las
Redes Funcionales con Aplicaciones: Un nuevo paradigma neuronal
Edit. Paraninfo. Madrid España.
09. Castillo, E. & Alvarez, E. (1991). Expert Systems: Uncertainty and
Learning. Computational Mechanics Publications and Elsevier
Applied Science, London, U.K.
10. Chatfield, C. (1995). The analysis of time series. An Introduction.
Fifth Edition. Chatman &Hall/CRC. London.
11. Chen, A. S., Leung, M. T. & Daouk, H. (2003). Application of neural
networks to an emerging financial market: Forecasting and trading
the Taiwan Stock Index. Computers & Operations Research, 30(6),
901–924
12. Cipriano, A, Prina J.P y Ramos M.E. (1996). Predicción de demanda.
Pontificia Universidad Católica de Chile. Facultad de Ingeniería.
Noviembre de 1996.Demuth, H.B., Beale, M. & Hagan M. (1992-
2010). Neural Network Toollbox 6. User’s Guide. Matlab. The
MathWorks. Massachusetts.
13. Durkin, J. (1994). Expert Systems: Design and Development.
Maxwell Macmillan, New York.
14. Hagan, M. T., Demuth, H.B., & Beale, M. (1996). Neural Network
Design. PWS Publishing Company, Boston.
15. Husken, M. & Stagge, P. (2003). Recurrent neural networks for time
series classification. Neurocomputing, 50, 223–235.
16. David, J.C., McKay (2003). Information Theory, Inference, and
Learning Algorithms. Cambridge University Press.

70
17. McCulloch, W. S. & Pitts, W. (1943). A logical Calculus of Ideas
Immanent in Nervous Activity. Bulletin of Mathematical Biophysics, 5,
115-133.
18. Mendelsohn, L. B. (2000). Trend Forecasting With Technical
Analysis. Marketplace Books, United States of America.
19. PROINVERSION (01-2006): Plan Maestro Optimizado para las
ciudades y localidades de Piura, Catacaos, Las Lomas, Paita y
Anexos. Lima.
20. Nojek, S., Britos, P., Rossi, B. & García M. R. (2003). Pronóstico de
Ventas: Comparación de Predicción basada en Redes Neuronales
versus Método Estadístico. Departamento de Ingeniería Industrial.
Instituto Tecnológico de Buenos Aires. Av. Madero 399
(C1106ACD). Buenos Aires - Argentina.
21. Ruiz, C.A., Basualdo, M.S. (2001). Redes Neuronales: Conceptos
Básicos y Aplicaciones. Rosario-Argentina.
22. Ripley, B.D. (1996). Pattern recognition and neural networks.
Cambridge: Cambridge University Press.
23. Rumelhart, D.E., Hinton, G.E. & Williams, R.J. (1986). Learning
internal representations by error propagation. En: D.E. Rumelhart y
J.L. McClelland (Eds.). Parallel distributed processing (pp. 318-362).
Cambridge, MA: MIT Press.
24. Schwartz, P. (1991). The Art of the Long View. Currency/Doubleday
Press, New York.
25. Situngkir, H. & Surya, Y. (2004). Neural Network Revisited:
Perception on Modified Poincare Map of Financial Time Series Data.
Europhysics Conference of European Physical Society.
26. Uriel, E. (1995). Análisis de datos. Series Temporales y Análisis
Multivariante. Edit. AC. Madrid-España.
27. Uriel, E. (1995). Series temporales, Modelos ARIMA. 3ª Ed. Editorial
Paraninfo. Valencia-España.
28. Zhang, G.P, Keil, M., Rai, A., & Mann, J. (2003). Predicting
information technology project escalation: A neural network
approach. European Journal of Operational Research, 146, 115–
129.

71
LINKOGRAFIAS
1. CRIADO, B., J., M. (2002). Sistemas Expertos. Extraido el 20 de
Julio, 2010 de http://www.monografias.com/trabajos16/sistemas-
expertos/sistemas-expertos.shtml#REFEREN.

2. Documental Piura. Disponible en


http://www.documentalpiura.com/economia/economia_agua.htm.

3. ELGUEA, J. (1987). Inteligencia artificial y psicología: la concepción


contemporánea de la mente humana. Recuperado de
http://biblioteca.itam.mx/estudios/estudio/estudio10/sec_14.html

4. SAMPER, J. (2002). Sistemas expertos. El Conocimiento al Poder.


Extraido el 10 de Junio del 2010 de
http://www.monografias.com/trabajos23/sistemas-
expertos/sistemas-expertos.shtml

72
ANEXO 1
Programa para entrenar y simular la red neuronal artificial

% Programa que entrena una red neuronal artificial con 1 capa oculta
% Piura, julio 2007
clear
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%definiendo las variables del la red
%El indice comienza en 3 porque se esta considerando dos rezagos
y=load('tesis.txt');
for i=2:size(y)
d(i-1)=y(i)-y(i-1); %Datos expresados en primeras diferencias
end;
d=transpose(d);
n=size(d);
for j=2:n+1
d1(j-1)=d(j-1);%Diferencias rezagas un periodo
end;
d1=transpose(d1);
n=size(d1);
for j=2:n+1
d2(j-1)=d1(j-1);%Diferencias rezagadas dos periodos
end;
d2=transpose(d2);
d=d(3:35);
d1=d1(2:34);
d2=d2(1:33);
z=[d1,d2,d];
save dif.txt z;
% definiendo la topologia de la red
n0=2; % numero de neuronas en la entrada
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
alfa=0.4; % tasa de aprendizaje, varia entre 0 y 1
nepocas=1000; % Nº de veces que se le presenta un patron de calibracion
%a la red o Nº de iteraciones

73
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
[npat,m]=size(z);
[znorm,PS]=mapminmax(z,0.02,0.98); %transforma los datos al intervalo 0, 1
mx=znorm(1:npat,1:n0); % matriz de entrada x
mxa=[ones(npat,1),mx]; % matriz de entrada aumentada con unos
my=znorm(1:npat,n0+1:m); %mariz de deseados y
mx1=transpose(mxa);%matriz mx transpuesta
my1=transpose(my);%matriz my transpuesta
numHiddenNeurons = 30; % Adjust as desired
net = newfit(mx1,my1,numHiddenNeurons,{'logsig','purelin'});
%Crea la red
%Por defecto usa el algoritmo de entrenamiento de Levenberg-Marquardt
net=init(net); %inicia la red, con nuevos pesos
net.divideParam.trainRatio = 70/100; % Adjust as desired
net.divideParam.valRatio = 15/100; % Adjust as desired
net.divideParam.testRatio = 15/100; % Adjust as desired
[net,tr]=train(net,mx1,my1); %Entrena la red
my2=sim(net,mx1); %simula la red: estima los valores de la serie
zest=[mx,my2']; %concatena las matrices input con los valores estimados
difer_desn = mapminmax('reverse',zest,PS);%Diferencias desnormalizadas
dif=difer_desn(1:npat,n0+1:m); %seleccion de los valores estimados de y
yorig=dif+y(4:36); %devuelta a los valores originales.

74
ANEXO 2

Tabla 6 Consumo de agua (en ) en la ciudad de Piura en el periodo


2007 y 2009

MES 2007 2008 2009


ENERO 1072127 1174766 1203740.1
FEBRERO 1073776 1199821 1221799
MARZO 1091671 1191716 1222770
ABRIL 1083116 1167242 1225866
MAYO 1115433 1181833 1224685
JUNIO 1110257 1175476 1220749
JULIO 1109462 1176289 1218131
AGOSTO 1110982 1167910 1187010
SEPTIEMBRE 1140323 1185001 1175641
OCTUBRE 1143189 1181976 1197158
NOVIEMBRE 1144040 1177991 1210444
DICIEMBRE 1176900 1200894 1222381

Fuente: EPS GRAU

75
Tabla 7 Datos de las primeras diferencias, primeras diferencias rezagadas
uno y dos periodos.

d d(-1) d(-2)
-0.8555 1.7895 0.1649
3.2317 -0.8555 1.7895
-0.5176 3.2317 -0.8555
-0.0795 -0.5176 3.2317
0.152 -0.0795 -0.5176
2.9341 0.152 -0.0795
0.2866 2.9341 0.152
0.0851 0.2866 2.9341
3.286 0.0851 0.2866
-0.2134 3.286 0.0851
2.5055 -0.2134 3.286
-0.8105 2.5055 -0.2134
-2.4474 -0.8105 2.5055
1.4591 -2.4474 -0.8105
-0.6357 1.4591 -2.4474
0.0813 -0.6357 1.4591
-0.8379 0.0813 -0.6357
1.7091 -0.8379 0.0813
-0.3025 1.7091 -0.8379
-0.3985 -0.3025 1.7091
2.2903 -0.3985 -0.3025
0.2846 2.2903 -0.3985
1.8059 0.2846 2.2903
0.0971 1.8059 0.2846
0.3096 0.0971 1.8059
-0.1181 0.3096 0.0971
-0.3936 -0.1181 0.3096
-0.2618 -0.3936 -0.1181
-3.1121 -0.2618 -0.3936
-1.1369 -3.1121 -0.2618
2.1517 -1.1369 -3.1121
1.3286 2.1517 -1.1369
1.1937 1.3286 2.1517

76

Vous aimerez peut-être aussi