Académique Documents
Professionnel Documents
Culture Documents
Fdo.:
Fecha: / /
Fdo.:
Fecha: / /
RESUMEN
El presente proyecto trata de un estudio en profundidad de las tcnicas existentes para
extraer de los datos un conocimiento no implcito en los mismos y que puede ser de
gran utilidad para la toma de decisiones de negocio.
De esta forma se analizan las distintas tcnicas estadsticas y de minera, su utilidad, en
qu casos puede aplicarse cada una de ellas, cules pueden resultar ms ptimas segn
los datos de los que se disponga y los requisitos de partida y cmo deben interpretarse
los resultados obtenidos.
Existen dos enfoques o reas dentro del Data Mining: las tcnicas clsicas de Estadstica
y las de minera de datos propiamente dicha que derivan, en su mayora,
de las
Las funciones estadsticas ofrecen diversos mtodos de pronstico para dar apoyo a la
toma de decisiones empresariales. Aunque no son propias de minera de datos (se
utilizaban mucho antes de que surgiera este concepto), resultan de gran utilidad a la
hora de descubrir patrones o elaborar modelos de prediccin. Pueden emplearse para
obtener ms informacin sobre los datos,
Cul es la diferencia entre ambas? No es una pregunta fcil de responder; tanto el xito
de las tcnicas de minera como el de las estadsticas dependen de los mismos factores:
datos depurados, fiables, bien definidos y validados. Adems la mayora de las tcnicas
se aplican para la resolucin del mismo tipo de problemas (prediccin, clasificacin...).
Podramos quizs sealar como diferencia que las tcnicas de minera tienden a ser ms
robustas y fciles de aplicar para usuarios poco experimentados. Por otra parte requieren
por lo general mayor potencia de clculo, lo que hoy en da ya no supone un problema.
PROJECT ABSTRACT
The current project is an in depth study on the available methods for extracting
knowledge from data to support critical business decisions.
Statistical and data mining techniques are analyzed, making recommendations based on
best use and original requirements, as well as suitability depending on case studies and
data available. Additionally, guidelines are provided to help interpret the output data.
Data Mining, one of the most potential areas in Business Intelligence, extracts hidden
knowledge from the available data which can help obtain behavior patterns, trends,
support decision making, market research, new business opportunities
Data Mining has two building blocks: traditional statistical methods and data mining
itself originated from Artificial Intelligence such as neural networks, fuzzy logic, self
automated learning methods...
...
If we question about the difference between them, the answer is not simple; as the
success in data mining and statistics depend on the same factors: refined data, reliable,
well defined and validated. Furthermore, most of the techniques are used for solving the
same type of problems (prediction, classification )
We can also consider as differentiating facts the robustness and easy implementation of
mining techniques by non skilled users. On the other hand they require much more
computing power, not being a problem with todays technologies.
This project intends to describe how traditional statistics integrate into data mining to
offer more accurate and complete results.
Data used come from climate statistical tables provided by INE (National Institute of
Statistics), with monthly information on temperatures, rainfall, relative humidity,
daylight sun from the different regions of Spain during several years
As an acquired knowledge application, both statistical and mining techniques were used
in the case study: prediction of global warming effect based on the rainfalls and dam
water levels.
Based on knowledge and product availability, DB2 Intelligent Miner for Data was
chosen. This tool is quite complete as it integrates statistical and mining techniques
being most suitable for the required comparative analysis..
NDICE DE CONTENIDOS
MEMORIA ........................................................................................................ 10
Objetivos ............................................................................................................ 11
Consideraciones.................................................................................................. 14
PRESUPUESTO................................................................................................. 15
2- TCNICAS DE ANLISIS............................................................................ 41
2.1- Tcnicas estadsticas .................................................................................... 42
Consideraciones ...................................................................................... 42
Categorizacin de datos........................................................................... 43
2.1.1- Regresin lineal ............................................................................. 44
2.1.2- Ajuste de curva univariable ........................................................... 46
2.1.3- Anlisis de componentes principales.............................................. 46
2.1.4- Anlisis Factorial........................................................................... 47
2.1.5- Estadsticas Bivariables ................................................................. 48
2.2- Tcnicas de minera ..................................................................................... 49
2.2.1- Asociaciones .................................................................................. 49
2.2.2- Clustering....................................................................................... 49
2.2.2.1- Clustering neuronal......................................................... 51
7
MEMORIA
10
Objetivos
Por tanto el principal objetivo de este proyecto es describir cada una de las tcnicas
estadsticas y de minera existentes para descubrir toda su potencia y utilidad y ver
cmo se complementan entre s.
Las funciones estadsticas ofrecen diversos mtodos de pronstico para dar apoyo a la
toma de decisiones empresariales. Aunque no son propias de minera de datos (se
utilizaban mucho antes de que surgiera este concepto), resultan de gran utilidad a la
hora de descubrir patrones o elaborar modelos de prediccin. Pueden emplearse para
obtener ms informacin sobre los datos,
11
2. Anlisis.
Se partir de un anlisis previo de las siguientes tcnicas estadsticas:
??
Regresin lineal
??
??
??
??
Estadsticas Bivariables
y de minera de datos:
12
??
Asociaciones
??
Clustering
o Neuronal
o Demogrfico
??
Patrones Secuenciales
??
Secuencias Semejantes
??
Clasificacin
o En rbol
o Neuronal
??
Prediccin
o Funcin de Base Radial (FBR)
o Neuronal
6. Conclusiones.
13
Consideraciones
14
PRESUPUESTO
Mano de obra
Das de trabajo
Horas de trabajo
Total Horas
Coste Hora
Coste Total
201
4
804
10
8040
Recursos
HW
SW
Total
1200
468
76.018
77686
15
16
Muchos de los conceptos de Business Intelligence no son nuevos pero han evolucionado
y han sido redefinidos a partir de la experiencia adquirida con los sistemas de
informacin y, ms recientemente, con las aplicaciones de Data Warehouse.
Analytical
Processing),
para
multidimensionales
de
MOLAP
18
19
20
Algunas de las primeras cuestiones que nos pueden surgir al describir los objetivos de
un sistema de Business Intelligence son Proporciona un Data Warehouse las mismas
funcionalidades que un sistema de Business Intelligence? un Data Warehouse es
similar a los clsicos sistemas de informacin implementados en la mayora de las
empresas? Aunque en un primer momento podemos responder de forma afirmativa a
ambas cuestiones, un anlisis detallado nos muestra que existen importantes diferencias
entre estos sistemas.
21
22
23
Historia
El concepto de Data Warehouse surgi a partir de los sistemas expertos y las tcnicas de
Inteligencia Artificial que alcanzaron mayor auge en la dcada de los 80. El objetivo de
los sistemas expertos era el de emular el comportamiento humano, automatizando en lo
posible la toma de decisiones. Para ello era necesario crear una base de conocimiento
que contuviera todas las reglas que rigen el comportamiento de un experto.
La Inteligencia Artificial desarroll una serie de tcnicas que permitan que los sistemas
expertos desarrollados aprendiesen con la experiencia y fueran capaces de modificar las
reglas de actuacin segn el nuevo conocimiento adquirido.
24
A pesar de todo fueron muy poco los sistemas expertos desarrollados con xito debido a
varias razones:
?? Ausencia de la tecnologa necesaria.
?? Carencia de una metodologa estndar de desarrollo.
?? No existencia de un repositorio central de datos.
Objetivo
25
Necesidad
Los sistemas de ingreso de transacciones se ven afectados por las consultas a sus bases
de datos. Generalmente poseen informes predefinidos, y cualquier modificacin a los
mismos debe ser solicitado al departamento de sistemas, que ser en definitiva quien
evaluar si tiene los recursos humanos disponibles como para realizarlos. El Data
Warehouse est separado de los sistemas transaccionales, por lo tanto las consultas no
afectan la velocidad de registro de las operaciones. Se actualiza peridicamente,
capturando datos de los distintos sistemas transaccionales. Una vez implementado, es
importante elegir las herramientas de consulta al Data Warehouse, que permitan un alto
grado de autonoma a los usuarios.
Diferencia con las bases de datos operacionales
Data Warehouse
Datos Operacionales
Orientado a la aplicacin
Orientado al sujeto
Actual
Actual + histrico
Detallada
Detallada + ms resumida
Cambia continuamente
Estable
26
Uso de
Operacionales
Data Warehouse
Consultas predefinidas y
actualizables
no anticipadas.
detallados
detallados
Requerimientos de respuesta
Requerimientos de respuesta no
inmediata
crticos
27
?? Modelo copo de nieve: modelo en estrella que se obtiene desglosando todas las
dimensiones.
?? Modelo multidimensional (en cubo): Cada cara del cubo representa una
dimensin y la interseccin de todas las dimensiones (una celda del cubo)
almacena datos relevantes o medidas precalculadas. Es adecuado nicamente
para tres o incluso cuatro dimensiones, con un nmero mayor se complica
demasiado. No se utiliza de forma frecuente debido a que se desaprovecha
mucho espacio, son complejos y difcil de mantener.
En la siguiente figura puede verse un ejemplo de modelo en cubo con tres
dimensiones: tiempo, producto y cliente:
28
Ventajas
Las principales ventajas de este nuevo modelo frente a los sistemas clsicos son:
?? Acceder a un Data Warehouse es relativamente fcil y rpido.
?? Los informes generados son consistentes y no es necesario realizar cruces o
reconciliaciones entre ellos.
?? Un Data Warehouse est diseado especficamente para satisfacer las
necesidades de negocio de los usuarios y no para la aplicaciones operacionales
del da a da.
?? La informacin almacenada en un Data Warehouse es limpia, consistente y en
un formato comprensible para los usuarios.
?? Adems de la informacin actual, un Data Warehouse suele contener registros
histricos, as como el resultado de diversas operaciones realizadas con los datos
(totales, medias...).
?? Mejora en el seguimiento de los resultados de negocio y rapidez y eficacia en la
toma de decisiones, lo que supone una clara diferenciacin de las empresas
competidoras.
Estructura
Una de las razones por las que el desarrollo de un Data Warehouse crece rpidamente,
es que realmente es una tecnologa muy entendible. De hecho, puede representar mejor
la estructura amplia de una empresa para administrar los datos informacionales dentro
de la organizacin.
La siguiente figura muestra la estructura bsica de un sistema Data Warehouse:
29
Arquitectura
A la hora de implementar un sistema Data Warehouse puede optarse por una de las
siguientes arquitecturas (de menor a mayor complejidad):
?? Virtual Data Warehouse: El Data Warehouse no existe realmente,
simplemente se simula una funcionalidad similar a la que proporcionara ste a
base de extraer de los sistemas operacionales la informacin necesaria para un
propsito determinado.
?? One-tier Data Warehouse: Diseado para un departamento concreto, sin
englobar la informacin del resto de la organizacin. Suele corresponder a un
Data Mart.
?? Data Marts: Se construyen varios Data Marts para los departamentos ms
importantes de la empresa. Luego es posible su integracin en un Data
Warehouse central.
La diferencia entre tener un Data Warehouse Central y varios Data Marts
independientes es que en el primer caso se pueden aprovechar procesos
automticos que actualizan los datos en cadena, adems de ganar consistencia en
la informacin al estar los datos relacionados entre s.
?? Two-tier Data Warehouse: Arquitectura Data Warehouse ms completa que
optimiza al mximo la extraccin de los datos al disponer, adems de un Data
Warehouse central, de un Data Mart que es con el que trabajan directamente los
usuarios.
30
31
DSS
MINERA
AN LISIS
DATOS
y puntos de vista,
32
Minera de datos
33
El primer paso de la minera de datos consiste en especificar los datos de entrada que se
deseen explorar y analizar. Puede que una fuente de datos no contenga todos los datos
que se quieran utilizar para un objetivo concreto de minera de datos, o bien puede que
contenga datos irrelevantes. As, estos datos pueden estar en una o ms tablas de base de
datos, vistas o archivos planos.
34
Minera de datos
Puede analizar los resultados del proceso de minera de datos en base a los objetivos de
apoyo a las decisiones que tome. Las herramientas de visualizacin permiten ver los
resultados e identificar la informacin importante que queda al descubierto mediante el
proceso de minera. Los resultados pueden exportarse a una estacin de trabajo remota
de manera que puedan visualizarse en una ubicacin diferente. Tambin se pueden
copiar determinados resultados al portapapeles haciendo as que estn disponibles para
otras herramientas, como hojas de clculo o aplicaciones estadsticas.
La minera de datos puede ser un proceso iterativo. Si se observa un resultado anterior,
podra querer ajustarse la formulacin de la minera para una ejecucin de minera que
mejore la calidad del resultado.
35
IBM DB2 Intelligent Miner for Data Versin 8 es un conjunto de funciones estadsticas,
de preproceso y de minera que se pueden utilizar para analizar grandes bases de datos.
Tambin ofrece herramientas de visualizacin para ver e interpretar los resultados de
minera.
Algunas de sus principales caractersticas son las siguientes:
?? Proporciona un conjunto de herramientas que forman un marco de trabajo
nico para la extraccin de datos.
?? Admite el proceso iterativo y permite el procesamiento de datos, el anlisis
estadstico y la visualizacin de resultados como suplemento de su amplia
variedad de mtodos de extraccin.
?? Utiliza algoritmos de extraccin garantizados, ya sea individualmente o
combinados, para resolver numerosos problemas de negocios y obtener
resultados comerciales mensurables.
?? Proporciona una solucin ampliable, centrada en las reas clave de la
extraccin a gran escala, como por ejemplo, los grandes volmenes de datos,
la extraccin paralela de datos, las operaciones de extraccin a largo plazo y
la mejora de los algoritmos de extraccin.
?? Incluye un interfaz de programacin de aplicaciones que permite el
desarrollo de aplicaciones de extraccin personalizadas adaptadas a cada
sector especfico.
?? Proporciona una sofisticada extensin SQL de la base de datos DB2 y activa
la incrustacin de funciones de modelado en las aplicaciones empresariales.
?? Admite el desarrollo de modelos de extraccin de datos en un formato
compatible con el lenguaje PMML (del ingls Predictive Model Markup
Language, lenguaje de marcado para modelos predictivos) V2.0, la nueva
norma estndar del sector para modelos analticos.
?? Los usuarios pueden aplicar las nuevas relaciones entre los datos a nuevos
datos en tiempo real.
?? Permite el anlisis de modelos de extraccin de datos a travs de DB2
Intelligent Miner Visualizer, un navegador de resultados basado en Java.
36
37
38
39
2-TCNICAS DE ANLISIS
Una de las principales diferencias entre los modelos estadsticos y los modelos de
inteligencia artificial, es cmo miden su error. Los primeros miden el error relativo tal
como el modelo "adapta" los datos, mientras que los segundos, miden el error relativo a
los datos an invisibles (Error predictivo).
Segundo, los modelos estadsticos tienen dificultades al dar datos contradictorios o
desordenados, es decir, los datos deben estar limpios y deben existir las correlaciones
consistentes. Viceversa, las herramientas de inteligencia artificial buscan "generalizar"
relaciones para proporcionar el resultado ms probable.
41
2.1-Tcnicas estadsticas
Las funciones estadsticas ofrecen diversos mtodos de pronstico para dar apoyo a la
toma de decisiones empresariales. Aunque no son propias de minera de datos (se
utilizaban mucho antes de que surgiera este concepto), resultan de gran utilidad a la
hora de descubrir patrones o elaborar modelos de prediccin.
Pueden emplearse para obtener ms informacin sobre los datos, lo que permitir tomar
decisiones ms acertadas cuando se apliquen los procesos de minera. Las funciones
estadsticas se aplican a los datos de entrada y producen datos de salida y resultados.
Mediante la aplicacin de distintos clculos y teoras estadsticas a los datos de entrada
se pueden descubrir en ellos patrones ocultos. Estas funciones se pueden utilizar en los
pasos de transformacin y minera del proceso. Algunos ejemplos de aplicacin de las
funciones estadsticas son los siguientes:
?? Con la tcnica de Regresin lineal se pueden predecir valores mediante un
modelo de ajuste lineal.
?? Mediante el Anlisis de componentes principales pueden verse los atributos
ms dominantes en los datos.
?? Con Anlisis de factores se puede reducir el nmero de variables de los datos
de entrada.
Consideraciones
Mediante las funciones estadsticas se pueden analizar fcilmente los datos utilizando
varios mtodos de estadstica diferentes. Se puede tener la tentacin de probar con
diferentes mtodos sin considerar la naturaleza de los datos. Utilizando distintos
mtodos sobre un conjunto de datos se pueden conseguir hallazgos estadsticamente
significativos por casualidad. No obstante, lo mejor es elegir un mtodo de estadstica
basado en la naturaleza de los datos y en la informacin que puede utilizarse.
Se dispone de muchos mtodos de estadstica complejos. En cualquier caso, conviene
utilizarlos e interpretarlos correctamente. Tambin debe prestarse especial atencin a las
limitaciones y presunciones de cada mtodo.
42
Categorizacin de datos
Nmero de variables
Funcin Estadstica
Escala de medida
Regresin
IR
2 o ms
IR
Anlisis de componentes I R
2 o ms
principales
Anlisis factorial
IR
2 o ms
2.1.1-Regresin lineal
La tcnica de Regresin lineal se utiliza para determinar la mejor relacin lineal entre la
variable dependiente y una o ms variables independientes. La variable dependiente es
aquella que se desea predecir y las variables independientes son aquellas en las que se
basa la prediccin.
44
La relacin entre los valores conocidos y los predichos puede representarse en un plano
bidimensional, situando las variables en las que se basa la prediccin en el eje Y y la
variable dependiente en el eje X.
El modelo de regresin lineal sera la lnea que minimiza la tasa de error entre el valor
rela y el punto de la lnea (valor predicho). La forma ms comn de calcular este error
es el cuadrado de la diferencia entre el valor real y el predicho.
En la siguiente figura puede verse un ejemplo de representacin grfica:
45
2.1.4-Anlisis Factorial
El Anlisis factorial descubre las relaciones entre mltiples variables en base a unas
cantidades aleatorias subyacentes, pero no observables, que se denominan factores.
Se trata de una tcnica adecuada para el caso de variables continuas altamente
correlacionadas, que es cuando podemos suponer que se explican por factores comunes.
El nmero de factores puede determinarse mediante uno de los siguientes mtodos:
?? Dejar que el sistema determine el nmero de factores.
?? Especificar el porcentaje de varianza a explicar por los factores calculados.
?? Especificar un determinado nmero de factores. Este nmero debe ser menor o
igual que el nmero de variables de entrada.
El modelo matemtico del Anlisis Factorial supone que cada una de las p variables
observadas es funcin de un nmero m factores comunes (m<p) ms un factor
especfico o nico.
Si los resultados obtenidos no permiten una interpretacin clara de los factores
generados, puede utilizarse una rotacin de factores para simplificar la estructura
factorial.
Existen dos tipos de rotacin:
?? Rotacin quartimax: La rotacin quartimax tiende a producir un factor que se
correlaciona principalmente con una variable dada. Los otros factores
producidos tienden a estar menos correlacionados que con la rotacin varimax.
?? Rotacin varimax: La rotacin varimax maximiza la varianza de la carga de
factores para cada variable de entrada. Los factores rotados presentan una
47
2.1.5-Estadsticas Bivariables
Se puede utilizar la funcin Estadsticas bivariables para realizar las siguientes tareas:
?? Calcular estadsticas bsicas para campos numricos, tales como el mximo,
mnimo, media, varianza y frecuencias.
Las frecuencias para campos numricos continuos se calculan sobre valores
comprendidos entre los lmites de un compartimento.
?? Calcular frecuencias para campos categricos y campos discretos numricos.
?? Realizar la prueba Chi cuadrado de un campo seleccionado. Si se selecciona un
campo, el valor de Chi cuadrado se calcula en todas las combinaciones
existentes de este campo con otros campos.
?? Realizar la prueba-F. La prueba-F se aplica a todas las parejas de campos
numricos.
?? Calcular cuantiles de campos numricos seleccionados.
?? Extraer muestras de datos de entrada.
?? Copiar datos de entrada en una tabla de salida, posiblemente como una muestra.
48
2.2-Tcnicas de minera
2.2.1-Asociaciones
2.2.2-Clustering
50
2.2.2.1-Clustering Neuronal
Una red neuronal artificial es un algoritmo matemtico con algoritmo matemtico con
capacidad para recordar experiencias y hacerlas disponibles capacidad para recordar
experiencias y hacerlas disponibles para su uso.
Recuerda al cerebro humano en dos aspectos:
?? El conocimiento es adquirido por la red a travs de un proceso de aprendizaje
?? La fuerza de la conexin entre neuronas (pesos sinpticos) es usada para
almacenar el conocimiento.
Una red neuronal aprende mediante la modificacin de sus pesos sinpticos.
Algunas de las ventajas que ofrecen son:
?? Modela relaciones no lineales
?? Modela relaciones entrada-salida
?? Capacidad de adaptacin
?? Tiene en cuenta el contexto de trabajo
?? Posibilidad de desarrollo de dispositivos VLSI
?? Uniformidad de anlisis y diseo
?? Analoga neurobiolgica
Una neurona artificial es la unidad de procesado bsica de una red neuronal artificial.
Sus elementos bsicos son:
?? Sinapsis o conexiones cada una de ellas con un peso
?? Un sumador capaz de sumar entradas pesadas
?? Una funcin de activacin que limita la amplitud de la salida
51
discriminante.
Una arquitectura lattice es aquella en la que cada entrada va a todas las neuronas. En la
imagen se muestra un ejemplo de arquitectura lattice 3x1:
52
53
nmero de clusters y el nmero mximo de pasadas sobre los datos. Estos parmetros
controlan el tiempo de proceso y el grado de granularidad que se utiliza al asignar los
registros de datos a los clusters.
La funcin principal del clustering neuronal es buscar un centro para cada cluster. Este
centro se denomina tambin prototipo de cluster. Para cada registro de los datos de
entrada, la funcin de minera Clustering neuronal calcula el prototipo de cluster ms
cercano al registro.
La puntuacin de cada registro de datos se representa mediante la distancia eucldea que
lo separa del prototipo de cluster. Las puntuaciones que se acercan a cero indican un
grado de similitud al prototipo ms alto. Cuanto ms alta sea la puntuacin, ms se
diferencia el registro del prototipo de cluster.
Con cada pasada sobre los datos de entrada, los centros se ajustan de forma que se logra
una calidad mejor en el modelo de clustering global: el sistema aprende. El indicador de
progreso muestra la mejora en la calidad en cada pasada durante la ejecucin de la
funcin de minera.
2.2.2.2-Clustering Demogrfico
54
2.2.3-Patrones secuenciales
2.2.4-Secuencias semejantes
55
2.2.5-Clasificacin
2.2.5.1-Clasificacin en rbol
El Algoritmo de induccin con rbol ofrece una descripcin de fcil comprensin sobre
la distribucin subyacente de los datos. Este algoritmo realiza un ajuste proporcional
56
57
2.2.5.2-Clasificacin neuronal
Al igual que con la Clasificacin en rbol, el objetivo es crear modelos basados en datos
conocidos. Estos modelos se pueden utilizar para analizar la razn por la cual se ha
hecho una clasificacin o para calcular la clasificacin de nuevos datos.
La arquitectura de red neuronal empleada ser con frecuencia un Perceptrn multicapa:
58
59
2.2.6-Prediccin
Puede utilizarse el mtodo de funcin de base radial (FBR) para ajustar datos que son
funcin de diversas variables. El algoritmo bsico puede formar un modelo para
predecir el valor de un campo determinado partiendo de los valores de otros atributos.
Una funcin base-radial requiere varios centros de ajuste. Un centro de ajuste es un
vector del espacio de atributos. En cada uno de estos centros, se define una funcin de
base. La funcin de base es una funcin no lineal de distancia desde el centro de ajuste.
Por este motivo, las funciones de base se denominan Funciones de base radial: tienen el
mismo valor en cualquier punto con la misma distancia o radio desde el centro de
ajuste.
La prediccin que da un ajuste de base radial para un conjunto concreto de atributos
(que se denomina punto) es una suma ponderada de las funciones de base en ese punto.
Durante el proceso de ajuste, los valores de ponderacin que produzcan los mejores
60
2.2.6.2-Prediccin neuronal
61
Para ello tomamos datos del INE (Instituto Nacional de Estadstica) referentes a:
?? Temperaturas medias mensuales por regin y estacin, aos y meses (en C).
?? Temperaturas mximas absolutas por regin y estacin, aos y meses (en C).
?? Temperaturas mnimas absolutas por regin y estacin, aos y meses (en C).
?? Humedad media mensual en porcentaje por regin y estacin, aos y meses (en
%).
?? Precipitacin total por regin y estacin, aos y meses (en mm).
?? Nmero de das despejados por regin y estacin, aos y meses.
?? Nmero de das nubosos por regin y estacin, aos y meses.
?? Nmero de das cubiertos por regin y estacin, aos y meses.
?? Nmero de das con temperatura igual o inferior a 0 C por regin y estacin,
aos y meses.
?? Nmero de das con temperatura igual o superior a 25 C por regin y estacin,
aos y meses.
?? Nmero de horas de sol por regin y estacin, aos y meses.
?? Precipitacin acuosa por aos, cuencas hidrogrficas y meses (media en l/m2).
?? Capacidad de los embalses peninsulares y agua embalsada por cuencas, aos y
capacidad/agua (en millones de m3).
La fuente de toda esta informacin son los resmenes anuales sobre el clima en Espaa,
que proporciona el Instituto Nacional de Meteorologa (Ministerio de Fomento) y que el
INE publica dentro del anuario Estadstico de Espaa.
En el caso de la informacin sobre la ocupacin de los embalses la fuente es la
Direccin General de Obras Hidrulicas y Calidad de Aguas. Ministerio de Medio
Ambiente.
62
Se tienen datos desde el ao 1997 al 2002 para todas las variables, excepto para la
capacidad y ocupacin de los embalses en que se dispone de datos desde 1987 hasta el
2003.
Veamos a continuacin una muestra de la informacin disponible para cada una de estas
caractersticas climatolgicas, tomando como ejemplo la temperatura media. El resto de
tablas pueden verse en el Anexo B.
63
TEMPERATURAS MEDIAS
1997
Total
NOROESTE: Corua (A)
NOROESTE: Lugo (Las Rozas)
NOROESTE: Ourense (Instituto)
NOROESTE: Santiago
NOROESTE: Vigo (Peinador)
CANTBRICA: Bilbao (Aeropuerto)
CANTBRICA: Gijn
CANTBRICA: San Sebastin (Igueldo)
CANTBRICA: Santander (Parayas aeropuerto)
DUERO: vila (Observatorio)
DUERO: Burgos (Villafra)
DUERO: Len (Virgen del Camino)
DUERO: Salamanca (Matacn)
DUERO: Segovia (Observatorio)
DUERO: Soria (Observatorio)
DUERO: Valladolid (Observatorio)
DUERO: Zamora (Observatorio)
CENTRAL: Albacete (Los Llanos)
CENTRAL: Ciudad Real (Observatorio)
CENTRAL: Cuenca
CENTRAL: Guadalajara (Molina de Aragn)
CENTRAL: Madrid (Retiro)
CENTRAL: Toledo
EXTREMADURA: Badajoz (Talavera la Real)
EXTREMADURA: Cceres (Observatorio)
EBRO: Huesca (Monflorite)
EBRO: Logroo (Agoncillo)
Enero
15,8
12,8
15,9
14,2
15,1
15,5
14,7
14,6
15,2
11,8
11,6
11,9
13
13,2
12,7
13,7
14,1
14,8
16,2
13,5
11,4
15,6
16,4
17,7
16,9
14,6
14,5
Febrero
10,2
5,4
7,8
7,7
8,4
9,7
7,9
8,7
9,5
3
3,9
2,6
4,2
4
3,1
4,8
4,9
6,5
6,8
5,2
2,9
7,1
7,1
9,5
8,2
6,2
6,9
Marzo
12,8
9,4
11,3
10
11
12,1
11,3
12
11,3
7,2
6,6
7,3
7,8
8,6
7
8,6
8,6
9,2
10,2
8,5
6,9
10,3
10,7
12,3
11,4
9,6
9,4
15
11,6
14,8
14,5
15,8
12,4
11,9
12
12
9,6
9,6
11,6
10,8
12,2
10,4
12
12,7
11,4
14
11,5
8,6
14,7
14,4
15,9
15,4
13,1
12,2
La base de datos tendr por nombre CLIMA y contendr (en principio) las siguientes
tablas:
?? T_MEDIAS: Temperaturas medias.
?? T_MAX : Temperaturas mximas absolutas.
?? T_MIN : Temperaturas mnimas absolutas.
?? H_MEDIA: Humedad media en porcentaje.
?? PREC_TOTAL: Precipitacin total.
?? DIAS_DESPEJADOS: Nmero de das despejados.
?? DIAS_NUBOSOS: Nmero de das nubosos.
?? DIAS_CUBIERTOS: Nmero de das cubiertos.
?? DIAS_MENOS0: Nmero de das con temperatura igual o inferior a 0C.
?? DIAS_MAS25: Nmero de das con temperatura igual o superior a 25C.
?? HORAS_SOL: Nmero de horas de sol.
?? PREC_HIDRO: Precipitaciones segn cuencas hidrogrficas.
?? EMBALSES: Capacidad y ocupacin de los embalses.
65
NOMBRE
DE TIPO
NULLABLE
CAMPO
DATO
REGIN
VARCHAR
250
NO
TOTAL_97
DECIMAL
YES
ENERO_97
DECIMAL
YES
FEBRERO_97
DECIMAL
YES
MARZO_97
DECIMAL
YES
ABRIL_97
DECIMAL
YES
MAYO_97
DECIMAL
YES
JUNIO_97
DECIMAL
YES
DICIEMBRE_97
DECIMAL
YES
ENERO_98
DECIMAL
YES
FEBRERO_98
DECIMAL
YES
NOVIEMBRE_02
DECIMAL
YES
DICIEMBRE_02
DECIMAL
YES
66
?? DIAS_MENOS0: Integer
?? DIAS_MAS25: Integer
?? HORAS_SOL: Integer
?? PREC_HIDRO: Integer
?? EMBALSES: Integer
Los datos obtenidos del INE en hoja de clculo se almacenan como ficheros delimitados
para poder cargarlos en las respectivas tablas a travs de sentencias import.
import from t_medias.del of del modified by coldel; chardel decpt, insert into
T_MEDIAS (region, total_97, enero_97, febrero_97, marzo_97, abril_97, mayo_97,
junio_97,
julio_97,
agosto_97,
septiembre_97,
octubre_97,
noviembre_97,
julio_98,
agosto_98,
septiembre_98,
octubre_98,
noviembre_98,
julio_99,
agosto_99,
septiembre_99,
octubre_99,
noviembre_99,
julio_00,
agosto_00,
septiembre_00,
octubre_00,
noviembre_00,
julio_01,
agosto_01,
septiembre_01,
octubre_01,
noviembre_01,
julio_02,
agosto_02,
septiembre_02,
octubre_02,
noviembre_02,
diciembre_02 )
import from embalses.del of del modified by coldel; chardel decpt, insert into
EMBALSES
(embalse,
capacidad_87,
agua_87,
capacidad_88,
agua_88,
capacidad_89,
agua_89,
capacidad_90,
agua_90,
capacidad_91,
agua_91,
capacidad_92,
agua_92,
capacidad_93,
agua_93,
capacidad_94,
agua_94,
capacidad_95,
agua_95,
capacidad_96,
agua_96,
capacidad_97,
agua_97,
67
capacidad_98,
agua_98,
capacidad_99,
agua_99,
capacidad_00,
agua_00,
68
Con el modelo de climatologa creado vamos a aplicar cada de una de las tcnicas de
estadstica y minera para comprender mejor su funcionamiento y aplicacin.
3.3.1-Tcnicas de estadstica
A) Regresin lineal
Puesto que nos permite estudiar el comportamiento de una variable dependiente segn
una o ms variables independientes, puede aplicarse por ejemplo para ver cmo vara la
humedad en funcin de las temperaturas, las precipitaciones y las horas de sol.
Para construir la regresin tomamos los datos de temperaturas medias, precipitaciones y
humedad de los totales del ao 2002.
Como previsiblemente necesitaremos la informacin del resto de caractersticas
climatolgicas totalizadas por ao, construimos una tabla llamada DATOS02 que
presenta la siguiente estructura:
69
REGION
T
NOROESTE: Corua (A)
NOROESTE: Lugo (Las Rozas)
NOROESTE: Ourense (Instituto)
NOROESTE: Santiago
NOROESTE: Vigo (Peinador)
CANTBRICA: Bilbao (Aeropuerto)
CANTBRICA: Gijn
CANTBRICA: San Sebastin (Igueldo)
CANTBRICA: Santander (Parayas aeropuerto)
DUERO: vila (Observatorio)
DUERO: Burgos (Villafra)
DUERO: Len (Virgen del Camino)
DUERO: Salamanca (Matacn)
DUERO: Segovia (Observatorio)
DUERO: Soria (Observatorio)
DUERO: Valladolid (Observatorio)
DUERO: Zamora (Observatorio)
CENTRAL: Albacete (Los Llanos)
CENTRAL: Ciudad Real (Observatorio)
CENTRAL: Cuenca
CENTRAL: Guadalajara (Molina de Aragn)
CENTRAL: Madrid (Retiro)
CENTRAL: Toledo
EXTREMADURA: Badajoz (Talavera la Real)
EXTREMADURA: Cceres (Observatorio)
EBRO: Huesca (Monflorite)
PREC
14,1
12
15,3
13,3
14,2
14,7
14,8
14
14,8
11,6
11,5
11,1
12,5
12,5
13,2
11,3
13,4
14,7
16,1
13,4
10,9
15,1
16,1
17,3
16,5
14,5
HSOL
1218,2
1127,7 ..
937,5
1964,9
2000,9
1033,4 ..
966
1676,9
1106,2
450,4
576,2
585,6
426,1
574,4
579,1
478,1
494
374,3
369,2
620
545,4 ..
502
362,9 ..
461,5
564,6 ..
473,7 ..
HUM
1802
D DESP
76
..
1899
1702
2068
..
69
79
79
69
76
78
75
62
70
68
66
57
64
63
63
59
60
59
61
60
1762
1744
1600
2570
2066
2442
2582
2568
2402
2573
2459
2753
2676
2574
2591
..
2791
..
63
..
..
..
..
Para crear esta tabla pueden utilizarse las funciones de proceso que proporciona el
Intelligent Miner para:
?? Filtrar campos: obteniendo de cada tabla las columnas de totales del 2002
?? Unir fuentes de datos: juntando en una nica tabla los totales de todas las
caractersticas climatolgicas.
Una vez creada la tabla es necesario definir en el Intelligent Miner el mdulo de datos
asociado a la misma llamado Datos 2002.
73
Como puede verse en la imagen, no existe una relacin clara entre las temperaturas
medias y la humedad relativa. Para analizarlo en ms detalle eliminamos el flag de
valores residuales obteniendo la siguiente pantalla que cambia la escala de los ejes:
74
75
Al igual que con las temperaturas, no existe a simple vista una relacin clara entre la
humedad y las horas de sol, por lo que eliminamos de nuevo el ajuste residual:
76
De esta forma s podemos apreciar cmo a medida que aumenta el nmero de horas de
sol disminuye la humedad relativa de una localizacin geogrfica.
Al fin y al cabo lo que trata la regresin de lineal es de establecer la funcin ptima que
relacione la variable dependiente con las independientes, es decir, averiguar el valor de
los coeficientes ? de la siguiente ecuacin:
y = ? 0 + ? 1x1 + ? 2x2 ... ? nxn + ?
siendo:
77
y = humedad
x1 = precipitaciones totales
x2 = temperatura media
x3 = horas de sol
Para comprender mejor cmo se ha llevado a cabo el clculo entre los valores
observados y los valores ajustados y la diferencia entre los mismos, podemos recurrir a
la tabla de ajuste:
?? La primera de las columnas muestra los nmeros de las observaciones en las que
se basan los diagramas.
?? La segunda columna muestra los valores observados.
?? La tercera columna muestra los valores ajustados.
?? La cuarta columna muestra los residuos (diferencia entre los valores ajustados y
los observados).
?? Las columnas restantes contienen los valores de las distintas variables
independientes.
78
79
Por ltimo queda estudiar la Anova (Anlisis de varianza) de regresin que muestra el
nivel de significacin del modelo a travs de varias medidas estadsticas:
?? R-cuadrado: cuadrado del coeficiente de correlacin mltiple que determina la
calidad del modelo de regresin. Tiene un valor entre 0 y 1 e indica un mejor
ajuste cuanto ms cerca est de la unidad. En este caso presenta un valor de 0,68,
por lo que no es un mal modelo de regresin.
?? Error estndar: desviacin tpica del margen de error en el modelo de regresin
lineal.
?? Cuadrado medio: resultado de la divisin de la suma de cuadrados entre los
grados de libertad.
?? Valor F: valor de la estadstica de prueba utilizada para comprobar la hiptesis
de que todos los coeficientes del modelo de regresin lineal son 0. Se puede
utilizar este valor para determinar el nivel de significacin.
?? Probabilidad > F: probabilidad de obtener un valor F superior al valor mostrado.
Cuanto menor sea ms significativa ser la regresin. En nuestro caso es igual a
9,887 * 10-11, por lo que el modelo puede considerarse muy representativo.
80
81
Esta tcnica estadstica permite analizar cmo se distribuyen las observaciones a travs
del tiempo y una previsin del comportamiento de la variable en estudio en el futuro.
Estas tablas pueden generarse a travs del Intelligent Miner con la funcin de proceso
de filtrado de registros, seleccionando nicamente aquellos en los que la regin sea
igual a Madrid.
A continuacin habr que pivotar filas por columnas para que cada uno de los registros
represente un valor asociado a un mes. Esta tarea puede realizarse con otra de las
funciones de proceso suministradas por el Intelligent Miner llamada Volcar campos a
registros.
82
REGION
TMAX
16,2
20
25
26
27,6
30,6
35
36,5
33,6
28,3
17
16
15,5
20,1
22,8
26,2
27,2
34
Una vez definidas las cuatro tablas y sus mdulos de datos asociados, podemos pasar a
crear los modelos de Ajuste de curva:
?? Ajuste de curva Temperaturas Mximas:
83
84
En este caso podemos observar mejor la diferencia entre los distintos periodos, por
lo que la previsin a un ao parece ms fiable.
85
La correlacin entre los valores de los datos de entrada en los distintos periodos
temporales, puede verse en la siguiente figura:
86
De esta forma queda clara la tendencia estacional de los datos: las temperaturas
mximas aumentan y disminuyen de forma gradual a lo largo del ao con un desfase
o retardo de 2 que hace pensar en una cierta similitud en cuanto a temperaturas en
Madrid cada 2 aos.
?? Ajuste de curva Temperaturas Mnimas:
87
En este caso optamos por un modelo sin previsin, por lo que la figura tan slo nos
muestra el mejor ajuste a las observaciones dadas.
Eliminamos adems la influencia estacional, para determinar con mayor claridad la
tendencia de los datos.
Observando la grfica resultante podemos ver cmo las temperaturas mnimas
absolutas permanecen constantes a los largo de los aos (segn la curva de ajuste).
Mientras que la curva que muestra las observaciones (dibujada en azul) deja patente
las variaciones cclicas estacionales.
88
89
90
91
La correlacin entre los valores de los datos de entrada en los distintos periodos
temporales, puede verse en la siguiente figura:
92
93
La correlacin entre los valores de los datos de entrada en los distintos periodos
temporales, puede verse en la siguiente figura:
94
En este caso el desfase es igual a 3, por lo que la tendencia en lluvias se repite cada
3 aos.
95
96
97
Al mismo tiempo queda patente la escasa influencia del nmero de das nubosos (con
tan solo un 0,086 de participacin en el componente ms representativo) en la
climatologa de una zona geogrfica.
?? A partir de la matriz de covarianza:
98
99
100
Utilizaremos por tanto el mismo ejemplo de estudio de la relacin entre las distintas
caractersticas climatolgicas. Tomamos como entrada la tabla que contiene los valores
totalizados del 2002 de las diferentes regiones.
Tenemos varias opciones de clculo:
?? Sin rotacin (las rotaciones pueden servir para visualizar de forma ms clara los
factores calculados).
Puede elegirse entre rotacin quartimax, que tiende a producir un factor que se
correlaciona principalmente con una variable dada o rotacin varimax, en la que
los factores rotados presentan una correlacin alta con un conjunto menor de
variables de entrada y pequea o ninguna correlacin con otro conjunto de
variables de entrada.
En principio ejecutamos el Anlisis Factorial sin definir ningn tipo de rotacin:
101
Como vemos en la figura, en este caso no es necesario aplicar ningn tipo de rotacin,
puesto que los tres factores generados se visualizan perfectamente.
Esto viene a significar que con los tres factores generados podemos explicar el 89,72 %
de la varianza de los datos de entrada, casi un 90% con lo que estamos ante un modelo
de Anlisis Factorial bastante preciso.
102
Veamos ahora en qu grado participa cada variable en los diferentes factores generados:
103
104
o Forzando a 2 factores:
105
Como podemos observar, con dos factores conseguimos explicar tan solo un 75,32 % de
la varianza de los datos de entrada, por lo que el modelo determinado por el sistema con
3 factores y una explicacin de casi un 90% de la varianza es bastante mejor que
forzando a 2 factores.
E) Estadsticas bivariables
Esta tcnica proporciona medidas como el valor mximo, mnimo, media, varianza,
frecuencias...
Como ejemplo de utilizacin podemos analizar las caractersticas climatolgicas de la
comunidad de Madrid. Para ello creamos una tabla con los datos de temperaturas
mximas, mnimas, precipitaciones y humedad relativos a esta regin con dimensin
temporal; definimos el mdulo de datos asociado y por ltimo la funcin de estadsticas
bivariables.
El resultado que obtenemos es el siguiente:
106
Como podemos apreciar en la figura, las lluvias registradas no parecen ser muy
cuantiosas puesto que la mayora de las observaciones se hallan entre los 0 y los 30
mm.
En lo que se refiere a las temperaturas mximas de Madrid predominan los valores
altos entre 36 y 38 C, aunque tambin es frecuente hallar medidas en los siguientes
intervalos: (14,16), (18,20) y (26,28), es decir, podemos distinguir cuatro rangos de
valores de una frecuencia relativa considerable, que parecen corresponder a las 4
estaciones del ao.
En cuanto a las mnimas, los valores ms frecuentes quedan comprendidos entre los
2 y 4 C, aunque tambin encontramos registros ms extremos entre 2 y 2 C en
ms de un 12% de las observaciones.
La humedad relativa presenta valores dispersos en el intervalo (41,63) sin una
tendencia marcada que englobe las observaciones en un determinado intervalo. Para
analizar esta variable con mayor claridad aumentamos el nmero de intervalos
representados:
107
De esta forma se aprecia que los valores ms frecuentes son de un 41% y un 63% de
humedad relativa.
Podemos adems contrastar estas apreciaciones sobre los grficos con las medidas
estadsticas calculadas para cada variable:
108
Como vemos la humedad relativa oscila entre el 41% y el 83% con un 60,77% de
media y siendo el valor ms frecuente el 41%.
109
Analicemos con ms detalle cada una de las variables segn las grficas generadas:
?? Das clidos
110
111
?? Das cubiertos:
El nmero de das cubiertos en las distintas regiones vara entre los 20 y los 151
das, con una media de 82 das y una desviacin tpica de 36.
Lo ms comn es que a lo largo del ao haya unos 46 das cubiertos, y que el resto
se repartan entre despejados y nubosos.
112
?? Das despejados:
Como vemos en la figura, suelen registrarse 36 das despejados a lo largo del ao,
pudiendo sin embargo oscilar en un amplio intervalo (entre los 9 y los 204 das)
segn las caractersticas territoriales y climatolgicas de la regin.
La media es de 68 das, con una desviacin tpica de 37.
113
?? Das fros:
El nmero de das con temperaturas iguales o inferiores a los 0 C oscila entre los 0
das en las regiones de clima ms clido (un 37,04 %) y los 95 en las zonas ms
fras.
La media es de 15 das al ao con una desviacin tpica de 21.
114
?? Das nubosos:
115
?? Horas de sol:
Una regin soporta entre 1600 y 3030 horas de sol al ao, con una media de 2523 y
una desviacin tpica de 410 horas.
Lo ms comn est en 1600 horas que pasndolo a das y despreciando las noches
(suponiendo 12 horas de sol al da) equivale a unos 133 das de sol al ao.
116
?? Humedad:
117
?? Precipitaciones:
El total de lluvias registradas vara entre los 157 y los 2000 mm por regin, con una
media de 647 mm y 385 de desviacin tpica.
Lo ms frecuente es un total de 550 mm en un 24% de las observaciones.
118
?? Temperaturas medias:
Las temperaturas medias registradas varan entre los 10,9 y los 21,7 C, con una
media de 15,5 C y una desviacin tpica de 2,7.
El valor modal es de 14,5 C, que se repite en el 18,5% de las observaciones.
119
A) Asociaciones
SECUENCIA
FENMENO
Enero
Temperatura baja
Enero
Mucha lluvia
Enero
Febrero
Febrero
Diciembre
Para construir la tabla discretizamos cada una de las variables segn los siguientes
criterios:
?? Temperatura media
Para obtener una referencia del orden de los valores registrados, calculamos
la media de los totales anuales:
Avg (total) = (15,6+15,1+14,9+15+15+15,1)/6) = 15,116 C de media
anual
120
de
todos
los
valores
registrados
en
los
meses
?? Precipitaciones
Para obtener una referencia del orden de los valores registrados, calculamos
la media de los totales anuales:
Avg (total) = (573,4+394,6+382+489,4+364,3+502)/6) = 450,95 mm de
media anual
450,95/12=37,57 mm de media mensual
de
todos
los
valores
registrados
en
los
meses
Avg (Marzo) = 34 mm
Establecemos
entonces
las
siguientes
reglas
para
clasificar
las
precipitaciones totales:
Si prec <= 40 entones Poca lluvia
Si prec <= 60 entones Lluvia media
Si prec > 60 entones Mucha lluvia
?? Humedad relativa
Para obtener una referencia del orden de los valores registrados, calculamos
la media de los totales anuales:
Avg (total) = (63+61+61+60+60+60)/6) = 60,83 % de media anual
de
todos
los
valores
registrados
en
los
meses
Avg (Marzo) = 56 %
Avg (Abril) = 60 %
Avg (Octubre) = 69 %
122
?? Horas de sol
Para obtener una referencia del orden de los valores registrados, calculamos
la media de los totales anuales. En este caso slo disponemos de informacin
vlida de los aos 2000, 2001 y 2002:
Avg (total) = (2830+2718+2591)/3) = 2713 horas de media anual
2713/12 = 226,08 horas de media mensual
de
todos
los
valores
registrados
en
los
meses
Para obtener una referencia del orden de los valores registrados, calculamos
la media de los totales anuales:
Avg (total) = (83+62+59+63+68+80)/6) = 69,16 das de media anual
69,16/12 = 5,76 das de media mensual
123
de
todos
los
valores
registrados
en
los
meses
Avg (Julio) = 1 da
Para obtener una referencia del orden de los valores registrados, calculamos
la media de los totales anuales:
Avg (total) = (78+114+104+113+106+85)/6) = 100 das de media anual
100/12= 8,33 das de media mensual
de
todos
los
valores
registrados
en
los
meses
Avg
(Agosto)=
10,83
das
124
Para obtener una referencia del orden de los valores registrados, calculamos
la media de los totales anuales:
Avg (total) = (204+189+202+190+191+200)/6) = 196 das de media
anual
196/12 = 16,33 das de media mensual
de
todos
los
valores
registrados
en
los
meses
125
Para obtener una referencia del orden de los valores registrados, calculamos
la media de los totales anuales:
Avg (total) = (8+10+24+14+15+1)/6) = 12 das de media anual
12/12 = 1 da fro de media mensual
de
todos
los
valores
registrados
en
los
meses
Para obtener una referencia del orden de los valores registrados, calculamos
la media de los totales anuales:
Avg (total) = (112+109+120+124+111+114)/6) = 98,33 das de media
anual
98,33/12 = 8,19 das de media mensual
126
de
todos
los
valores
registrados
en
los
meses
Avg
(Agosto)=
29,66
das
Como resultado de los clculos anteriores, obtenemos la siguiente tabla que incluimos
en nuestra base de datos DB2 con el nombre FENMENOS:
SECUENCIA
FENMENO
Enero
Temperatura baja
Enero
Lluvia media
Enero
Mucha humedad
Enero
Enero
Enero
Enero
Enero
Enero
0 dias calidos
Febrero
Temperatura baja
Febrero
Poca lluvia
Febrero
Humedad media
127
Febrero
Febrero
Febrero
Febrero
Febrero
Febrero
0 dias calidos
Marzo
Temperatura media
Marzo
Poca lluvia
Marzo
Humedad media
Marzo
Marzo
Marzo
Marzo
Marzo
0 dias frios
Marzo
Abril
Temperatura media
Abril
Lluvia media
Abril
Poca humedad
Abril
Abril
Abril
Abril
Abril
0 dias frios
Abril
Mayo
Temperatura media
Mayo
Mucha lluvia
Mayo
Humedad media
Mayo
Mayo
Mayo
Mayo
Mayo
0 dias frios
Mayo
Junio
Temperatura alta
Junio
Poca lluvia
Junio
Poca humedad
Junio
Junio
128
Junio
Junio
Junio
0 dias frios
Junio
Julio
Temperatura alta
Julio
Poca lluvia
Julio
Poca humedad
Julio
Julio
Julio
Julio
Julio
0 dias frios
Julio
Agosto
Temperatura alta
Agosto
Poca lluvia
Agosto
Poca humedad
Agosto
Agosto
Agosto
Agosto
Agosto
0 dias frios
Agosto
Septiembre
Temperatura alta
Septiembre
Poca lluvia
Septiembre
Humedad media
Septiembre
Septiembre
Septiembre
Septiembre
Septiembre
0 dias frios
Septiembre
Octubre
Temperatura media
Octubre
Lluvia media
Octubre
Humedad media
Octubre
Octubre
Octubre
Octubre
129
Octubre
0 dias frios
Octubre
Noviembre
Temperatura baja
Noviembre
Mucha lluvia
Noviembre
Mucha humedad
Noviembre
Noviembre
Noviembre
Noviembre
Noviembre
Noviembre
0 dias calidos
Diciembre
Temperatura baja
Diciembre
Lluvia media
Diciembre
Mucha humedad
Diciembre
Diciembre
Diciembre
Diciembre
Diciembre
Diciembre
0 dias calidos
Definimos en primer lugar la asociacin con los siguientes valores de los parmetros:
?? Soporte mnimo: 5%
?? Confianza mnima: 25%
?? Longitud de regla mxima: sin lmites
130
Regla
Soporte
Confianza
25,00%
100,00%
25,00%
100,00%
25,00%
100,00%
25,00%
100,00%
25,00%
100,00%
25,00%
100,00%
25,00%
100,00%
25,00%
100,00%
25,00%
100,00%
25,00%
100,00%
25,00%
100,00%
25,00%
100,00%
33,33%
100,00%
33,33%
100,00%
33,33%
100,00%
33,33%
100,00%
33,33%
100,00%
33,33%
100,00%
33,33%
100,00%
33,33%
100,00%
133
33,33%
100,00%
33,33%
100,00%
33,33%
100,00%
33,33%
100,00%
33,33%
100,00%
33,33%
100,00%
33,33%
100,00%
33,33%
100,00%
33,33%
100,00%
33,33%
100,00%
33,33%
100,00%
33,33%
100,00%
41,67%
100,00%
41,67%
100,00%
41,67%
83,33%
41,67%
83,33%
33,33%
80,00%
33,33%
80,00%
33,33%
80,00%
33,33%
80,00%
33,33%
80,00%
33,33%
80,00%
33,33%
80,00%
33,33%
80,00%
33,33%
80,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
134
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
25,00%
75,00%
135
?? Si a lo largo del mes hay muchos das con temperaturas iguales o superiores a
los 25 C llueve poco, abunda el sol y son pocos los das de cielos cubiertos.
?? Los meses en los que abundan los das despejados no se registran temperaturas
inferiores a los 0 C.
?? Las altas temperaturas coinciden con las precipitaciones escasas y los cielos
despejados.
136
B) Clustering Demogrfico
139
Clster 3:
Clster 4:
Como vemos, las caractersticas son totalmente distintas que las de los grupos
detectados sin forzar el nmero mximo de clusters.
La diferencia fundamental radica en la homogeneidad de los clusters. Si dejamos que el
sistema determine el nmero ptimo obtenemos grupos de hasta 0,9 de homogeneidad.
141
Sin embargo al forzar a 4, los clusters detectados son ms heterogneos (como mximo
0,5).
El resultado ser por tanto mucho ms fiable en el primer caso.
Como aplicacin al mbito de la climatologa y tomando los datos del primer caso,
podemos concluir que se distinguen fundamentalmente 2 grupos de zonas geogrficas
en Espaa, en cada una de las cuales recaen aproximadamente el 22% de las
observaciones.
Una de ellas (representada por el cluster 3) correspondera con las regiones del Norte de
la Pennsula (temperaturas bajas, humedad elevada, cuantiosas precipitaciones...).
La otra abarcara el Sur y quizs el Este peninsular con temperaturas altas, lluvias no
muy frecuentes, muchas horas de sol...
Otra opcin para reducir el nmero de clusters es utilizar como entrada el resultado de
las tcnicas estadsticas de Anlisis Factorial y Anlisis de Componentes Principales:
?? Con ACP:
En primer lugar es necesario crear los datos de salida resultantes de aplicar el Anlisis
de Componentes Principales a las distintas caractersticas climatolgicas.
Este resultado lo almacenamos en una tabla de la base de datos llamada
DATOS02_ACP que, adems de los valores de cada caracterstica, contendr las
puntuaciones de los componentes.
142
Ser conveniente por tanto utilizar el nmero de horas de sol como variable decisiva
para el clustering (campo activo), mientras que el resto permanecern como campos
adicionales.
De esta forma logramos reducir el nmero de clusters a 4:
Vamos a analizar el caso opuesto, es decir, utilizando como campo activo la variable
menos influyente: D_NUB.
143
Podemos concluir por tanto que una variable ms influyente (que participa en mayor
porcentaje en el mayoritario de los factores) permite un mejor clustering, reduciendo el
nmero de grupos generados.
Esta es una muestra de cmo las tcnicas de estadstica y de minera se complementan
entre s.
?? Con AF:
Primeramente es necesario crear los datos de salida resultantes del Anlisis Factorial.
Los almacenaremos en una tabla de la base de datos llamada DATOS02_AF que,
adems de los valores de cada caracterstica, contendr las puntuaciones de los distintos
factores.
La variable de entrada que ms participa en este factor es HSOL con un 0,966 lo que
indica que es la ms adecuada para figurar como campo activo en el clustering. El resto
de caractersticas aparecern como campos adicionales.
144
Los valores de homogeneidad registrados son elevados por lo que el resultado parece
una buena aproximacin.
Vamos a analizar el caso opuesto, es decir, utilizando como campo activo la variable
menos influyente: D_NUB.
145
C) Clustering Neuronal
Para ello utilizamos el mismo mdulo de datos: Datos 2002, que contiene los valores
registrados para todas las regiones en el ao 2002.
En principio no modificamos ninguno de los parmetros, dejndolos con sus valores por
defecto:
?? Nmero de pasadas mximas: 2
?? Nmero mximo de clusters: 9
146
Clster 6
Estos valores son similares a los del cluster 4 obtenido con el algoritmo demogrfico y
abarcara el Sur y quizs el Este peninsular.
147
Clster 8
Este cluster presenta caractersticas casi idnticas al cluster 3 obtenido con el algoritmo
demogrfico y que correspondera con las regiones del Norte de la Pennsula.
El resultado no muestra valores de homogeneidad entre clusters, lo que hace pensar que
esta agrupacin no es muy fiable y que es mucho ms acertado que el sistema determine
el nmero de clusters que considere oportuno.
148
Estos valores (con la excepcin de el nmero de das nubosos) son idnticos a los
obtenidos por el Clustering Demogrfico al limitar el nmero de grupos.
D) Patrones Secuenciales
149
E) Secuencias Semejantes
Esta tcnica de Data Mining nos permite detectar patrones de comportamiento similares
entre dos o ms elementos o secuencias de items.
Analizaremos dos ejemplos aplicados al caso de estudio del rea de la climatologa:
?? similitud en las precipitaciones de la comunidad de Madrid en los aos 2000,
2001 y 2002.
?? comparativa de las lluvias registradas en las tres provincias de Levante tomando
los totales anuales de cada regin.
ID SECUENCIA
TIEMPO
VALOR
2000
24,7
2000
1,8
2000
37,2
2000
84,9
2000
45,6
2000
22,2
2000
18,1
2000
2000
12,7
2000
10
25,6
2000
11
89,4
2000
12
127,2
150
2001
73,6
2001
31,7
2001
72,1
2001
20,7
2001
37,1
2001
3,8
2001
3,3
2001
1,5
2001
23,1
2001
10
67
2001
11
12,4
2001
12
18
2002
57,4
2002
14,3
2002
51,2
2002
47,1
2002
46,4
2002
27,6
2002
2,2
2002
6,5
2002
28
2002
10
67,6
2002
11
90,9
2002
12
62,8
151
Los dos grficos situados en la parte inferior de la figura muestran las secuencias de
datos de los pares seleccionados. Las subsecuencias similares se encuentran resaltadas
en rojo. En el eje horizontal se representa el tiempo (en meses) y en el vertical las
precipitaciones registradas (en mm).
En este caso la fraccin coincidente es tan solo del 0,25 y se da en el periodo estival
entre los meses de Junio y Agosto.
152
En este caso las secuencias semejantes detectadas se ensamblan entre ellas con un grado
de 0,75, lo que denota una gran similitud entre ambos aos: de Mayo a Diciembre del
ao 2000 con desde Marzo a Noviembre del ao 2002.
Hay por tanto un desfase de dos meses entre las secuencias, es decir, el patrn de
comportamiento detectado se adelanta 2 meses de un ao al otro.
153
Al comparar las lluvias de los aos 2001 y 2002, hallamos una subsecuencia semejante
en 0,25 entre Septiembre y Noviembre del 2001 con el periodo comprendido desde
Octubre a Diciembre del 2002.
El desfase en la similitud es por tanto de 1 mes.
En las tres figuras observamos un fenmeno curioso: cmo la poca de lluvias parece
adelantarse en el tiempo si comparamos con aos anteriores. Efectivamente cada ao
empieza a llover antes que en su predecesor.
Precipitaciones Levante
En este caso los tres campos de la tabla a generar tendrn distinto significado:
154
ID SECUENCIA
TIEMPO
VALOR
CASTELLON
1997
349,2
CASTELLON
1998
304,6
CASTELLON
1999
264,8
CASTELLON
2000
539,6
CASTELLON
2001
446,6
CASTELLON
2002
451,7
VALENCIA
1997
367,3
VALENCIA
1998
398,9
VALENCIA
1999
241,9
VALENCIA
2000
454,9
VALENCIA
2001
499,3
VALENCIA
2002
584,4
ALICANTE
1997
568,5
ALICANTE
1998
179,9
ALICANTE
1999
189,6
ALICANTE
2000
192
ALICANTE
2001
405,5
ALICANTE
2002
262,7
155
Como resultado obtenemos dos semejanzas: entre Alicante y Castelln y entre Alicante
y Valencia. Podemos verlos en las siguientes figuras:
156
157
F) Clasificacin en rbol
La clasificacin nos permite asignar una etiqueta de clase a una observacin. Se trata
de entrenar con datos conocidos un modelo, que una vez construido sea capaz de
determinar o predecir este valor de etiqueta.
Como ejemplo, construiremos un modelo que determine la humedad de una zona
geogrfica segn los valores de temperatura, precipitaciones, nmero de das nubosos...
Para ello tomamos los valores registrados en el ao 2002 y calculando el valor medio de
humedad obtenemos un 66%.
Conforme a esto, establecemos el siguiente criterio de clasificacin:
?? Si humedad <= 60 entonces Baja
?? Si humedad <= 70 entonces Media
?? Si humedad > 70 entonces Alta
Conforme a este criterio aadimos una columna a la tabla de nuestra base de datos que
contiene los valores de las distintas caractersticas climatolgicas para el ao 2002. Este
nuevo campo contendr la etiqueta de humedad asignada segn el criterio establecido.
Para entrenar el modelo, la asignacin de la etiqueta de clase deber hacerse de forma
manual.
Otro dato de inters para determinar la humedad de una zona, puede ser su situacin
geogrfica: interior o costa. Aadimos esta informacin como una nueva columna en la
tabla.
De esta forma ya tenemos preparados los datos que servirn de entrada al modelo de
clasificacin.
158
Por tanto, la mayor parte de las regiones espaolas (55%) presentan una humedad
relativa media, esto es, entre un 60 y un 70%.
159
160
161
G) Clasificacin Neuronal
Para probar los resultados obtenidos, repetiremos el proceso esta vez utilizando el
algoritmo de clasificacin basado en redes neuronales. El mdulo de entrada al sistema
ser el mismo empleado para la clasificacin en rbol.
De forma grfica:
162
De forma grfica:
163
H) Prediccin
Vamos a emplear los dos algoritmos de prediccin de los que dispone el Intelligent
Miner para comparar los resultados obtenidos:
164
165
166
Prediccin Neuronal
167
A este grupo pertenecen casi el 26% de las observaciones. El valor predicho de las
precipitaciones es de 449,157 mm de media con una desviacin tpica de 137,797.
El caso tipo de regin que encaja en este cluster viene caracterizado por unos 72 das
clidos, 0 fros, 80 cubiertos, 25 despejados y 200 nubosos. Las temperaturas medias
oscilan entre los 10,9 y los 21,7 C. Soporta 2402 horas de sol, un 60% de humedad
relativa y su situacin geogrfica es interior.
170
4-CASO DE ESTUDIO
4.1-Efecto Invernadero
El cambio climtico provocar durante los prximos aos una disminucin de entre un
diez y un cincuenta por ciento del caudal de los ros en la zona comprendida entre
Valencia y Almera.
Segn el informe elaborado por la Agencia Europea de Medio Ambiente, se prev un
importante incremento del caudal de los ros, especialmente en el Norte y Este de
Europa, aunque en Espaa el nivel de los ros disminuir entre un diez y un cincuenta
por ciento, fundamentalmente en el levante y sureste peninsular (Valencia, Alicante,
Murcia y Almera).
Por otra parte, este estudio revela un aumento de entre 4 y 6 das de verano por dcada y
una disminucin de las precipitaciones en Espaa.
El informe, que estudia la tendencia climtica del ltimo siglo y analiza las previsiones
para las prximas dcadas, prev para 2080 la desaparicin de los inviernos con
temperaturas extremas, mientras que los veranos calurosos sern mucho ms frecuentes
y pronostica un aumento de las jornadas con temperaturas superiores a 25 grados
centgrados.
En el ltimo siglo las precipitaciones han disminuido un veinte por ciento en el sur de
Europa y se espera un descenso del uno por ciento en los prximos diez aos, mientras
que los casos de precipitaciones extremas siguen la misma tendencia. El deshielo de los
glaciares ha provocado una subida del nivel del mar de entre 0.8 y 3 milmetros anuales
171
en Europa, seala el informe, que advierte que los datos obtenidos en Vigo indican un
crecimiento de 2.2 milmetros al ao, y durante este siglo se prev que este aumento sea
de entre 2.2 y 4.4 milmetros al ao.
En conclusin, podemos decir que las variables climatolgicas que se vern afectadas
sern:
?? Temperatura media (referida al mar Mediterrneo): en 100 aos aumentar entre
1.1 y 4.6 C.
?? Precipitaciones: disminuirn un 1% en los prximos 10 aos.
172
4.2-Embalses espaoles
Se dispone de una tabla con los datos de capacidad y agua embalsada por cada cuenca
hidrogrfica desde 1987 hasta 2003. A continuacin de muestra un fragmento de dicha
tabla:
1987
1988
Capacidad Agua
Capacidad Agua
41953
23618
42800
18517
Norte
4260
2981
4260
1643
4281
3044
4295
Duero
6505
3921
6505
2949
7399
5209
7399
TOTAL
1989
1990
Capacidad Agua
43715 27541
173
Capacidad
48692
Tajo
10794
6274
10826
5330
10826
8155
10904
Guadiana
4013
1863
4172
1697
4172
2456
8273
Guadalquivir
5051
2573
5568
1776
5568
2729
5828
649
286
775
285
775
614
1113
Segura
1104
175
1117
173
1117
320
1117
Jcar
2651
782
2651
1167
2651
1230
2755
Ebro
6304
4257
6304
3196
6304
3597
6398
622
506
622
301
622
187
610
Sur
Para nuestro anlisis nos interesa conocer los porcentajes de ocupacin para cada una de
las cuencas. Esta informacin la podemos calcular fcilmente a partir de la tabla anterior
(qu porcentaje representa el agua embalsada con respecto a la capacidad de los
embalse).
De esta forma obtenemos los porcentajes de ocupacin para cada cuenca por ao:
1987
1988
1989
1990
1991
1992
1993
Norte
Duero
Tajo
Guadiana
Guadalquivir
Sur
Segura
Jucar
Ebro
67,5286
50,698
68,721 66,5894
174
4.3-Anlisis
175
?? Duero
?? Tajo
176
?? Guadiana
?? Guadalquivir
177
?? Sur
?? Segura
178
?? Jcar
?? Ebro
179
180
181
?? Jcar
182
?? Interior de Catalua
Por tanto podemos concluir que la disminucin de las precipitaciones a causa del efecto
invernadero afectar de forma ms acusada a los embalses situados en la zona Sur e
interior de Catalua.
183
Para hacer una prediccin de cmo variarn las precipitaciones en las cuencas
hidrogrficas del Sur, Jcar e interior de Catalua, aplicamos un Ajuste de curva
univariable (aplicando previamente las mismas funciones de preproceso utilizadas en el
primer apartado). Se trata de nuevo de un modelo no estacional, con previsin a 5 aos.
Tabla de previsin:
184
?? Jcar:
Tabla de previsin:
185
?? Interior de Catalua:
Tabla de previsin:
186
Los modelos de regresin calculados anteriormente nos dan la relacin de cmo vara la
ocupacin de los embalses segn las precipitaciones. Dicha relacin viene dada por la
ecuacin de la recta de regresin:
y = ? 0 + ? 1x1 + ? 2x2 ... ? nxn + ?
Analicemos la ecuacin para las tres cuencas hidrogrficas del apartado anterior:
?? Sur
Tabla de regresiones:
Tabla de regresiones:
187
?? Interior de Catalua
Tabla de regresiones:
Ao
Valor predicho
Efecto Invernadero
% Ocupacin
2003
447,82
447,819
37,4904829
2004
418,64
418,638
35,1822658
2005
389,46
389,457
32,8740487
188
2006
360,28
360,276
30,5658316
2007
331,1
331,095
28,2576145
?? Jcar:
Ao
% Ocupacin
2003
510,65
510,649
25,6119838
2004
511,69
511,688
25,6599856
2005
512,53
512,527
25,6987474
2006
513,24
513,236
25,7315032
2007
513,84
513,835
25,759177
?? Interior de Catalua:
Ao
Valor predicho
Efecto Invernadero
% Ocupacin
2003
644,48
644,479
52,4434158
2004
636,72
636,718
51,8209836
2005
629,79
629,787
51,2651174
2006
623,53
623,526
50,7629852
2007
617,82
617,815
50,304963
189
Una vez revisadas cada una de las tcnicas estadsticas y de minera de datos vamos a
resumir el conocimiento adquirido en una serie de recomendaciones de uso:
?? Lo primero a la hora de construir un modelo de minera es contar con un buen
histrico de datos, es decir, observaciones de muchos aos que permitan
detectar patrones de comportamiento reales o hacer predicciones fiables. Si,
como en el caso que nos ocupa, disponemos de datos de slo unos pocos aos
las conclusiones a las que llegaremos estarn faltas de precisin y veracidad.
Con esto me refiero a modelos de minera en los que se tenga en cuenta la
dimensin temporal, que es en su mayora. Por ejemplo para modelos de
marketing de segmentacin de mercados para posibles campaas interesar
disponer de datos de un gran nmero de individuos no necesariamente
distribuidos a lo largo del tiempo.
?? Para determinar la influencia de unas variables en otras (por ejemplo cmo
influyen las temperaturas en la humedad relativa) utilizaremos la tcnica
estadstica de regresin lineal. Este mtodo resulta muy sencillo de utilizar y
presenta un resultado fcilmente interpretable: la recta de la variable a predecir
que mejor se ajusta a los valores de las observaciones de la variable cuya
influencia queremos medir. De esta forma es muy sencillo (y muy visual si nos
servimos de herramientas como el Intelligent Miner) determinar si se sigue una
tendencia creciente, decreciente o constante.
Para aplicar la regresin lineal necesitaremos datos de todas las variables que
entren en juego (mnimo 2). Con herramientas como el Intelligent Miner es
posible integrar la regresin de varias variables en una sola ejecucin.
?? Si lo queremos es observar la evolucin temporal de los datos para estudiar su
actuacin a travs del tiempo y detectar posibles patrones de comportamiento, lo
ms apropiado es utilizar el ajuste de curva univariable. A pesar de que
muchas herramientas ofrecen la opcin de elegir el tipo de ajuste (exponencial,
hiprbola, lineal, potencia, racional, recproca...), lo mejor es dejar que el propio
Miner determine el mejor ajuste.
190
Para aplicar el ajuste de curva necesitamos tener datos de una sola variable
durante un largo periodo de tiempo. Si los datos estn repartidos de forma
peridica (por ejemplo por aos) deberemos seleccionar un modelo estacional
para que el modelo sea capaz de distinguir los distintos periodos temporales.
Otra opcin para detectar patrones de comportamiento es utilizar la tcnica de
minera de Secuencias Semejantes que permite identificar zonas comunes en
la evolucin de dos variables. Por ejemplo puede ser de utilidad para determinar
si en dos provincias las precipitaciones evolucionan de la misma forma.
Desde mi punto de vista resulta ms sencillo, en vez de utilizar las Secuencias
Semejantes, el realizar un ajuste de curva para cada una de las variables por
separado (en este caso para cada una de las provincias) y luego evaluar por
cuenta propia las semejanzas. Digo esto porque no resulta sencillo establecer el
lmite al Miner de lo que se considera semejante.
Adems para ejecutar la tcnica de Secuencias Semejantes es necesario
previamente preparar la informacin segn la estructura que espera el Miner:
secuencia tiempo valores, mientras que para el ajuste de curva nos evitamos
este paso.
?? Si nuestro objetivo es hacer una prediccin de cmo se comportar una
determinada caracterstica en un futuro basndonos en su comportamiento
histrico utilizaremos de nuevo el ajuste de curva univariable. Esto es posible
debido a que el propio modelo implementa una extrapolacin de los datos a una
previsin futura.
Podamos pensar que lo ms lgico en estos casos es utilizar la tcnica de
minera de prediccin, pero su nombre induce a engao. Lo que nos permite la
prediccin no es extrapolar el comportamiento de una variable en el futuro sino,
a partir de los valores de otras caractersticas determinar cmo evolucionar la
variable que nos ocupa. Por ejemplo si tenemos datos de muchas variables
climatolgicas (temperatura, humedad, horas de sol, precipitaciones...) y
queremos predecir el comportamiento de las precipitaciones, necesitaremos en
primer lugar entrenar el modelo, es decir, dar los valores conocidos de las
precipitaciones para los valores del resto de caractersticas. De esta forma el
modelo ser capaz de darnos el valor de la variable precipitaciones si le
introducimos nuevos valores de resto de caractersticas.
191
192
194
195
RECURSOS
En la siguiente tabla pueden verse las diferentes etapas del proyecto con sus fechas
previstas de inicio y finalizacin, as como la relacin entre las distintas subtareas:
196
CONCLUSIONES
199
200
201
?? BLOB (Binary Large Object): Objeto binario grande. Entre los tipos de datos que
contienen los campos BLOB estn: binarios, memo, memo con formato, de imagen,
de sonido y OLE.
?? Boosting: en minera de datos, se aplica a las tcnicas de prediccin. Consiste en
generar mltiples modelos o clasificaciones y derivar los pesos obtenidos para
combinar las predicciones en un modelo nico.
?? Capa de entrada de una red neuronal: Conjunto de unidades de proceso de una
red neuronal que presentan a la red los valores numricos derivados de los datos de
usuario. El nmero de campos y el tipo de datos de esos campos se utilizan para
calcular el nmero de unidades de proceso de la capa de entrada.
?? Capa de salida de una red neuronal: Conjunto de unidades de proceso de una red
neuronal que contiene la salida calculada por la red. El nmero de salidas depende
del nmero de categoras de clasificacin, o del valor de clusters mximo que se
obtiene en las tcnicas de Clasificacin neuronal o de Clustering neuronal,
respectivamente.?
?? Capa oculta de una red neuronal: Conjunto de unidades de proceso de una red
neuronal que se utiliza para calcular sus salidas. Las unidades de proceso de la capa
oculta toman las entradas de las unidades de capa oculta precedentes o de la capa de
entrada. Las salidas se pasan a la capa oculta siguiente o a la capa de salida de la
red. El nmero de capas ocultas y el nmero de unidades de proceso que se
encuentran en cada capa oculta forma parte de la arquitectura de la red.
?? CART rboles de clasificacin y regresin: Una tcnica de rbol de decisin
usada para la clasificacin de un conjunto da datos. Provee un conjunto de reglas
que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir
cules registros darn un cierto resultado. Segmenta un conjunto de datos creando 2
divisiones. Requiere menos preparacin de datos que CHAID.
?? CHAID Deteccin de interaccin automtica de Chi cuadrado: Una tcnica de
rbol de decisin usada para la clasificacin de un conjunto da datos. Provee un
conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de
datos para predecir cules registros darn un cierto resultado. Segmenta un conjunto
203
205
206
207
?? Modelo no lineal: Un modelo analtico que no asume una relacin lineal en los
coeficientes de las variables que son estudiadas.
?? Modelo predictivo: Estructura y proceso para predecir valores de variables
especificadas en un conjunto de datos. Las herramientas de modelamiento predictivo
permiten realizar relaciones complejas o modelos desde un archivo de datos. Los
modelos predictivos pueden usarse para el soporte de decisin o presentando subrutinas para desarrollar aplicaciones predictivas a clientes. Las capacidades de los
modelos predictivos pueden mejorarse si los archivos de datos se mejoran con tantas
variables de entrada como sea posible.
?? MOLAP: Multidimensional On-line Analytical Processing
?? Navegacin de datos: Proceso de visualizar diferentes dimensiones y niveles de
una base de datos multidimensional.
?? OLAP: On-line Analytical Processing es una tecnologa SW que permite a los
analistas, directivos y ejecutivos comprender la informacin de negocio de una
forma rpida e interactiva.
?? OLTP: On-line Transaction Process
?? Outlier: Un item de datos cuyo valor cae fuera de los lmites que encierran a la
mayora del resto de los valores correspondientes de la muestra. Puede indicar datos
anormales. Deberan ser examinados detenidamente puesto que pueden dar
informacin importante.
?? Outline: Esqueleto de la estructura definida en un Data Warehouse (dimensiones y
miembros).
?? Parmetros de aprendizaje: Variables que utiliza cada modelo de red neuronal
para controlar el aprendizaje de una red neuronal al que se llega modificando los
pesos de la red.
?? Patrones secuenciales: Patrones entre transacciones tales que la presencia de un
conjunto de elementos va seguida de otro conjunto de elementos en una base de
datos de transacciones a lo largo de un periodo de tiempo.
208
209
?? Prueba Chi cuadrado: Prueba que comprueba si dos variables son dependientes
estadsticamente no. Se calcula restando a las frecuencias previstas (valores
imaginarios) de las frecuencias observadas (valores reales). Las primeras
representan los valores que seran previsibles si las variables en cuestin fuesen
independientes estadsticamente.
?? Prueba F: Prueba estadstica que comprueba si dos estimaciones de las varianzas de
dos muestras independientes son iguales. Adems, comprueba si la hiptesis nula es
cierta o falsa.
?? Rango de cuantiles: Cada uno de los nmeros finitos de subrangos o intervalos no
solapados representado por un valor asignado.
?? Redundancia: Repeticin de los mismos datos en varios lugares.
?? Red neuronal artificial: algoritmo matemtico con algoritmo matemtico con
capacidad para recordar experiencias y hacerlas disponibles capacidad para recordar
experiencias y hacerlas disponibles para su uso.
?? Regin: (Sub)conjunto de registros cuyos campos activos comparten caractersticas
parecidas. Las regiones se utilizan para visualizar el resultado de una prediccin.
?? Regresin lineal: Tcnica estadstica utilizada para encontrar la mejor relacin
lineal que encaja entre una variable seleccionada (dependiente) y sus predicados
(variables independientes).
?? Regresin logstica: Una regresin lineal que predice las proporciones de una
variable seleccionada categrica, tal como Tipo de Consumidor, en una poblacin.
?? Relacin taxonmica: Asociacin jerrquica establecida entre las categoras de
elemento definidas por el usuario para un elemento. Una relacin taxonmica consta
de una categora de elemento hijo y una categora de elemento padre.
?? Repositorio: Base de datos central en herramientas de ayuda al desarrollo. El
repositorio ampla el concepto de diccionario de datos para incluir toda la
informacin que se va generando a lo largo del ciclo de vida del sistema, como por
ejemplo: componentes de anlisis y diseo (diagramas de flujo de datos, diagramas
210
211
212
213
Enero
30
30,8
37,6
32,2
33,6
34
29,4
30,6
31,5
32,6
32,9
32,8
34,8
33,8
33
36,3
35
36
39,2
35,2
34,2
36,5
39,4
39
38,4
34,5
34,2
Febrero
18,6
16,4
18,8
18,8
17,4
19,4
18
17,8
31,9
16
15
13,2
13,8
15
14,2
15
14
18
17
14,8
13,4
16,2
16,4
18,4
16,8
14
16,2
Marzo
24,6
23,4
24,2
23
23,6
25
21,4
22,2
20
19,4
20,5
17,4
23
21
21,2
22,9
19,8
23,5
24,2
22,7
21,8
20
22,2
24,6
21,8
17,8
19,4
Abril
24
24,6
28
25,6
26
27,7
21,2
24,4
22,3
20,8
22,4
22,8
23
22,2
23,6
23,5
24
25,2
26,4
24
23,6
25
26
28,2 ..
25,4
25
26,6
Enero
1
-6,8
-3,4
-5,5
-0,8
-1
-2,4
-0,4
-1,2
-6,8
-7,8
-10
-6,8
-9
-11
-5,6
-5,8
-3,6
-2
-8,3
-17
-1,6
-2,8
-1,8
-1
-3,8
-2,8
Febrero
1
-6,8
-3,4
-5,5
-0,8
-0,2
-2,4
0,4
1,2
-10
-7,8
-10
-6,8
-9
-11
-5,6
-5,8
-2,5
-1,6
-8,3
-17
-1,6
-2,5
-1,8
-1
-3
-2,4
Marzo
6,2
-1,8
0,6
-0,6
4,2
1,6
2,4
2,6
1,4
-4,4
-4,4
-1
-3
-0,4
-4,2
-1,8
-1
-1,4
-1,2
-2,9
-7
1,8
0,1
2,8
2
1
-2,4
Abril
8,4
-1,6
2,2
0,2
6
1
3
5,4
3,2
-2,8
-2,4
0,6
-1
0,5
-1
0,6
1,6
-1
1,4
0
-5,6
6
2,7
3,4 ..
4,4
3,2
0,6
Enero
76
77
71
79
79
73
79
77
76
62
71
67 ..
65
59
67
66
66
63
63
55
63
61
66
63
66
70
Febrero
78
84
84
84
87
77
83
80
76
86
86
86
79
88
87
84
84
86
84
73
81
85
84
85
82
85
Marzo
79
79
79
86
87
71
78
69
78
68
74
75
71
63
67
73
77
68
72
66
56
68
73
73
76
68
71
Abril
69
63
62
57
60
73
76
77
75
46
54
49
46
40
50
52
55
53
49
52
46
45
47
50 ..
51
57
61
PRECIPITACIN TOTAL
1997
Total
NOROESTE: Corua (A)
NOROESTE: Lugo (Las Rozas)
NOROESTE: Ourense (Instituto)
NOROESTE: Santiago
NOROESTE: Vigo (Peinador)
CANTBRICA: Bilbao (Aeropuerto)
CANTBRICA: Gijn
CANTBRICA: San Sebastin (Igueldo)
CANTBRICA: Santander (Parayas aeropuerto)
DUERO: vila (Observatorio)
DUERO: Burgos (Villafra)
DUERO: Len (Virgen del Camino)
DUERO: Salamanca (Matacn)
DUERO: Segovia (Observatorio)
DUERO: Soria (Observatorio)
DUERO: Valladolid (Observatorio)
DUERO: Zamora (Observatorio)
CENTRAL: Albacete (Los Llanos)
CENTRAL: Ciudad Real (Observatorio)
CENTRAL: Cuenca
CENTRAL: Guadalajara (Molina de Aragn)
CENTRAL: Madrid (Retiro)
CENTRAL: Toledo
EXTREMADURA: Badajoz (Talavera la Real)
EXTREMADURA: Cceres (Observatorio)
EBRO: Huesca (Monflorite)
EBRO: Logroo (Agoncillo)
Enero
1007
1097,2
1021
1860,6
2015,8
1023
945,9
1734
988,3
640,6
751,7
670
547
812,2
859,6
698,7
578,3
478,4
579,4
635,5
548,4
573,4
459,1
736,9
958,6
691
574,2
Febrero
144,4
97,1
101,9
171,5
213,6
163,5
170
141
138,5
66,5
66
104,9
39,7
99,6
106,5
63,1
61
71,3
120,2
142,6
81,8
86,7
92,4
121,5
110,2
105
76,5
47,5
42,3
16,9
175
116,8
20,2
15,8
18,4
13,7
14
4,8
7,2
1,6
14,2
4,9
5,9
2,1
0,8
1,5
5,8
6,3
0,3
2,7
0,4
0,2
5,5
2,5
Marzo
Abril
0
0
0
0
0
11,7
1,6
32,9
9,2
0
0
0
0
0
0
0
0
3,5
0
0
0,8
0
0
0,1
0
0
0,6
23,9
19,4
39,9
33,2
72,8
37,3
70,1
20,7
13,6
21,1
54,9
75,2
24,8
46,1
44,7
52,6
32,1
36,8
40,1
26,5
71,5
37,8
DAS DESPEJADOS
1997
Total
NOROESTE: Corua (A)
NOROESTE: Lugo (Las Rozas)
..
NOROESTE: Ourense (Instituto)
NOROESTE: Santiago
NOROESTE: Vigo (Peinador)
CANTBRICA: Bilbao (Aeropuerto)
CANTBRICA: Gijn
CANTBRICA: San Sebastin (Igueldo)
CANTBRICA: Santander (Parayas aeropuerto)
DUERO: vila (Observatorio)
DUERO: Burgos (Villafra)
DUERO: Len (Virgen del Camino)
DUERO: Salamanca (Matacn)
DUERO: Segovia (Observatorio)
DUERO: Soria (Observatorio)
DUERO: Valladolid (Observatorio)
DUERO: Zamora (Observatorio)
..
CENTRAL: Albacete (Los Llanos)
CENTRAL: Ciudad Real (Observatorio)
CENTRAL: Cuenca
..
CENTRAL: Guadalajara (Molina de Aragn)
CENTRAL: Madrid (Retiro)
CENTRAL: Toledo
..
EXTREMADURA: Badajoz (Talavera la Real)
EXTREMADURA: Cceres (Observatorio)
EBRO: Huesca (Monflorite)
..
EBRO: Logroo (Agoncillo)
Enero
49
Febrero
3
..
49
51
75
33
33
35
44
66
57
68
70
47
55
64
..
0
4
6
3
3
3
3
2
0
3
1
2
0
3
..
95
106
..
..
..
5
4
..
4
4
..
59
..
7
8
0
2
88
94
..
..
..
..
2
3
..
0
Abril
13
1
2
2
1
2
3
2
4
4
4
4
4
5
3
0
3
61
78
Marzo
3
..
4
21
12
20
10
9
11
13
19
16
19
23
17 ..
18
19
..
23
23
..
23
23
..
20
24
..
15
DAS NUBOSOS
1997
Total
NOROESTE: Corua (A)
NOROESTE: Lugo (Las Rozas)
..
NOROESTE: Ourense (Instituto)
NOROESTE: Santiago
NOROESTE: Vigo (Peinador)
CANTBRICA: Bilbao (Aeropuerto)
CANTBRICA: Gijn
CANTBRICA: San Sebastin (Igueldo)
CANTBRICA: Santander (Parayas aeropuerto)
DUERO: vila (Observatorio)
DUERO: Burgos (Villafra)
DUERO: Len (Virgen del Camino)
DUERO: Salamanca (Matacn)
DUERO: Segovia (Observatorio)
DUERO: Soria (Observatorio)
DUERO: Valladolid (Observatorio)
DUERO: Zamora (Observatorio)
..
CENTRAL: Albacete (Los Llanos)
CENTRAL: Ciudad Real (Observatorio)
CENTRAL: Cuenca
..
CENTRAL: Guadalajara (Molina de Aragn)
CENTRAL: Madrid (Retiro)
CENTRAL: Toledo
..
EXTREMADURA: Badajoz (Talavera la Real
EXTREMADURA: Cceres (Observatorio)
EBRO: Huesca (Monflorite)
..
EBRO: Logroo (Agoncillo)
Enero
178
Febrero
15
..
184
168
165
181
214
185
185
195
193
199
214
198
196
203
..
16
15
13
12
18
14
14
15
12
12
12
11
10
11
..
203
184
..
..
..
18
19
..
18
14
..
200
..
21
20
11
14
206
180
..
..
..
..
20
20
..
14
Abril
16
12
12
11
15
18
17
15
21
16
16
18
18
16
20
18
14
169
204
Marzo
11
..
16
10
19
11
14
18
11
14
11
14
12
7
13 ..
12
11
..
7
8
..
7
7
..
10
7
..
16
DAS CUBIERTOS
1997
Total
NOROESTE: Corua (A)
NOROESTE: Lugo (Las Rozas)
..
NOROESTE: Ourense (Instituto)
NOROESTE: Santiago
NOROESTE: Vigo (Peinador)
CANTBRICA: Bilbao (Aeropuerto)
CANTBRICA: Gijn
CANTBRICA: San Sebastin (Igueldo)
CANTBRICA: Santander (Parayas aeropuerto)
DUERO: vila (Observatorio)
DUERO: Burgos (Villafra)
DUERO: Len (Virgen del Camino)
DUERO: Salamanca (Matacn)
DUERO: Segovia (Observatorio)
DUERO: Soria (Observatorio)
DUERO: Valladolid (Observatorio)
DUERO: Zamora (Observatorio)
..
CENTRAL: Albacete (Los Llanos)
CENTRAL: Ciudad Real (Observatorio)
CENTRAL: Cuenca
..
CENTRAL: Guadalajara (Molina de Aragn)
CENTRAL: Madrid (Retiro)
CENTRAL: Toledo
..
EXTREMADURA: Badajoz (Talavera la Real)
EXTREMADURA: Cceres (Observatorio)
EBRO: Huesca (Monflorite)
..
EBRO: Logroo (Agoncillo)
Enero
138
Febrero
13
..
132
146
125
151
118
145
136
73
115
98
81
90
114
98
..
15
12
12
16
10
14
14
14
19
16
18
18
21
17
..
67
75
..
..
..
5
5
..
9
13
..
106
..
0
0
20
15
71
91
..
..
..
..
6
5
..
17
Abril
2
15
14
15
12
8
8
11
3
8
8
6
6
7
5
13
14
135
83
Marzo
14
..
8
0
0
0
7
4
9
4
1
1
0
1
1 ..
1
1
..
1
0
..
1
1
..
1
0
..
0
Enero
0
34
4
7
2
4
3
1
2
44
59
36
48
18
53
23
18
27
11
37
111
8
10
1
2
9
11
Febrero
0
12
4
6
2
1
2
0
0
10
14
16
17
9
16
10
7
7
2
8
19
4
4
1
2
4
3
Marzo
0
4
0
1
0
0
0
0
0
13
15
4
10
1
13
5
3
6
3
10
18
0
0
0
0
0
4
Abril
0
5
0
0
0
0
0
0
0
6
10
0
7
0
8
0
0
3
0
3
31
0
0
0 ..
0
0
0
Enero
17
45
140
64
57
85
13
33
39
62
61
61
82
78
63
97
96
124
146
99
92
112
150
158
141
108
106
Febrero
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Marzo
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Abril
0
0
22
5
2
3
0
0
2
0
0
0
0
0
0
0
0
1
3
0
0
1
5
19 ..
6
1
1
HORAS DE SOL
1997
Total
NOROESTE: Corua (A)
NOROESTE: Lugo (Las Rozas)
NOROESTE: Ourense (Instituto)
NOROESTE: Santiago
NOROESTE: Vigo (Peinador)
CANTBRICA: Bilbao (Aeropuerto)
CANTBRICA: Gijn
CANTBRICA: San Sebastin (Igueldo)
CANTBRICA: Santander (Parayas aeropuerto)
DUERO: vila (Observatorio)
DUERO: Burgos (Villafra)
DUERO: Len (Virgen del Camino)
DUERO: Salamanca (Matacn)
DUERO: Segovia (Observatorio)
DUERO: Soria (Observatorio)
DUERO: Valladolid (Observatorio)
DUERO: Zamora (Observatorio)
CENTRAL: Albacete (Los Llanos)
CENTRAL: Ciudad Real (Observatorio)
CENTRAL: Cuenca
CENTRAL: Guadalajara (Molina de Aragn)
CENTRAL: Madrid (Retiro)
CENTRAL: Toledo
EXTREMADURA: Badajoz (Talavera la Real)
EXTREMADURA: Cceres (Observatorio)
EBRO: Huesca (Monflorite)
EBRO: Logroo (Agoncillo)
Enero
2090
1658
2002
1865
2167
1855
1933
1787
1748
2542
2189
2508
2493
2456
2578
2529
1542
2831
2448
2567
2169
0
0
2828
2735
0
2279
Febrero
107
56
86
90
113
98
107
106
91
99
48
92
81
82
79
72
63
103
75
81
52
0
0
117
128
0
46
Marzo
98
74
89
81
83
131
143
142
129
196
133
153
158
168
192
156
103
226
184
213
185
0
0
174
200
201
143
Abril
259
192
298
272
293
220
231
217
196
309
281
304
309
316
311
311
139
314
293
277
304
0
0
315
312
300
280
Enero
605
1464
593
558
488
480
414
214
363
506
727
Febrero
53
213
48
37
28
35
24
3
9
45
18
Marzo
54
187
54
63
37
36
33
16
13
31
8
Abril
28
109
18
9
13
24
30
17
17
23
9
Mayo
24
49
21
22
13
17
8
10
15
32
34
Juni
37
101
50
28
14
4
2
6
24
47
68
TOTAL
Norte
Duero
Tajo
Guadiana
Guadalquivir
Sur
Segura
Jcar
Ebro
Cuencas Interiores de Catalua
1988
1989
1987
Capacidad Agua
Capacidad Agua
Capacidad Agua
41953
23618
42800
18517
43715
27541
4260
2981
4260
1643
4281
3044
6505
3921
6505
2949
7399
5209
10794
6274
10826
5330
10826
8155
4013
1863
4172
1697
4172
2456
5051
2573
5568
1776
5568
2729
649
286
775
285
775
1104
175
1117
173
1117
2651
782
2651
1167
2651
1230
6304
4257
6304
3196
6304
3597
622
506
622
301
622
Temperaturas Medias
?? Ao 1997: Los datos de los observatorios de vila (Observatorio), Soria
(Observatorio), Badajoz (Talavera la Real), Mahn e Izaa (Santa Cruz de Tenerife)
se refieren a once meses.
?? Ao 1999: Los datos de los observatorios de Girona (Costa Brava), Jan (Cerro de
los Lirios) e Izaa (Santa Cruz de Tenerife) se refieren a once meses.
?? Ao 2000: Los datos del observatorio de Jan (Cerro de los Lirios) se refieren a
once meses.
?? Ao 2001: Los datos del observatorio de Bilbao (Aeropuerto) se refieren a once
meses.
Temperaturas Mximas
?? Ao 1997: Los datos de los observatorios de Santander (Parayas aeropuerto), vila
(Observatorio), Soria (Observatorio),Badajoz (Talavera la Real), Mahn e Izaa
(Santa Cruz de Tenerife) se refieren a once meses.
?? Ao 1998: Los datos de los observatorios de Zaragoza (Aeropuerto), Lleida
(Observatorio 2), Palma (Centro meteorolgico) se refieren a once meses.
?? Ao 1999: Los datos de los observatorios de Soria (Observatorio), Valladolid
(Observatorio), Girona (Costa Brava), Jan (Cerro de los Lirios) e Izaa (Santa Cruz
de Tenerife) se refieren a once meses.
?? Ao 2000: Los datos de los observatorios de Jan (Cerro de los Lirios) Mahn,
Palma (Centro meteorolgico) se refieren a once meses.
?? Ao 2001: Los datos de los observatorios de Bilbao (Aeropuerto), Cceres
(Observatorio), Huesca (Monflorite), Lleida (Observatorio 2) y Palma (Centro
meteorolgico) se refieren a once meses.
?? Ao 2002: Los datos de los observatorios de Huesca (Monflorite) y Sevilla
(Aeropuerto) se refieren a once meses.
225
Temperaturas Mnimas
?? Ao 1997: Los datos de los observatorios de vila (Observatorio), Soria
(Observatorio), Badajoz (Talavera la Real), Mahn, Izaa (Santa Cruz de Tenerife)
y Ceuta se refieren a once meses.
?? Ao 1998: Los datos de los observatorios de Zaragoza (Aeropuerto) y Palma
(Centro meteorolgico) se refieren a once meses.
?? Ao 1999: Los datos de los observatorios de Soria (Observatorio), Valladolid
(Observatorio), Girona (Costa Brava), Jan (Cerro de los Lirios) e Izaa (Santa Cruz
de Tenerife) se refieren a once meses.
?? Ao 2000: Los datos de los observatorios de Jan (Cerro de los Lirios), Mahn y
Palma (Centro meteorolgico) se refieren a once meses.
?? Ao 2001: Los datos de los observatorios de Bilbao (Aeropuerto), Cceres
(Observatorio), Lleida (Observatorio2), Palma (Centro meteorolgico) y Melilla
(Aeropuerto) se refieren a once meses.
?? Ao 2002: Los datos de los observatorios de Huesca (Monflorite) y Sevilla
(Aeropuerto) se refieren a once meses.
Humedad Media
?? Ao 1997: Los datos de los observatorios de vila (Observatorio), Len (Virgen del
Camino), Soria (Observatorio), Badajoz (Talavera la Real) y Palma (Centro
meteorolgico) se refieren a once meses.
?? Ao 1999: Los datos de los observatorios de Jan (Cerro de los Lirios) y Mahn se
refieren a once meses.
?? Ao 2000: El dato del observatorio de Jan (Cerro de los Lirios) se refiere a once
meses.
?? Ao 2001: El dato del observatorio de Bilbao (Aeropuerto) se refiere a once meses.
?? Ao 2002: El dato del observatorio de Jan (Cerro de los Lirios)) se refiere a once
meses.
226
Precipitacin total
?? Ao 1997: Los datos del observatorio de Izaa (Santa Cruz de Tenerife) se refieren
a once meses.
?? Ao 1998: Los datos del observatorio de Guadalajara (Molina de Aragn) se
refieren a once meses.
?? Ao 1999: Los datos de los observatorios de Prat de Llobregat (Aeropuerto) y Jan
(Cerro de los Lirios) se refieren a once meses.
?? Ao 2000: Los datos de los observatorios de Castelln de la Plana (Almanzora),
Palma (Centro meteorolgico) se refieren a once meses.
?? Ao 2001: Los datos del observatorio de Bilbao (Aeropuerto) se refieren a once
meses.
?? Ao 2002: Los datos del observatorio de Mahn se refieren a once meses.
Das Despejados
?? Ao 1997: Los datos de los observatorios de vila (Observatorio), Segovia
(Observatorio), Sevilla (Aeropuerto) e Izaa (Santa Cruz de Tenerife) se refieren a
once meses.
?? Ao 1998: Los datos de los observatorios de Toledo, Teruel (Calamocha), Granada
(Aeropuerto), Ceuta y Melilla (Aeropuerto) se refieren a once meses.
?? Ao 1999: Los datos de los observatorios de Soria (Observatorio), Valladolid
(Observatorio), Albacete (Los Llanos), Girona (Costa Brava) e Izaa (Santa Cruz de
Tenerife) se refieren a once meses.
?? Ao 2000: Los datos de los observatorios de Girona (Costa Brava), Jan (Cerro de
los Lirios), Palma (Centro meteorolgico), Izaa (Santa Cruz de Tenerife) y Santa
Cruz de Tenerife se refieren a once meses.
?? Ao 2001: Los datos de los observatorios de Bilbao (Aeropuerto) y Lleida
(Aeropuerto 2) se refieren a once meses.
?? Ao 2002: Los datos de los observatorios de Girona (Costa Brava), Tortosa
(Observatorio del Ebro) y Sevilla Aeropuerto se refieren a once meses.
227
Das Nubosos
?? Ao 1997: Los datos de los observatorios de vila (Observatorio), Segovia
(Observatorio), Crdoba (Aeropuerto), Sevilla (Aeropuerto) e Izaa (Santa Cruz de
Tenerife) se refieren a once meses.
?? Ao 1998: Los datos de los observatorios de Burgos (Villafra), Toledo, Teruel
(Calamocha), Granada (Aeropuerto) y Melilla (Aeropuerto) se refieren a once
meses.
?? Ao 1999: Los datos de los observatorios de Soria (Observatorio), Valladolid
(Observatorio), Albacete (Los Llanos), Girona (Costa Brava) e Izaa (Santa Cruz de
Tenerife) se refieren a once meses.
?? Ao 2000: Los datos de los observatorios de Girona (Costa Brava)
?? Ao 2001: Los datos de los observatorios de Bilbao (Aeropuerto) y Lleida
(Aeropuerto 2) se refieren a once meses.
?? Ao 2002: Los datos de los observatorios de Girona (Costa Brava), Tortosa
(Observatorio del Ebro) y Sevilla (Aeropuerto) se refieren a once meses.
Das Cubiertos
?? Ao 1997: Los datos de los observatorios de Segovia (Observatorio), Crdoba
(Aeropuerto), Huelva (Ronda Este) e Izaa (Santa Cruz de Tenerife) se refieren a
once meses.
?? Ao 1998: Los datos de los observatorios de Burgos (Villafra), Toledo, Teruel
(Calamocha) y Melilla (Aeropuerto) se refieren a once meses.
?? Ao 1999: Los datos de los observatorios de Soria (Observatorio), Valladolid
(Observatorio), Albacete (Los Llanos) y Girona (Costa Brava) se refieren a once
meses.
?? Ao 2000: Los datos de los observatorios de Girona (Costa Brava)
?? Ao 2001: Los datos de los observatorios de Bilbao (Aeropuerto) y Lleida
(Aeropuerto 2) se refieren a once meses.
?? Ao 2002: Los datos de los Observatorios de Girona (Costa Brava), Tortosa
(Observatorio del Ebro) y Sevilla (Aeropuerto) se refieren a once meses.
228
229
Horas de Sol
?? Ao 1997: Los datos de los observatorios de San Sebastin (Igueldo), Izaa (Santa
Cruz de Tenerife) y Palmas (Las) (Gando) se refieren a once meses.
?? Ao 1998: Los datos de los observatorios de Almera (Aeropuerto) y Mahn se
refieren a once meses.
?? Ao 1999: Los datos de los observatorios de Corua (A), Lugo (Las Rozas),
Santiago, San Sebastin (Igueldo), Valladolid (Observatorio), Albacete (Los
Llanos), Prat de Llobregat (Aeropuerto), Girona (Costa Brava), Lleida (Observatorio
2), Almera (Aeropuerto) e Izaa (Santa Cruz de Tenerife) se refieren a once meses.
?? Ao 2000: Los datos de los observatorios de Lugo (Las Rozas), Burgos (Villafra),
Albacete (Los Llanos), Sevilla (Aeropuerto) y Mlaga ( Aeropuerto) se refieren a
once meses.
?? Ao 2001: Los datos de los observatorios de Vitoria (Foronda) y Prat de Llobregat
(Aeropuerto) se refieren a once meses.
230
BIBLIOGRAFA
ALMEIDA,
MISSAO
ISHIKAWA,
JOERG
REINSCHMIDT,
231