Vous êtes sur la page 1sur 231

Autorizada la entrega del proyecto del alumno/a:

Mara Aldehuela Lucena


En Madrid a 10 de junio de 2005

EL DIRECTOR DEL PROYECTO

Juan Paredes Lozano

Fdo.:

Fecha: / /

V B del Coordinador de Proyectos


Miguel ngel Sanz Bobi

Fdo.:

Fecha: / /

UNIVERSIDAD PONTIFICIA COMILLAS

ESCUELA TCNICA SUPERIOR DE INGENIERA (ICAI)


INGENIERO INFORMTICO

PROYECTO FIN DE CARRERA

ANLISIS COMPARATIVO ENTRE


MTODOS ESTADSTICOS Y DE
MINERA DE DATOS

MARA ALDEHUELA LUCENA


MADRID, Junio 2005

RESUMEN
El presente proyecto trata de un estudio en profundidad de las tcnicas existentes para
extraer de los datos un conocimiento no implcito en los mismos y que puede ser de
gran utilidad para la toma de decisiones de negocio.
De esta forma se analizan las distintas tcnicas estadsticas y de minera, su utilidad, en
qu casos puede aplicarse cada una de ellas, cules pueden resultar ms ptimas segn
los datos de los que se disponga y los requisitos de partida y cmo deben interpretarse
los resultados obtenidos.

La motivacin principal para desarrollar este proyecto ha sido llevar a cabo un


acercamiento al mundo de Business Intelligence, Data Warehousing y Data Mining tan
demandado en la actualidad y, en gran parte, an desconocido.

Una de las reas ms potentes dentro de Business Intelligence es el Data Mining o


minera de datos que permite obtener a partir de los datos disponibles un conocimiento
oculto en los mismos que puede ayudar a descubrir patrones de comportamiento,
evitar errores de gestin, segmentar mercados, descubrir nuevas oportunidades de
negocio...

Existen dos enfoques o reas dentro del Data Mining: las tcnicas clsicas de Estadstica
y las de minera de datos propiamente dicha que derivan, en su mayora,

de las

aportaciones de la Inteligencia Artificial como las redes neuronales, lgica borrosa,


mecanismos de aprendizaje automtico...

Las funciones estadsticas ofrecen diversos mtodos de pronstico para dar apoyo a la
toma de decisiones empresariales. Aunque no son propias de minera de datos (se
utilizaban mucho antes de que surgiera este concepto), resultan de gran utilidad a la
hora de descubrir patrones o elaborar modelos de prediccin. Pueden emplearse para
obtener ms informacin sobre los datos,

lo que permitir tomar decisiones ms

acertadas cuando se apliquen los procesos de minera. Algunos ejemplos de estas


tcnicas son la regresin lineal, el Anlisis Factorial, el Anlisis de Componentes
Principales... Mientras que entre las tcnicas de minera destacan el Clustering, la
Clasificacin, la Prediccin...

Cul es la diferencia entre ambas? No es una pregunta fcil de responder; tanto el xito
de las tcnicas de minera como el de las estadsticas dependen de los mismos factores:
datos depurados, fiables, bien definidos y validados. Adems la mayora de las tcnicas
se aplican para la resolucin del mismo tipo de problemas (prediccin, clasificacin...).
Podramos quizs sealar como diferencia que las tcnicas de minera tienden a ser ms
robustas y fciles de aplicar para usuarios poco experimentados. Por otra parte requieren
por lo general mayor potencia de clculo, lo que hoy en da ya no supone un problema.

En el presente proyecto se pretende por tanto demostrar cmo la estadstica clsica se


integra con la minera para ofrecer resultados ms completos y precisos.

Para comprender mejor el funcionamiento de cada una de estas tcnicas, se aplican a un


caso prctico orientado al rea de climatologa, permitiendo analizar resultados reales y
ver ejemplos concretos, que muestren su utilidad.
Los datos a utilizar son varias tablas estadsticas de climatologa obtenidas del INE
(Instituto Nacional de Estadstica), que contienen informacin mensual referida a las
temperaturas, precipitaciones, humedad relativa, horas de sol...de las distintas regiones
de Espaa durante varios aos.

Como aplicacin del conocimiento adquirido, se combinarn tcnicas estadsticas y de


minera a un caso concreto de estudio: la prediccin de los efectos del calentamiento
global sobre las precipitaciones y, como consecuencia, sobre la ocupacin de los
embalses de Espaa.

Por su conocimiento, y disponibilidad del Software necesario, se ha optado por la


utilizacin de DB2 Intelligent Miner for Data. Esta herramienta es muy completa,
puesto que integra varias tcnicas estadsticas con las de minera por lo que resulta muy
apropiada para el anlisis comparativo a realizar.

PROJECT ABSTRACT
The current project is an in depth study on the available methods for extracting
knowledge from data to support critical business decisions.

Statistical and data mining techniques are analyzed, making recommendations based on
best use and original requirements, as well as suitability depending on case studies and
data available. Additionally, guidelines are provided to help interpret the output data.

The projects main goal is to conduct a comprehensive approach among Business


Intelligence, Data Warehousing and Data Mining, so much in demand and yet unknown.

Data Mining, one of the most potential areas in Business Intelligence, extracts hidden
knowledge from the available data which can help obtain behavior patterns, trends,
support decision making, market research, new business opportunities

Data Mining has two building blocks: traditional statistical methods and data mining
itself originated from Artificial Intelligence such as neural networks, fuzzy logic, self
automated learning methods...

Statistics provide several forecasting techniques that support corporate management


decisions. Not being inherent to data mining (used well before this concept arrived) it
has been considerably useful to discover patterns and develop predictive modeling.
These algorithms can also be used to obtain more information on the data which will
allow better decision taking after data mining processes are implemented. Some of these
techniques are linear regression, factorial analysis, main components analysis

...

Outstanding among mining techniques : clustering, classification, prediction .

If we question about the difference between them, the answer is not simple; as the
success in data mining and statistics depend on the same factors: refined data, reliable,
well defined and validated. Furthermore, most of the techniques are used for solving the
same type of problems (prediction, classification )

We can also consider as differentiating facts the robustness and easy implementation of
mining techniques by non skilled users. On the other hand they require much more
computing power, not being a problem with todays technologies.

This project intends to describe how traditional statistics integrate into data mining to
offer more accurate and complete results.

To better understand each of these techniques we describe a case study of climate,


showing real analytical results and specific samples which test its usefulness.

Data used come from climate statistical tables provided by INE (National Institute of
Statistics), with monthly information on temperatures, rainfall, relative humidity,
daylight sun from the different regions of Spain during several years

As an acquired knowledge application, both statistical and mining techniques were used
in the case study: prediction of global warming effect based on the rainfalls and dam
water levels.

Based on knowledge and product availability, DB2 Intelligent Miner for Data was
chosen. This tool is quite complete as it integrates statistical and mining techniques
being most suitable for the required comparative analysis..

NDICE DE CONTENIDOS

MEMORIA ........................................................................................................ 10
Objetivos ............................................................................................................ 11
Consideraciones.................................................................................................. 14

PRESUPUESTO................................................................................................. 15

1- INTRODUCCIN A BUSINESS INTELLIGENCE ...................................... 16


Principales conceptos utilizados.......................................................................... 17
Evolucin de los sistemas de informacin ........................................................... 21
Utilidad de los sistemas de Business Intelligence ................................................ 24
Sistemas Data Warehouse ................................................................................... 24
Historia............................................................................................................... 24
Diferencia con las bases de datos operacionales .................................................. 26
Modelos de datos empleados............................................................................... 27
Arquitectura........................................................................................................ 30
Herramientas Business Intelligence..................................................................... 31
Minera de datos ................................................................................................. 32
Intelligent Miner for Data ................................................................................... 36

2- TCNICAS DE ANLISIS............................................................................ 41
2.1- Tcnicas estadsticas .................................................................................... 42
Consideraciones ...................................................................................... 42
Categorizacin de datos........................................................................... 43
2.1.1- Regresin lineal ............................................................................. 44
2.1.2- Ajuste de curva univariable ........................................................... 46
2.1.3- Anlisis de componentes principales.............................................. 46
2.1.4- Anlisis Factorial........................................................................... 47
2.1.5- Estadsticas Bivariables ................................................................. 48
2.2- Tcnicas de minera ..................................................................................... 49
2.2.1- Asociaciones .................................................................................. 49
2.2.2- Clustering....................................................................................... 49
2.2.2.1- Clustering neuronal......................................................... 51
7

2.2.2.2- Clustering demogrfico................................................... 54


2.2.3- Patrones secuenciales .................................................................... 55
2.2.4- Secuencias semejantes ................................................................... 55
2.2.5- Clasificacin ................................................................................. 56
2.2.5.1- Clasificacin en rbol ..................................................... 56
2.2.5.2- Clasificacin neuronal .................................................... 58
2.2.6- Prediccin ..................................................................................... 60
2.2.6.1- Funcin de base radial FBR ............................................ 60
2.2.6.2- Prediccin neuronal ........................................................ 61

3- IMPLEMENTACIN PRCTICA: CLIMATOLOGA ................................. 62


3.1- Datos disponibles......................................................................................... 62
3.2- Base de datos............................................................................................... 65
3.3- Base de minera ........................................................................................... 69
3.3.1- Tcnicas de estadstica .................................................................. 69
A) Regresin lineal ...................................................................... 69
B) Ajuste de curva univariable ..................................................... 82
C) Anlisis de Componentes Principales ...................................... 95
D) Anlisis Factorial .................................................................... 101
E) Estadsticas Bivariables ........................................................... 106
3.3.2- Tcnicas de minera........................................................................ 120
A) Asociaciones ........................................................................... 120
B) Clustering Demogrfico .......................................................... 139
C) Clustering Neuronal ................................................................ 146
D) Patrones secuenciales .............................................................. 149
E) Secuencias semejantes ............................................................. 150
F) Clasificacin en rbol .............................................................. 158
G) Clasificacin neuronal............................................................. 162
H) Prediccin ............................................................................... 164

4- CASO DE ESTUDIO ..................................................................................... 171


4.1- Efecto invernadero....................................................................................... 171
4.2- Embalses espaoles ..................................................................................... 173
8

4.3- Anlisis ....................................................................................................... 175


4.3.1- Evolucin temporal de cada cuenca hidrogrfica ........................... 175
4.3.2- Relacin entre precipitaciones y ocupacin de embalses................ 182
4.3.3- Evolucin temporal de las precipitaciones ..................................... 184
4.3.4- Prediccin de la ocupacin de embalses a 5 aos ........................... 187

5- COMPARATIVA ESTADSTICA MINERA............................................. 190

Recursos ............................................................................................................. 196


Planificacin temporal de actividades ................................................................. 196
Conclusiones ...................................................................................................... 199
APNDICE A - Glosario de trminos ................................................................. 201
APNDICE B - Tablas estadsticas..................................................................... 213
Bibliografa ........................................................................................................ 231

MEMORIA

El presente proyecto trata de un anlisis en profundidad de las distintas tcnicas


existentes para extraer de los datos un conocimiento oculto en los mismos y que puede
ser de gran utilidad para la toma de decisiones de negocio.
De este modo se estudian las distintas tcnicas estadsticas y de minera, su utilidad, en
qu casos puede aplicarse cada una de ellas, cules pueden resultar ms ptimas segn
los datos de los que se disponga y los requisitos de partida y cmo deben interpretarse
los resultados obtenidos.

La motivacin principal para desarrollar este proyecto ha sido llevar a cabo un


acercamiento al mundo de Business Intelligence, Data Warehousing y Data Mining tan
demandado en la actualidad y, en gran parte, an desconocido.
Cabe destacar adems la utilidad de las estrategias de Business Intelligence, que
permiten tener a mano la informacin ms relevante de operacin de una forma rpida,
flexible y oportuna. De esta forma se promueve una gestin y una toma de decisiones
proactiva, necesaria para aprovechar oportunidades de negocio futuras.
Debido al incremento de la competitividad en los negocios es vital para las empresas
conseguir tanto una efectividad en los costes como un rpido acceso a la informacin de
negocio para la totalidad de los usuarios. Estas cuestiones quedan resueltas a travs de
la implantacin de un sistema de Business Intelligence, que proporciona un conjunto de
tecnologas y productos para proveer a los usuarios de la informacin demandada en la
toma de decisiones de negocio de carcter estratgico o tctico.
Una de las reas ms potentes dentro de Business Intelligence es el Data Mining o
minera de datos que permite obtener a partir de los datos disponibles un conocimiento
oculto en los mismos que puede ayudar a descubrir patrones de comportamiento,
evitar errores de gestin, segmentar mercados, descubrir nuevas oportunidades de
negocio...

10

Objetivos

Por tanto el principal objetivo de este proyecto es describir cada una de las tcnicas
estadsticas y de minera existentes para descubrir toda su potencia y utilidad y ver
cmo se complementan entre s.
Las funciones estadsticas ofrecen diversos mtodos de pronstico para dar apoyo a la
toma de decisiones empresariales. Aunque no son propias de minera de datos (se
utilizaban mucho antes de que surgiera este concepto), resultan de gran utilidad a la
hora de descubrir patrones o elaborar modelos de prediccin. Pueden emplearse para
obtener ms informacin sobre los datos,

lo que permitir tomar decisiones ms

acertadas cuando se apliquen los procesos de minera.

Para comprender mejor el funcionamiento de estas tcnicas, se aplican a un caso


prctico orientado al rea de climatologa, permitiendo analizar resultados reales y ver
ejemplos concretos, que muestren su funcionamiento.

Se pretenden por tanto cubrir los siguientes objetivos:


?? Construir un modelo de minera en el que:

o analizar los procesos de preparacin de datos previos a la aplicacin de


las tcnicas de minera.

11

o mostrar la sensibilidad de los cada mtodo estadstico y de minera con


casos ejemplo.
o probar distintas alternativas de solucin de un mismo problema,
comparando los resultados obtenidos en cada caso
o comparar distintos algoritmos para un mismo mtodo (por ejemplo
clasificacin en rbol y mediante redes neuronales).
La temtica elegida es la climatologa.
?? Aplicar el conocimiento adquirido a un caso de estudio sobre la prediccin de
los efectos del calentamiento global sobre las precipitaciones y, como
consecuencia, sobre la ocupacin de los embalses de Espaa.
?? Conocer el uso de una herramienta Software de Data Mining.
?? Extraer una serie de conclusiones sobre qu tcnicas deben aplicarse en cada
caso, cmo hacerlo y cmo interpretar los resultados obtenidos para optimizar
las decisiones de negocio.

Se seguirn las siguientes etapas en el desarrollo del proyecto:

1. Documentacin y recoleccin de informacin.


Para familiarizarse con los conceptos principales de las reas de Business
Intelligence, Data Warehousing y Data Mining.

2. Anlisis.
Se partir de un anlisis previo de las siguientes tcnicas estadsticas:
??

Regresin lineal

??

Ajuste de curva univariable

??

Anlisis de componentes principales (ACP)

??

Anlisis Factorial (AF)

??

Estadsticas Bivariables

y de minera de datos:
12

??

Asociaciones

??

Clustering
o Neuronal
o Demogrfico

??

Patrones Secuenciales

??

Secuencias Semejantes

??

Clasificacin
o En rbol
o Neuronal

??

Prediccin
o Funcin de Base Radial (FBR)
o Neuronal

3. Construccin del modelo de datos.


Se disear una base de datos que contenga la informacin de climatologa a
utilizar.

4. Construccin del modelo de minera.


Se crear una base de minera que tendr como entrada la base de datos de
climatologa definida anteriormente. Sobre ella se aplicarn cada una de las
tcnicas estadsticas y de minera descritas, y se extraern conclusiones sobre los
resultados obtenidos.

5. Caso de estudio: Efecto invernadero.

Como aplicacin del conocimiento adquirido, se combinarn tcnicas


estadsticas y de minera a un caso concreto de estudio: la prediccin de los
efectos del calentamiento global sobre las precipitaciones y, como consecuencia,
sobre la ocupacin de los embalses de Espaa.

6. Conclusiones.

13

Por ltimo se extraer una serie de conclusiones prcticas sobre el uso y


aplicabilidad de las distintas tcnicas, sealando cul resulta ms ptima en cada
caso y analizando como la estadstica complementa a la minera.

Consideraciones

La dimensin temporal de los datos disponibles no resulta en ocasiones los


suficientemente amplia para extraer concusiones a largo plazo, puesto que de la mayora
de las variables climatolgicas en anlisis slo se disponen de datos de 6 aos.
Por ello no habr que olvidar que el objetivo de este proyecto no es otro que construir
los modelos de minera que, aplicados sobre datos ms numerosos (simplemente
cambiando la entrada de informacin) ofreceran unos resultados mucho ms completos
y extensibles en el tiempo.

14

PRESUPUESTO

El presupuesto necesario para la realizacin de este proyecto es el que sigue:

Mano de obra
Das de trabajo
Horas de trabajo
Total Horas
Coste Hora
Coste Total

201
4
804
10
8040

Recursos
HW
SW
Total

ThinkPad T22 Pentium III 512 RAM


DB2 UDB v 7.1
DB2 Intelligent Miner for Data v.8.1

1200
468
76.018
77686

Por lo tanto el presupuesto necesario es de 85.726 .

15

1-INTRODUCCIN A BUSINESS INTELLIGENCE

En la lucha por tener xito en el competitivo mercado de hoy en da, la capacidad de


acceder a la informacin y analizarla ha cobrado ms importancia que nunca. Con el fin
de mejorar los procesos empresariales, medir el xito y tomar decisiones de negocio
acertadas, las organizaciones requieren un fcil acceso a sus bases de informacin.
Satisfacer esta demanda se ha convertido en un reto continuo.
El anlisis de la informacin ofrece a los empleados la posibilidad de utilizar los datos
decisivos para tener xito. Sin embargo, los tipos de acceso y anlisis de la informacin
requeridos pueden variar en gran medida entre los diferentes tipos de usuarios. Por
ejemplo, los ejecutivos de la alta direccin, los analistas empresariales, profesionales de
la informtica y otros no solamente accedern a grupos de datos distintos, sino que
analizarn esta informacin para diferentes propsitos. Por esta razn, las empresas
necesitan un conjunto integrado de productos que pueda ofrecer una gama completa de
capacidades y funcionalidad de inteligencia empresarial.
Una solucin completa de anlisis de la informacin debe hacer ms que slo
proporcionar acceso a los datos. Tambin debe permitir a los usuarios analizar los datos
de diversas formas, permitindoles anticipar las tendencias comerciales y evaluar
hiptesis. Este tipo de anlisis promueve una gestin y una toma de decisiones
proactiva, necesaria para aprovechar oportunidades futuras.
Las estrategias de Business Intelligence permiten tener a mano la informacin ms
relevante de operacin de una forma rpida, flexible y oportuna. Las herramientas que
integra consolidan la informacin de las distintas reas, mejorando el proceso de
decisin.

Business Intelligence es una alternativa tecnolgica y de administracin de negocios,


que cubre los aspectos del manejo de informacin para la toma de decisiones, desde su
extraccin en los sistemas, depuracin, transformacin, el diseo de estructuras de datos
o modelos especiales para el almacenamiento de datos hasta la explotacin de la
informacin mediante herramientas comerciales de fcil uso para los usuarios. A partir
de los datos disponibles obtiene un conocimiento no implcito en los mismos que puede

16

ayudar a descubrir patrones de comportamiento, evitar errores de gestin, segmentar


mercados, descubrir nuevas oportunidades de negocio...

Muchos de los conceptos de Business Intelligence no son nuevos pero han evolucionado
y han sido redefinidos a partir de la experiencia adquirida con los sistemas de
informacin y, ms recientemente, con las aplicaciones de Data Warehouse.

Debido al incremento de la competitividad en los negocios es vital para las empresas


conseguir tanto una efectividad en los costes como un rpido acceso a la informacin de
negocio para la totalidad de los usuarios. Estas cuestiones quedan resueltas a travs de
la implantacin de un sistema de Business Intelligence, que proporciona un conjunto de
tecnologas y productos para proveer a los usuarios de la informacin demandada en la
toma de decisiones de negocio de carcter estratgico o tctico.

Principales conceptos utilizados

Antes de entrar en ms detalle en las tcnicas de Business Intelligence, conviene tener


clara la terminologa empleada:
?? Bases de Datos Operacionales: Bases de datos detalladas definidas para
satisfacer las necesidades de informacin de procesos de negocio en ocasiones
muy complejos.
El modelo de datos est normalizado para evitar redundancias y un doble
mantenimiento.
?? OLTP: On-line Transaction Processing describe a los sistemas que trabajan con
datos operacionales La informacin es detallada y est en continua
actualizacin.
?? Data Warehouse: Base de datos orientada a temas, con datos integrados, no
voltiles (la informacin no cambia continuamente), y que perduran en el tiempo
(lo que permite seguir la evolucin del sistema). Contiene adems informacin
de negocio (datos informacionales: histricos, totales, medias, porcentajes...)
que le permiten a la alta direccin seguir el progreso de su empresa.
?? Data Mart: Contiene los datos de negocio de especial inters para un
determinado departamento, unidad de negocio o grupo de usuarios con las
17

mismas necesidades de informacin. Al igual que un Data Warehouse, almacena


informacin histrica y operaciones precalculadas para optimizar el acceso. Un
Data Mart es en efecto un Data Warehouse departamental.
?? Fuente de datos externa: Proporciona aquellos datos que son necesarios para
garantizar la calidad de la informacin en el Data Warehouse y que no se
encuentran en los sistemas OLTP.
?? OLAP: On-line Analytical Processing es una tecnologa SW que permite a los
analistas, directivos y ejecutivos comprender la informacin de negocio de una
forma rpida e interactiva. Para ello se sirve de diversas vistas que presentan los
datos desde diferentes dimensiones, lo que permite realizar comparaciones,
simular escenarios futuros y entender mejor las relaciones entre los datos.
En el caso de bases de datos relacionales hablaremos de ROLAP (Relational Online

Analytical

Processing),

para

multidimensionales

de

MOLAP

(Multidimensional On-line Analytical Processing) y de HOLAP (Hybrid On-line


Analytical Processing) en caso de modelos mixtos.

?? Metadata: Informacin sobre los propios datos almacenados como una


descripcin de tablas y campos, tipos de datos, rango de valores permitidos,
procesos de transformacin...

18

?? Drill Down: Capacidad para navegar a travs de la informacin siguiendo una


estructura jerrquica.
En la siguiente figura se muestra un pequeo ejemplo:

?? Drill Across: Capacidad para navegar a travs de la informacin saltando por


las distintas dimensiones en modelos multidimensionales.

19

?? Diferencia entre bases de datos operacionales e informacionales: La mayor


diferencia entre estos dos modelos de bases de datos reside en la frecuencia de
actualizacin de la informacin:
o En los sistemas operacionales se llevan a cabo un gran nmero de
transacciones cada hora por lo que los datos estn siempre actualizados y
reflejan la situacin de la empresa en ese momento del tiempo.
o Los sistemas informacionales permanecen estables durante un periodo de
tiempo, finalizado el cual se realiza un proceso de carga (en horario que
no afecte a produccin) que extrae los cambios y los nuevos registros de
los sistemas operacionales, actualizando la base de datos informacional.

?? Minera de datos: Proceso de extraer de los datos un conocimiento vlido, de


utilidad y antes desconocido para mejorar la toma de decisiones de negocio.

20

Evolucin de los sistemas de informacin

Algunas de las primeras cuestiones que nos pueden surgir al describir los objetivos de
un sistema de Business Intelligence son Proporciona un Data Warehouse las mismas
funcionalidades que un sistema de Business Intelligence? un Data Warehouse es
similar a los clsicos sistemas de informacin implementados en la mayora de las
empresas? Aunque en un primer momento podemos responder de forma afirmativa a
ambas cuestiones, un anlisis detallado nos muestra que existen importantes diferencias
entre estos sistemas.

Siguiendo la evolucin de los sistemas de informacin podemos distinguir tres


generaciones:
?? Primera Generacin Sistemas Host: Los primeros sistemas de informacin
empleaban programas batch para proporcionar a los usuarios la informacin
demandada en forma de consultas e informes. La salida de estas aplicaciones
tpicamente consista en grandes volmenes de hojas que los usuarios tenan que
analizar para responder a cuestiones de negocio.
Con la llegada de las aplicaciones de tiempo compartido, estos sistemas ganaron
rapidez en el acceso a la informacin, pero continuaban siendo incmodos de
utilizar y requeran acceso a bases de datos operacionales muy complejas.
Por tanto esta primera generacin de sistemas slo poda ser utilizada por
usuarios avanzados con un amplio conocimiento en el manejo de los datos (por
ejemplo, analistas de negocio). Los ejecutivos de la direccin dependan por
tanto del anlisis suministrado por terceros con el consiguiente retraso en el
tiempo.
?? Segunda Generacin Data Warehouse: La segunda generacin de los
sistemas de informacin lleg con el Data Warehouse que supuso un gran
avance en las prestaciones puesto que permite almacenar la totalidad de la
informacin de una empresa en un repositorio nico con un formato de datos
comn.

21

El uso de la arquitectura cliente-servidor proporciona a los usuarios una mejora


en los interfaces y unas herramientas de soporte a la toma de decisiones ms
potentes.
Este tipo de sistemas se ver a continuacin con ms detalle.
?? Tercera Generacin Business Intelligence: Un Data Warehouse no es an
una solucin completa para satisfacer la necesidades de los usuarios de negocio.
Una debilidad de muchos de estos sistemas es que los proveedores con
frecuencia se centran nicamente en la tecnologa en vez de en las soluciones de
negocio. Hay que tener en cuenta adems el gran esfuerzo necesario para la
implantacin completa de un Data Warehouse as como de las herramientas de
acceso al mismo. A esto hay que sumarle el hecho de que los productos de Data
WareHouse rara vez vienen agrupados en paquetes predefinidos para industrias
determinadas o reas de aplicacin especficas.
Otro error que suele cometerse al implantar un Data Warehouse es centrase en la
construccin del almacn de datos, olvidndose del acceso al mismo. Si la
informacin contenida en el Data Warehouse no est bien documentada y es
comprensible y fcil de acceder por los usuarios, stos no sacarn del sistema el
rendimiento esperado.
Los sistemas de Business Intelligence se centran en mejorar el acceso a la
informacin de negocio. Para ello se sirven de herramientas grficas, OLAP
(online analytical processing) y de minera de datos.
Previsiblemente, necesitarn procesar y analizar grandes volmenes de
informacin, por lo que parmetros como la escalabilidad e integracin de
productos de distintos fabricantes no deben ser olvidados.
La informacin almacenada en un Data Warehouse procede con frecuencia de
bases de datos operacionales (y en algunos casos de fuentes externas). Sin
embargo una parte importante de la informacin est contenida en la oficina,
sistemas de trabajo, servidores web de las intranets corporativas, Internet, en
papel...Para resolver este problema, los sistemas de Business Intelligence estn
diseados para soportar el acceso a todos los formatos de informacin de
negocio, no slo a los datos almacenados en el propio Data Warehouse.

22

El hecho de tener un sistema de Business Intelligence no descarta la necesidad


de un Data Warehouse central un Data Warehouse es simplemente una de las
fuentes de datos manejada por un sistema de Business Intelligence.
Como vemos, un sistema de Business Intelliegence constituye una tercera
generacin en los sistemas de informacin y presenta principalmente tres
ventajas:
o Oferta de soluciones especficas en paquetes predefinidos.
o Sistemas centrados en optimizar el acceso de los usuarios finales a la
informacin de negocio
o Soporte de todos los formatos de informacin, no slo de la
almacenada en un Data Warehouse.

La siguiente figura muestra la estructura global de un sistema de Business


Intelligence:

23

Utilidad de los sistemas de Business Intelligence

Las operaciones diarias de cualquier empresa generan gran cantidad de datos a


almacenar: pedidos, inventarios, facturacin, transacciones...Sin olvidar los datos
procedentes de fuentes externas como las listas de distribucin por mail.
El hecho de ser capaces de consolidar y analizar toda esta informacin para optimizar
las decisiones de negocio puede ser el factor que diferencie a la empresa de sus
competidoras.
Para que esto sea posible ser necesario disponer de las aplicaciones y herramientas
necesarias para el anlisis y, ms importante todava, de unos datos consistentes y en el
formato adecuado.

Sistemas Data Warehouse

Data Warehouse es el centro de la arquitectura para los sistemas de informacin en la


dcada de los 90. Soporta el procesamiento informtico al proveer una plataforma
slida, a partir de los datos histricos para hacer el anlisis. Facilita la integracin de
sistemas de aplicacin no integrados. Organiza y almacena los datos que se necesitan
para el procesamiento analtico, informtico sobre una amplia perspectiva de tiempo.
Un Data Warehouse es una coleccin de datos orientado a temas, integrado, no voltil,
de tiempo variante, que se usa para el soporte del proceso de toma de decisiones
empresariales.

Historia

El concepto de Data Warehouse surgi a partir de los sistemas expertos y las tcnicas de
Inteligencia Artificial que alcanzaron mayor auge en la dcada de los 80. El objetivo de
los sistemas expertos era el de emular el comportamiento humano, automatizando en lo
posible la toma de decisiones. Para ello era necesario crear una base de conocimiento
que contuviera todas las reglas que rigen el comportamiento de un experto.
La Inteligencia Artificial desarroll una serie de tcnicas que permitan que los sistemas
expertos desarrollados aprendiesen con la experiencia y fueran capaces de modificar las
reglas de actuacin segn el nuevo conocimiento adquirido.
24

A pesar de todo fueron muy poco los sistemas expertos desarrollados con xito debido a
varias razones:
?? Ausencia de la tecnologa necesaria.
?? Carencia de una metodologa estndar de desarrollo.
?? No existencia de un repositorio central de datos.

En la misma poca surgi el concepto de Ingeniera de la Informacin (Information


Engineering IE) que consista en una metodologa que ayudaba a las empresas a
entender el significado de los datos de negocio y las relaciones entre los mismos. A
diferencia de los sistemas expertos, la Ingeniera de la Informacin era ms fcil de
entender y constaba de una metodologa estndar, adems de ofrecer buenos resultados,
por lo que durante varios aos alcanz gran xito y difusin.

Con las redes locales (LANs) apareci la posibilidad de distribuir la capacidad de


proceso, por lo que los sistemas Data Warehouse entraron en escena como una solucin
viable de almacenar la informacin, unificando conceptos de Ingeniera de la
Informacin, Sistemas Expertos e Inteligencia Artificial. Del primero hered el modelo
de arquitectura de datos y de los otros dos la toma de decisiones.

Objetivo

El principal objetivo de un Data Warehouse es almacenar grandes volmenes de datos


previamente transformados a unos valores y formato fcilmente comprensibles.
Un Data Warehouse constituye un repositorio central para una empresa, proporcionando
informacin consistente y de alta calidad para la toma de decisiones estratgicas o
tcticas. Su fuente de informacin suele ser un sistema operacional clsico del que toma
los datos de negocio, les aplica unos procesos de transformacin y carga para conseguir
una informacin consistente y con valores estndar y realiza operaciones con ellos
almacenando los resultados como un dato ms. De esta forma medidas como totales,
medias y porcentajes se obtienen de forma casi inmediata puesto que ya han sido
precalculados.

25

Necesidad
Los sistemas de ingreso de transacciones se ven afectados por las consultas a sus bases
de datos. Generalmente poseen informes predefinidos, y cualquier modificacin a los
mismos debe ser solicitado al departamento de sistemas, que ser en definitiva quien
evaluar si tiene los recursos humanos disponibles como para realizarlos. El Data
Warehouse est separado de los sistemas transaccionales, por lo tanto las consultas no
afectan la velocidad de registro de las operaciones. Se actualiza peridicamente,
capturando datos de los distintos sistemas transaccionales. Una vez implementado, es
importante elegir las herramientas de consulta al Data Warehouse, que permitan un alto
grado de autonoma a los usuarios.
Diferencia con las bases de datos operacionales

En la siguiente tabla puede verse un contraste de cmo los datos de negocio


almacenados en un Data Warehouse, difieren de los datos operacionales usados por las
aplicaciones de produccin

Base de Datos Operacional

Data Warehouse

Datos Operacionales

Datos del negocio para Informacin

Orientado a la aplicacin

Orientado al sujeto

Actual

Actual + histrico

Detallada

Detallada + ms resumida

Cambia continuamente

Estable

Asimismo, ambos modelos de sistemas de almacenamiento de datos difieren en el uso


que se hace de ellos:

26

Uso de Base de Datos

Uso de

Operacionales

Data Warehouse

Muchos usuarios concurrentes

Pocos usuarios concurrentes

Consultas predefinidas y

Consultas complejas, frecuentemente

actualizables

no anticipadas.

Cantidades pequeas de datos

Cantidades grandes de datos

detallados

detallados

Requerimientos de respuesta

Requerimientos de respuesta no

inmediata

crticos

Los usuarios de un Data Warehouse necesitan acceder a datos complejos,


frecuentemente desde fuentes mltiples y de formas no predecibles.
Por el contrario, los usuarios que accedan a los datos operacionales, comnmente
efectan tareas predefinidas que, generalmente requieren acceso a una sola base de
datos de una aplicacin.

Modelos de datos empleados


Por las caractersticas especiales de un Data Warehouse, no resulta apropiado emplear el
clsico modelo de datos relacional. Se optar por diseos que preparen la informacin
de acuerdo a la necesidad de tomar decisiones y no a los argumentos tcnicos de espacio
de almacenamiento. Los ms comunes son:
?? Modelo en estrella: se basa en la creacin de tablas de hechos, es decir, tablas
que contengan la informacin numrica de los indicadores a analizar, o sea la
informacin cuantitativa de la informacin para la toma de decisiones. Las tablas
anteriores se relacionan con tablas de dimensiones, las cuales contienen la
informacin cualitativa, de los indicadores, es decir, toda aquella informacin
que clasifique la informacin requerida. Es el modelo de datos ms utilizado en
Data Warehouse.
En las siguientes imgenes puede verse un ejemplo de implementacin de
modelo en estrella:

27

?? Modelo copo de nieve: modelo en estrella que se obtiene desglosando todas las
dimensiones.
?? Modelo multidimensional (en cubo): Cada cara del cubo representa una
dimensin y la interseccin de todas las dimensiones (una celda del cubo)
almacena datos relevantes o medidas precalculadas. Es adecuado nicamente
para tres o incluso cuatro dimensiones, con un nmero mayor se complica
demasiado. No se utiliza de forma frecuente debido a que se desaprovecha
mucho espacio, son complejos y difcil de mantener.
En la siguiente figura puede verse un ejemplo de modelo en cubo con tres
dimensiones: tiempo, producto y cliente:

28

Ventajas

Las principales ventajas de este nuevo modelo frente a los sistemas clsicos son:
?? Acceder a un Data Warehouse es relativamente fcil y rpido.
?? Los informes generados son consistentes y no es necesario realizar cruces o
reconciliaciones entre ellos.
?? Un Data Warehouse est diseado especficamente para satisfacer las
necesidades de negocio de los usuarios y no para la aplicaciones operacionales
del da a da.
?? La informacin almacenada en un Data Warehouse es limpia, consistente y en
un formato comprensible para los usuarios.
?? Adems de la informacin actual, un Data Warehouse suele contener registros
histricos, as como el resultado de diversas operaciones realizadas con los datos
(totales, medias...).
?? Mejora en el seguimiento de los resultados de negocio y rapidez y eficacia en la
toma de decisiones, lo que supone una clara diferenciacin de las empresas
competidoras.

Estructura
Una de las razones por las que el desarrollo de un Data Warehouse crece rpidamente,
es que realmente es una tecnologa muy entendible. De hecho, puede representar mejor
la estructura amplia de una empresa para administrar los datos informacionales dentro
de la organizacin.
La siguiente figura muestra la estructura bsica de un sistema Data Warehouse:

29

Arquitectura

A la hora de implementar un sistema Data Warehouse puede optarse por una de las
siguientes arquitecturas (de menor a mayor complejidad):
?? Virtual Data Warehouse: El Data Warehouse no existe realmente,
simplemente se simula una funcionalidad similar a la que proporcionara ste a
base de extraer de los sistemas operacionales la informacin necesaria para un
propsito determinado.
?? One-tier Data Warehouse: Diseado para un departamento concreto, sin
englobar la informacin del resto de la organizacin. Suele corresponder a un
Data Mart.
?? Data Marts: Se construyen varios Data Marts para los departamentos ms
importantes de la empresa. Luego es posible su integracin en un Data
Warehouse central.
La diferencia entre tener un Data Warehouse Central y varios Data Marts
independientes es que en el primer caso se pueden aprovechar procesos
automticos que actualizan los datos en cadena, adems de ganar consistencia en
la informacin al estar los datos relacionados entre s.
?? Two-tier Data Warehouse: Arquitectura Data Warehouse ms completa que
optimiza al mximo la extraccin de los datos al disponer, adems de un Data
Warehouse central, de un Data Mart que es con el que trabajan directamente los
usuarios.

30

Herramientas Business Intelligence

Existen numerosas herramientas en el mercado que ayudan a realizar las diferentes


tareas necesarias para construir, mantener y trabajar con un sistema de Business
Intelligence.
En la figura pueden verse algunas de ellas:

Las herramientas de anlisis, es decir, las posteriores al proceso de construccin del


Data Warehouse que sirven para trabajar con la informacin almacenada, pueden
clasificarse en funcin de su complejidad segn muestra la siguiente pirmide:

31

DSS

MINERA

AN LISIS

QUERY & REPORTING

DATOS

?? Query y Reporting: nicamente ofrecen la posibilidad al usuario de realizar


consultas avanzadas y extraer informes.
?? Anlisis (OLAP): Permiten adems jugar con la informacin, simulando
escenarios futuros, analizando distintas dimensiones

y puntos de vista,

descubriendo relaciones entre variables...


?? Minera: implica el descubrimiento de informacin anteriormente desconocida,
comprensible, novedosa y vlida, a partir de grandes almacenamientos de datos.
La informacin resultante puede constituir una ayuda para tomar decisiones.
Para este proyecto utilizaremos el Intelligent Miner for Data de IBM que es
una de las herramientas de minera ms completa que hay actualmente en el
mercado.
?? DSS: Decisin Support System. Aplicaciones que extraen y representan la
informacin de negocio de forma concreta, grfica y fcilmente comprensible
para ayudar a la toma de decisiones empresariales.

A continuacin analizaremos con ms detalle en qu consiste la minera de datos.

32

Minera de datos

La tecnologa de la informacin ha evolucionado de forma muy rpida en las tres


ltimas dcadas. Cada vez ms, muchas empresas almacenan grandes volmenes de
datos en sus sistemas informticos. Puede ser que informaciones tiles se encuentren
ocultas en los datos con el formato de patrones y conexiones implcitas que no son
fciles de distinguir mediante las consultas de datos convencionales y los clculos de
estadsticas.
La minera de datos es el proceso que implica el descubrimiento de informacin
anteriormente desconocida, comprensible, novedosa y vlida, a partir de grandes
almacenamientos de datos. La informacin extrada puede utilizarse para realizar una
prediccin o un modelo de clasificacin o bien para identificar las semejanzas existentes
entre los registros de la base de datos. La informacin resultante puede constituir una
ayuda para tomar decisiones con ms conocimiento.
Por ejemplo, en una tienda se puede utilizar la minera de datos para identificar los
grupos de clientes que probablemente respondern a los nuevos productos y servicios o
para identificar nuevas oportunidades de venta cruzada. Una compaa de seguros puede
utilizarla con los datos de reclamaciones para identificar posibles indicadores de fraude.
Algunos ejemplos de las preguntas que se pueden responder con las herramientas de
Data Mining son:
?? Qu caractersticas tienen los mejores clientes?
?? Qu caractersticas tienen los clientes que estoy pierde la empresa?
?? A quines debera dirigir una campaa publicitaria?
?? Cules son los factores que inciden en que algunas mquinas tengan mayores
tasas de fallos que otras?
?? Es efectiva la aplicacin de una droga medicinal? Cuales fueron los cinco grupos
que obtuvieron los mejores resultados?
?? A quines no se deben venderles seguros contra todo riesgo?
?? Qu factores inciden en el aumento de la tasa de fallas?

La minera de datos es un proceso iterativo que implica generalmente la seleccin y


transformacin de datos de entrada, la ejecucin de una funcin de minera y la

33

interpretacin de los resultados. Las funciones de minera utilizan tcnicas matemticas


elaboradas para descubrir patrones ocultos en los datos.
La siguiente figura muestra el modelo bsico de minera de datos:

Seleccin de los datos de entrada

El primer paso de la minera de datos consiste en especificar los datos de entrada que se
deseen explorar y analizar. Puede que una fuente de datos no contenga todos los datos
que se quieran utilizar para un objetivo concreto de minera de datos, o bien puede que
contenga datos irrelevantes. As, estos datos pueden estar en una o ms tablas de base de
datos, vistas o archivos planos.

Exploracin de los datos

En cualquier momento del proceso se pueden utilizar funciones estadsticas para


explorar y analizar los datos. Puede que se desee aplicar un anlisis de estadsticas al
considerar los datos de entrada como variables para una funcin de minera. Las
funciones estadsticas tambin se pueden utilizar para transformar datos creando campos
de entrada para su exploracin. Adems, estas funciones sirven para evaluar los datos de
salida de las funciones de minera.

34

Transformacin de los datos

Cuando se han especificado los datos de entrada, se pueden transformar mediante


funciones de preproceso. Las funciones de proceso como discretizacin, filtro y unin le
permiten organizar los datos para que se puedan explorar con eficacia.
Por ejemplo, si los datos contienen los campos Sueldo y Comisin, puede sumar los
valores de estos dos campos y crear un campo de datos denominado Sueldo_total.

Minera de datos

Los datos transformados se extraen consecutivamente mediante una o ms funciones de


minera. Algunos ejemplos de funciones de minera son:
?? Asociaciones
?? Clasificacin neuronal
?? Clasificacin en rbol
?? Clustering demogrfico
?? Clustering neuronal
?? Patrones secuenciales
?? Secuencias semejantes
?? Prediccin neuronal
?? Prediccin-Funcin base radial (RBF)
Interpretacin de los resultados

Puede analizar los resultados del proceso de minera de datos en base a los objetivos de
apoyo a las decisiones que tome. Las herramientas de visualizacin permiten ver los
resultados e identificar la informacin importante que queda al descubierto mediante el
proceso de minera. Los resultados pueden exportarse a una estacin de trabajo remota
de manera que puedan visualizarse en una ubicacin diferente. Tambin se pueden
copiar determinados resultados al portapapeles haciendo as que estn disponibles para
otras herramientas, como hojas de clculo o aplicaciones estadsticas.
La minera de datos puede ser un proceso iterativo. Si se observa un resultado anterior,
podra querer ajustarse la formulacin de la minera para una ejecucin de minera que
mejore la calidad del resultado.

35

Intelligent Miner for Data

IBM DB2 Intelligent Miner for Data Versin 8 es un conjunto de funciones estadsticas,
de preproceso y de minera que se pueden utilizar para analizar grandes bases de datos.
Tambin ofrece herramientas de visualizacin para ver e interpretar los resultados de
minera.
Algunas de sus principales caractersticas son las siguientes:
?? Proporciona un conjunto de herramientas que forman un marco de trabajo
nico para la extraccin de datos.
?? Admite el proceso iterativo y permite el procesamiento de datos, el anlisis
estadstico y la visualizacin de resultados como suplemento de su amplia
variedad de mtodos de extraccin.
?? Utiliza algoritmos de extraccin garantizados, ya sea individualmente o
combinados, para resolver numerosos problemas de negocios y obtener
resultados comerciales mensurables.
?? Proporciona una solucin ampliable, centrada en las reas clave de la
extraccin a gran escala, como por ejemplo, los grandes volmenes de datos,
la extraccin paralela de datos, las operaciones de extraccin a largo plazo y
la mejora de los algoritmos de extraccin.
?? Incluye un interfaz de programacin de aplicaciones que permite el
desarrollo de aplicaciones de extraccin personalizadas adaptadas a cada
sector especfico.
?? Proporciona una sofisticada extensin SQL de la base de datos DB2 y activa
la incrustacin de funciones de modelado en las aplicaciones empresariales.
?? Admite el desarrollo de modelos de extraccin de datos en un formato
compatible con el lenguaje PMML (del ingls Predictive Model Markup
Language, lenguaje de marcado para modelos predictivos) V2.0, la nueva
norma estndar del sector para modelos analticos.
?? Los usuarios pueden aplicar las nuevas relaciones entre los datos a nuevos
datos en tiempo real.
?? Permite el anlisis de modelos de extraccin de datos a travs de DB2
Intelligent Miner Visualizer, un navegador de resultados basado en Java.

36

Permite consultar y evaluar los resultados del proceso de modelado de


extraccin de datos incluso a los usuarios menos expertos.
La siguiente figura muestra un esquema tpico de arquitectura cliente-servidor del
Intelligent Miner:

Como vemos en la imagen, sus principales componentes son:

37

?? Interfaz de usuario: Programa que permite definir las funciones de minera de


datos en un entorno grfico. Pueden definirse las preferencias de la interfaz de
usuario, que estn almacenadas en el cliente.
La pantalla principal de este interfaz se muestra en la siguiente imagen:

?? API de capa de entorno: Conjunto de funciones API que controlan la ejecucin


de procesos y resultados de minera. Las secuencias de funciones y operaciones
de minera se pueden definir y ejecutar mediante la interfaz de usuario a travs
de la API de capa de entorno. La API de capa de entorno est disponible en
todos los sistemas operativos servidores.
?? Visualizador: Herramienta que visualiza el resultado generado por una funcin
estadstica o de minera. Intelligent Miner ofrece un amplio conjunto de
herramientas de visualizacin.
En la siguiente pantalla puede verse como ejemplo la visualizacin del resultado
de ejecutar una funcin de minera:

38

39

Se pueden utilizar, adems, otras herramientas de visualizacin.


?? Acceso a datos: Acceso a datos de archivos planos, tablas y vistas de bases de
datos.
?? Tablas de bases de datos y archivos planos: Tipos de datos que se pueden
procesar. Los componentes de Intelligent Miner trabajan directamente con datos
almacenados en una base de datos relacional o en archivos planos. Los datos no
han de copiarse en un formato especial. Los objetos de datos de entrada y salida
que defina son objetos que constituyen descripciones lgicas de los datos fsicos.
Esta descripcin lgica permite que se modifique la ubicacin fsica de los datos
sin que ello afecte a los objetos que utilizan dichos datos. Slo se pueden
cambiar las descripciones lgicas. El cambio puede ser tan simple como
modificar el nombre de una tabla de base de datos.
?? Biblioteca de proceso: Biblioteca que proporciona acceso a funciones de bases
de datos.
?? Bases de minera: Coleccin de objetos de minera de datos que se utilizan para
un objetivo de minera o un problema de gestin. Las bases de minera se
almacenan en el servidor, que permite el acceso desde distintos clientes.
?? Kernels de minera: Algoritmos que comienzan a operar cuando se ejecuta una
minera de datos o una funcin estadstica.
?? Resultados de minera, API de resultado y herramientas para exportacin:
Datos extrados por la ejecucin de minera o la funcin estadstica. Estos
componentes le permiten visualizar los resultados en el cliente. Los resultados se
pueden exportar para proceso posterior o para utilizarlos con herramientas de
visualizacin.
El proceso para trabajar con el Intelligent Miner es el siguiente:
?? Buscar entre los datos hechos significativos.
?? Determinar qu variables intervienen.
?? Definir las variables al Intelligent Miner.
?? Lanzar el estudio.
?? Internamente se realizan comparaciones entre las distintas rebanadas del cubo.
?? Como salida ofrece una lista de aquello que le llama especialmente la atencin:
patrones, diferencias significativas...
?? Interpretar los resultados por parte del analista, lo que constituye sin duda la
tarea ms difcil y laboriosa.
40

2-TCNICAS DE ANLISIS

Las herramientas de minera de datos se apoyan en dos tipos de tcnicas para la


obtencin de resultados que ayuden a la toma de decisiones empresariales:
?? Tcnicas estadsticas
?? Tcnicas de minera (con frecuencia heredadas del rea de Inteligencia
Artificial)
Cul es la diferencia entre ambas? No es una pregunta fcil de responder; tanto el xito
de las tcnicas de minera como el de las estadsticas dependen de los mismos factores:
datos depurados, fiables, bien definidos y validados. Adems la mayora de las tcnicas
se aplican para la resolucin del mismo tipo de problemas (prediccin, clasificacin...).
Podramos quizs sealar como diferencia que las tcnicas de minera tienden a ser ms
robustas y fciles de aplicar para usuarios poco experimentados. Por otra parte requieren
por lo general mayor potencia de clculo, lo que hoy en da ya no supone un problema.

Una de las principales diferencias entre los modelos estadsticos y los modelos de
inteligencia artificial, es cmo miden su error. Los primeros miden el error relativo tal
como el modelo "adapta" los datos, mientras que los segundos, miden el error relativo a
los datos an invisibles (Error predictivo).
Segundo, los modelos estadsticos tienen dificultades al dar datos contradictorios o
desordenados, es decir, los datos deben estar limpios y deben existir las correlaciones
consistentes. Viceversa, las herramientas de inteligencia artificial buscan "generalizar"
relaciones para proporcionar el resultado ms probable.

Vamos a ver con ms detalle cada una de estas tcnicas.

41

2.1-Tcnicas estadsticas

Las funciones estadsticas ofrecen diversos mtodos de pronstico para dar apoyo a la
toma de decisiones empresariales. Aunque no son propias de minera de datos (se
utilizaban mucho antes de que surgiera este concepto), resultan de gran utilidad a la
hora de descubrir patrones o elaborar modelos de prediccin.
Pueden emplearse para obtener ms informacin sobre los datos, lo que permitir tomar
decisiones ms acertadas cuando se apliquen los procesos de minera. Las funciones
estadsticas se aplican a los datos de entrada y producen datos de salida y resultados.
Mediante la aplicacin de distintos clculos y teoras estadsticas a los datos de entrada
se pueden descubrir en ellos patrones ocultos. Estas funciones se pueden utilizar en los
pasos de transformacin y minera del proceso. Algunos ejemplos de aplicacin de las
funciones estadsticas son los siguientes:
?? Con la tcnica de Regresin lineal se pueden predecir valores mediante un
modelo de ajuste lineal.
?? Mediante el Anlisis de componentes principales pueden verse los atributos
ms dominantes en los datos.
?? Con Anlisis de factores se puede reducir el nmero de variables de los datos
de entrada.

Consideraciones

Mediante las funciones estadsticas se pueden analizar fcilmente los datos utilizando
varios mtodos de estadstica diferentes. Se puede tener la tentacin de probar con
diferentes mtodos sin considerar la naturaleza de los datos. Utilizando distintos
mtodos sobre un conjunto de datos se pueden conseguir hallazgos estadsticamente
significativos por casualidad. No obstante, lo mejor es elegir un mtodo de estadstica
basado en la naturaleza de los datos y en la informacin que puede utilizarse.
Se dispone de muchos mtodos de estadstica complejos. En cualquier caso, conviene
utilizarlos e interpretarlos correctamente. Tambin debe prestarse especial atencin a las
limitaciones y presunciones de cada mtodo.

42

Categorizacin de datos

Para poder seleccionar la funcin estadstica apropiada se deben concretar las


necesidades a cubrir y conocer el tipo de datos que se van a analizar.
Se puede probar una hiptesis, buscar posibles tendencias, recopilar informacin
preliminar o depurar un problema de investigacin.
Los datos pueden categorizarse atendiendo al nmero de variables, la escala de medida
y el nmero de casos. Dependiendo de estos criterios, podr seleccionar la funcin
estadstica apropiada:
?? Nmero de variables: Una variable es una caracterstica mensurable de una
poblacin determinada. Cada una de las funciones estadsticas requiere un cierto
nmero de variables.
?? Escala de medida: Los mtodos de estadsticas requieren escalas de medida
aplicables a los datos. Una vez se saben las escalas de medida aplicables a los
datos, se pueden delimitar los mtodos utilizables.
Los datos pueden medirse mediante una de las siguientes escalas de medida:
o Escala de medida Nominal (la ms bsica) no asume nada sobre los
valores asignados a los datos. Cada valor no es ms que una etiqueta o
nombre para cada categora. El orden o diferencia entre los distintos
valores no tiene significado alguno. Por ejemplo, podra utilizarse un
cdigo numrico para designar ciudades en los datos: 1 podra ser Pars,
2, Londres y 3, Nueva York.
o Escala de medida Ordinal asume que se puede asignar un orden a los
datos, aunque no se pueda medir la distancia entre nmeros. Por ejemplo,
un profesor puede jerarquizar los exmenes de los estudiantes: 1 es el
mejor, 2 es intermedio, 3 es malo. Esta escala indica que 1 es mejor que
2 pero no cunto mejor es.
o Escala de medida de Intervalo mide la distancia entre los valores y los
rangos de los datos. Sin embargo, no se pueden sacar conclusiones de
proporcionalidad dentro de la escala, porque no hay un punto cero
verdadero. Por ejemplo, al comparar las escalas Celsius y Fahrenheit se
hace evidente que 20 grados Celsius no es el doble de caliente que 10
grados Celsius. 10 grados Celsius corresponden a 50 grados Fahrenheit.
20 grados Celsius corresponden a 86 grados Fahrenheit. 86 grados
43

Fahrenheit no es el doble de 50 grados. Las razones no son iguales


porque ambas escalas tienen un punto cero arbitrario.
o Medida de Razn (la ms alta) tiene un punto cero verdadero. Todas las
dems propiedades son las mismas que en la medida de intervalo. Por
ejemplo, debido a que tiempo y distancia son medidas de razn, es cierto
que un automvil circulando a 50 km. por hora va el doble de rpido que
otro automvil que circula a 25 km. por hora.
Los mtodos desarrollados para una escala de medida ms bsica pueden
utilizarse con datos de una escala de medida ms alta.
?? Nmero de observaciones: Algunas funciones estadsticas requieren un nmero
mnimo de observaciones para realizar clculos vlidos.
La siguiente tabla puede ayudar a seleccionar la funcin estadstica apropiada. I
representa una escala de intervalo, R representa una escala de razn y O
representa una escala ordinal.

Nmero de variables

Funcin Estadstica

Escala de medida

Regresin

IR

2 o ms

Ajuste de curva univariable

IR

Anlisis de componentes I R

2 o ms

principales
Anlisis factorial

IR

2 o ms

A continuacin analizaremos con ms detalle cada una de estas tcnicas estadsticas.

2.1.1-Regresin lineal

La tcnica de Regresin lineal se utiliza para determinar la mejor relacin lineal entre la
variable dependiente y una o ms variables independientes. La variable dependiente es
aquella que se desea predecir y las variables independientes son aquellas en las que se
basa la prediccin.

44

Mejor significa que se produzcan el menor nmero de errores si se basa la prediccin


en la funcin lineal generada por el programa.
La frmula general de regresin es:
y = ? 0 + ? 1x1 + ? 2x2 ... ? nxn + ?
donde y indica la variable dependiente, de ? a ? indican los coeficientes desconocidos,
de x1 a xn indican las variables independientes y ? denota el margen de error.

La relacin entre los valores conocidos y los predichos puede representarse en un plano
bidimensional, situando las variables en las que se basa la prediccin en el eje Y y la
variable dependiente en el eje X.
El modelo de regresin lineal sera la lnea que minimiza la tasa de error entre el valor
rela y el punto de la lnea (valor predicho). La forma ms comn de calcular este error
es el cuadrado de la diferencia entre el valor real y el predicho.
En la siguiente figura puede verse un ejemplo de representacin grfica:

Se puede determinar un umbral de significancia para que las variables independientes


cuyo valor de probabilidad est por encima de dicho umbral no se tengan en cuenta al
construir el modelo de regresin. De este modo, slo pasan a formar parte del modelo
las variables independientes que contribuyen del modo ms significativo en el resultado.

45

Un valor de probabilidad cercano a 0 marca una variable como muy significativa; un


valor de probabilidad cercano a 1 marca una variable como insignificante. ste es el
motivo por el cual no se tienen en cuenta las variables que estn por encima del umbral.
Si no se especifica ningn valor para nivel de significancia, se utiliza el valor por
omisin 0,5.

2.1.2-Ajuste de curva univariable

El Ajuste de curva univariable descubre una funcin matemtica que describe


exactamente la distribucin de los datos a travs del tiempo. Pueden seleccionarse los
siguientes tipos de curvas:
?? Mejor ajuste
?? Exponencial
?? Hiprbola
?? Lineal
?? Potencia
?? Racional
?? Recproca

2.1.3-Anlisis de componentes principales

El Anlisis de Componentes Principales (ACP) es una tcnica estadstica de sntesis de


la informacin, o reduccin de la dimensin (nmero de variables). Es decir, ante un
banco de datos con muchas variables, el objetivo ser reducirlas a un menor nmero
perdiendo la menor cantidad de informacin posible.
Los nuevos componentes principales o factores sern una combinacin lineal de las
variables originales, y adems sern independientes entre s.
Un aspecto clave en ACP es la interpretacin de los factores, ya que sta no viene dada
a priori, sino que ser deducida tras observar la relacin de los factores con las variables
iniciales (habr, pues, que estudiar tanto el signo como la magnitud de las
correlaciones).
Existen dos tipos de Anlisis de Componentes Principales:
46

?? Normalizado: se basa en la correlacin de los datos de entrada.


La correlacin indica la relacin lineal entre dos variables (Correlacin de
Pearson). Su valor puede estar entre +1 y 1. Una correlacin de +1 significar
que existe una relacin lineal positiva perfecta entre las dos variables.
?? Centrado: se basa en la covarianza de los datos de entrada.
La covarianza mide la tendencia de dos variables a variar juntas. La varianza es
el promedio de la desviacin al cuadrado de una variable respecto de su media.
La covarianza es el promedio de los productos de las desviaciones de los valores
de las variables de sus medias.

2.1.4-Anlisis Factorial

El Anlisis factorial descubre las relaciones entre mltiples variables en base a unas
cantidades aleatorias subyacentes, pero no observables, que se denominan factores.
Se trata de una tcnica adecuada para el caso de variables continuas altamente
correlacionadas, que es cuando podemos suponer que se explican por factores comunes.
El nmero de factores puede determinarse mediante uno de los siguientes mtodos:
?? Dejar que el sistema determine el nmero de factores.
?? Especificar el porcentaje de varianza a explicar por los factores calculados.
?? Especificar un determinado nmero de factores. Este nmero debe ser menor o
igual que el nmero de variables de entrada.
El modelo matemtico del Anlisis Factorial supone que cada una de las p variables
observadas es funcin de un nmero m factores comunes (m<p) ms un factor
especfico o nico.
Si los resultados obtenidos no permiten una interpretacin clara de los factores
generados, puede utilizarse una rotacin de factores para simplificar la estructura
factorial.
Existen dos tipos de rotacin:
?? Rotacin quartimax: La rotacin quartimax tiende a producir un factor que se
correlaciona principalmente con una variable dada. Los otros factores
producidos tienden a estar menos correlacionados que con la rotacin varimax.
?? Rotacin varimax: La rotacin varimax maximiza la varianza de la carga de
factores para cada variable de entrada. Los factores rotados presentan una
47

correlacin alta con un conjunto menor de variables de entrada y pequea o


ninguna correlacin con otro conjunto de variables de entrada.

2.1.5-Estadsticas Bivariables

Se puede utilizar la funcin Estadsticas bivariables para realizar las siguientes tareas:
?? Calcular estadsticas bsicas para campos numricos, tales como el mximo,
mnimo, media, varianza y frecuencias.
Las frecuencias para campos numricos continuos se calculan sobre valores
comprendidos entre los lmites de un compartimento.
?? Calcular frecuencias para campos categricos y campos discretos numricos.
?? Realizar la prueba Chi cuadrado de un campo seleccionado. Si se selecciona un
campo, el valor de Chi cuadrado se calcula en todas las combinaciones
existentes de este campo con otros campos.
?? Realizar la prueba-F. La prueba-F se aplica a todas las parejas de campos
numricos.
?? Calcular cuantiles de campos numricos seleccionados.
?? Extraer muestras de datos de entrada.
?? Copiar datos de entrada en una tabla de salida, posiblemente como una muestra.

48

2.2-Tcnicas de minera

Veamos a continuacin algunas de las tcnicas de minera ms utilizadas:

2.2.1-Asociaciones

El propsito de esta tcnica es encontrar elementos de una transaccin que impliquen la


presencia de otros elementos en la misma transaccin.
Si tomamos como ejemplo una base de datos con operaciones de compra y
consideremos que cada transaccin consiste en un conjunto de elementos que el cliente
ha adquirido, la funcin de minera Asociaciones detecta relaciones entre los elementos
del conjunto. Puede detectar que el 60% de los clientes que adquieren tarjetas de
felicitacin tambin compran productos de cosmtica.

2.2.2-Clustering

El objetivo de descubrir clusters es agrupar registros que tengan caractersticas


similares.
El resultado de la funcin clustering muestra el nmero de clusters detectados y las
caractersticas que los constituyen. Adems, es conveniente mostrar la forma en que
estas caractersticas estn distribuidas en los clusters.
En el mejor de los casos, cada cluster generado contendr nicamente registros que
tengan valores idnticos en los parmetros definidos. De esta forma al conocer los datos
de un miembro del cluster, se conocen los del resto de integrantes. Es muy difcil que se
d esta situacin (sobre todo si disponemos de muchos elementos a clasificar), por ello
en ocasiones es necesario dividir clusters heterogneos en grupos ms pequeos que
constituyan clusters homogneos.
Otro punto a tener en cuenta es que el nmero de clusters generados sea razonable. Por
ejemplo no tendra sentido intentar agrupar 30 elementos y obtener 30 clusters distintos.
Algunas herramientas de minera permiten que el usuario defina una limitacin en el
nmero de clusters generados.
49

Existen dos tipos de clustering:


?? Clustering Jerrquico
?? Clustering no Jerrquico
El primero ordena los clusters de mayor a menor. El motivo de esto es que el Clustering
es una tcnica de aprendizaje no supervisado, por lo que no hay una respuesta
totalmente correcta. De este modo, al presentarlos ordenados resulta ms fcil
seleccionar el nmero de clusters adecuado. Los clusters con menor nmero de
elementos podrn unirse para formar clusters mayores.
En la siguiente figura puede verse un modelo de jerarqua:

Tomando como ejemplo una base de datos de un supermercado que incluye la


identificacin de los clientes e informacin acerca de la fecha y la hora en que de las
compras, la funcin de minera clustering agrupa estos datos en clusters para permitir la
identificacin de diferentes tipos de compradores.
Podra ponerse de manifiesto, por ejemplo, que los clientes compran mucho los viernes
y que normalmente pagan con tarjeta de crdito.

50

2.2.2.1-Clustering Neuronal

Aclaremos en primer lugar el concepto de Red Neuronal.

Una red neuronal artificial es un algoritmo matemtico con algoritmo matemtico con
capacidad para recordar experiencias y hacerlas disponibles capacidad para recordar
experiencias y hacerlas disponibles para su uso.
Recuerda al cerebro humano en dos aspectos:
?? El conocimiento es adquirido por la red a travs de un proceso de aprendizaje
?? La fuerza de la conexin entre neuronas (pesos sinpticos) es usada para
almacenar el conocimiento.
Una red neuronal aprende mediante la modificacin de sus pesos sinpticos.
Algunas de las ventajas que ofrecen son:
?? Modela relaciones no lineales
?? Modela relaciones entrada-salida
?? Capacidad de adaptacin
?? Tiene en cuenta el contexto de trabajo
?? Posibilidad de desarrollo de dispositivos VLSI
?? Uniformidad de anlisis y diseo
?? Analoga neurobiolgica

Una neurona artificial es la unidad de procesado bsica de una red neuronal artificial.
Sus elementos bsicos son:
?? Sinapsis o conexiones cada una de ellas con un peso
?? Un sumador capaz de sumar entradas pesadas
?? Una funcin de activacin que limita la amplitud de la salida

51

El Clustering Neuronal utiliza una Red neuronal de mapa de caractersticas de Kohonen.


Los mapas de Kohonen son redes autoorganizadas capaces de codificar y luego
reconocer modelos de rasgos caractersticos de un entorno.
Algunas de sus caractersticas son:
?? Reconocen patrones
?? Son uni o bi-dimensionales lattice de neuronas que calculan simples funciones
discriminantes sobre las entradas recibidas.
?? Seleccin

de unidad neuronal ganadora en funcin del mayor valor

discriminante.

Una arquitectura lattice es aquella en la que cada entrada va a todas las neuronas. En la
imagen se muestra un ejemplo de arquitectura lattice 3x1:

52

Un ejemplo de Mapa de Kohonen podra ser el siguiente:

Los Mapas de caractersticas de Kohonen utilizan un proceso denominado organizacin


automtica para agrupar los registros de entrada similares. El usuario especifica el

53

nmero de clusters y el nmero mximo de pasadas sobre los datos. Estos parmetros
controlan el tiempo de proceso y el grado de granularidad que se utiliza al asignar los
registros de datos a los clusters.

La funcin principal del clustering neuronal es buscar un centro para cada cluster. Este
centro se denomina tambin prototipo de cluster. Para cada registro de los datos de
entrada, la funcin de minera Clustering neuronal calcula el prototipo de cluster ms
cercano al registro.
La puntuacin de cada registro de datos se representa mediante la distancia eucldea que
lo separa del prototipo de cluster. Las puntuaciones que se acercan a cero indican un
grado de similitud al prototipo ms alto. Cuanto ms alta sea la puntuacin, ms se
diferencia el registro del prototipo de cluster.
Con cada pasada sobre los datos de entrada, los centros se ajustan de forma que se logra
una calidad mejor en el modelo de clustering global: el sistema aprende. El indicador de
progreso muestra la mejora en la calidad en cada pasada durante la ejecucin de la
funcin de minera.

2.2.2.2-Clustering Demogrfico

De igual forma que el Clustering Neuronal, el objetivo de esta funcin de minera es


agrupar registros que tengan caractersticas similares.
El Clustering Demogrfico proporciona la agrupacin en clusters rpida y de forma
natural de bases de datos de gran tamao. Determina automticamente el nmero de
clusters que se generarn.
Las semejanzas entre registros se determinan comparando los valores de los campos.
Los clusters se definen para maximizar el criterio de Condorcet. El criterio de
Condorcet es la suma de todas las semejanzas de registros de pares dentro del mismo
cluster menos la suma de todas las semejanzas de registros de pares en diferentes
cluster.

54

2.2.3-Patrones secuenciales

El objeto de buscar patrones secuenciales es encontrar patrones de comportamiento


predecibles en cierto periodo de tiempo. Esto significa que comportamientos concretos
producidos en un cierto momento probablemente tendrn otro comportamiento o una
secuencia de comportamientos en un cierto espacio de tiempo.
Por ejemplo, se puede observar que el 42% de los clientes que solicitan una cuenta
corriente nueva y una tarjeta de crdito, solicitan tambin un crdito en un perodo de 90
das.
Un ejemplo de aplicacin de esta tcnica de minera puede ser la deteccin de fraudes
en seguros o bien la planificacin de la colocacin de los productos o las ventas
promocionales.

2.2.4-Secuencias semejantes

El objetivo de esta tcnica es encontrar todas las apariciones de subsecuencias


semejantes en una base de datos de secuencias.
Por ejemplo, supongamos que tenemos una base de datos de un comerciante que desea
optimizar sus compras y el sistema de almacenamiento de la tienda. Si realiza una
ejecucin de minera en esta base de datos obtendr los nombres de parejas de
secuencias con el grado de semejanza y el numero de subsecuencias. Cuando interprete
este resultado, el comerciante podr saber los grupos de productos cuyas previsiones de
ventas para el prximo ao son similares en cada temporada. En base a esta
informacin, el comerciante podr combinar las compras y la reposicin de las
existencias.
Esta tcnica tambin se puede utilizar para identificar empresas con patrones de
crecimiento similares, determinar productos con patrones de ventas similares o
determinar acciones con movimientos de precios similares. Otro uso puede ser la
deteccin de ondas ssmicas que no sean similares o la localizacin de irregularidades
geolgicas.

55

2.2.5-Clasificacin

Se hacen predicciones de las clasificaciones para crear modelos basados en datos


conocidos. Estos modelos se pueden utilizar para analizar la razn por la cual se ha
hecho una clasificacin o para calcular la clasificacin de nuevos datos.
Los datos histricos se componen con frecuencia de un conjunto de valores y de una
clasificacin de estos valores. Si se analizan los datos que ya se han clasificado se
descubrirn las caractersticas que han contribuido a realizar la clasificacin anterior. El
modelo de clasificacin resultante podr utilizarse despus para predecir las clases de
registros que contienen nuevos valores de atributos.
Por ejemplo, una compaa aseguradora posee datos acerca de los clientes actuales que
han perdido su pliza de seguros por no pagar. En base a los atributos comunes a estos
clientes, es posible crear un perfil de grupo de riesgo que se puede utilizar como modelo
para clasificar los nuevos clientes. El modelo se aplica a cada nuevo cliente y se
clasifica segn pertenezca o no al grupo de riesgo.
?? Una ejecucin de minera en la modalidad de preparacin con esta base de datos
aprende los atributos de cada una de las clases de clientes de riesgo definidas.
?? En modalidad de comprobacin, la aseguradora puede comprobar la exactitud
del modelo creado en modalidad de preparacin aplicando este modelo para
probar los datos con clases de riesgo de clientes conocidos.
?? En la modalidad de aplicacin, la aseguradora puede utilizar el modelo creado
durante la modalidad de preparacin para predecir qu clientes dejarn de pagar
en el futuro.
Esta tcnica podra emplearse, por ejemplo, para aprobar o denegar reclamaciones de
seguros, detectar fraudes en las tarjetas de crdito, identificar defectos en imgenes de
componentes manufacturados y diagnosticar condiciones de error. Tambin las puede
aplicar para determinar unos objetivos de mrketing, en el diagnstico mdico, para
determinar la eficacia de los tratamientos mdicos, para la reposicin del inventario o en
la planificacin de la ubicacin de una tienda.

2.2.5.1-Clasificacin en rbol

El Algoritmo de induccin con rbol ofrece una descripcin de fcil comprensin sobre
la distribucin subyacente de los datos. Este algoritmo realiza un ajuste proporcional
56

con respecto al nmero de ejemplos de preparacin y al nmero de atributos que se


encuentran en bases de datos extensas.
La clave para la construccin de un rbol de decisin es seleccionar la pregunta ms
adecuada (el mejor separador) para cada rama del rbol, es decir, aqulla que clasifique
de forma errnea el menor nmero de ejemplos o aqulla que delimite clases puras de
datos.
Su flexibilidad y fcil interpretacin la convierten en una de las tcnicas de minera ms
utilizadas.
En la siguiente pantalla puede verse un ejemplo de representacin grfica de un rbol de
clasificacin:

Algunas de las caractersticas de los rboles de clasificacin son las siguientes:


?? Estructura jerrquica: cada una de las hojas del rbol puede describirse en
funcin de la jerarqua de bifurcaciones que la preceden desde la raz.
?? Flexibilidad: capacidad de reajustar el modelo de clasificacin segn los
cambios que la prediccin de variables sea capaz de anticipar.
?? Su principal objetivo es obtener una clasificacin lo ms precisa posible. Para
medir esta precisin entra en juego el concepto de coste, que viene a ser el

57

nmero de ejemplos mal clasificados. Se tratar por tanto de evaluar la relacin


coste-complejidad para determinar hasta qu punto (hasta que nivel del rbol) es
conveniente descender. A este anlisis se le conoce como criterio de poda.

2.2.5.2-Clasificacin neuronal

Al igual que con la Clasificacin en rbol, el objetivo es crear modelos basados en datos
conocidos. Estos modelos se pueden utilizar para analizar la razn por la cual se ha
hecho una clasificacin o para calcular la clasificacin de nuevos datos.
La arquitectura de red neuronal empleada ser con frecuencia un Perceptrn multicapa:

La funcin de minera Prediccin neuronal utiliza una red neuronal de retropropagacin


(Back Propagation) para predecir valores.

58

Tomando como ejemplo la neurona de la figura, el algoritmo de Back Propagation


consistir en estimular la red neuronal con una entrada cuya respuesta sea conocida. A
continuacin deber calcularse el error cometido (diferencia entre la respuesta real y la
esperada). Conforme a este error debern reajustarse los pesos de todas las neuronas
comenzando por las de salida, siguiendo por las de las capas ocultas y acabando en las
neuronas de entrada.
La clasificacin se basa en el valor de clase y las relaciones de los atributos descubiertos
mediante un proceso de minera realizado en unos datos clasificados anteriormente. El
aprendizaje de red significa desarrollar un modelo que represente dichas relaciones. Una
red que ha realizado un aprendizaje es una salida de la ejecucin de minera. El anlisis
de sensibilidad, otro tipo de salida, se utiliza para comprender la contribucin relativa
de los campos de atributos en la decisin de clasificacin.
La retropropagacin es un algoritmo con objetivos generales y de aprendizaje
supervisado. En el aprendizaje supervisado, la base de datos contiene un nmero de
campos de atributos y uno o ms campos que contienen los resultados deseados.
Cuando se utiliza la retropropagacin para la aplicacin de clasificacin neuronal, el
resultado deseado se encuentra en un campo nico denominado campo de clase.
Una red neuronal con aprendizaje puede generalizar a partir de su experiencia pasada, y
calcular una clasificacin razonable incluso tomando como punto de partida
combinaciones de atributos que no haya visto nunca.

59

2.2.6-Prediccin

La finalidad de la prediccin de valores es descubrir la dependencia y la variacin de un


valor de un campo en relacin a los valores de otros campos que se encuentren en el
mismo registro. Se genera un modelo que puede predecir un valor para ese campo
particular en un registro nuevo con el mismo formato, en base a otros valores de campo.
Por ejemplo, un comerciante desea utilizar datos histricos para calcular los ingresos
por ventas que puede suponer un cliente nuevo. Una ejecucin de minera sobre esos
datos histricos crea un modelo. Este modelo puede utilizarse para predecir los ingresos
que supondrn las ventas realizadas a un cliente nuevo en base a los datos de ste. El
modelo tambin puede mostrar que las campaas de incentivos dirigidas a algunos
clientes mejoran las ventas. Tambin se podra observar que las visitas con frecuencia
de los representantes de ventas provocan una disminucin de los ingresos en clientes
jvenes.
A nivel prctico, los algoritmos procesan una tabla de datos en la que cada registro
tienen un formato idntico. Se debe designar un nico campo en la tabla para que
contenga el valor que se debe ajustar, mientras que las coordenadas se seleccionan de
otros campos de la tabla.

2.2.6.1- Funcin de base radial (FBR)

Puede utilizarse el mtodo de funcin de base radial (FBR) para ajustar datos que son
funcin de diversas variables. El algoritmo bsico puede formar un modelo para
predecir el valor de un campo determinado partiendo de los valores de otros atributos.
Una funcin base-radial requiere varios centros de ajuste. Un centro de ajuste es un
vector del espacio de atributos. En cada uno de estos centros, se define una funcin de
base. La funcin de base es una funcin no lineal de distancia desde el centro de ajuste.
Por este motivo, las funciones de base se denominan Funciones de base radial: tienen el
mismo valor en cualquier punto con la misma distancia o radio desde el centro de
ajuste.
La prediccin que da un ajuste de base radial para un conjunto concreto de atributos
(que se denomina punto) es una suma ponderada de las funciones de base en ese punto.
Durante el proceso de ajuste, los valores de ponderacin que produzcan los mejores

60

ajustes se fijan en cada centro de ajuste. Adems, se decide en qu centros de ajuste se


sitan.

2.2.6.2-Prediccin neuronal

De forma similar a la Funcin de base radial (FBR), trata de descubrir la dependencia y


la variacin de un valor de un campo en relacin a los valores de otros campos que se
encuentren en el mismo registro.
La funcin de minera Prediccin neuronal crea un modelo que se utiliza para predecir
nuevos valores para regresin y pronstico de series temporales.
La prediccin se basa en el valor de prediccin y en las relaciones entre los atributos
descubiertas al explorar un conjunto de datos de preparacin que contienen tanto la
variable independiente como las dependientes. Al desarrollo de un modelo que
represente estas relaciones se le denomina aprendizaje o preparacin de la red neuronal.
Adems de la prediccin de valores estndar (que tambin se denomina regresin), la
funcin Prediccin neuronal ofrece soporte a la prediccin de series temporales al
permitir que el usuario especifique un horizonte de previsin y un tamao de ventana de
entrada. Estos dos parmetros se utilizan para dar formato a los registros de preparacin
internamente para que la red neuronal tome un conjunto de m registros consecutivos (el
tamao de la ventana) y prediga el valor dependiente de n registros (el horizonte) en el
futuro. Los valores por omisin, un horizonte de 0 y un tamao de ventana de 1, definen
un modelo de prediccin de valores estndar. Cualquier valor de horizonte superior a 1
define un modelo de prediccin de serie temporal.

61

3-IMPLEMENTACIN PRCTICA: CLIMATOLOGA

3.1- Datos Disponibles

Para comprender mejor la utilidad y aplicabilidad de cada una de las tcnicas de


estadstica y minera explicadas anteriormente, veamos un caso prctico orientado al
rea de climatologa.

Para ello tomamos datos del INE (Instituto Nacional de Estadstica) referentes a:
?? Temperaturas medias mensuales por regin y estacin, aos y meses (en C).
?? Temperaturas mximas absolutas por regin y estacin, aos y meses (en C).
?? Temperaturas mnimas absolutas por regin y estacin, aos y meses (en C).
?? Humedad media mensual en porcentaje por regin y estacin, aos y meses (en
%).
?? Precipitacin total por regin y estacin, aos y meses (en mm).
?? Nmero de das despejados por regin y estacin, aos y meses.
?? Nmero de das nubosos por regin y estacin, aos y meses.
?? Nmero de das cubiertos por regin y estacin, aos y meses.
?? Nmero de das con temperatura igual o inferior a 0 C por regin y estacin,
aos y meses.
?? Nmero de das con temperatura igual o superior a 25 C por regin y estacin,
aos y meses.
?? Nmero de horas de sol por regin y estacin, aos y meses.
?? Precipitacin acuosa por aos, cuencas hidrogrficas y meses (media en l/m2).
?? Capacidad de los embalses peninsulares y agua embalsada por cuencas, aos y
capacidad/agua (en millones de m3).

La fuente de toda esta informacin son los resmenes anuales sobre el clima en Espaa,
que proporciona el Instituto Nacional de Meteorologa (Ministerio de Fomento) y que el
INE publica dentro del anuario Estadstico de Espaa.
En el caso de la informacin sobre la ocupacin de los embalses la fuente es la
Direccin General de Obras Hidrulicas y Calidad de Aguas. Ministerio de Medio
Ambiente.

62

Se tienen datos desde el ao 1997 al 2002 para todas las variables, excepto para la
capacidad y ocupacin de los embalses en que se dispone de datos desde 1987 hasta el
2003.

Veamos a continuacin una muestra de la informacin disponible para cada una de estas
caractersticas climatolgicas, tomando como ejemplo la temperatura media. El resto de
tablas pueden verse en el Anexo B.

63

TEMPERATURAS MEDIAS
1997
Total
NOROESTE: Corua (A)
NOROESTE: Lugo (Las Rozas)
NOROESTE: Ourense (Instituto)
NOROESTE: Santiago
NOROESTE: Vigo (Peinador)
CANTBRICA: Bilbao (Aeropuerto)
CANTBRICA: Gijn
CANTBRICA: San Sebastin (Igueldo)
CANTBRICA: Santander (Parayas aeropuerto)
DUERO: vila (Observatorio)
DUERO: Burgos (Villafra)
DUERO: Len (Virgen del Camino)
DUERO: Salamanca (Matacn)
DUERO: Segovia (Observatorio)
DUERO: Soria (Observatorio)
DUERO: Valladolid (Observatorio)
DUERO: Zamora (Observatorio)
CENTRAL: Albacete (Los Llanos)
CENTRAL: Ciudad Real (Observatorio)
CENTRAL: Cuenca
CENTRAL: Guadalajara (Molina de Aragn)
CENTRAL: Madrid (Retiro)
CENTRAL: Toledo
EXTREMADURA: Badajoz (Talavera la Real)
EXTREMADURA: Cceres (Observatorio)
EBRO: Huesca (Monflorite)
EBRO: Logroo (Agoncillo)

Enero
15,8
12,8
15,9
14,2
15,1
15,5
14,7
14,6
15,2
11,8
11,6
11,9
13
13,2
12,7
13,7
14,1
14,8
16,2
13,5
11,4
15,6
16,4
17,7
16,9
14,6
14,5

Febrero
10,2
5,4
7,8
7,7
8,4
9,7
7,9
8,7
9,5
3
3,9
2,6
4,2
4
3,1
4,8
4,9
6,5
6,8
5,2
2,9
7,1
7,1
9,5
8,2
6,2
6,9

Marzo
12,8
9,4
11,3
10
11
12,1
11,3
12
11,3
7,2
6,6
7,3
7,8
8,6
7
8,6
8,6
9,2
10,2
8,5
6,9
10,3
10,7
12,3
11,4
9,6
9,4

15
11,6
14,8
14,5
15,8
12,4
11,9
12
12
9,6
9,6
11,6
10,8
12,2
10,4
12
12,7
11,4
14
11,5
8,6
14,7
14,4
15,9
15,4
13,1
12,2

3.2- Base de datos


El Intelligent Miner nos ofrece dos opciones de proveer de los datos de entrada:
?? Ficheros planos
?? Tablas o vistas de una base de datos
En el primero de los casos es necesario especificar la longitud de registro y de cada uno
de los campos en nmero de caracteres, y cualquier error por mnimo que sea puede
llevar a importantes confusiones.
Por ello se optar por la segunda de las alternativas, creando una base de datos DB2 en
la que se cargar la informacin disponible.
De esta forma gracias a la flexibilidad del lenguaje SQL se podrn transformar los datos
para adaptarlos a las diferentes estructuras esperadas por las distintas tcnicas de
minera.

La base de datos tendr por nombre CLIMA y contendr (en principio) las siguientes
tablas:
?? T_MEDIAS: Temperaturas medias.
?? T_MAX : Temperaturas mximas absolutas.
?? T_MIN : Temperaturas mnimas absolutas.
?? H_MEDIA: Humedad media en porcentaje.
?? PREC_TOTAL: Precipitacin total.
?? DIAS_DESPEJADOS: Nmero de das despejados.
?? DIAS_NUBOSOS: Nmero de das nubosos.
?? DIAS_CUBIERTOS: Nmero de das cubiertos.
?? DIAS_MENOS0: Nmero de das con temperatura igual o inferior a 0C.
?? DIAS_MAS25: Nmero de das con temperatura igual o superior a 25C.
?? HORAS_SOL: Nmero de horas de sol.
?? PREC_HIDRO: Precipitaciones segn cuencas hidrogrficas.
?? EMBALSES: Capacidad y ocupacin de los embalses.

La estructura de todas las tablas en cuanto a campos contenidos es la que sigue:

65

NOMBRE

DE TIPO

DE LONGITUD PRECISIN ESCALA

NULLABLE

CAMPO

DATO

REGIN

VARCHAR

250

NO

TOTAL_97

DECIMAL

YES

ENERO_97

DECIMAL

YES

FEBRERO_97

DECIMAL

YES

MARZO_97

DECIMAL

YES

ABRIL_97

DECIMAL

YES

MAYO_97

DECIMAL

YES

JUNIO_97

DECIMAL

YES

DICIEMBRE_97

DECIMAL

YES

ENERO_98

DECIMAL

YES

FEBRERO_98

DECIMAL

YES

NOVIEMBRE_02

DECIMAL

YES

DICIEMBRE_02

DECIMAL

YES

Lo que vara segn la tabla es el tipo de dato elegido:


?? T_MEDIAS: Decimal(4,1)
?? T_MAX: Decimal (4,1)
?? T_MIN: Decimal (4,1)
?? H_MEDIA: Integer
?? PREC_TOTAL: Decimal (6,1)
?? DIAS_DESPEJADOS: Integer
?? DIAS_NUBOSOS: Integer
?? DIAS_CUBIERTOS: Integer

66

?? DIAS_MENOS0: Integer
?? DIAS_MAS25: Integer
?? HORAS_SOL: Integer
?? PREC_HIDRO: Integer
?? EMBALSES: Integer

En cuanto a restricciones la columna Regin es clave primaria en todas las tablas.

Los datos obtenidos del INE en hoja de clculo se almacenan como ficheros delimitados
para poder cargarlos en las respectivas tablas a travs de sentencias import.

Un par de ejemplos de carga son los siguiente:

import from t_medias.del of del modified by coldel; chardel decpt, insert into
T_MEDIAS (region, total_97, enero_97, febrero_97, marzo_97, abril_97, mayo_97,
junio_97,

julio_97,

agosto_97,

septiembre_97,

octubre_97,

noviembre_97,

diciembre_97, total_98, enero_98, febrero_98, marzo_98, abril_98, mayo_98,


junio_98,

julio_98,

agosto_98,

septiembre_98,

octubre_98,

noviembre_98,

diciembre_98, total_99, enero_99, febrero_99, marzo_99, abril_99, mayo_99,


junio_99,

julio_99,

agosto_99,

septiembre_99,

octubre_99,

noviembre_99,

diciembre_99, total_00, enero_00, febrero_00, marzo_00, abril_00, mayo_00,


junio_00,

julio_00,

agosto_00,

septiembre_00,

octubre_00,

noviembre_00,

diciembre_00, total_01, enero_01, febrero_01, marzo_01, abril_01, mayo_01,


junio_01,

julio_01,

agosto_01,

septiembre_01,

octubre_01,

noviembre_01,

diciembre_01, total_02, enero_02, febrero_02, marzo_02, abril_02, mayo_02,


junio_02,

julio_02,

agosto_02,

septiembre_02,

octubre_02,

noviembre_02,

diciembre_02 )

import from embalses.del of del modified by coldel; chardel decpt, insert into
EMBALSES

(embalse,

capacidad_87,

agua_87,

capacidad_88,

agua_88,

capacidad_89,

agua_89,

capacidad_90,

agua_90,

capacidad_91,

agua_91,

capacidad_92,

agua_92,

capacidad_93,

agua_93,

capacidad_94,

agua_94,

capacidad_95,

agua_95,

capacidad_96,

agua_96,

capacidad_97,

agua_97,

67

capacidad_98,

agua_98,

capacidad_99,

agua_99,

capacidad_00,

agua_00,

capacidad_01, agua_01, capacidad_02, agua_02, capacidad_03, agua_03)

De esta forma queda construida la base de datos que contendr la informacin de


entrada de nuestra base de minera del Intelligent Miner. A medida que se vaya
requiriendo una transformacin de los datos se irn aadiendo nuevas tablas.

68

3.3- Base de minera

Con el modelo de climatologa creado vamos a aplicar cada de una de las tcnicas de
estadstica y minera para comprender mejor su funcionamiento y aplicacin.

3.3.1-Tcnicas de estadstica

A) Regresin lineal

Puesto que nos permite estudiar el comportamiento de una variable dependiente segn
una o ms variables independientes, puede aplicarse por ejemplo para ver cmo vara la
humedad en funcin de las temperaturas, las precipitaciones y las horas de sol.
Para construir la regresin tomamos los datos de temperaturas medias, precipitaciones y
humedad de los totales del ao 2002.
Como previsiblemente necesitaremos la informacin del resto de caractersticas
climatolgicas totalizadas por ao, construimos una tabla llamada DATOS02 que
presenta la siguiente estructura:

69

REGION
T
NOROESTE: Corua (A)
NOROESTE: Lugo (Las Rozas)
NOROESTE: Ourense (Instituto)
NOROESTE: Santiago
NOROESTE: Vigo (Peinador)
CANTBRICA: Bilbao (Aeropuerto)
CANTBRICA: Gijn
CANTBRICA: San Sebastin (Igueldo)
CANTBRICA: Santander (Parayas aeropuerto)
DUERO: vila (Observatorio)
DUERO: Burgos (Villafra)
DUERO: Len (Virgen del Camino)
DUERO: Salamanca (Matacn)
DUERO: Segovia (Observatorio)
DUERO: Soria (Observatorio)
DUERO: Valladolid (Observatorio)
DUERO: Zamora (Observatorio)
CENTRAL: Albacete (Los Llanos)
CENTRAL: Ciudad Real (Observatorio)
CENTRAL: Cuenca
CENTRAL: Guadalajara (Molina de Aragn)
CENTRAL: Madrid (Retiro)
CENTRAL: Toledo
EXTREMADURA: Badajoz (Talavera la Real)
EXTREMADURA: Cceres (Observatorio)
EBRO: Huesca (Monflorite)

PREC
14,1
12
15,3
13,3
14,2
14,7
14,8
14
14,8
11,6
11,5
11,1
12,5
12,5
13,2
11,3
13,4
14,7
16,1
13,4
10,9
15,1
16,1
17,3
16,5
14,5

HSOL
1218,2
1127,7 ..
937,5
1964,9
2000,9
1033,4 ..
966
1676,9
1106,2
450,4
576,2
585,6
426,1
574,4
579,1
478,1
494
374,3
369,2
620
545,4 ..
502
362,9 ..
461,5
564,6 ..
473,7 ..

HUM
1802

D DESP
76

..
1899
1702
2068

..
69
79
79
69
76
78
75
62
70
68
66
57
64
63
63
59
60
59
61
60

1762
1744
1600
2570
2066
2442
2582
2568
2402
2573
2459
2753
2676
2574
2591
..
2791

..
63

..
..

..
..

Para crear esta tabla pueden utilizarse las funciones de proceso que proporciona el
Intelligent Miner para:
?? Filtrar campos: obteniendo de cada tabla las columnas de totales del 2002
?? Unir fuentes de datos: juntando en una nica tabla los totales de todas las
caractersticas climatolgicas.

En la base de minera adjunta en el presente proyecto se incluyen las funciones de


proceso necesarias para la generacin de la tabla DATOS02, aunque resulta mucho
menos costoso el crear la estructura de una nueva tabla a partir del propio gestor DB2.

Una vez creada la tabla es necesario definir en el Intelligent Miner el mdulo de datos
asociado a la misma llamado Datos 2002.

Construimos la regresin lineal tomando como variable dependiente la humedad y como


variables independientes la temperatura media, las precipitaciones totales y las horas de
sol. El resultado obtenido se muestra en las siguientes figuras:
?? Humedad segn las precipitaciones:

73

Puede observarse la tendencia creciente de las observaciones que indica un relacin de


proporcionalidad directa entre las variables de humedad y precipitaciones.
?? Humedad segn la temperatura media:

Como puede verse en la imagen, no existe una relacin clara entre las temperaturas
medias y la humedad relativa. Para analizarlo en ms detalle eliminamos el flag de
valores residuales obteniendo la siguiente pantalla que cambia la escala de los ejes:

74

Al acercar la escala s podemos llegar a concluir que los valores ms elevados de


humedad corresponden a zonas de temperaturas suaves (entre 12 y 15 grados), mientras
que las regiones ms secas son sin duda las de temperaturas ms altas.
?? Humedad segn las horas de sol:

75

Al igual que con las temperaturas, no existe a simple vista una relacin clara entre la
humedad y las horas de sol, por lo que eliminamos de nuevo el ajuste residual:

76

De esta forma s podemos apreciar cmo a medida que aumenta el nmero de horas de
sol disminuye la humedad relativa de una localizacin geogrfica.

Al fin y al cabo lo que trata la regresin de lineal es de establecer la funcin ptima que
relacione la variable dependiente con las independientes, es decir, averiguar el valor de
los coeficientes ? de la siguiente ecuacin:
y = ? 0 + ? 1x1 + ? 2x2 ... ? nxn + ?

que mejor se ajustan a las observaciones.


La estimacin de estos coeficientes puede verse en la tabla de regresiones, en la
columna denominada Coeficiente Beta:

Por lo tanto, la ecuacin resultante presentara la forma:

y = 70,58 + 0,534x1 + 0,1998x2 - 0,437x3 + 5,48

siendo:

77

y = humedad
x1 = precipitaciones totales
x2 = temperatura media
x3 = horas de sol

Para comprender mejor cmo se ha llevado a cabo el clculo entre los valores
observados y los valores ajustados y la diferencia entre los mismos, podemos recurrir a
la tabla de ajuste:
?? La primera de las columnas muestra los nmeros de las observaciones en las que
se basan los diagramas.
?? La segunda columna muestra los valores observados.
?? La tercera columna muestra los valores ajustados.
?? La cuarta columna muestra los residuos (diferencia entre los valores ajustados y
los observados).
?? Las columnas restantes contienen los valores de las distintas variables
independientes.

Una muestra de la tabla de ajuste correspondiente a este modelo de regresin puede


verse en la siguiente figura:

78

Comprobemos a continuacin la calidad del modelo generado, a travs del diagrama de


calidad de modelos:

79

En la figura la diagonal representa los valores observados. Cuanto ms cerca se


encuentran los puntos de la diagonal, mejor es el ajuste.

Por ltimo queda estudiar la Anova (Anlisis de varianza) de regresin que muestra el
nivel de significacin del modelo a travs de varias medidas estadsticas:
?? R-cuadrado: cuadrado del coeficiente de correlacin mltiple que determina la
calidad del modelo de regresin. Tiene un valor entre 0 y 1 e indica un mejor
ajuste cuanto ms cerca est de la unidad. En este caso presenta un valor de 0,68,
por lo que no es un mal modelo de regresin.
?? Error estndar: desviacin tpica del margen de error en el modelo de regresin
lineal.
?? Cuadrado medio: resultado de la divisin de la suma de cuadrados entre los
grados de libertad.
?? Valor F: valor de la estadstica de prueba utilizada para comprobar la hiptesis
de que todos los coeficientes del modelo de regresin lineal son 0. Se puede
utilizar este valor para determinar el nivel de significacin.
?? Probabilidad > F: probabilidad de obtener un valor F superior al valor mostrado.
Cuanto menor sea ms significativa ser la regresin. En nuestro caso es igual a
9,887 * 10-11, por lo que el modelo puede considerarse muy representativo.

La siguiente pantalla muestra la Anova de regresiones facilitada por el Intelligent


Miner:

80

81

B) Ajuste de curva univariable

Esta tcnica estadstica permite analizar cmo se distribuyen las observaciones a travs
del tiempo y una previsin del comportamiento de la variable en estudio en el futuro.

Para mostrar su funcionamiento aplicado al modelo de climatologa vamos a realizar un


estudio del comportamiento de las variables Humedad, Precipitaciones, Temperaturas
mximas y Temperaturas mnimas.
Para ello seleccionamos una regin (en este caso Madrid) y mantenemos la dimensin
temporal (que es la que realmente nos interesa).
Estamos otra vez ante la necesidad de construir una nueva tabla por cada una de las
variables que queremos estudiar:
?? T_MAX_MADRID: contendr los datos de las temperaturas mximas para la
comunidad de Madrid desde 1997 hasta 2002.
?? T_MIN_MADRID: contendr los datos de las temperaturas mnimas para la
comunidad de Madrid desde 1997 hasta 2002.
?? H_MEDIA_MADRID: contendr los datos de la humedad relativa para la
comunidad de Madrid desde 1997 hasta 2002.
?? PREC_TOTAL_MADRID: contendr los datos de las precipitaciones para la
comunidad de Madrid desde 1997 hasta 2002.

Estas tablas pueden generarse a travs del Intelligent Miner con la funcin de proceso
de filtrado de registros, seleccionando nicamente aquellos en los que la regin sea
igual a Madrid.
A continuacin habr que pivotar filas por columnas para que cada uno de los registros
represente un valor asociado a un mes. Esta tarea puede realizarse con otra de las
funciones de proceso suministradas por el Intelligent Miner llamada Volcar campos a
registros.

Si tomamos como ejemplo la variable Temperaturas Mximas, obtenemos como


resultado la siguiente estructura de tabla:

82

REGION

TMAX

CENTRAL: Madrid (Retiro)

16,2

CENTRAL: Madrid (Retiro)

20

CENTRAL: Madrid (Retiro)

25

CENTRAL: Madrid (Retiro)

26

CENTRAL: Madrid (Retiro)

27,6

CENTRAL: Madrid (Retiro)

30,6

CENTRAL: Madrid (Retiro)

35

CENTRAL: Madrid (Retiro)

36,5

CENTRAL: Madrid (Retiro)

33,6

CENTRAL: Madrid (Retiro)

28,3

CENTRAL: Madrid (Retiro)

17

CENTRAL: Madrid (Retiro)

16

CENTRAL: Madrid (Retiro)

15,5

CENTRAL: Madrid (Retiro)

20,1

CENTRAL: Madrid (Retiro)

22,8

CENTRAL: Madrid (Retiro)

26,2

CENTRAL: Madrid (Retiro)

27,2

CENTRAL: Madrid (Retiro)

34

De esta forma hemos conseguido ubicar la dimensin temporal verticalmente.

Una vez definidas las cuatro tablas y sus mdulos de datos asociados, podemos pasar a
crear los modelos de Ajuste de curva:
?? Ajuste de curva Temperaturas Mximas:

83

Elegimos un modelo estacional de valor 12 correspondiente a los 12 meses del ao.


Cada franja del grfico corresponde a un periodo estacional de un ao. Las curvas
en azul muestran el comportamiento de los observaciones (6 aos: desde 1997 a
2002), mientras que las que aparecen en color amarillo representan una previsin a
otros 6 aos (modelo de previsin de 72: 6*12).
Como podemos observar en la figura, los grficos son prcticamente iguales lo que
induce a pensar que los datos de los que se dispone no son suficientes para realizar
una previsin tan a largo plazo.
Lo intentamos entonces con una previsin a 1 ao:

84

En este caso podemos observar mejor la diferencia entre los distintos periodos, por
lo que la previsin a un ao parece ms fiable.

Los valores exactos predichos se muestran en la siguiente tabla, en la que cada


entrada corresponde a un mes del ao 2003:

85

De esta forma se pronostica unas temperaturas mximas de 15 C en los meses ms


fros (Diciembre y Enero) y de 36 C en los ms clidos (Julio y Agosto).

La ecuacin de la curva calculada puede verse en la siguiente pantalla:

La correlacin entre los valores de los datos de entrada en los distintos periodos
temporales, puede verse en la siguiente figura:

86

De esta forma queda clara la tendencia estacional de los datos: las temperaturas
mximas aumentan y disminuyen de forma gradual a lo largo del ao con un desfase
o retardo de 2 que hace pensar en una cierta similitud en cuanto a temperaturas en
Madrid cada 2 aos.
?? Ajuste de curva Temperaturas Mnimas:

87

En este caso optamos por un modelo sin previsin, por lo que la figura tan slo nos
muestra el mejor ajuste a las observaciones dadas.
Eliminamos adems la influencia estacional, para determinar con mayor claridad la
tendencia de los datos.
Observando la grfica resultante podemos ver cmo las temperaturas mnimas
absolutas permanecen constantes a los largo de los aos (segn la curva de ajuste).
Mientras que la curva que muestra las observaciones (dibujada en azul) deja patente
las variaciones cclicas estacionales.

La ecuacin de la curva calculada puede verse en la siguiente pantalla:

88

En cuanto a la correlacin entre los valores de los datos de entrada , es


prcticamente idntica a la resultante del anlisis de las temperaturas mximas:

89

El sistema vuelve a determinar un desfase de 2 aos que confirma un cierto patrn


de comportamiento, en lo que a temperaturas se refiere, cada 2 aos.
?? Ajuste de curva Humedad Relativa:

Utilizamos un modelo estacional de 12 (acorde a los 12 meses del ao) con


previsin a 6 aos que denota una tendencia decreciente en la humedad relativa de
Madrid para futuros periodos temporales.

Los valores exactos predichos se muestran en la siguiente tabla:

90

El valor predicho ms alto perteneciente al sexto periodo es prcticamente medio


punto inferior que el del primer periodo, por lo que el porcentaje de humedad
relativa de la comunidad de Madrid en los prximos aos tiende a disminuir.

91

La ecuacin de la curva calculada puede verse en la siguiente pantalla:

La correlacin entre los valores de los datos de entrada en los distintos periodos
temporales, puede verse en la siguiente figura:

92

El desfase determinado es de nuevo igual a 2, lo que denota cierta semejanza en los


valores de humedad relativa registrada cada 2 aos.
?? Ajuste de curva Precipitaciones Totales:

93

Optamos en este caso por un modelo estacional de 12 con previsin a 1 ao.


Las observaciones (representadas en azul) s muestran picos en las lluvias segn la
estacin del ao de la que se trate, mientras que el ajuste suaviza la curva mostrando
una constancia en los valores de precipitaciones totales registrados a lo largo de los
aos.

La ecuacin de la curva calculada puede verse en la siguiente pantalla:

La correlacin entre los valores de los datos de entrada en los distintos periodos
temporales, puede verse en la siguiente figura:

94

En este caso el desfase es igual a 3, por lo que la tendencia en lluvias se repite cada
3 aos.

C) Anlisis de Componentes Principales (ACP)

El Anlisis de Componentes Principales muestra la relacin entre las distintas variables


de entrada, determinando su importancia y permitiendo reducir su nmero quedndonos
nicamente con las ms relevantes.
Como posible aplicacin puede servir para ver la relacin existente entre las distintas
caractersticas climatolgicas (temperatura, precipitaciones, horas de sol, humedad...) y
ver cul de ellas resulta ms determinante a la hora de definir el clima de una regin.

Definimos el Anlisis de Componentes Principales tomando como entrada la tabla que


contiene los valores totalizados del 2002 de las diferentes regiones.
Tenemos dos opciones de clculo:
?? A partir de la matriz de correlacin

El resultado puede verse en la siguiente pantalla:

95

El diagrama de barras muestra la proporcin de cada uno de los componentes


principales, mientras que el diagrama de sectores representa los valores acumulativos.

Los coeficientes de correlacin calculados se muestran en la siguiente tabla que presenta


la forma de una matriz simtrica con la diagonal principal a 1 (la relacin de una
variable consigo misma siempre ser mxima y por tanto el coeficiente de correlacin
asociado ser 1):

96

Veamos ahora en qu grado participa cada variable en los componentes ms


representativos:

97

Como vemos la variable que ms interviene en el componente 1 (que es ms


predominante) son las horas de sol (HSOL) con un 0,432 seguida de el nmero de das
cubiertos (0,415) y el nmero de das clidos (0,414).
Podemos concluir por tanto que la variable ms influyente en el clima de una regin es
el nmero de horas de sol que soporta, lo cual resulta bastante lgico puesto que
repercute tanto en las temperaturas registradas, como en la humedad relativa, la
nubosidad y las precipitaciones.

Al mismo tiempo queda patente la escasa influencia del nmero de das nubosos (con
tan solo un 0,086 de participacin en el componente ms representativo) en la
climatologa de una zona geogrfica.
?? A partir de la matriz de covarianza:

El resultado puede verse en la siguiente pantalla:

98

Las covarianzas calculadas se muestran en la siguiente tabla que presenta la forma de


una matriz simtrica:

99

Veamos ahora en qu grado participa cada variable en los componentes ms


representativos:

Al igual que con el anlisis a partir de la matriz de correlacin, se mantiene la


predominancia de las horas de sol como variable climatolgica ms influyente.

Podemos concluir adems que es ms exhaustivo el anlisis basado en los coeficientes


de correlacin de Pearson, frente al que utiliza covarianzas, puesto que elimina la
dimensionalidad de los datos y permite medir el grado de asociacin de una manera
estndar.
Por ello obtiene como resultado un mayor nmero de componentes, aunque no sean
muy predominantes, es decir, llega a un mayor detalle en el anlisis de los datos de
entrada.

100

D) Anlisis Factorial (AF)

La tcnica de Anlisis Factorial tiene es de aplicacin parecida al Anlisis de


Componentes Principales y sirve de igual modo para reducir el nmero de variables de
entrada a aquellas ms representativas.

Utilizaremos por tanto el mismo ejemplo de estudio de la relacin entre las distintas
caractersticas climatolgicas. Tomamos como entrada la tabla que contiene los valores
totalizados del 2002 de las diferentes regiones.
Tenemos varias opciones de clculo:
?? Sin rotacin (las rotaciones pueden servir para visualizar de forma ms clara los
factores calculados).
Puede elegirse entre rotacin quartimax, que tiende a producir un factor que se
correlaciona principalmente con una variable dada o rotacin varimax, en la que
los factores rotados presentan una correlacin alta con un conjunto menor de
variables de entrada y pequea o ninguna correlacin con otro conjunto de
variables de entrada.
En principio ejecutamos el Anlisis Factorial sin definir ningn tipo de rotacin:

101

Como vemos en la figura, en este caso no es necesario aplicar ningn tipo de rotacin,
puesto que los tres factores generados se visualizan perfectamente.

El diagrama de barras muestra el grado en que ha contribuido cada factor en la


desviacin de los datos en conjunto. El diagrama de sectores indica la parte de la
desviacin que se puede atribuir a todos los factores. El sector que sobresale representa
la desviacin residual.

Los porcentajes de participacin de cada factor pueden verse en la siguiente tabla:

Esto viene a significar que con los tres factores generados podemos explicar el 89,72 %
de la varianza de los datos de entrada, casi un 90% con lo que estamos ante un modelo
de Anlisis Factorial bastante preciso.

El Anlisis Factorial tambin permite visualizar los coeficientes de correlacin de


Pearson calculados:

102

Veamos ahora en qu grado participa cada variable en los diferentes factores generados:

103

Al igual que en el Anlisis de Componentes Principales, podemos observar que la


variable ms influyente es HSOL (horas de sol), con 0,966 de participacin en el factor
ms influyente (el factor 1).
Mientras que las de menor influencia son el nmero de das fros y el nmero de das
nubosos con 0,186 y 0,193 de participacin en el factor principal respectivamente.

En cuanto la cantidad de factores generados, en el caso anterior el sistema determina


automticamente el nmero de factores ms apropiado. Sin embargo existe la
posibilidad de obligar a un determinado nmero, tal y como puede verse en los
siguientes ejemplos.
?? Forzando al sistema a generar determinado nmero de factores:
o Forzando a 6 factores:

104

Con 6 factores conseguimos explicar casi la totalidad de la varianza de los datos de


entrada (98,7%), aunque quizs la mejora obtenida (de un 8,7%) frente al modelo
generado automticamente por el sistema no compense lo suficiente en cuanto a
complejidad.

o Forzando a 2 factores:

105

Como podemos observar, con dos factores conseguimos explicar tan solo un 75,32 % de
la varianza de los datos de entrada, por lo que el modelo determinado por el sistema con
3 factores y una explicacin de casi un 90% de la varianza es bastante mejor que
forzando a 2 factores.

E) Estadsticas bivariables

Esta tcnica proporciona medidas como el valor mximo, mnimo, media, varianza,
frecuencias...
Como ejemplo de utilizacin podemos analizar las caractersticas climatolgicas de la
comunidad de Madrid. Para ello creamos una tabla con los datos de temperaturas
mximas, mnimas, precipitaciones y humedad relativos a esta regin con dimensin
temporal; definimos el mdulo de datos asociado y por ltimo la funcin de estadsticas
bivariables.
El resultado que obtenemos es el siguiente:

106

Como podemos apreciar en la figura, las lluvias registradas no parecen ser muy
cuantiosas puesto que la mayora de las observaciones se hallan entre los 0 y los 30
mm.
En lo que se refiere a las temperaturas mximas de Madrid predominan los valores
altos entre 36 y 38 C, aunque tambin es frecuente hallar medidas en los siguientes
intervalos: (14,16), (18,20) y (26,28), es decir, podemos distinguir cuatro rangos de
valores de una frecuencia relativa considerable, que parecen corresponder a las 4
estaciones del ao.
En cuanto a las mnimas, los valores ms frecuentes quedan comprendidos entre los
2 y 4 C, aunque tambin encontramos registros ms extremos entre 2 y 2 C en
ms de un 12% de las observaciones.
La humedad relativa presenta valores dispersos en el intervalo (41,63) sin una
tendencia marcada que englobe las observaciones en un determinado intervalo. Para
analizar esta variable con mayor claridad aumentamos el nmero de intervalos
representados:

107

De esta forma se aprecia que los valores ms frecuentes son de un 41% y un 63% de
humedad relativa.

Podemos adems contrastar estas apreciaciones sobre los grficos con las medidas
estadsticas calculadas para cada variable:

108

Como vemos la humedad relativa oscila entre el 41% y el 83% con un 60,77% de
media y siendo el valor ms frecuente el 41%.

En cuanto a las precipitaciones totales, oscilan entre 0 y 198,4 mm con 37,57 mm de


media y siendo el valor ms frecuente 25 mm de precipitaciones mensuales.

La temperaturas mximas de Madrid varan entre 13,6 y 37,3 C con 25,98 C de


media y siendo lo ms comn encontrar temperaturas de 37 C de mxima.

En lo referente a las temperaturas mnimas de Madrid oscilan entre 5,5 y 16,6 C


con 5,08 C de media y siendo el valor ms frecuente 3 C.

Otro posible ejemplo de aplicacin de las Estadsticas bivariables puede ser un


anlisis de las distintas regiones geogrficas segn los totales del ao 2002
(dimensin geogrfica):

109

Analicemos con ms detalle cada una de las variables segn las grficas generadas:
?? Das clidos

110

El grfico indica que un nmero considerable de regiones de Espaa presentan al


ao entre 100 y 102 das con temperaturas iguales o superiores a 25 C.
Los valores de las observaciones oscilan entre los 3 y los 188 das, con 108 das de
media y una desviacin tpica de 48.

111

?? Das cubiertos:

El nmero de das cubiertos en las distintas regiones vara entre los 20 y los 151
das, con una media de 82 das y una desviacin tpica de 36.
Lo ms comn es que a lo largo del ao haya unos 46 das cubiertos, y que el resto
se repartan entre despejados y nubosos.

112

?? Das despejados:

Como vemos en la figura, suelen registrarse 36 das despejados a lo largo del ao,
pudiendo sin embargo oscilar en un amplio intervalo (entre los 9 y los 204 das)
segn las caractersticas territoriales y climatolgicas de la regin.
La media es de 68 das, con una desviacin tpica de 37.

113

?? Das fros:

El nmero de das con temperaturas iguales o inferiores a los 0 C oscila entre los 0
das en las regiones de clima ms clido (un 37,04 %) y los 95 en las zonas ms
fras.
La media es de 15 das al ao con una desviacin tpica de 21.

114

?? Das nubosos:

El nmero de das nubosos es el ms elevado a lo largo del ao, si tenemos en


cuenta que la moda es de 218 das, lo que representa casi un 60% del total del ciclo
anual.
El valor ms bajo es de 141 das, y el mximo de 280 das, con una media de 213 y
una desviacin tpica de 25.

115

?? Horas de sol:

Una regin soporta entre 1600 y 3030 horas de sol al ao, con una media de 2523 y
una desviacin tpica de 410 horas.
Lo ms comn est en 1600 horas que pasndolo a das y despreciando las noches
(suponiendo 12 horas de sol al da) equivale a unos 133 das de sol al ao.

116

?? Humedad:

El registro ms comn es de un 65% de humedad relativa (para el 9% de las


regiones), pudiendo variar entre un 56% como mnimo y un 79% como mximo.
La media es de un 66% con un 6% de desviacin tpica.

117

?? Precipitaciones:

El total de lluvias registradas vara entre los 157 y los 2000 mm por regin, con una
media de 647 mm y 385 de desviacin tpica.
Lo ms frecuente es un total de 550 mm en un 24% de las observaciones.

118

?? Temperaturas medias:

Las temperaturas medias registradas varan entre los 10,9 y los 21,7 C, con una
media de 15,5 C y una desviacin tpica de 2,7.
El valor modal es de 14,5 C, que se repite en el 18,5% de las observaciones.

119

3.3.2 -Tcnicas de minera

A) Asociaciones

La tcnica de asociaciones permite obtener reglas de comportamiento del tipo si A


entones B. Para su empleo es conveniente discretizar los valores de campos numricos
con etiquetas tales como alto, medio o bajo.

Como ejemplo de aplicacin vamos a analizar la dependencia entre los distintos


fenmenos climatolgicos en la comunidad de Madrid.
Para ello construimos una tabla que contenga una secuencia para cada mes de los 6 aos
en estudio. La estructura de la tabla sera la siguiente:

SECUENCIA

FENMENO

Enero

Temperatura baja

Enero

Mucha lluvia

Enero

Febrero

Febrero

Diciembre

Para construir la tabla discretizamos cada una de las variables segn los siguientes
criterios:
?? Temperatura media

Para obtener una referencia del orden de los valores registrados, calculamos
la media de los totales anuales:
Avg (total) = (15,6+15,1+14,9+15+15+15,1)/6) = 15,116 C de media
anual

120

A continuacin realizamos el mismo clculo para cada uno de los meses


(media

de

todos

los

valores

registrados

en

los

meses

Enero/Febrero...Diciembre de cada ao):


Avg (Enero) = 6,55 C

Avg (Julio) = 24,75 C

Avg (Febrero) = 7,84 C

Avg (Agosto) = 24,95 C

Avg (Marzo) = 12,36 C

Avg (Septiembre) = 20,61 C

Avg (Abril) = 13,1 C

Avg (Octubre) = 15,25 C

Avg (Mayo) = 16,76 C

Avg (Noviembre) = 8,98 C

Avg (Junio) = 22,26 C

Avg (Diciembre) = 6,53 C

Establecemos entonces las siguientes reglas para clasificar las temperaturas


mensuales:
Si t_media <= 12 entones Temperatura baja
Si t_media <= 18 entones Temperatura media
Si t_media > 18 entones Temperatura alta

?? Precipitaciones

Para obtener una referencia del orden de los valores registrados, calculamos
la media de los totales anuales:
Avg (total) = (573,4+394,6+382+489,4+364,3+502)/6) = 450,95 mm de
media anual
450,95/12=37,57 mm de media mensual

A continuacin realizamos el mismo clculo para cada uno de los meses


(media

de

todos

los

valores

registrados

en

los

meses

Enero/Febrero...Diciembre de cada ao):


Avg (Enero) = 47,31 mm

Avg (Julio) = 16,13 mm

Avg (Febrero) = 16,66 mm

Avg (Agosto)= 8,86 mm

Avg (Marzo) = 34 mm

Avg (Septiembre) = 32,71 mm

Avg (Abril) = 42,2 mm

Avg (Octubre) = 49,76 mm


121

Avg (Mayo) = 112,25 mm

Avg (Noviembre) = 74,016 mm

Avg (Junio) = 18,4 mm

Avg (Diciembre) = 54,06 mm

Establecemos

entonces

las

siguientes

reglas

para

clasificar

las

precipitaciones totales:
Si prec <= 40 entones Poca lluvia
Si prec <= 60 entones Lluvia media
Si prec > 60 entones Mucha lluvia

?? Humedad relativa

Para obtener una referencia del orden de los valores registrados, calculamos
la media de los totales anuales:
Avg (total) = (63+61+61+60+60+60)/6) = 60,83 % de media anual

A continuacin realizamos el mismo clculo para cada uno de los meses


(media

de

todos

los

valores

registrados

en

los

meses

Enero/Febrero...Diciembre de cada ao):


Avg (Enero) = 74,5 %

Avg (Julio) = 43,16 %

Avg (Febrero) = 65,5 %

Avg (Agosto)= 48,16 %

Avg (Marzo) = 56 %

Avg (Septiembre) = 59,83 %

Avg (Abril) = 60 %

Avg (Octubre) = 69 %

Avg (Mayo) = 58,16 %

Avg (Noviembre) = 74,66 %

Avg (Junio) = 46,83 %

Avg (Diciembre) = 73,5 %

Establecemos entonces las siguientes reglas para clasificar la humedad


relativa:
Si humedad <= 56 entones Poca humedad
Si humedad <= 70 entones Humedad media
Si humedad > 70 entones Mucha humedad

122

?? Horas de sol

Para obtener una referencia del orden de los valores registrados, calculamos
la media de los totales anuales. En este caso slo disponemos de informacin
vlida de los aos 2000, 2001 y 2002:
Avg (total) = (2830+2718+2591)/3) = 2713 horas de media anual
2713/12 = 226,08 horas de media mensual

A continuacin realizamos el mismo clculo para cada uno de los meses


(media

de

todos

los

valores

registrados

en

los

meses

Enero/Febrero...Diciembre de cada ao):


Avg (Enero) = 136 horas

Avg (Julio) = 359,6 horas

Avg (Febrero) = 193,3 horas

Avg (Agosto) = 327 horas

Avg (Marzo) = 190,3 horas

Avg (Septiembre) = 260 horas

Avg (Abril) = 231 horas

Avg (Octubre) = 183,3 horas

Avg (Mayo) = 252,3 horas

Avg (Noviembre) = 136 horas

Avg (Junio) = 345,3 horas

Avg (Diciembre) = 99 horas

Establecemos entonces las siguientes reglas para clasificar el nmero de


horas de sol:
Si hsol <= 180 entones Pocas horas de sol
Si hsol <= 250 entones Nmero medio de horas de sol
Si hsol > 250 entones Muchas horas de sol

?? Nmero de das cubiertos

Para obtener una referencia del orden de los valores registrados, calculamos
la media de los totales anuales:
Avg (total) = (83+62+59+63+68+80)/6) = 69,16 das de media anual
69,16/12 = 5,76 das de media mensual

123

A continuacin realizamos el mismo clculo para cada uno de los meses


(media

de

todos

los

valores

registrados

en

los

meses

Enero/Febrero...Diciembre de cada ao):


Avg (Enero) = 9,83 das

Avg (Julio) = 1 da

Avg (Febrero) = 3,33 das

Avg (Agosto)= 1,5 das

Avg (Marzo) = 5,66 das

Avg (Septiembre) = 4,33 das

Avg (Abril) = 7,33 das

Avg (Octubre) = 7,16 das

Avg (Mayo) = 8,33 das

Avg (Noviembre) = 8 das

Avg (Junio) = 2,16 das

Avg (Diciembre) = 10,5 das

Establecemos entonces las siguientes reglas para clasificar el nmero de das


cubiertos:
Si Dias_cubiertos <= 4 entones Pocos das cubiertos
Si Dias_cubiertos <= 7 entones Nmero medio de das cubiertos
Si Dias_cubiertos > 7 entones Muchos das cubiertos

?? Nmero de das despejados

Para obtener una referencia del orden de los valores registrados, calculamos
la media de los totales anuales:
Avg (total) = (78+114+104+113+106+85)/6) = 100 das de media anual
100/12= 8,33 das de media mensual

A continuacin realizamos el mismo clculo para cada uno de los meses


(media

de

todos

los

valores

registrados

en

los

meses

Enero/Febrero...Diciembre de cada ao):


Avg (Enero) = 6,83 das

Avg (Julio) = 16,5 das

Avg (Febrero) = 8,16 das

Avg

Avg (Marzo) = 10,3 das

Avg (Septiembre) = 8,16 das

Avg (Abril) = 5,66 das

Avg (Octubre) = 4,33 das

Avg (Mayo) = 3,33 das

Avg (Noviembre) = 6,16 das

Avg (Junio) = 13,5 das

Avg (Diciembre) = 6,16 das

(Agosto)=

10,83

das

124

Establecemos entonces las siguientes reglas para clasificar el nmero de das


despejados:
Si Dias_despejados <= 6 entones Pocos das despejados
Si Dias_despejados <= 9 entones Nmero medio de das despejados
Si Dias_despejados > 9 entones Muchos das despejados

?? Nmero de das nubosos

Para obtener una referencia del orden de los valores registrados, calculamos
la media de los totales anuales:
Avg (total) = (204+189+202+190+191+200)/6) = 196 das de media
anual
196/12 = 16,33 das de media mensual

A continuacin realizamos el mismo clculo para cada uno de los meses


(media

de

todos

los

valores

registrados

en

los

meses

Enero/Febrero...Diciembre de cada ao):


Avg (Enero) = 14,33 das

Avg (Julio) = 13,5 das

Avg (Febrero) = 8,33 das

Avg (Agosto)= 18,6 das

Avg (Marzo) = 15 das

Avg (Septiembre) = 17,5 das

Avg (Abril) = 17 das

Avg (Octubre) = 19,5 das

Avg (Mayo) = 19,33 das

Avg (Noviembre) = 15,83 das

Avg (Junio) = 14,33 das

Avg (Diciembre) = 14,33 das

Establecemos entonces las siguientes reglas para clasificar el nmero de das


nubosos:
Si Dias_nubosos <= 14 entones Pocos das nubosos
Si Dias_nubosos <= 17 entones Nmero medio de das nubosos
Si Dias_nubosos > 17 entones Muchos das nubosos

125

?? Nmero de das fros

Para obtener una referencia del orden de los valores registrados, calculamos
la media de los totales anuales:
Avg (total) = (8+10+24+14+15+1)/6) = 12 das de media anual
12/12 = 1 da fro de media mensual

A continuacin realizamos el mismo clculo para cada uno de los meses


(media

de

todos

los

valores

registrados

en

los

meses

Enero/Febrero...Diciembre de cada ao):


Avg (Enero) = 4,33 das

Avg (Julio) = 0 das

Avg (Febrero) = 1,16 das

Avg (Agosto)= 0 das

Avg (Marzo) = 0 das

Avg (Septiembre) = 0 das

Avg (Abril) = 0 das

Avg (Octubre) = 0 das

Avg (Mayo) = 0 das

Avg (Noviembre) = 0,66 das

Avg (Junio) = 0 das

Avg (Diciembre) = 5,66 das

Establecemos entonces las siguientes reglas para clasificar el nmero de das


fros:
Si Dias_frios = 0 entones 0 das fros
Si Dias_frios <= 4 entones Algn da fro
Si Dias_frios > 4 entones Bastantes das fros

?? Nmero de das clidos

Para obtener una referencia del orden de los valores registrados, calculamos
la media de los totales anuales:
Avg (total) = (112+109+120+124+111+114)/6) = 98,33 das de media
anual
98,33/12 = 8,19 das de media mensual

126

A continuacin realizamos el mismo clculo para cada uno de los meses


(media

de

todos

los

valores

registrados

en

los

meses

Enero/Febrero...Diciembre de cada ao):


Avg (Enero) = 0 das

Avg (Julio) = 28,8 das

Avg (Febrero) = 0 das

Avg

Avg (Marzo) = 0,5 das

Avg (Septiembre) = 19,33 das

Avg (Abril) = 2,66 das

Avg (Octubre) = 1,5 das

Avg (Mayo) = 9,5 das

Avg (Noviembre) = 0 das

Avg (Junio) = 23 das

Avg (Diciembre) = 0 das

(Agosto)=

29,66

das

Establecemos entonces las siguientes reglas para clasificar el nmero de das


clidos:
Si Dias_calidos = 0 entones 0 das clidos
Si Dias_calidos <= 10 entones Algn da clido
Si Dias_calidos > 10 entones Muchos das clidos

Como resultado de los clculos anteriores, obtenemos la siguiente tabla que incluimos
en nuestra base de datos DB2 con el nombre FENMENOS:

SECUENCIA

FENMENO

Enero

Temperatura baja

Enero

Lluvia media

Enero

Mucha humedad

Enero

Pocas horas de sol

Enero

Muchos dias cubiertos

Enero

Nmero medio de dias despejados

Enero

Pocos dias nubosos

Enero

Bastantes dias frios

Enero

0 dias calidos

Febrero

Temperatura baja

Febrero

Poca lluvia

Febrero

Humedad media

127

Febrero

Nmero medio de horas de sol

Febrero

Pocos dias cubiertos

Febrero

Nmero medio de dias despejados

Febrero

Pocos dias nubosos

Febrero

Algun dia frio

Febrero

0 dias calidos

Marzo

Temperatura media

Marzo

Poca lluvia

Marzo

Humedad media

Marzo

Nmero medio de horas de sol

Marzo

Nmero medio de dias cubiertos

Marzo

Muchos dias despejados

Marzo

Nmero medio de dias nubosos

Marzo

0 dias frios

Marzo

Algun dia calido

Abril

Temperatura media

Abril

Lluvia media

Abril

Poca humedad

Abril

Nmero medio de horas de sol

Abril

Nmero medio de dias cubiertos

Abril

Pocos dias despejados

Abril

Nmero medio de dias nubosos

Abril

0 dias frios

Abril

Algun dia calido

Mayo

Temperatura media

Mayo

Mucha lluvia

Mayo

Humedad media

Mayo

Muchas horas de sol

Mayo

Muchos dias cubiertos

Mayo

Pocos dias despejados

Mayo

Muchos dias nubosos

Mayo

0 dias frios

Mayo

Algun dia calido

Junio

Temperatura alta

Junio

Poca lluvia

Junio

Poca humedad

Junio

Muchas horas de sol

Junio

Pocos dias cubiertos

128

Junio

Muchos dias despejados

Junio

Pocos dias nubosos

Junio

0 dias frios

Junio

Muchos dias calidos

Julio

Temperatura alta

Julio

Poca lluvia

Julio

Poca humedad

Julio

Muchas horas de sol

Julio

Pocos dias cubiertos

Julio

Muchos dias despejados

Julio

Pocos dias nubosos

Julio

0 dias frios

Julio

Muchos dias calidos

Agosto

Temperatura alta

Agosto

Poca lluvia

Agosto

Poca humedad

Agosto

Muchas horas de sol

Agosto

Pocos dias cubiertos

Agosto

Muchos dias despejados

Agosto

Muchos dias nubosos

Agosto

0 dias frios

Agosto

Muchos dias calidos

Septiembre

Temperatura alta

Septiembre

Poca lluvia

Septiembre

Humedad media

Septiembre

Muchas horas de sol

Septiembre

Pocos dias cubiertos

Septiembre

Nmero medio de dias despejados

Septiembre

Muchos dias nubosos

Septiembre

0 dias frios

Septiembre

Muchos dias calidos

Octubre

Temperatura media

Octubre

Lluvia media

Octubre

Humedad media

Octubre

Nmero medio de horas de sol

Octubre

Nmero medio de dias cubiertos

Octubre

Pocos dias despejados

Octubre

Muchos dias nubosos

129

Octubre

0 dias frios

Octubre

Algun dia calido

Noviembre

Temperatura baja

Noviembre

Mucha lluvia

Noviembre

Mucha humedad

Noviembre

Pocas horas de sol

Noviembre

Muchos dias cubiertos

Noviembre

Pocos dias despejados

Noviembre

Nmero medio de dias nubosos

Noviembre

Algun dia frio

Noviembre

0 dias calidos

Diciembre

Temperatura baja

Diciembre

Lluvia media

Diciembre

Mucha humedad

Diciembre

Pocas horas de sol

Diciembre

Muchos dias cubiertos

Diciembre

Pocos dias despejados

Diciembre

Pocos dias nubosos

Diciembre

Bastantes dias frios

Diciembre

0 dias calidos

El campo Secuencia se define como Varchar(20) y el campo Fenmeno como


Varchar(200).

Relacionado a esta nueva tabla definimos en la base de minera un mdulo de datos de


igual nombre: Fenmenos, que servir de entrada a la funcin de Asociacin.

Definimos en primer lugar la asociacin con los siguientes valores de los parmetros:
?? Soporte mnimo: 5%
?? Confianza mnima: 25%
?? Longitud de regla mxima: sin lmites

El resultado generado por el sistema se muestra en esta figura:

130

Como el nmero de reglas detectadas es demasiado elevado (ms de 20.000) y no


permite una interpretacin clara del resultado, limitamos la longitud mxima de regla a
2, para obtener expresiones del tipo si A entonces B, es decir, con una sola variable en
el antecedente de la regla.

De esta forma, el nmero de reglas obtenidas se reduce considerablemente (388 reglas),


pero an as resulta confuso de cara a sacar conclusiones en cuanto a la dependencia de
los fenmenos climatolgicos.
Nos interesa quedarnos con las reglas ms fiables (de mayor confianza) y ms
frecuentes (de soporte elevado). Por ello fijamos la confianza mnima en un 70% y el
soporte mnimo en un 20%.
De esta forma nos quedamos con las 89 reglas de comportamiento ms relevantes que se
muestran en la siguiente tabla por orden decreciente de confianza:

Regla

Soporte

Confianza

[Nmero medio de dias cubiertos] ==> [Nmero medio de horas de sol]

25,00%

100,00%

[Pocas horas de sol] ==> [0 dias calidos]

25,00%

100,00%

[Pocas horas de sol] ==> [Muchos dias cubiertos]

25,00%

100,00%

[Pocas horas de sol] ==> [Mucha humedad]

25,00%

100,00%

[Pocas horas de sol] ==> [Temperatura baja]

25,00%

100,00%

[Mucha humedad] ==> [0 dias calidos]

25,00%

100,00%

[Mucha humedad] ==> [Muchos dias cubiertos]

25,00%

100,00%

[Mucha humedad] ==> [Pocas horas de sol]

25,00%

100,00%

[Mucha humedad] ==> [Temperatura baja]

25,00%

100,00%

[Nmero medio de dias cubiertos] ==> [Algun dia calido]

25,00%

100,00%

[Nmero medio de dias cubiertos] ==> [0 dias frios]

25,00%

100,00%

[Nmero medio de dias cubiertos] ==> [Temperatura media]

25,00%

100,00%

[Muchos dias despejados] ==> [0 dias frios]

33,33%

100,00%

[Temperatura media] ==> [Algun dia calido]

33,33%

100,00%

[Temperatura media] ==> [0 dias frios]

33,33%

100,00%

[Temperatura alta] ==> [Muchas horas de sol]

33,33%

100,00%

[Algun dia calido] ==> [0 dias frios]

33,33%

100,00%

[Temperatura alta] ==> [Poca lluvia]

33,33%

100,00%

[Algun dia calido] ==> [Temperatura media]

33,33%

100,00%

[Temperatura alta] ==> [0 dias frios]

33,33%

100,00%

133

[Temperatura alta] ==> [Muchos dias calidos]

33,33%

100,00%

[Temperatura alta] ==> [Pocos dias cubiertos]

33,33%

100,00%

[Temperatura baja] ==> [0 dias calidos]

33,33%

100,00%

[0 dias calidos] ==> [Temperatura baja]

33,33%

100,00%

[Poca humedad] ==> [0 dias frios]

33,33%

100,00%

[Muchos dias calidos] ==> [Pocos dias cubiertos]

33,33%

100,00%

[Muchos dias nubosos] ==> [0 dias frios]

33,33%

100,00%

[Muchos dias calidos] ==> [Muchas horas de sol]

33,33%

100,00%

[Muchos dias calidos] ==> [Poca lluvia]

33,33%

100,00%

[Muchos dias calidos] ==> [Temperatura alta]

33,33%

100,00%

[Muchos dias calidos] ==> [0 dias frios]

33,33%

100,00%

[Muchos dias despejados] ==> [Poca lluvia]

33,33%

100,00%

[Muchas horas de sol] ==> [0 dias frios]

41,67%

100,00%

[Pocos dias cubiertos] ==> [Poca lluvia]

41,67%

100,00%

[Poca lluvia] ==> [Pocos dias cubiertos]

41,67%

83,33%

[Poca lluvia] ==> [0 dias frios]

41,67%

83,33%

[Pocos dias cubiertos] ==> [Muchos dias calidos]

33,33%

80,00%

[Muchas horas de sol] ==> [Poca lluvia]

33,33%

80,00%

[Muchas horas de sol] ==> [Temperatura alta]

33,33%

80,00%

[Humedad media] ==> [0 dias frios]

33,33%

80,00%

[Pocos dias cubiertos] ==> [Muchas horas de sol]

33,33%

80,00%

[Pocos dias cubiertos] ==> [Temperatura alta]

33,33%

80,00%

[Pocos dias cubiertos] ==> [0 dias frios]

33,33%

80,00%

[Muchas horas de sol] ==> [Muchos dias calidos]

33,33%

80,00%

[Muchas horas de sol] ==> [Pocos dias cubiertos]

33,33%

80,00%

[Temperatura media] ==> [Pocos dias despejados]

25,00%

75,00%

[Temperatura media] ==> [Nmero medio de horas de sol]

25,00%

75,00%

[Temperatura media] ==> [Humedad media]

25,00%

75,00%

[Temperatura media] ==> [Nmero medio de dias cubiertos]

25,00%

75,00%

[Algun dia calido] ==> [Pocos dias despejados]

25,00%

75,00%

[Muchos dias despejados] ==> [Poca humedad]

25,00%

75,00%

[Temperatura alta] ==> [Poca humedad]

25,00%

75,00%

[Nmero medio de horas de sol] ==> [Humedad media]

25,00%

75,00%

[Nmero medio de horas de sol] ==> [Nmero medio de dias cubiertos]

25,00%

75,00%

[Muchos dias despejados] ==> [Muchos dias calidos]

25,00%

75,00%

[Muchos dias despejados] ==> [Pocos dias cubiertos]

25,00%

75,00%

[Temperatura alta] ==> [Muchos dias despejados]

25,00%

75,00%

[Algun dia calido] ==> [Nmero medio de horas de sol]

25,00%

75,00%

134

[Algun dia calido] ==> [Humedad media]

25,00%

75,00%

[Algun dia calido] ==> [Nmero medio de dias cubiertos]

25,00%

75,00%

[Temperatura baja] ==> [Pocos dias nubosos]

25,00%

75,00%

[Temperatura baja] ==> [Muchos dias cubiertos]

25,00%

75,00%

[Temperatura baja] ==> [Pocas horas de sol]

25,00%

75,00%

[Temperatura baja] ==> [Mucha humedad]

25,00%

75,00%

[Muchos dias calidos] ==> [Poca humedad]

25,00%

75,00%

[0 dias calidos] ==> [Pocos dias nubosos]

25,00%

75,00%

[0 dias calidos] ==> [Muchos dias cubiertos]

25,00%

75,00%

[0 dias calidos] ==> [Pocas horas de sol]

25,00%

75,00%

[0 dias calidos] ==> [Mucha humedad]

25,00%

75,00%

[Poca humedad] ==> [Muchas horas de sol]

25,00%

75,00%

[Poca humedad] ==> [Poca lluvia]

25,00%

75,00%

[Poca humedad] ==> [Temperatura alta]

25,00%

75,00%

[Lluvia media] ==> [Pocos dias despejados]

25,00%

75,00%

[Muchos dias calidos] ==> [Muchos dias despejados]

25,00%

75,00%

[Nmero medio de horas de sol] ==> [Algun dia calido]

25,00%

75,00%

[Nmero medio de horas de sol] ==> [0 dias frios]

25,00%

75,00%

[Nmero medio de horas de sol] ==> [Temperatura media]

25,00%

75,00%

[Muchos dias nubosos] ==> [Humedad media]

25,00%

75,00%

[Muchos dias nubosos] ==> [Muchas horas de sol]

25,00%

75,00%

[Poca humedad] ==> [Muchos dias despejados]

25,00%

75,00%

[Poca humedad] ==> [Muchos dias calidos]

25,00%

75,00%

[Poca humedad] ==> [Pocos dias cubiertos]

25,00%

75,00%

[Muchos dias cubiertos] ==> [Pocos dias despejados]

25,00%

75,00%

[Muchos dias cubiertos] ==> [0 dias calidos]

25,00%

75,00%

[Muchos dias cubiertos] ==> [Pocas horas de sol]

25,00%

75,00%

[Muchos dias cubiertos] ==> [Mucha humedad]

25,00%

75,00%

[Muchos dias cubiertos] ==> [Temperatura baja]

25,00%

75,00%

[Muchos dias despejados] ==> [Muchas horas de sol]

25,00%

75,00%

[Muchos dias despejados] ==> [Temperatura alta]

25,00%

75,00%

Algunas conclusiones que podemos extraer son las siguientes:


?? Los meses en los que hay algn da con temperaturas superiores a los 25 C no
hay ningn da con temperaturas inferiores a 0 C y las temperaturas son medias.
?? Cuando la humedad relativa es elevada, hay un gran nmero de das cubiertos,
las temperaturas son bajas y las horas de sol escasas.

135

?? Si a lo largo del mes hay muchos das con temperaturas iguales o superiores a
los 25 C llueve poco, abunda el sol y son pocos los das de cielos cubiertos.
?? Los meses en los que abundan los das despejados no se registran temperaturas
inferiores a los 0 C.
?? Las altas temperaturas coinciden con las precipitaciones escasas y los cielos
despejados.

Un grfico que permite observar estas dependencias parece en la siguiente pantalla:

136

B) Clustering Demogrfico

El clustering permite agrupar registros con caractersticas similares.

Como ejemplo de aplicacin vamos a distinguir agrupaciones de las diferentes zonas


geogrficas segn los valores de las distintas variables climatolgicas de las que se
dispone informacin.
Para ello utilizamos el mismo mdulo de datos creado para las estadsticas de Anlisis
de Componentes Principales y Anlisis Factorial: Datos 2002, que contiene los valores
registrados para todas las regiones en el ao 2002.
En principio no modificamos ninguno de los parmetros, dejndolos con sus valores por
defecto:
?? Nmero de pasadas mximas: 2
?? Nmero mximo de clusters: 9
?? Exactitud: 2 % de mejora despus de cada pasada.

Tras la ejecucin obtenemos 9 clusters.


Para intentar reducir su nmero, aumentamos el nmero mximo de pasadas a 5.
Con esta nueva configuracin el sistema sigue obteniendo 9 grupos.

El resultado puede verse en la siguiente tabla:

Los dos clusters ms numerosos, 3 y 4, (con un 22,22% de la poblacin) presentan las


siguientes caractersticas:

139

Clster 3:

Temperatura Media baja, Das Fros predominantemente 95, Das Nubosos


predominantemente 244, Precipitaciones medias, Das Clidos predominantemente 109,
Horas de Sol predominantemente 2582, Das Despejados predominantemente 83 y
Humedad predominantemente 64 %.

Clster 4:

Temperatura Media alta, Precipitaciones medias, Das Clidos predominantemente 175,


Das Cubiertos predominantemente 46, Das Despejados predominantemente 156,
140

Horas de Sol predominantemente 3019, Humedad predominantemente 66, Das Fros


predominantemente 0 y Das Nubosos predominantemente 253.

Podemos forzar al sistema a obtener nicamente 4 clusters, para de esta forma


quedarnos con los grupos ms significativos:

Analicemos las caractersticas del mayoritario de estos nuevos grupos:

Temperatura Media alta, Precipitaciones bajas, Das Fros predominantemente 0, Das


Clidos predominantemente 175, Das Despejados predominantemente 97, Das
Cubiertos predominantemente 76, Horas de Sol predominantemente 3030, Humedad
predominantemente 65 y Das Nubosos predominantemente 231.

Como vemos, las caractersticas son totalmente distintas que las de los grupos
detectados sin forzar el nmero mximo de clusters.
La diferencia fundamental radica en la homogeneidad de los clusters. Si dejamos que el
sistema determine el nmero ptimo obtenemos grupos de hasta 0,9 de homogeneidad.

141

Sin embargo al forzar a 4, los clusters detectados son ms heterogneos (como mximo
0,5).
El resultado ser por tanto mucho ms fiable en el primer caso.

Como aplicacin al mbito de la climatologa y tomando los datos del primer caso,
podemos concluir que se distinguen fundamentalmente 2 grupos de zonas geogrficas
en Espaa, en cada una de las cuales recaen aproximadamente el 22% de las
observaciones.
Una de ellas (representada por el cluster 3) correspondera con las regiones del Norte de
la Pennsula (temperaturas bajas, humedad elevada, cuantiosas precipitaciones...).
La otra abarcara el Sur y quizs el Este peninsular con temperaturas altas, lluvias no
muy frecuentes, muchas horas de sol...
Otra opcin para reducir el nmero de clusters es utilizar como entrada el resultado de
las tcnicas estadsticas de Anlisis Factorial y Anlisis de Componentes Principales:
?? Con ACP:

En primer lugar es necesario crear los datos de salida resultantes de aplicar el Anlisis
de Componentes Principales a las distintas caractersticas climatolgicas.
Este resultado lo almacenamos en una tabla de la base de datos llamada
DATOS02_ACP que, adems de los valores de cada caracterstica, contendr las
puntuaciones de los componentes.

Si observamos los vectores propios en tabla, vemos que en el COMP_1, que es el


principal, la variable de entrada que ms interviene es la relativa al nmero de horas de
sol (HSOL) con 0,432, y la que menos D_NUB, referente al nmero de das nubosos
(D_NUB) y con un 0,086:

142

Ser conveniente por tanto utilizar el nmero de horas de sol como variable decisiva
para el clustering (campo activo), mientras que el resto permanecern como campos
adicionales.
De esta forma logramos reducir el nmero de clusters a 4:

La homogeneidad de las observaciones agrupadas en cada cluster es bastante elevada,


por lo que parece una buena aproximacin.

Vamos a analizar el caso opuesto, es decir, utilizando como campo activo la variable
menos influyente: D_NUB.

De esta forma obtenemos 7 clusters:

143

Podemos concluir por tanto que una variable ms influyente (que participa en mayor
porcentaje en el mayoritario de los factores) permite un mejor clustering, reduciendo el
nmero de grupos generados.
Esta es una muestra de cmo las tcnicas de estadstica y de minera se complementan
entre s.
?? Con AF:

Primeramente es necesario crear los datos de salida resultantes del Anlisis Factorial.
Los almacenaremos en una tabla de la base de datos llamada DATOS02_AF que,
adems de los valores de cada caracterstica, contendr las puntuaciones de los distintos
factores.

En la salida del Anlisis Factorial, observamos que el factor predominante es el 1. Las


cargas de factores en el espacio variable se muestran en la siguiente tabla:

La variable de entrada que ms participa en este factor es HSOL con un 0,966 lo que
indica que es la ms adecuada para figurar como campo activo en el clustering. El resto
de caractersticas aparecern como campos adicionales.

De esta forma logramos reducir el nmero de clusters a 4:

144

Los valores de homogeneidad registrados son elevados por lo que el resultado parece
una buena aproximacin.

Vamos a analizar el caso opuesto, es decir, utilizando como campo activo la variable
menos influyente: D_NUB.

De esta forma obtenemos 7 clusters:

Vemos que las observaciones se dispersan en grupos ms pequeos, puesto que el


nmero de das nubosos no es una caracterstica determinante en el clima de una regin.

Esto prueba de nuevo que variable ms influyente permite un mejor clustering,


reduciendo el nmero de grupos generados.

145

C) Clustering Neuronal

Comprobamos los resultados obtenidos repitiendo el proceso, utilizando esta vez


algoritmos de clustering basados en redes neuronales.

Para ello utilizamos el mismo mdulo de datos: Datos 2002, que contiene los valores
registrados para todas las regiones en el ao 2002.
En principio no modificamos ninguno de los parmetros, dejndolos con sus valores por
defecto:
?? Nmero de pasadas mximas: 2
?? Nmero mximo de clusters: 9

Tras la ejecucin obtenemos 9 clusters.


Para intentar reducir su nmero, aumentamos el nmero mximo de pasadas a 15.
Con esta nueva configuracin el sistema sigue obteniendo 9 grupos.

El resultado puede verse en la siguiente tabla:

Como podemos apreciar, la distribucin de las observaciones en los distintos grupos es


bastante similar a la del Clustering Demogrfico.

Los dos clusters ms numerosos, 6 y 8, (con un 22,22% de la poblacin) presentan las


siguientes caractersticas:

146

Clster 6

Temperatura Media alta, Precipitaciones bajas, Das Clidos predominantemente 175,


Das Cubiertos predominantemente 76, Das Despejados predominantemente 97, Horas
de Sol predominantemente 3019, Humedad predominantemente 65, Das Fros
predominantemente 0 y Das Nubosos predominantemente 280.

Estos valores son similares a los del cluster 4 obtenido con el algoritmo demogrfico y
abarcara el Sur y quizs el Este peninsular.

147

Clster 8

Temperatura Media baja, Das Fros predominantemente 95, Das Nubosos


predominantemente 244, Precipitaciones medias, Das Clidos predominantemente 109,
Horas de Sol predominantemente 2582, Das Despejados predominantemente 83 y
Humedad predominantemente 63 %.

Este cluster presenta caractersticas casi idnticas al cluster 3 obtenido con el algoritmo
demogrfico y que correspondera con las regiones del Norte de la Pennsula.

Si forzamos al sistema a obtener nicamente 4 clusters, para de esta forma quedarnos


con los grupos ms significativos, obtenemos la siguiente distribucin:

El resultado no muestra valores de homogeneidad entre clusters, lo que hace pensar que
esta agrupacin no es muy fiable y que es mucho ms acertado que el sistema determine
el nmero de clusters que considere oportuno.

148

Analicemos las caractersticas del mayoritario de estos nuevos grupos:

Temperatura Media alta, Precipitaciones bajas, Das Fros predominantemente 0, Das


Clidos predominantemente 175, Das Despejados predominantemente 97, Das
Cubiertos predominantemente 76, Horas de Sol predominantemente 3030, Humedad
predominantemente 65 y Das Nubosos predominantemente 208.

Estos valores (con la excepcin de el nmero de das nubosos) son idnticos a los
obtenidos por el Clustering Demogrfico al limitar el nmero de grupos.

Consideraremos como vlida la distribucin de nueve clusters por contener unos


porcentajes aceptables de homogeneidad.

D) Patrones Secuenciales

La implementacin de esta tcnica de minera en el Intelligent Miner no resulta muy


fiable por lo que no se incluir ningn ejemplo de aplicacin de la misma.

149

E) Secuencias Semejantes

Esta tcnica de Data Mining nos permite detectar patrones de comportamiento similares
entre dos o ms elementos o secuencias de items.
Analizaremos dos ejemplos aplicados al caso de estudio del rea de la climatologa:
?? similitud en las precipitaciones de la comunidad de Madrid en los aos 2000,
2001 y 2002.
?? comparativa de las lluvias registradas en las tres provincias de Levante tomando
los totales anuales de cada regin.

Precipitaciones Madrid aos 2000-2002

La funcin de minera de Secuencias semejantes espera una estructura de tabla de tres


campos:
?? secuencia: en este caso cada uno de los aos
?? tiempo: los 12 meses del ao
?? valores: precipitaciones registradas

Construimos la tabla, que en nuestra base de datos se denomina SEC_TEMP, y presenta


en siguiente contenido:

ID SECUENCIA

TIEMPO

VALOR

2000

24,7

2000

1,8

2000

37,2

2000

84,9

2000

45,6

2000

22,2

2000

18,1

2000

2000

12,7

2000

10

25,6

2000

11

89,4

2000

12

127,2

150

2001

73,6

2001

31,7

2001

72,1

2001

20,7

2001

37,1

2001

3,8

2001

3,3

2001

1,5

2001

23,1

2001

10

67

2001

11

12,4

2001

12

18

2002

57,4

2002

14,3

2002

51,2

2002

47,1

2002

46,4

2002

27,6

2002

2,2

2002

6,5

2002

28

2002

10

67,6

2002

11

90,9

2002

12

62,8

A continuacin definimos en la base de minera el mdulo de datos asociado a esta


nueva tabla y que servir de entrada a la funcin de Secuencias Semejantes.

Fijamos el tamao de ventana a 3 para que cuando encuentre 3 coincidencias sucesivas


determine una secuencia semejante.

El resultado obtenido es el siguiente:


Comparativa aos 2000 y 2001:

151

Los dos grficos situados en la parte inferior de la figura muestran las secuencias de
datos de los pares seleccionados. Las subsecuencias similares se encuentran resaltadas
en rojo. En el eje horizontal se representa el tiempo (en meses) y en el vertical las
precipitaciones registradas (en mm).
En este caso la fraccin coincidente es tan solo del 0,25 y se da en el periodo estival
entre los meses de Junio y Agosto.

152

Comparativa aos 2000 y 2002:

En este caso las secuencias semejantes detectadas se ensamblan entre ellas con un grado
de 0,75, lo que denota una gran similitud entre ambos aos: de Mayo a Diciembre del
ao 2000 con desde Marzo a Noviembre del ao 2002.
Hay por tanto un desfase de dos meses entre las secuencias, es decir, el patrn de
comportamiento detectado se adelanta 2 meses de un ao al otro.

153

Comparativas aos 2001 y 2002:

Al comparar las lluvias de los aos 2001 y 2002, hallamos una subsecuencia semejante
en 0,25 entre Septiembre y Noviembre del 2001 con el periodo comprendido desde
Octubre a Diciembre del 2002.
El desfase en la similitud es por tanto de 1 mes.

En las tres figuras observamos un fenmeno curioso: cmo la poca de lluvias parece
adelantarse en el tiempo si comparamos con aos anteriores. Efectivamente cada ao
empieza a llover antes que en su predecesor.

Precipitaciones Levante

En este caso los tres campos de la tabla a generar tendrn distinto significado:

154

?? secuencia: cada una de las regiones (Castelln, Valencia y Alicante)


?? tiempo: aos de 1997 a 2002
?? valores: precipitaciones registradas

Construimos la tabla, que en nuestra base de datos se denomina SEC_TEMP2, y


presenta en siguiente contenido:

ID SECUENCIA

TIEMPO

VALOR

CASTELLON

1997

349,2

CASTELLON

1998

304,6

CASTELLON

1999

264,8

CASTELLON

2000

539,6

CASTELLON

2001

446,6

CASTELLON

2002

451,7

VALENCIA

1997

367,3

VALENCIA

1998

398,9

VALENCIA

1999

241,9

VALENCIA

2000

454,9

VALENCIA

2001

499,3

VALENCIA

2002

584,4

ALICANTE

1997

568,5

ALICANTE

1998

179,9

ALICANTE

1999

189,6

ALICANTE

2000

192

ALICANTE

2001

405,5

ALICANTE

2002

262,7

A continuacin definimos en la base de minera el mdulo de datos asociado a esta


nueva tabla y que servir de entrada a la funcin de Secuencias Semejantes.

Fijamos el tamao de ventana a 3 para que cuando encuentre 3 coincidencias sucesivas


determine una secuencia semejante.

155

Como resultado obtenemos dos semejanzas: entre Alicante y Castelln y entre Alicante
y Valencia. Podemos verlos en las siguientes figuras:

Comparativa entre Alicante y Castelln:

El sistema detecta un patrn de comportamiento de un descenso brusco de las


precipitaciones seguido de un periodo de estabilidad en los aos 1997-1999 en Alicante
y 2000-2002 en Castelln.
La fraccin coincidente entre ambas subsecuencias es de 0,5.

156

Comparativa entre Alicante y Valencia:

En este caso las subsecuencias semejantes sealadas en la figura no parecen muy


similares segn indica su representacin grfica.
La tendencia parece ser incremental en lluvias con un cambio brusco de pendiente, pero
an as no queda clara la semejanza entre ambas regiones.

157

F) Clasificacin en rbol

La clasificacin nos permite asignar una etiqueta de clase a una observacin. Se trata
de entrenar con datos conocidos un modelo, que una vez construido sea capaz de
determinar o predecir este valor de etiqueta.
Como ejemplo, construiremos un modelo que determine la humedad de una zona
geogrfica segn los valores de temperatura, precipitaciones, nmero de das nubosos...
Para ello tomamos los valores registrados en el ao 2002 y calculando el valor medio de
humedad obtenemos un 66%.
Conforme a esto, establecemos el siguiente criterio de clasificacin:
?? Si humedad <= 60 entonces Baja
?? Si humedad <= 70 entonces Media
?? Si humedad > 70 entonces Alta

Conforme a este criterio aadimos una columna a la tabla de nuestra base de datos que
contiene los valores de las distintas caractersticas climatolgicas para el ao 2002. Este
nuevo campo contendr la etiqueta de humedad asignada segn el criterio establecido.
Para entrenar el modelo, la asignacin de la etiqueta de clase deber hacerse de forma
manual.

Otro dato de inters para determinar la humedad de una zona, puede ser su situacin
geogrfica: interior o costa. Aadimos esta informacin como una nueva columna en la
tabla.

De esta forma ya tenemos preparados los datos que servirn de entrada al modelo de
clasificacin.

Al ejecutar la funcin de minera, obtenemos el siguiente rbol de clasificacin:

158

En el que cada color representa una de las clases:

El separador seleccionado es el valor de las Precipitaciones, que es el ms influyente


para determinar el porcentaje de humedad relativa de una regin.

Analicemos lo eficaz del modelo generado en cuanto a nmero de observaciones


clasificadas correctamente. Esta informacin nos la muestra la matriz de confusin:

Como vemos, el 74% de las observaciones se clasifican correctamente utilizando como


separador las precipitaciones registradas.

El nmero de observaciones que engloba cada categora puede apreciarse en la siguiente


tabla:

Por tanto, la mayor parte de las regiones espaolas (55%) presentan una humedad
relativa media, esto es, entre un 60 y un 70%.

159

Si eliminamos la variable Precipitaciones como campo de entrada al modelo, el sistema


determinar el siguiente mejor separador.
El resultado obtenido es el que se muestra en esta pantalla:

Con la siguiente matriz de confusin:

El separador seleccionado en esta ocasin es el nmero de das clidos, con un


porcentaje de clasificaciones correctas del 68%.

Para determinar el siguiente mejor separador repetimos el proceso eliminando Das


Clidos de las variables de entrada.
Obtenemos el siguiente resultado:

160

Con la siguiente matriz de confusin asociada:

El separador seleccionado en esta ocasin es el nmero de das cubiertos, con un


porcentaje de clasificaciones correctas del 66%.

Podemos concluir por tanto que las caractersticas climatolgicas ms determinantes en


la humedad de una regin son, en orden creciente de influencia, las precipitaciones
registradas, el nmero de das clidos (con temperaturas iguales o superiores a los 25
C) y el nmero de das cubiertos.

161

G) Clasificacin Neuronal

Para probar los resultados obtenidos, repetiremos el proceso esta vez utilizando el
algoritmo de clasificacin basado en redes neuronales. El mdulo de entrada al sistema
ser el mismo empleado para la clasificacin en rbol.

Sin eliminar ninguna variable de entrada obtenemos el siguiente resultado:

Como vemos, 7 observaciones se clasifican de forma errnea (6 son Baja y se


clasifican como Media y 1 es Alta y se clasifica como Media).
Esto representa un 18% de la totalidad de las observaciones. Por tanto la eficacia del
modelo es de un 82% de clasificaciones correctas.

De forma grfica:

162

Veamos la influencia de cada variable en la clasificacin:

De forma grfica:

Las variables ms determinantes en la humedad de una regin, continan siendo el


nmero de das cubiertos, el nmero de das clidos y las precipitaciones registradas, sin
embargo cambia el orden de influencia respecto al establecido por la clasificacin en
rbol.
Ambos algoritmos de clasificacin obtienen por tanto resultados similares pero no
idnticos, por lo que pueden usarse de forma conjunta para complementarse
mutuamente.

163

H) Prediccin

La tcnica de prediccin permite descubrir la dependencia de un campo o caracterstica


respecto a otros. Es similar a la Clasificacin, pero da como salida un nmero en vez de
una etiqueta de clase.

Como ejemplo de aplicacin, vamos a realizar una prediccin de las precipitaciones


conforme al resto de caractersticas climatolgicas (nmero de das clidos, fros,
cubiertos, despejados y nubosos; situacin geogrfica interior o costa; nmero de horas
de sol; humedad relativa y temperatura media).
Para ello utilizamos el mismo mdulo de datos definido para el ejemplo prctico de
Clasificacin.

Vamos a emplear los dos algoritmos de prediccin de los que dispone el Intelligent
Miner para comparar los resultados obtenidos:

Funcin de base radial (FBR)

Obtenemos 2 grupos, tal y como se aprecia en la siguiente figura:

164

Si analizamos con ms detalle el primero de los clusters, que abarca ms de un 25% de


las observaciones, obtenemos las siguientes grficas por variable:

165

Este cluster viene caracterizado por un valor de prediccin de 1182,85 mm de media de


precipitaciones y con una desviacin tpica de 585,336.

El grupo ms numeroso, con casi un 75% de las observaciones, aparece detallado en la


siguiente figura:

166

El valor predicho de precipitaciones es de 496,123 mm de media, con una desviacin


tpica de 133,544.

Prediccin Neuronal

En este caso obtenemos 8 grupos, que aparecen en la siguiente pantalla:

167

Analicemos con ms detalle el cluster ms numeroso:

A este grupo pertenecen casi el 26% de las observaciones. El valor predicho de las
precipitaciones es de 449,157 mm de media con una desviacin tpica de 137,797.
El caso tipo de regin que encaja en este cluster viene caracterizado por unos 72 das
clidos, 0 fros, 80 cubiertos, 25 despejados y 200 nubosos. Las temperaturas medias
oscilan entre los 10,9 y los 21,7 C. Soporta 2402 horas de sol, un 60% de humedad
relativa y su situacin geogrfica es interior.

170

4-CASO DE ESTUDIO

Llegados a este punto, vamos a aplicar el conocimiento adquirido hasta el momento a


un caso de estudio relacionado tambin con el rea de la climatologa: los efectos del
calentamiento global. Ms en concreto, de cmo afectar a la ocupacin de los embalses
espaoles.
Veamos en primer lugar en qu consiste el fenmeno conocido como Efecto
Invernadero.

4.1-Efecto Invernadero

El cambio climtico provocar durante los prximos aos una disminucin de entre un
diez y un cincuenta por ciento del caudal de los ros en la zona comprendida entre
Valencia y Almera.
Segn el informe elaborado por la Agencia Europea de Medio Ambiente, se prev un
importante incremento del caudal de los ros, especialmente en el Norte y Este de
Europa, aunque en Espaa el nivel de los ros disminuir entre un diez y un cincuenta
por ciento, fundamentalmente en el levante y sureste peninsular (Valencia, Alicante,
Murcia y Almera).

Por otra parte, este estudio revela un aumento de entre 4 y 6 das de verano por dcada y
una disminucin de las precipitaciones en Espaa.

El informe, que estudia la tendencia climtica del ltimo siglo y analiza las previsiones
para las prximas dcadas, prev para 2080 la desaparicin de los inviernos con
temperaturas extremas, mientras que los veranos calurosos sern mucho ms frecuentes
y pronostica un aumento de las jornadas con temperaturas superiores a 25 grados
centgrados.

En el ltimo siglo las precipitaciones han disminuido un veinte por ciento en el sur de
Europa y se espera un descenso del uno por ciento en los prximos diez aos, mientras
que los casos de precipitaciones extremas siguen la misma tendencia. El deshielo de los
glaciares ha provocado una subida del nivel del mar de entre 0.8 y 3 milmetros anuales
171

en Europa, seala el informe, que advierte que los datos obtenidos en Vigo indican un
crecimiento de 2.2 milmetros al ao, y durante este siglo se prev que este aumento sea
de entre 2.2 y 4.4 milmetros al ao.

El fenmeno del cambio climtico afectar tambin de forma importante a sectores


como la agricultura, debido al riesgo de sequas, que en pases como Espaa ser ms
acentuado.

En Europa, segn el informe, la capacidad de la biosfera para absorber el carbono ya ha


disminuido durante las ltimas dcadas y se reducir an ms durante el presente siglo a
causa del aumento de las temperaturas.

Tambin se producir, como consecuencia del cambio climtico, un considerable


descenso de las especies vegetales endmicas en las zonas montaosas de cada pas y en
las regiones mediterrneas, segn el mismo informe.
El aumento de las temperaturas y de las olas de calor que padecern algunos pases,
principalmente los del sur y el oeste de Europa, provocar que el nmero de
fallecimientos a causa del calor -que rond los 20.000 en el verano de 2003- se
incremente todava ms. La temperatura del mar mediterrneo occidental ha aumentado
entre 0.5 y 1 grado centgrado en los ltimos 50 aos, mientras que durante este siglo se
espera un incremento de las temperaturas de entre 1.1 y 4.6 grados centgrados.

Los Pirineos experimentarn un descenso de la capa de nieve en los prximos aos


debido a un aumento de las precipitaciones en invierno y a veranos ms clidos y secos.

En este sentido, el informe tambin advierte de repercusiones socio-econmicas del


cambio climtico, ya que se prev un descenso de las actividades deportivas y tursticas
en las estaciones de esqu.

En conclusin, podemos decir que las variables climatolgicas que se vern afectadas
sern:
?? Temperatura media (referida al mar Mediterrneo): en 100 aos aumentar entre
1.1 y 4.6 C.
?? Precipitaciones: disminuirn un 1% en los prximos 10 aos.
172

Analicemos a continuacin la situacin de los embalses en Espaa.

4.2-Embalses espaoles

Los embalses peninsulares pueden analizarse segn cuencas hidrogrficas. Su situacin


geogrfica puede verse en el siguiente mapa:

Se dispone de una tabla con los datos de capacidad y agua embalsada por cada cuenca
hidrogrfica desde 1987 hasta 2003. A continuacin de muestra un fragmento de dicha
tabla:

1987

1988

Capacidad Agua

Capacidad Agua

41953

23618

42800

18517

Norte

4260

2981

4260

1643

4281

3044

4295

Duero

6505

3921

6505

2949

7399

5209

7399

TOTAL

1989

1990

Capacidad Agua
43715 27541

173

Capacidad
48692

Tajo

10794

6274

10826

5330

10826

8155

10904

Guadiana

4013

1863

4172

1697

4172

2456

8273

Guadalquivir

5051

2573

5568

1776

5568

2729

5828

649

286

775

285

775

614

1113

Segura

1104

175

1117

173

1117

320

1117

Jcar

2651

782

2651

1167

2651

1230

2755

Ebro

6304

4257

6304

3196

6304

3597

6398

622

506

622

301

622

187

610

Sur

Cuencas Interiores de Catalua

Para nuestro anlisis nos interesa conocer los porcentajes de ocupacin para cada una de
las cuencas. Esta informacin la podemos calcular fcilmente a partir de la tabla anterior
(qu porcentaje representa el agua embalsada con respecto a la capacidad de los
embalse).
De esta forma obtenemos los porcentajes de ocupacin para cada cuenca por ao:

1987

1988

1989

1990

1991

1992

1993

Norte

69,9765 38,5681 71,1049 53,295 46,7581

Duero

60,2767 45,3344 70,4014 41,357

Tajo

58,1249 49,2333 75,3279

Guadiana

46,4241 40,6759 58,8686 34,377 26,5442 17,2694 16,2788

Guadalquivir

50,9404 31,8966 49,0122

Sur

44,0678 36,7742 79,2258 60,737

Segura

15,8514 15,4879 28,6482 18,711 14,2346 13,4508 11,5955

Jucar

29,4983 44,0211 46,3976 45,626 41,9964 28,8929 19,1869

Ebro

67,5286

Cuencas Interiores de Catalua

81,3505 48,3923 30,0643 60,164 91,8033 81,3115

50,698

68,721 66,5894

40,127 55,8259 60,4271

44,14 40,1871 38,1053 46,1023

34,3 29,4612 17,8119 13,5199


52,381 42,8571 36,6577

57,059 60,644 58,5183 78,8816 75,5858


70,178

174

4.3-Anlisis

4.3.1-Evolucin temporal de cada cuenca hidrogrfica

Como un primer enfoque, analicemos con ms detalle el comportamiento temporal de


cada una de las cuencas hidrogrficas. Para ello extraemos los datos referentes a cada
una de ellas con funciones de proceso (filtrando por registro la tabla de embalses y
pivotando los campos a registros) y aplicamos un Ajuste de curva univariable, sin
modelo estacional y con previsin a 3 aos.

Los resultados por cuenca son los siguientes:


?? Norte

175

?? Duero

?? Tajo

176

?? Guadiana

?? Guadalquivir

177

?? Sur

?? Segura

178

?? Jcar

?? Ebro

179

?? Cuencas interiores de Catalua

Segn el anlisis anterior podemos clasificar las cuencas hidrogrficas por su


comportamiento en tres grupos:
?? Tendencia creciente: Norte, Duero, Tajo, Guadiana, Guadalquivir, Ebro.
?? Estabilidad: Segura.
?? Tendencia decreciente: Sur, Jcar, Catalua.

La disminucin de las precipitaciones como consecuencia del calentamiento global


afectarn por tanto de forma ms preocupante a las cuencas hidrogrficas del Sur, Jcar
e interior de Catalua.
Estas zonas corresponden justamente a las menos lluviosas de la Pennsula, tal y como
puede verse en el siguiente mapa de precipitaciones:

180

181

4.3.2-Relacin entre precipitaciones y ocupacin de embalses

Mediante una regresin lineal, es posible determinar cul es el grado de influencia de


las precipitaciones en la ocupacin de los embalses por cuenca hidrogrfica.
Aplicaremos por tanto un modelo de regresin a las cuencas de ocupacin decreciente.
Para ello en primer lugar ser necesario transformar los datos de los que disponemos:
?? Filtrar la informacin de embalses desde 1995 (slo disponemos de datos de
precipitaciones desde este ao).
?? Totalizar las precipitaciones (dadas de forma mensual) por ao, ya que la
ocupacin de embalses viene dada por ao.

Una vez realizadas estas transformaciones, aplicamos el modelo de regresin, tomando


como variable dependiente el porcentaje de ocupacin y como variable independiente
las precipitaciones.
Los resultados obtenidos se muestran a continuacin:
?? Sur

?? Jcar

182

?? Interior de Catalua

La pendiente de la recta de regresin muestra una gran influencia de las precipitaciones


en la ocupacin de los embalses en las cuencas hidrogrficas del Sur e interior de
Catalua, mientras que en el caso del Jcar, dicha relacin es menos acusada.

Por tanto podemos concluir que la disminucin de las precipitaciones a causa del efecto
invernadero afectar de forma ms acusada a los embalses situados en la zona Sur e
interior de Catalua.

183

4.3.3-Evolucin temporal de las precipitaciones

Para hacer una prediccin de cmo variarn las precipitaciones en las cuencas
hidrogrficas del Sur, Jcar e interior de Catalua, aplicamos un Ajuste de curva
univariable (aplicando previamente las mismas funciones de preproceso utilizadas en el
primer apartado). Se trata de nuevo de un modelo no estacional, con previsin a 5 aos.

Los resultados obtenidos se muestran a continuacin:


?? Sur:

Tabla de previsin:

184

?? Jcar:

Tabla de previsin:

185

?? Interior de Catalua:

Tabla de previsin:

186

4.3.4-Prediccin de la ocupacin de embalses a 5 aos

Los modelos de regresin calculados anteriormente nos dan la relacin de cmo vara la
ocupacin de los embalses segn las precipitaciones. Dicha relacin viene dada por la
ecuacin de la recta de regresin:
y = ? 0 + ? 1x1 + ? 2x2 ... ? nxn + ?

que particularizada para el caso que nos ocupa sera:


ocupacin = ? 0 + ? 1 * precipitaciones + ?
Los coeficientes Beta y el ? aplicable para cuenca hidrogrfica, viene dado en la tabla de
regresiones.

Analicemos la ecuacin para las tres cuencas hidrogrficas del apartado anterior:
?? Sur

Tabla de regresiones:

Ecuacin de la recta de regresin:


ocupacin = 7,177 + 0,791 * precipitaciones + 13,511
?? Jcar

Tabla de regresiones:

187

Ecuacin de la recta de regresin:


ocupacin = 2,725 + 0,462 * precipitaciones + 17,475

?? Interior de Catalua

Tabla de regresiones:

Ecuacin de la recta de regresin:


ocupacin = -14,087 + 0,802 * precipitaciones + 21,649

Con las ecuaciones anteriores es posible calcular los porcentajes de ocupacin de


embalses al disminuir las precipitaciones un 1% en 10 aos, es decir, un 0,1% cada ao.

A continuacin se muestran los valores de precipitaciones predichos en los ajustes de


curva, decrementados un 0,1% al ao (con el efecto invernadero se prev una
disminucin del 1% de las precipitaciones en 10 aos) y los porcentajes de ocupacin
calculados conforme a las ecuaciones de las rectas de regresin:
?? Sur:

Ao

Valor predicho

Efecto Invernadero

% Ocupacin

2003

447,82

447,819

37,4904829

2004

418,64

418,638

35,1822658

2005

389,46

389,457

32,8740487

188

2006

360,28

360,276

30,5658316

2007

331,1

331,095

28,2576145

?? Jcar:

Ao

Valor predicho Efecto Invernadero

% Ocupacin

2003

510,65

510,649

25,6119838

2004

511,69

511,688

25,6599856

2005

512,53

512,527

25,6987474

2006

513,24

513,236

25,7315032

2007

513,84

513,835

25,759177

?? Interior de Catalua:

Ao

Valor predicho

Efecto Invernadero

% Ocupacin

2003

644,48

644,479

52,4434158

2004

636,72

636,718

51,8209836

2005

629,79

629,787

51,2651174

2006

623,53

623,526

50,7629852

2007

617,82

617,815

50,304963

189

COMPARATIVA ESTADSTICA MINERA

Una vez revisadas cada una de las tcnicas estadsticas y de minera de datos vamos a
resumir el conocimiento adquirido en una serie de recomendaciones de uso:
?? Lo primero a la hora de construir un modelo de minera es contar con un buen
histrico de datos, es decir, observaciones de muchos aos que permitan
detectar patrones de comportamiento reales o hacer predicciones fiables. Si,
como en el caso que nos ocupa, disponemos de datos de slo unos pocos aos
las conclusiones a las que llegaremos estarn faltas de precisin y veracidad.
Con esto me refiero a modelos de minera en los que se tenga en cuenta la
dimensin temporal, que es en su mayora. Por ejemplo para modelos de
marketing de segmentacin de mercados para posibles campaas interesar
disponer de datos de un gran nmero de individuos no necesariamente
distribuidos a lo largo del tiempo.
?? Para determinar la influencia de unas variables en otras (por ejemplo cmo
influyen las temperaturas en la humedad relativa) utilizaremos la tcnica
estadstica de regresin lineal. Este mtodo resulta muy sencillo de utilizar y
presenta un resultado fcilmente interpretable: la recta de la variable a predecir
que mejor se ajusta a los valores de las observaciones de la variable cuya
influencia queremos medir. De esta forma es muy sencillo (y muy visual si nos
servimos de herramientas como el Intelligent Miner) determinar si se sigue una
tendencia creciente, decreciente o constante.
Para aplicar la regresin lineal necesitaremos datos de todas las variables que
entren en juego (mnimo 2). Con herramientas como el Intelligent Miner es
posible integrar la regresin de varias variables en una sola ejecucin.
?? Si lo queremos es observar la evolucin temporal de los datos para estudiar su
actuacin a travs del tiempo y detectar posibles patrones de comportamiento, lo
ms apropiado es utilizar el ajuste de curva univariable. A pesar de que
muchas herramientas ofrecen la opcin de elegir el tipo de ajuste (exponencial,
hiprbola, lineal, potencia, racional, recproca...), lo mejor es dejar que el propio
Miner determine el mejor ajuste.
190

Para aplicar el ajuste de curva necesitamos tener datos de una sola variable
durante un largo periodo de tiempo. Si los datos estn repartidos de forma
peridica (por ejemplo por aos) deberemos seleccionar un modelo estacional
para que el modelo sea capaz de distinguir los distintos periodos temporales.
Otra opcin para detectar patrones de comportamiento es utilizar la tcnica de
minera de Secuencias Semejantes que permite identificar zonas comunes en
la evolucin de dos variables. Por ejemplo puede ser de utilidad para determinar
si en dos provincias las precipitaciones evolucionan de la misma forma.
Desde mi punto de vista resulta ms sencillo, en vez de utilizar las Secuencias
Semejantes, el realizar un ajuste de curva para cada una de las variables por
separado (en este caso para cada una de las provincias) y luego evaluar por
cuenta propia las semejanzas. Digo esto porque no resulta sencillo establecer el
lmite al Miner de lo que se considera semejante.
Adems para ejecutar la tcnica de Secuencias Semejantes es necesario
previamente preparar la informacin segn la estructura que espera el Miner:
secuencia tiempo valores, mientras que para el ajuste de curva nos evitamos
este paso.
?? Si nuestro objetivo es hacer una prediccin de cmo se comportar una
determinada caracterstica en un futuro basndonos en su comportamiento
histrico utilizaremos de nuevo el ajuste de curva univariable. Esto es posible
debido a que el propio modelo implementa una extrapolacin de los datos a una
previsin futura.
Podamos pensar que lo ms lgico en estos casos es utilizar la tcnica de
minera de prediccin, pero su nombre induce a engao. Lo que nos permite la
prediccin no es extrapolar el comportamiento de una variable en el futuro sino,
a partir de los valores de otras caractersticas determinar cmo evolucionar la
variable que nos ocupa. Por ejemplo si tenemos datos de muchas variables
climatolgicas (temperatura, humedad, horas de sol, precipitaciones...) y
queremos predecir el comportamiento de las precipitaciones, necesitaremos en
primer lugar entrenar el modelo, es decir, dar los valores conocidos de las
precipitaciones para los valores del resto de caractersticas. De esta forma el
modelo ser capaz de darnos el valor de la variable precipitaciones si le
introducimos nuevos valores de resto de caractersticas.
191

Esto nos hace pensar en la complejidad de utilizacin de la prediccin, puesto


que se necesitan datos de muchas variables dependientes para ser capaces de
entrenar un modelo. A mayor nmero de variables mejores resultados
obtendremos.
?? Si tenemos muchas variables de entrada para nuestro modelo y queremos
quedarnos nicamente con aqullas que son realmente influyentes podemos
utilizar dos tcnicas estadsticas: el Anlisis de Componentes Principales o el
Anlisis Factorial. La salida de ambos mtodos es muy similar: dadas diversas
variables de entrada el sistema determina los componentes o factores ms
influyentes. De esta forma bastar con seleccionar el componente o factor
principal y ver cules son las variables que participan en mayor porcentaje en el
mismo. As lograremos reducir el nmero de variables de entrada perdiendo el
mnimo de informacin posible.
Utilizaremos Anlisis Factorial si estamos seguros de que las variables de
entrada estn fuertemente correlacionadas (ser ms sencillo detectar factores
comunes). Si no tenemos esta certeza emplearemos el Anlisis de Componentes
Principales.
No debemos olvidar que la mejor aproximacin ser la que permita explicar un
mayor porcentaje de varianza. Si forzamos al sistema a que determine un
nmero de factores o componentes inferior al seleccionado por el mismo
podemos perder precisin y fiabilidad.
Esto puede resultar de gran utilidad, adems de para eliminar datos innecesarios,
para seleccionar adecuadamente la variable por la que hacer un clustering para
obtener la distribucin de individuos ms ptima. Si por ejemplo estamos
estudiando la distribucin geogrfica de la poblacin y vemos que la variable
ms influyente es la renta per cpita haremos un clustering por esta
caracterstica.
?? Muchas veces necesitaremos conocer parmetros como la media, la varianza, el
mximo, el mnimo, la distribucin de frecuencias...Para ello utilizaremos la
tcnica de Estadsticas Bivariables. Segn estos valores podemos, por ejemplo,
hacer una adecuada distribucin en intervalos para discretizar una variable
continua.

192

?? Cuando nuestro objetivo consista en determinar reglas de comportamiento del


tipo si x entonces y emplearemos la tcnica de minera Asociaciones. Para
ello es necesario en primer lugar discretizar las variables de entrada
categorizando sus posibles valores segn un criterio del tipo alto/medio/bajo.
De esta forma podremos obtener reglas como cuando la temperatura es alta la
humedad relativa es baja.
Es posible quedarnos nicamente con las reglas ms fiables fijando el valor de
confianza mnima esperada.
Esta tcnica es muy sencilla de utilizar y puede ofrecer resultados realmente
interesantes. Por ejemplo si tuvisemos datos de los productos comprados por
los clientes de un supermercado, podramos detectar parejas de productos que de
estar juntos en el mismo stand veran incrementadas su ventas.
?? Si lo queremos es separar a los individuos de una poblacin (o las observaciones
de un muestreo) en grupos homogneos de caractersticas comunes utilizaremos
el Clustering. En el clustering, a diferencia de la clasificacin, no hay clases
predeterminadas, es el sistema el que determina la agrupacin ptima segn los
criterios indicados. Ser responsabilidad del analista el determinar cul es la
variable ms adecuada por la que hacer el clustering (recordemos que tcnicas
como el Anlisis Factorial y el Anlisis de Componentes Principales pueden
ayudarnos a tomar esta decisin). Si, por ejemplo, partimos de una muestra de
100 individuos y obtenemos 90 clusters nuestra decisin no habr sido acertada
puesto que la separacin establecida no es nada indicativa.
El Intelligent Miner contiene dos implementaciones para clustering: el algoritmo
demogrfico y el basado en redes neuronales. Desde mi punto de vista resulta
ms preciso y fcil de interpretar el clustering demogrfico, puesto que se ve
ms claro cmo las caractersticas ms influyentes permiten obtener un nmero
menor de clusters ms homogneos.
?? La clasificacin nos permite asignar una etiqueta de clase a nuevas
observaciones, segn una categorizacin previamente establecida. Para construir
el modelo ser necesario entrenarlo, es decir disponer un amplio banco de
valores de las caractersticas que influirn en que una observacin pertenezca a
una clase u a otra. Adems deberemos conocer cul es la etiqueta de clase para
193

estos datos. Como vemos su aplicacin no es sencilla y requiere de muchos


datos a preparar para ser aceptados por el modelo. Se parece bastante a la
prediccin, la diferencia est en que en la clasificacin predecimos etiquetas de
clase y en la prediccin valores concretos.
Si disponemos de los datos necesarios podemos obtener resultados realmente
interesantes como, por ejemplo, si tenemos un modelo con informacin sobre las
condiciones previas a un movimiento ssmico, podremos clasificar las zonas
geogrficas por sus caractersticas en probabilidad alta/baja/nula de sufrir un
terremoto.
El Intelligent Miner incluye dos implementaciones de clasificacin: en rbol y
neuronal. La primera de ellas es mucho ms visual puesto que muestra el
esquema del rbol generado, pudiendo jugar con los datos aplicando, por
ejemplo, criterios de poda. Mientras que la salida de la clasificacin neuronal
slo incluye el nmero de individuos que entran en cada categora con el
porcentaje de error.
De todas formas ambos algoritmos de clasificacin obtienen resultados similares
pero no idnticos, por lo que pueden usarse de forma conjunta para
complementarse mutuamente.
?? Vemos que muchos de los problemas de minera pueden solucionarse con
tcnicas de estadstica como la prediccin y los patrones de comportamiento, sin
embargo otros planteamientos ms complejos como la clasificacin en rbol o el
clustering estn fuera de su alcance y necesitan echar mano de algoritmos ms
elaborados y propios de Data Mining como los basados en redes neuronales,
tcnicas de aprendizaje automtico...
?? Herramientas de minera como el Intelligent Miner facilitan mucho las labores
de Data Mining. Aunque una de las dificultades que he encontrado es que para
aplicar una tcnica todos los datos necesarios deben a menudo estar contenidos
en una nica tabla y con una estructura muy determinada. Por ello es necesario
previamente aplicar varias funciones de preproceso para preparar la informacin
para su posterior tratamiento.

194

Otro inconveniente es la complejidad de interpretar los resultados de aplicacin


de varias tcnicas, como por ejemplo la prediccin. La salida del Miner resulta
poco intuitiva para comprender o extraer conclusiones vlidas.
Tampoco hay que olvidar que si bien en Intelligent Miner hay implementaciones
de algoritmos de minera muy logrados (como el clustering y las secuencias
semejantes), otros dejan mucho que desear como los Patrones Secuenciales,
cuya aplicacin no se incluye en este proyecto por la escasa fiabilidad que ofrece
en esta herramienta.

195

RECURSOS

Se dispondrn de los siguientes recursos:


?? Datos:
o Tablas estadsticas de climatologa obtenidas del INE (Instituto Nacional
de Estadstica), que contienen informacin mensual referida a las
temperaturas, precipitaciones, humedad relativa, horas de sol...de las
distintas regiones de Espaa durante varios aos.
?? Herramientas Software:
o DB2 Intelligent Miner for Data v8.1: para el anlisis tanto estadstico
como de minera.
o DB2 UDB v7.1: para crear la base de datos de climatologa.
?? Plataforma Hardware:
o Plataforma Intel Pentium III con Windows 2000 Professional.

PLANIFICACIN TEMPORAL DE ACTIVIDADES

En la siguiente tabla pueden verse las diferentes etapas del proyecto con sus fechas
previstas de inicio y finalizacin, as como la relacin entre las distintas subtareas:

196

CONCLUSIONES

?? Las tcnicas estadsticas y de minera no se contradicen entre s, sino que se


complementan mutuamente. El uso conjunto de ambos enfoques puede llevar a
la obtencin de los mejores resultados.
?? Para aplicar los modelos estadsticos los datos deben estar limpios y deben
existir las correlaciones consistentes. Por el contrario, las herramientas de
inteligencia artificial buscan "generalizar" relaciones para proporcionar el
resultado ms probable.
?? Antes de aplicar cualquiera de las tcnicas estadsticas o de minera estudiadas,
con frecuencia es necesario un proceso previo de preparacin y transformacin
de los datos (filtrado de registros, clculos de totales, aplicacin de funciones,
pivotaje de tablas...). Todo esto suele estar soportado por las funciones de
proceso que incorporan las propias herramientas de Data Mining.
?? La mayor complejidad del Data Mining reside en la interpretacin de resultados
y la extraccin de conclusiones fiables y de utilidad que ayuden a la toma de
decisiones de negocio.
?? Para estudiar la dependencia o relacin entre dos variables utilizaremos la
tcnica estadstica de Regresin Lineal.
La ecuacin de la recta de regresin obtenida nos permitir prever los valores de
una variable segn el comportamiento de la otra variable.
?? Para analizar la evolucin temporal de una caracterstica utilizaremos el Ajuste
de Curva Univariable, que permite adems una estimacin de valores futuros
(modelos de previsin).
Si las observaciones se distribuyen por periodos de tiempo, emplearemos un
modelo estacional (por ejemplo si disponemos de medidas mensuales para
varios aos utilizaremos un modelo estacional de 12).

199

?? Si una caracterstica viene determinada por distintos parmetros, las tcnicas de


Anlisis Factorial y Anlisis de Componentes Principales pueden ayudarnos a
detectar cules son los ms relevantes.
De esta forma es posible adems reducir el nmero de variables de entrada de un
modelo, quedndonos slo con las ms influyentes para el anlisis que nos
ocupa.
?? La salida de un Anlisis Factorial o de Componentes Principales puede utilizarse
como entrada para un Clustering o una Clasificacin, puesto que las variables
ms influyentes del modelo sern las que, al emplearse como separador, den
como resultados grupos o clusters ms homogneos.
?? Para construir un modelo de clasificacin es necesario entrenarlo con datos de
entrada que ya tengan asignados una etiqueta de clase. De esta forma ser capaz
de clasificar nuevas entradas a partir del conocimiento adquirido en la
modalidad de preparacin.
?? La tcnica de Prediccin permite descubrir la dependencia de un campo o
caracterstica respecto a otros. Es similar a la Clasificacin, pero da como salida
un nmero en vez de una etiqueta de clase.
?? Para detectar similitudes en el comportamiento de varios modelos o series
temporales utilizaremos la tcnica de minera de Secuencias Semejantes. Para
obtener unos resultados fiables ser necesario establecer de forma precisa el
umbral a partir del cual dos tramas se consideran semejantes.
?? La tcnica de Asociacin permite descubrir reglas de comportamiento de los
datos (del tipo si x entonces y). Es, por tanto, otra forma de analizar la
dependencia entre los parmetros de entrada.

200

APNDICE A -GLOSARIO DE TRMINOS

?? Algoritmo de Aprendizaje: Conjunto de reglas bien definidas que se utiliza


durante el proceso de aprendizaje para ajustar los pesos de las conexiones de una red
neuronal. Los mtodos y los criterios que se utilizan para ajustar los pesos definen
los diferentes algoritmos de aprendizaje.
?? Algoritmos genticos: Tcnicas de optimizacin que usan procesos tales como
combinacin gentica, mutacin y seleccin natural en un diseo basado en los
conceptos de evolucin natural.
?? Anlisis de Sensibilidad: Salida de la funcin de minera Clasificacin neuronal
que muestra qu campos de entrada son relevantes para la decisin de clasificacin.
?? Anlisis de series de tiempo (time-series): Anlisis de una secuencia de medidas
hechas a intervalos especficos. El tiempo es usualmente la dimensin dominante de
los datos.
?? Anlisis prospectivo de datos: Anlisis de datos que predice futuras tendencias,
comportamientos o eventos basado en datos histricos.
?? Anlisis exploratorio de datos: Uso de tcnicas estadsticas tanto grficas como
descriptivas para aprender acerca de la estructura de un conjunto de datos.
?? Anlisis retrospectivo de datos: Anlisis de datos que provee una visin de las
tendencias, comportamientos o eventos basado en datos histricos.
?? Aprendizaje no supervisado: Algoritmo de aprendizaje que slo requiere que los
datos de entrada estn presentes en la fuente de datos durante el proceso de
aprendizaje. No se proporciona salida destino; en su lugar, la salida deseada se
descubre durante la ejecucin de minera. Por ejemplo, un Mapa de Caractersticas
de Kohonen utiliza aprendizaje no supervisado.
?? Aprendizaje supervisado: Algoritmo de aprendizaje que requiere que las parejas
de entradas y de salidas resultantes se presenten a la red durante el proceso de

201

preparacin. La retropropagacin, por ejemplo, utiliza el aprendizaje supervisado y


realiza ajustes durante el aprendizaje de tal forma que el valor que calcula la red
neuronal se va acercando al valor real a medida que la red aprende de los datos que
se le presentan. El aprendizaje supervisado se utiliza en las tcnicas proporcionadas
para clasificacin as como para la prediccin de valores.
?? rbol de decisin: Estructura en forma de rbol que representa un conjunto de
decisiones. Estas decisiones generan reglas para la clasificacin de un conjunto de
datos.
?? Arquitectura de red neuronal: Nmero de unidades de proceso en las capas de
entrada, de salida y ocultas de una red neuronal. El nmero de unidades de las capas
de entrada y de salida se calcula a partir de los datos de minera y de los parmetros
de entrada.
?? Averaging: concepto similar al Bagging, pero aplicado a modelos de regresin de
variable dependiente y continua.
?? Bagging: en minera de datos, se aplica a las tcnicas de prediccin. Consiste en
combinar las predicciones de varios modelos, o de un mismo modelo con diferentes
datos de aprendizaje. Se utiliza para compensar la inestabilidad de los resultados que
se obtienen al aplicar modelos complejos a conjuntos de datos pequeos.
?? Base de datos: Conjunto de datos no redundantes, almacenados en un soporte
informtico, organizados de forma independiente de su utilizacin y accesibles
simultneamente por distintos usuarios y aplicaciones. La diferencia de una BD
respecto a otro sistema de almacenamiento de datos es que stos se almacenan en la
BD de forma que cumplen tres requisitos bsicos: no redundancia, independencia y
concurrencia.
?? Base de datos multidimensional: Base de datos diseada para procesamiento
analtico on-line (OLAP). Estructurada como un hipercubo con un eje por
dimensin.
?? Base de minera: Repositorio donde se almacena toda la informacin acerca de los
datos de minera, la formulacin de ejecucin de minera y los resultados
correspondientes.
202

?? BLOB (Binary Large Object): Objeto binario grande. Entre los tipos de datos que
contienen los campos BLOB estn: binarios, memo, memo con formato, de imagen,
de sonido y OLE.
?? Boosting: en minera de datos, se aplica a las tcnicas de prediccin. Consiste en
generar mltiples modelos o clasificaciones y derivar los pesos obtenidos para
combinar las predicciones en un modelo nico.
?? Capa de entrada de una red neuronal: Conjunto de unidades de proceso de una
red neuronal que presentan a la red los valores numricos derivados de los datos de
usuario. El nmero de campos y el tipo de datos de esos campos se utilizan para
calcular el nmero de unidades de proceso de la capa de entrada.
?? Capa de salida de una red neuronal: Conjunto de unidades de proceso de una red
neuronal que contiene la salida calculada por la red. El nmero de salidas depende
del nmero de categoras de clasificacin, o del valor de clusters mximo que se
obtiene en las tcnicas de Clasificacin neuronal o de Clustering neuronal,
respectivamente.?
?? Capa oculta de una red neuronal: Conjunto de unidades de proceso de una red
neuronal que se utiliza para calcular sus salidas. Las unidades de proceso de la capa
oculta toman las entradas de las unidades de capa oculta precedentes o de la capa de
entrada. Las salidas se pasan a la capa oculta siguiente o a la capa de salida de la
red. El nmero de capas ocultas y el nmero de unidades de proceso que se
encuentran en cada capa oculta forma parte de la arquitectura de la red.
?? CART rboles de clasificacin y regresin: Una tcnica de rbol de decisin
usada para la clasificacin de un conjunto da datos. Provee un conjunto de reglas
que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir
cules registros darn un cierto resultado. Segmenta un conjunto de datos creando 2
divisiones. Requiere menos preparacin de datos que CHAID.
?? CHAID Deteccin de interaccin automtica de Chi cuadrado: Una tcnica de
rbol de decisin usada para la clasificacin de un conjunto da datos. Provee un
conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de
datos para predecir cules registros darn un cierto resultado. Segmenta un conjunto

203

de datos utilizando tests de chi-cuadrado para crear mltiples divisiones. Antecede,


y requiere ms preparacin de datos, que CART.
?? Clasificacin: Proceso de dividir un conjunto de datos en grupos mutuamente
excluyentes de tal manera que cada miembro de un grupo est lo "ms cercano"
posible a otro, y grupos diferentes estn lo "ms lejos" posible uno del otro, donde la
distancia est medida con respecto a variable(s) especfica(s) las cuales se estn
tratando de predecir. Por ejemplo, un problema tpico de clasificacin es el de
dividir una base de datos de compaas en grupos que son lo ms homogneos
posibles con respecto a variables como "posibilidades de crdito" con valores tales
como "Bueno" y "Malo". A diferencia del clustering, es una tcnica de aprendizaje
supervisado, es decir, se parten de unas clases ya definidas.
?? Cliente/Servidor: Arquitectura de sistemas de informacin en la que los procesos
de una aplicacin se dividen en componentes que se pueden ejecutar en mquinas
diferentes. Modo de funcionamiento de una aplicacin en la que se diferencian dos
tipos de procesos y su soporte se asigna a plataformas diferentes.
?? Cluster: Grupo de registros con caractersticas similares.
?? Clustering (agrupamiento): Proceso de dividir un conjunto de datos en grupos
mutuamente excluyentes de tal manera que cada miembro de un grupo est lo "ms
cercano" posible a otro, y grupos diferentes estn lo "ms lejos" posible uno del
otro, donde la distancia est medida con respecto a todas las variables disponibles.
Es una tcnica de aprendizaje no supervisado, es decir, los grupos se determinan de
forma dinmica sin existir clases predefinidas.
?? Computadoras con multiprocesadores: Una computadora que incluye mltiples
procesadores conectados por una red.
?? Conexin adaptativa de una red neuronal: Peso numrico que se utiliza para
describir la intensidad de la conexin entre dos unidades de proceso en una red
neuronal. Recibe el nombre de conexin adaptativa porque se va ajustando durante
el aprendizaje. Los valores suelen quedar comprendidos dentro del intervalo de cero
a uno
? de -0,5 a +0,5
204

?? Conjuntos de elementos frecuentes: Volumen total de elementos por encima del


factor de soporte especificado que devuelve la funcin de minera Asociaciones.
?? Correspondencia de nombres: Tabla que contiene nombres descriptivos o
traducciones de otros idiomas que se hacen corresponder con nmeros o con
cadenas de caracteres de una tabla de datos.
?? Data cleaning: Proceso de asegurar que todos los valores en un conjunto de datos
sean consistentes y correctamente registrados.
?? Data Mining: La extraccin de informacin predecible escondida en grandes bases
de datos.
?? Data Mart: Contiene los datos de negocio de especial inters para un determinado
departamento, unidad de negocio o grupo de usuarios con las mismas necesidades
de informacin. Al igual que un Data Warehouse, almacena informacin histrica y
operaciones precalculadas para optimizar el acceso. Un Data Mart es en efecto un
Data Warehouse departamental.
?? Data Warehouse (DWH): Base de datos orientada a temas, con datos integrados,
no voltiles (la informacin no cambia continuamente), y que perduran en el tiempo
(lo que permite seguir la evolucin del sistema).
?? Datos anormales: Datos que resultan de errores (por ej: errores de escritura durante
la carga) o que representan eventos inusuales.
?? Database 2 (DB2). Sistema de gestin de bases de datos relacionales de IBM.
?? Decisin Support System (DSS): Aplicaciones que extraen y representan la
informacin de negocio de forma concreta, grfica y fcilmente comprensible para
ayudar a la toma de decisiones empresariales.
?? Diccionario de datos: Descripcin lgica de los datos para el usuario. Rene la
informacin sobre los datos almacenados en la BD (descripciones, significado,
estructuras, consideraciones de seguridad, edicin y uso de las aplicaciones, etc.).
?? Dimensin: En una base de datos relacional o plana, cada campo en un registro
representa una dimensin. Es una variable de estudio de especial inters para el

205

sistema (tiempo, geografa...).En una base de datos multidimensional, una


dimensin es un conjunto de entidades similares; por ej: una base de datos
multidimensional de ventas podra incluir las dimensiones Producto, Tiempo y
Ciudad.
?? Directorio de datos: Es un subsistema del sistema de gestin de base de datos que
describe dnde y cmo se almacenan los datos en la BD (modo de acceso y
caractersticas fsicas de los mismos).
?? Discretizacin: Asignacin de valores continuos a intervalos.
?? Distancia eucldea: Raz cuadrada de la suma de las diferencias al cuadrado
existentes entre dos vectores numricos. La distancia eucldea se utiliza para
calcular el error que existe entre la salida de la red calculada y la salida destino en la
tcnica de Clasificacin neuronal y para calcular la diferencia entre un registro y un
valor de cluster prototipo en la tcnica de Clustering neuronal. El valor cero indica
una coincidencia exacta; nmeros superiores indican diferencias mayores.
?? Drill-down: Obtencin de informacin ms detallada sobre un conjunto de
informacin en el cual se est trabajando. Es la capacidad para navegar a travs de la
informacin siguiendo una estructura jerrquica.
?? Drill Across: Capacidad para navegar a travs de la informacin saltando por las
distintas dimensiones en modelos multidimensionales.
?? Esquema: Agrupacin lgica de objetos de base de datos. Cuando se crea un objeto
de base de datos, se asigna a un esquema, que se determina mediante el nombre del
objeto.
?? ETC: Procesos de Extraccin, Transformacin y carga necesarios para preparar los
datos procedentes de la bases de datos operacionales para ser almacenados en un
DWH.
?? Factor de confianza: Indica la solidez o fiabilidad de las asociaciones detectadas.
?? Funcin base radial (RBF): Las Funciones base radial representan funciones de la
distancia o del radio a partir de un punto determinado. Se utiliza para crear

206

aproximaciones a funciones ms complejas. La funcin de minera Prediccin FBR


utiliza las Funciones Base radial para predecir valores.
?? HOLAP: Hybrid On-line Analytical Processing
?? Inconsistencia: El contenido de una base de datos es inconsistente si dos datos que
deberan ser iguales no lo son. Por ejemplo, un empleado aparece en una tabla como
activo y en otra como jubilado.
?? ndice: En base de datos, punteros organizados lgicamente mediante los valores de
una clave. Los ndices facilitan un acceso rpido y pueden reforzar la exclusividad
en las filas de una tabla.
?? Integridad: Condicin de seguridad que garantiza que la informacin es
modificada, incluyendo su creacin y borrado, slo por el personal autorizado.
?? Mapas de Kohonen: son redes autoorganizadas capaces de codificar y luego
reconocer modelos de rasgos caractersticos de un entorno. Est compuesta de
unidades de proceso dispuestas en una capa de entrada y en una capa de salida.
Todos los procesadores de la capa de entrada se conectan a los procesadores de la
capa de salida mediante una conexin adaptativa. El algoritmo de aprendizaje que se
utiliza incluye la competencia entre unidades para cada patrn de entrada y la
declaracin de una unidad ganadora. Se utiliza en clustering neuronal para dividir
los datos en grupos de registros semejantes.
?? Metadata: Informacin sobre los propios datos almacenados como una descripcin
de tablas y campos, tipos de datos, rango de valores permitidos, procesos de
transformacin...
?? Minera: Sinnimo de analizar o explorar.
?? Modelo analtico: Una estructura y proceso para analizar un conjunto de datos. Por
ejemplo, un rbol de decisin es un modelo para la clasificacin de un conjunto de
datos
?? Modelo lineal: Un modelo analtico que asume relaciones lineales entre una
variable seleccionada (dependiente) y sus predictores (variables independientes).

207

?? Modelo no lineal: Un modelo analtico que no asume una relacin lineal en los
coeficientes de las variables que son estudiadas.
?? Modelo predictivo: Estructura y proceso para predecir valores de variables
especificadas en un conjunto de datos. Las herramientas de modelamiento predictivo
permiten realizar relaciones complejas o modelos desde un archivo de datos. Los
modelos predictivos pueden usarse para el soporte de decisin o presentando subrutinas para desarrollar aplicaciones predictivas a clientes. Las capacidades de los
modelos predictivos pueden mejorarse si los archivos de datos se mejoran con tantas
variables de entrada como sea posible.
?? MOLAP: Multidimensional On-line Analytical Processing
?? Navegacin de datos: Proceso de visualizar diferentes dimensiones y niveles de
una base de datos multidimensional.
?? OLAP: On-line Analytical Processing es una tecnologa SW que permite a los
analistas, directivos y ejecutivos comprender la informacin de negocio de una
forma rpida e interactiva.
?? OLTP: On-line Transaction Process
?? Outlier: Un item de datos cuyo valor cae fuera de los lmites que encierran a la
mayora del resto de los valores correspondientes de la muestra. Puede indicar datos
anormales. Deberan ser examinados detenidamente puesto que pueden dar
informacin importante.
?? Outline: Esqueleto de la estructura definida en un Data Warehouse (dimensiones y
miembros).
?? Parmetros de aprendizaje: Variables que utiliza cada modelo de red neuronal
para controlar el aprendizaje de una red neuronal al que se llega modificando los
pesos de la red.
?? Patrones secuenciales: Patrones entre transacciones tales que la presencia de un
conjunto de elementos va seguida de otro conjunto de elementos en una base de
datos de transacciones a lo largo de un periodo de tiempo.

208

?? Peso: Factor de confianza dividido por la confianza esperada.


?? Peso de una neurona: Valor numrico de una conexin adaptativa que representa
la intensidad de una conexin entre dos unidades de proceso en una red neuronal.
?? Pivoting: Dar la vuelta a la informacin, cambiando las variables de estudio.
?? Procesamiento paralelo: Uso coordinado de mltiples procesadores para realizar
tareas computacionales. El procesamiento paralelo puede ocurrir en una
computadora con mltiples procesadores o en una red de estaciones de trabajo o
PCs.
?? Proceso de preparacin.: Proceso de desarrollo de un modelo que analiza los datos
de entrada. En redes neuronales, el modelo se crea leyendo los registros de los datos
de entrada y modificando los pesos de red hasta que la red calcula los datos de salida
deseados.
?? Proceso de conversin: Conversin de los datos proporcionados por la base de
datos en valores numricos escalados dentro del rango adecuado para un kernel de
minera que utilice redes neuronales. Se utilizan diferentes tcnicas segn que los
datos sean numricos o simblicos. Tambin, conversin de la salida de red
neuronal a las unidades que se utilizan en la base de datos.
?? Programacin gentica (PG): El paradigma de Programacin Gentica es una
extensin de los algoritmos genticos que difiere de stos en la forma en que
representa a los individuos de la poblacin, pues utiliza programas de computadora
en lugar de cadenas de longitud fija.
La meta de la PG es lograr que las computadoras aprendan a resolver problemas sin
ser explcitamente programadas, generando soluciones a problemas a partir de la
induccin de programas. El programador no especifica el tamao, forma y
complejidad estructural de los programas-solucin, sino que los programas
evolucionan hasta generar soluciones satisfactorias.
?? Prototipo de cluster: Valores de atributo habituales en todos los registros de un
cluster determinado. Se utiliza para comparar los registros de entrada a fin de
determinar si un registro debe asignarse al cluster representado por esos valores.

209

?? Prueba Chi cuadrado: Prueba que comprueba si dos variables son dependientes
estadsticamente no. Se calcula restando a las frecuencias previstas (valores
imaginarios) de las frecuencias observadas (valores reales). Las primeras
representan los valores que seran previsibles si las variables en cuestin fuesen
independientes estadsticamente.
?? Prueba F: Prueba estadstica que comprueba si dos estimaciones de las varianzas de
dos muestras independientes son iguales. Adems, comprueba si la hiptesis nula es
cierta o falsa.
?? Rango de cuantiles: Cada uno de los nmeros finitos de subrangos o intervalos no
solapados representado por un valor asignado.
?? Redundancia: Repeticin de los mismos datos en varios lugares.
?? Red neuronal artificial: algoritmo matemtico con algoritmo matemtico con
capacidad para recordar experiencias y hacerlas disponibles capacidad para recordar
experiencias y hacerlas disponibles para su uso.
?? Regin: (Sub)conjunto de registros cuyos campos activos comparten caractersticas
parecidas. Las regiones se utilizan para visualizar el resultado de una prediccin.
?? Regresin lineal: Tcnica estadstica utilizada para encontrar la mejor relacin
lineal que encaja entre una variable seleccionada (dependiente) y sus predicados
(variables independientes).
?? Regresin logstica: Una regresin lineal que predice las proporciones de una
variable seleccionada categrica, tal como Tipo de Consumidor, en una poblacin.
?? Relacin taxonmica: Asociacin jerrquica establecida entre las categoras de
elemento definidas por el usuario para un elemento. Una relacin taxonmica consta
de una categora de elemento hijo y una categora de elemento padre.
?? Repositorio: Base de datos central en herramientas de ayuda al desarrollo. El
repositorio ampla el concepto de diccionario de datos para incluir toda la
informacin que se va generando a lo largo del ciclo de vida del sistema, como por
ejemplo: componentes de anlisis y diseo (diagramas de flujo de datos, diagramas

210

entidad-relacin, esquemas de bases de datos, diseos de pantallas, etc.), estructuras


de programas, algoritmos, etc. En algunas referencias se le denomina Diccionario de
recursos de informacin.
?? ROLAP: Relational On-line Analytical Processing
?? SBV: Sistemas DSS basados en la verificacin (Verification Driving). Analizan la
totalidad de la informacin de forma sencilla y permiten hacer simulaciones de
posibles escenarios.
?? SBD: Sistemas DSS basados en el descubrimiento (Discovering Driving). Muestran
relaciones ocultas entre los datos.
?? Secuencias semejantes: Ocurrencias de secuencias similares en una base de datos
de secuencias.
?? Sistemas de Datos Operacionales (ODS): Bases de datos detalladas definidas para
satisfacer las necesidades de informacin de procesos de negocio en ocasiones muy
complejos.
?? Sistema de gestin de base de datos: Software que controla la organizacin,
almacenamiento, recuperacin, seguridad e integridad de los datos en una base de
datos. Acepta pedidos de datos desde un programa de aplicacin y le ordena al
sistema operativo transferir los datos apropiados.
Cuando se usa un sistema de gestin de base de datos, SGDB, (en ingls DBMS),
los sistemas de informacin pueden ser cambiados ms fcilmente a medida que
cambien los requerimientos de la organizacin. Nuevas categoras de datos pueden
agregarse a la base de datos sin daar el sistema existente.
?? Sistema de informacion (SI): Conjunto de elementos fsicos, lgicos, de
comunicacin, datos y personal que, interrelacionados, permiten el almacenamiento,
transmisin y proceso de la informacin.
?? Slice and Dice: Extraccin de rebanadas de informacin en un sistema en cubo, lo
que permite analizar una variable desde distintos puntos de vista (respecto a otras
variables).

211

?? SQL (Structured Query Language): Lenguaje para bases de datos relacionales. El


SQL es un lenguaje de alto nivel, no procedural, normalizado, que permite la
consulta y actualizacin de los datos de BD relacionales.
?? Star Schema: simula un esquema multidimensional de forma relacional.
?? Vecino ms cercano: Tcnica que clasifica cada registro en un conjunto de datos
basado en una combinacin de las clases del/de los k registro (s) ms similar/es a l
en un conjunto de datos histricos (donde k 1).
?? Tablas Agregadas: Tablas de hechos con clculos ya realizados para accesos ms
rpidos.
?? Tablas de hechos: Contienen valores o datos asociados a las dimensiones de
estudio. Son propias de un modelo en estrella.
?? Terabyte (TB): Unidad de medida que equivale a 1024 GB.
?? Text Mining: Consiste en el estudio de mltiples documentos de texto extrayendo
palabras clave, conceptos...y la preparacin de procesadores de texto para favorecer
el anlisis con tcnicas de minera.
?? Voting: concepto similar al Bagging, pero aplicado a las tcnicas de clasificacin.

212

APNDICE B TABLAS ESTADSTICAS

213

TEMPERATURAS MXIMAS ABSOLUTAS


1997
Total
NOROESTE: Corua (A)
NOROESTE: Lugo (Las Rozas)
NOROESTE: Ourense (Instituto)
NOROESTE: Santiago
NOROESTE: Vigo (Peinador)
CANTBRICA: Bilbao (Aeropuerto)
CANTBRICA: Gijn
CANTBRICA: San Sebastin (Igueldo)
CANTBRICA: Santander (Parayas aeropuerto)
DUERO: vila (Observatorio)
DUERO: Burgos (Villafra)
DUERO: Len (Virgen del Camino)
DUERO: Salamanca (Matacn)
DUERO: Segovia (Observatorio)
DUERO: Soria (Observatorio)
DUERO: Valladolid (Observatorio)
DUERO: Zamora (Observatorio)
CENTRAL: Albacete (Los Llanos)
CENTRAL: Ciudad Real (Observatorio)
CENTRAL: Cuenca
CENTRAL: Guadalajara (Molina de Aragn)
CENTRAL: Madrid (Retiro)
CENTRAL: Toledo
EXTREMADURA: Badajoz (Talavera la Real)
EXTREMADURA: Cceres (Observatorio)
EBRO: Huesca (Monflorite)
EBRO: Logroo (Agoncillo)

Enero
30
30,8
37,6
32,2
33,6
34
29,4
30,6
31,5
32,6
32,9
32,8
34,8
33,8
33
36,3
35
36
39,2
35,2
34,2
36,5
39,4
39
38,4
34,5
34,2

Febrero
18,6
16,4
18,8
18,8
17,4
19,4
18
17,8
31,9
16
15
13,2
13,8
15
14,2
15
14
18
17
14,8
13,4
16,2
16,4
18,4
16,8
14
16,2

Marzo
24,6
23,4
24,2
23
23,6
25
21,4
22,2
20
19,4
20,5
17,4
23
21
21,2
22,9
19,8
23,5
24,2
22,7
21,8
20
22,2
24,6
21,8
17,8
19,4

Abril
24
24,6
28
25,6
26
27,7
21,2
24,4
22,3
20,8
22,4
22,8
23
22,2
23,6
23,5
24
25,2
26,4
24
23,6
25
26
28,2 ..
25,4
25
26,6

TEMPERATURAS MNIMAS ABSOLUTAS


1997
Total
NOROESTE: Corua (A)
NOROESTE: Lugo (Las Rozas)
NOROESTE: Ourense (Instituto)
NOROESTE: Santiago
NOROESTE: Vigo (Peinador)
CANTBRICA: Bilbao (Aeropuerto)
CANTBRICA: Gijn
CANTBRICA: San Sebastin (Igueldo)
CANTBRICA: Santander (Parayas aeropuerto)
DUERO: vila (Observatorio)
DUERO: Burgos (Villafra)
DUERO: Len (Virgen del Camino)
DUERO: Salamanca (Matacn)
DUERO: Segovia (Observatorio)
DUERO: Soria (Observatorio)
DUERO: Valladolid (Observatorio)
DUERO: Zamora (Observatorio)
CENTRAL: Albacete (Los Llanos)
CENTRAL: Ciudad Real (Observatorio)
CENTRAL: Cuenca
CENTRAL: Guadalajara (Molina de Aragn)
CENTRAL: Madrid (Retiro)
CENTRAL: Toledo
EXTREMADURA: Badajoz (Talavera la Real)
EXTREMADURA: Cceres (Observatorio)
EBRO: Huesca (Monflorite)
EBRO: Logroo (Agoncillo)

Enero
1
-6,8
-3,4
-5,5
-0,8
-1
-2,4
-0,4
-1,2
-6,8
-7,8
-10
-6,8
-9
-11
-5,6
-5,8
-3,6
-2
-8,3
-17
-1,6
-2,8
-1,8
-1
-3,8
-2,8

Febrero
1
-6,8
-3,4
-5,5
-0,8
-0,2
-2,4
0,4
1,2
-10
-7,8
-10
-6,8
-9
-11
-5,6
-5,8
-2,5
-1,6
-8,3
-17
-1,6
-2,5
-1,8
-1
-3
-2,4

Marzo
6,2
-1,8
0,6
-0,6
4,2
1,6
2,4
2,6
1,4
-4,4
-4,4
-1
-3
-0,4
-4,2
-1,8
-1
-1,4
-1,2
-2,9
-7
1,8
0,1
2,8
2
1
-2,4

Abril
8,4
-1,6
2,2
0,2
6
1
3
5,4
3,2
-2,8
-2,4
0,6
-1
0,5
-1
0,6
1,6
-1
1,4
0
-5,6
6
2,7
3,4 ..
4,4
3,2
0,6

HUMEDAD MEDIA MENSUAL


1997
Total
NOROESTE: Corua (A)
NOROESTE: Lugo (Las Rozas)
NOROESTE: Ourense (Instituto)
NOROESTE: Santiago
NOROESTE: Vigo (Peinador)
CANTBRICA: Bilbao (Aeropuerto)
CANTBRICA: Gijn
CANTBRICA: San Sebastin (Igueldo)
CANTBRICA: Santander (Parayas aeropuerto)
DUERO: vila (Observatorio)
DUERO: Burgos (Villafra)
DUERO: Len (Virgen del Camino)
DUERO: Salamanca (Matacn)
DUERO: Segovia (Observatorio)
DUERO: Soria (Observatorio)
DUERO: Valladolid (Observatorio)
DUERO: Zamora (Observatorio)
CENTRAL: Albacete (Los Llanos)
CENTRAL: Ciudad Real (Observatorio)
CENTRAL: Cuenca
..
CENTRAL: Guadalajara (Molina de Aragn)
CENTRAL: Madrid (Retiro)
CENTRAL: Toledo
EXTREMADURA: Badajoz (Talavera la Real)
EXTREMADURA: Cceres (Observatorio)
EBRO: Huesca (Monflorite)
EBRO: Logroo (Agoncillo)

Enero
76
77
71
79
79
73
79
77
76
62
71
67 ..
65
59
67
66
66
63
63
55
63
61
66
63
66
70

Febrero
78
84
84
84
87
77
83
80
76
86
86
86
79
88
87
84
84
86
84
73
81
85
84
85
82
85

Marzo
79
79
79
86
87
71
78
69
78
68
74
75
71
63
67
73
77
68
72
66
56
68
73
73
76
68
71

Abril
69
63
62
57
60
73
76
77
75
46
54
49
46
40
50
52
55
53
49
52
46
45
47
50 ..
51
57
61

PRECIPITACIN TOTAL
1997
Total
NOROESTE: Corua (A)
NOROESTE: Lugo (Las Rozas)
NOROESTE: Ourense (Instituto)
NOROESTE: Santiago
NOROESTE: Vigo (Peinador)
CANTBRICA: Bilbao (Aeropuerto)
CANTBRICA: Gijn
CANTBRICA: San Sebastin (Igueldo)
CANTBRICA: Santander (Parayas aeropuerto)
DUERO: vila (Observatorio)
DUERO: Burgos (Villafra)
DUERO: Len (Virgen del Camino)
DUERO: Salamanca (Matacn)
DUERO: Segovia (Observatorio)
DUERO: Soria (Observatorio)
DUERO: Valladolid (Observatorio)
DUERO: Zamora (Observatorio)
CENTRAL: Albacete (Los Llanos)
CENTRAL: Ciudad Real (Observatorio)
CENTRAL: Cuenca
CENTRAL: Guadalajara (Molina de Aragn)
CENTRAL: Madrid (Retiro)
CENTRAL: Toledo
EXTREMADURA: Badajoz (Talavera la Real)
EXTREMADURA: Cceres (Observatorio)
EBRO: Huesca (Monflorite)
EBRO: Logroo (Agoncillo)

Enero
1007
1097,2
1021
1860,6
2015,8
1023
945,9
1734
988,3
640,6
751,7
670
547
812,2
859,6
698,7
578,3
478,4
579,4
635,5
548,4
573,4
459,1
736,9
958,6
691
574,2

Febrero
144,4
97,1
101,9
171,5
213,6
163,5
170
141
138,5
66,5
66
104,9
39,7
99,6
106,5
63,1
61
71,3
120,2
142,6
81,8
86,7
92,4
121,5
110,2
105
76,5

47,5
42,3
16,9
175
116,8
20,2
15,8
18,4
13,7
14
4,8
7,2
1,6
14,2
4,9
5,9
2,1
0,8
1,5
5,8
6,3
0,3
2,7
0,4
0,2
5,5
2,5

Marzo

Abril
0
0
0
0
0
11,7
1,6
32,9
9,2
0
0
0
0
0
0
0
0
3,5
0
0
0,8
0
0
0,1
0
0
0,6

23,9
19,4
39,9
33,2
72,8
37,3

70,1

20,7
13,6

21,1
54,9
75,2
24,8
46,1
44,7
52,6
32,1
36,8
40,1

26,5

71,5
37,8

DAS DESPEJADOS
1997
Total
NOROESTE: Corua (A)
NOROESTE: Lugo (Las Rozas)
..
NOROESTE: Ourense (Instituto)
NOROESTE: Santiago
NOROESTE: Vigo (Peinador)
CANTBRICA: Bilbao (Aeropuerto)
CANTBRICA: Gijn
CANTBRICA: San Sebastin (Igueldo)
CANTBRICA: Santander (Parayas aeropuerto)
DUERO: vila (Observatorio)
DUERO: Burgos (Villafra)
DUERO: Len (Virgen del Camino)
DUERO: Salamanca (Matacn)
DUERO: Segovia (Observatorio)
DUERO: Soria (Observatorio)
DUERO: Valladolid (Observatorio)
DUERO: Zamora (Observatorio)
..
CENTRAL: Albacete (Los Llanos)
CENTRAL: Ciudad Real (Observatorio)
CENTRAL: Cuenca
..
CENTRAL: Guadalajara (Molina de Aragn)
CENTRAL: Madrid (Retiro)
CENTRAL: Toledo
..
EXTREMADURA: Badajoz (Talavera la Real)
EXTREMADURA: Cceres (Observatorio)
EBRO: Huesca (Monflorite)
..
EBRO: Logroo (Agoncillo)

Enero
49

Febrero
3

..
49
51
75
33
33
35
44
66
57
68
70
47
55
64

..
0
4
6
3
3
3
3
2
0
3
1
2
0
3

..
95
106

..

..

..
5
4

..
4
4

..
59

..
7
8

0
2

88
94

..

..

..

..
2
3

..
0

Abril
13

1
2
2
1
2
3
2
4
4
4
4
4
5
3

0
3

61
78

Marzo
3

..
4

21
12
20
10
9
11
13
19
16
19
23
17 ..
18
19
..
23
23
..
23
23
..
20
24
..
15

DAS NUBOSOS
1997
Total
NOROESTE: Corua (A)
NOROESTE: Lugo (Las Rozas)
..
NOROESTE: Ourense (Instituto)
NOROESTE: Santiago
NOROESTE: Vigo (Peinador)
CANTBRICA: Bilbao (Aeropuerto)
CANTBRICA: Gijn
CANTBRICA: San Sebastin (Igueldo)
CANTBRICA: Santander (Parayas aeropuerto)
DUERO: vila (Observatorio)
DUERO: Burgos (Villafra)
DUERO: Len (Virgen del Camino)
DUERO: Salamanca (Matacn)
DUERO: Segovia (Observatorio)
DUERO: Soria (Observatorio)
DUERO: Valladolid (Observatorio)
DUERO: Zamora (Observatorio)
..
CENTRAL: Albacete (Los Llanos)
CENTRAL: Ciudad Real (Observatorio)
CENTRAL: Cuenca
..
CENTRAL: Guadalajara (Molina de Aragn)
CENTRAL: Madrid (Retiro)
CENTRAL: Toledo
..
EXTREMADURA: Badajoz (Talavera la Real
EXTREMADURA: Cceres (Observatorio)
EBRO: Huesca (Monflorite)
..
EBRO: Logroo (Agoncillo)

Enero
178

Febrero
15

..
184
168
165
181
214
185
185
195
193
199
214
198
196
203

..
16
15
13
12
18
14
14
15
12
12
12
11
10
11

..
203
184

..

..

..
18
19

..
18
14

..
200

..
21
20

11
14

206
180

..

..

..

..
20
20

..
14

Abril
16

12
12
11
15
18
17
15
21
16
16
18
18
16
20

18
14

169
204

Marzo
11

..
16

10
19
11
14
18
11
14
11
14
12
7
13 ..
12
11
..
7
8
..
7
7
..
10
7
..
16

DAS CUBIERTOS
1997
Total
NOROESTE: Corua (A)
NOROESTE: Lugo (Las Rozas)
..
NOROESTE: Ourense (Instituto)
NOROESTE: Santiago
NOROESTE: Vigo (Peinador)
CANTBRICA: Bilbao (Aeropuerto)
CANTBRICA: Gijn
CANTBRICA: San Sebastin (Igueldo)
CANTBRICA: Santander (Parayas aeropuerto)
DUERO: vila (Observatorio)
DUERO: Burgos (Villafra)
DUERO: Len (Virgen del Camino)
DUERO: Salamanca (Matacn)
DUERO: Segovia (Observatorio)
DUERO: Soria (Observatorio)
DUERO: Valladolid (Observatorio)
DUERO: Zamora (Observatorio)
..
CENTRAL: Albacete (Los Llanos)
CENTRAL: Ciudad Real (Observatorio)
CENTRAL: Cuenca
..
CENTRAL: Guadalajara (Molina de Aragn)
CENTRAL: Madrid (Retiro)
CENTRAL: Toledo
..
EXTREMADURA: Badajoz (Talavera la Real)
EXTREMADURA: Cceres (Observatorio)
EBRO: Huesca (Monflorite)
..
EBRO: Logroo (Agoncillo)

Enero
138

Febrero
13

..
132
146
125
151
118
145
136
73
115
98
81
90
114
98

..
15
12
12
16
10
14
14
14
19
16
18
18
21
17

..
67
75

..

..

..
5
5

..
9
13

..
106

..
0
0

20
15

71
91

..

..

..

..
6
5

..
17

Abril
2

15
14
15
12
8
8
11
3
8
8
6
6
7
5

13
14

135
83

Marzo
14

..
8

0
0
0
7
4
9
4
1
1
0
1
1 ..
1
1
..
1
0
..
1
1
..
1
0
..
0

DAS CON T IGUAL O INFERIOR A 0 C


1997
Total
NOROESTE: Corua (A)
NOROESTE: Lugo (Las Rozas)
NOROESTE: Ourense (Instituto)
NOROESTE: Santiago
NOROESTE: Vigo (Peinador)
CANTBRICA: Bilbao (Aeropuerto)
CANTBRICA: Gijn
CANTBRICA: San Sebastin (Igueldo)
CANTBRICA: Santander (Parayas aeropuerto)
DUERO: vila (Observatorio)
DUERO: Burgos (Villafra)
DUERO: Len (Virgen del Camino)
DUERO: Salamanca (Matacn)
DUERO: Segovia (Observatorio)
DUERO: Soria (Observatorio)
DUERO: Valladolid (Observatorio)
DUERO: Zamora (Observatorio)
CENTRAL: Albacete (Los Llanos)
CENTRAL: Ciudad Real (Observatorio)
CENTRAL: Cuenca
CENTRAL: Guadalajara (Molina de Aragn)
CENTRAL: Madrid (Retiro)
CENTRAL: Toledo
EXTREMADURA: Badajoz (Talavera la Real)
EXTREMADURA: Cceres (Observatorio)
EBRO: Huesca (Monflorite)
EBRO: Logroo (Agoncillo)

Enero
0
34
4
7
2
4
3
1
2
44
59
36
48
18
53
23
18
27
11
37
111
8
10
1
2
9
11

Febrero
0
12
4
6
2
1
2
0
0
10
14
16
17
9
16
10
7
7
2
8
19
4
4
1
2
4
3

Marzo
0
4
0
1
0
0
0
0
0
13
15
4
10
1
13
5
3
6
3
10
18
0
0
0
0
0
4

Abril
0
5
0
0
0
0
0
0
0
6
10
0
7
0
8
0
0
3
0
3
31
0
0
0 ..
0
0
0

DAS CON T IGUAL O SUPERIOR A 25 C


1997
Total
NOROESTE: Corua (A)
NOROESTE: Lugo (Las Rozas)
NOROESTE: Ourense (Instituto)
NOROESTE: Santiago
NOROESTE: Vigo (Peinador)
CANTBRICA: Bilbao (Aeropuerto)
CANTBRICA: Gijn
CANTBRICA: San Sebastin (Igueldo)
CANTBRICA: Santander (Parayas aeropuerto)
DUERO: vila (Observatorio)
DUERO: Burgos (Villafra)
DUERO: Len (Virgen del Camino)
DUERO: Salamanca (Matacn)
DUERO: Segovia (Observatorio)
DUERO: Soria (Observatorio)
DUERO: Valladolid (Observatorio)
DUERO: Zamora (Observatorio)
CENTRAL: Albacete (Los Llanos)
CENTRAL: Ciudad Real (Observatorio)
CENTRAL: Cuenca
CENTRAL: Guadalajara (Molina de Aragn)
CENTRAL: Madrid (Retiro)
CENTRAL: Toledo
EXTREMADURA: Badajoz (Talavera la Real)
EXTREMADURA: Cceres (Observatorio)
EBRO: Huesca (Monflorite)
EBRO: Logroo (Agoncillo)

Enero
17
45
140
64
57
85
13
33
39
62
61
61
82
78
63
97
96
124
146
99
92
112
150
158
141
108
106

Febrero
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

Marzo
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

Abril
0
0
22
5
2
3
0
0
2
0
0
0
0
0
0
0
0
1
3
0
0
1
5
19 ..
6
1
1

HORAS DE SOL
1997
Total
NOROESTE: Corua (A)
NOROESTE: Lugo (Las Rozas)
NOROESTE: Ourense (Instituto)
NOROESTE: Santiago
NOROESTE: Vigo (Peinador)
CANTBRICA: Bilbao (Aeropuerto)
CANTBRICA: Gijn
CANTBRICA: San Sebastin (Igueldo)
CANTBRICA: Santander (Parayas aeropuerto)
DUERO: vila (Observatorio)
DUERO: Burgos (Villafra)
DUERO: Len (Virgen del Camino)
DUERO: Salamanca (Matacn)
DUERO: Segovia (Observatorio)
DUERO: Soria (Observatorio)
DUERO: Valladolid (Observatorio)
DUERO: Zamora (Observatorio)
CENTRAL: Albacete (Los Llanos)
CENTRAL: Ciudad Real (Observatorio)
CENTRAL: Cuenca
CENTRAL: Guadalajara (Molina de Aragn)
CENTRAL: Madrid (Retiro)
CENTRAL: Toledo
EXTREMADURA: Badajoz (Talavera la Real)
EXTREMADURA: Cceres (Observatorio)
EBRO: Huesca (Monflorite)
EBRO: Logroo (Agoncillo)

Enero
2090
1658
2002
1865
2167
1855
1933
1787
1748
2542
2189
2508
2493
2456
2578
2529
1542
2831
2448
2567
2169
0
0
2828
2735
0
2279

Febrero
107
56
86
90
113
98
107
106
91
99
48
92
81
82
79
72
63
103
75
81
52
0
0
117
128
0
46

Marzo
98
74
89
81
83
131
143
142
129
196
133
153
158
168
192
156
103
226
184
213
185
0
0
174
200
201
143

Abril
259
192
298
272
293
220
231
217
196
309
281
304
309
316
311
311
139
314
293
277
304
0
0
315
312
300
280

PRECIPITACIN CUENCAS HIDROGRFICAS


1995
Total
Espaa peninsular
Vertiente Norte y Noroeste
Cuenca del Duero
Cuenca del Tajo
Cuenca del Guadiana
Cuenca del Guadalquivir
Vertiente Sur
Cuenca del Segura
Cuenca del Jcar
Cuenca del Ebro
Vertiente del Pirineo Oriental

Enero
605
1464
593
558
488
480
414
214
363
506
727

Febrero
53
213
48
37
28
35
24
3
9
45
18

Marzo
54
187
54
63
37
36
33
16
13
31
8

Abril
28
109
18
9
13
24
30
17
17
23
9

Mayo
24
49
21
22
13
17
8
10
15
32
34

Juni
37
101
50
28
14
4
2
6
24
47
68

CAPACIDAD Y OCUPACIN DE LOS EMBALSES

TOTAL
Norte
Duero
Tajo
Guadiana
Guadalquivir
Sur
Segura
Jcar
Ebro
Cuencas Interiores de Catalua

1988
1989
1987
Capacidad Agua
Capacidad Agua
Capacidad Agua
41953
23618
42800
18517
43715
27541
4260
2981
4260
1643
4281
3044
6505
3921
6505
2949
7399
5209
10794
6274
10826
5330
10826
8155
4013
1863
4172
1697
4172
2456
5051
2573
5568
1776
5568
2729
649
286
775
285
775
1104
175
1117
173
1117
2651
782
2651
1167
2651
1230
6304
4257
6304
3196
6304
3597
622
506
622
301
622

Algunas observaciones sobre los datos son las siguientes:

Temperaturas Medias
?? Ao 1997: Los datos de los observatorios de vila (Observatorio), Soria
(Observatorio), Badajoz (Talavera la Real), Mahn e Izaa (Santa Cruz de Tenerife)
se refieren a once meses.
?? Ao 1999: Los datos de los observatorios de Girona (Costa Brava), Jan (Cerro de
los Lirios) e Izaa (Santa Cruz de Tenerife) se refieren a once meses.
?? Ao 2000: Los datos del observatorio de Jan (Cerro de los Lirios) se refieren a
once meses.
?? Ao 2001: Los datos del observatorio de Bilbao (Aeropuerto) se refieren a once
meses.

Temperaturas Mximas
?? Ao 1997: Los datos de los observatorios de Santander (Parayas aeropuerto), vila
(Observatorio), Soria (Observatorio),Badajoz (Talavera la Real), Mahn e Izaa
(Santa Cruz de Tenerife) se refieren a once meses.
?? Ao 1998: Los datos de los observatorios de Zaragoza (Aeropuerto), Lleida
(Observatorio 2), Palma (Centro meteorolgico) se refieren a once meses.
?? Ao 1999: Los datos de los observatorios de Soria (Observatorio), Valladolid
(Observatorio), Girona (Costa Brava), Jan (Cerro de los Lirios) e Izaa (Santa Cruz
de Tenerife) se refieren a once meses.
?? Ao 2000: Los datos de los observatorios de Jan (Cerro de los Lirios) Mahn,
Palma (Centro meteorolgico) se refieren a once meses.
?? Ao 2001: Los datos de los observatorios de Bilbao (Aeropuerto), Cceres
(Observatorio), Huesca (Monflorite), Lleida (Observatorio 2) y Palma (Centro
meteorolgico) se refieren a once meses.
?? Ao 2002: Los datos de los observatorios de Huesca (Monflorite) y Sevilla
(Aeropuerto) se refieren a once meses.

225

Temperaturas Mnimas
?? Ao 1997: Los datos de los observatorios de vila (Observatorio), Soria
(Observatorio), Badajoz (Talavera la Real), Mahn, Izaa (Santa Cruz de Tenerife)
y Ceuta se refieren a once meses.
?? Ao 1998: Los datos de los observatorios de Zaragoza (Aeropuerto) y Palma
(Centro meteorolgico) se refieren a once meses.
?? Ao 1999: Los datos de los observatorios de Soria (Observatorio), Valladolid
(Observatorio), Girona (Costa Brava), Jan (Cerro de los Lirios) e Izaa (Santa Cruz
de Tenerife) se refieren a once meses.
?? Ao 2000: Los datos de los observatorios de Jan (Cerro de los Lirios), Mahn y
Palma (Centro meteorolgico) se refieren a once meses.
?? Ao 2001: Los datos de los observatorios de Bilbao (Aeropuerto), Cceres
(Observatorio), Lleida (Observatorio2), Palma (Centro meteorolgico) y Melilla
(Aeropuerto) se refieren a once meses.
?? Ao 2002: Los datos de los observatorios de Huesca (Monflorite) y Sevilla
(Aeropuerto) se refieren a once meses.

Humedad Media
?? Ao 1997: Los datos de los observatorios de vila (Observatorio), Len (Virgen del
Camino), Soria (Observatorio), Badajoz (Talavera la Real) y Palma (Centro
meteorolgico) se refieren a once meses.
?? Ao 1999: Los datos de los observatorios de Jan (Cerro de los Lirios) y Mahn se
refieren a once meses.
?? Ao 2000: El dato del observatorio de Jan (Cerro de los Lirios) se refiere a once
meses.
?? Ao 2001: El dato del observatorio de Bilbao (Aeropuerto) se refiere a once meses.
?? Ao 2002: El dato del observatorio de Jan (Cerro de los Lirios)) se refiere a once
meses.

226

Precipitacin total
?? Ao 1997: Los datos del observatorio de Izaa (Santa Cruz de Tenerife) se refieren
a once meses.
?? Ao 1998: Los datos del observatorio de Guadalajara (Molina de Aragn) se
refieren a once meses.
?? Ao 1999: Los datos de los observatorios de Prat de Llobregat (Aeropuerto) y Jan
(Cerro de los Lirios) se refieren a once meses.
?? Ao 2000: Los datos de los observatorios de Castelln de la Plana (Almanzora),
Palma (Centro meteorolgico) se refieren a once meses.
?? Ao 2001: Los datos del observatorio de Bilbao (Aeropuerto) se refieren a once
meses.
?? Ao 2002: Los datos del observatorio de Mahn se refieren a once meses.

Das Despejados
?? Ao 1997: Los datos de los observatorios de vila (Observatorio), Segovia
(Observatorio), Sevilla (Aeropuerto) e Izaa (Santa Cruz de Tenerife) se refieren a
once meses.
?? Ao 1998: Los datos de los observatorios de Toledo, Teruel (Calamocha), Granada
(Aeropuerto), Ceuta y Melilla (Aeropuerto) se refieren a once meses.
?? Ao 1999: Los datos de los observatorios de Soria (Observatorio), Valladolid
(Observatorio), Albacete (Los Llanos), Girona (Costa Brava) e Izaa (Santa Cruz de
Tenerife) se refieren a once meses.
?? Ao 2000: Los datos de los observatorios de Girona (Costa Brava), Jan (Cerro de
los Lirios), Palma (Centro meteorolgico), Izaa (Santa Cruz de Tenerife) y Santa
Cruz de Tenerife se refieren a once meses.
?? Ao 2001: Los datos de los observatorios de Bilbao (Aeropuerto) y Lleida
(Aeropuerto 2) se refieren a once meses.
?? Ao 2002: Los datos de los observatorios de Girona (Costa Brava), Tortosa
(Observatorio del Ebro) y Sevilla Aeropuerto se refieren a once meses.

227

Das Nubosos
?? Ao 1997: Los datos de los observatorios de vila (Observatorio), Segovia
(Observatorio), Crdoba (Aeropuerto), Sevilla (Aeropuerto) e Izaa (Santa Cruz de
Tenerife) se refieren a once meses.
?? Ao 1998: Los datos de los observatorios de Burgos (Villafra), Toledo, Teruel
(Calamocha), Granada (Aeropuerto) y Melilla (Aeropuerto) se refieren a once
meses.
?? Ao 1999: Los datos de los observatorios de Soria (Observatorio), Valladolid
(Observatorio), Albacete (Los Llanos), Girona (Costa Brava) e Izaa (Santa Cruz de
Tenerife) se refieren a once meses.
?? Ao 2000: Los datos de los observatorios de Girona (Costa Brava)
?? Ao 2001: Los datos de los observatorios de Bilbao (Aeropuerto) y Lleida
(Aeropuerto 2) se refieren a once meses.
?? Ao 2002: Los datos de los observatorios de Girona (Costa Brava), Tortosa
(Observatorio del Ebro) y Sevilla (Aeropuerto) se refieren a once meses.

Das Cubiertos
?? Ao 1997: Los datos de los observatorios de Segovia (Observatorio), Crdoba
(Aeropuerto), Huelva (Ronda Este) e Izaa (Santa Cruz de Tenerife) se refieren a
once meses.
?? Ao 1998: Los datos de los observatorios de Burgos (Villafra), Toledo, Teruel
(Calamocha) y Melilla (Aeropuerto) se refieren a once meses.
?? Ao 1999: Los datos de los observatorios de Soria (Observatorio), Valladolid
(Observatorio), Albacete (Los Llanos) y Girona (Costa Brava) se refieren a once
meses.
?? Ao 2000: Los datos de los observatorios de Girona (Costa Brava)
?? Ao 2001: Los datos de los observatorios de Bilbao (Aeropuerto) y Lleida
(Aeropuerto 2) se refieren a once meses.
?? Ao 2002: Los datos de los Observatorios de Girona (Costa Brava), Tortosa
(Observatorio del Ebro) y Sevilla (Aeropuerto) se refieren a once meses.

228

Das con temperatura igual o inferior a 0 C


?? Ao 1997: Los datos de los observatorios de vila (Observatorio), Soria
(Observatorio), Badajoz (Talavera la Real), Mahn e Izaa (Santa Cruz de Tenerife)
se refieren a once meses.
?? Ao 1998: Los datos del observatorio de Zaragoza (Aeropuerto) se refieren a once
meses.
?? Ao 1999: Los datos de los observatorios de Soria (Observatorio), Valladolid
(Observatorio), Girona (Costa Brava), Jan (Cerro de los Lirios) e Izaa (Santa Cruz
de Tenerife) se refieren a once meses.
?? Ao 2000: Los datos de los observatorios de Jan (Cerro de los Lirios), Mahn y
Palma (Centro meteorolgico) se refieren a once meses.
?? Ao 2001: Los datos de los observatorios de Bilbao (Aeropuerto), Cceres
(Observatorio), Lleida (Observatorio2), Palma (Centro meteorolgico) y Melilla
(Aeropuerto) se refieren a once meses.
?? Ao 2002: Los datos de los observatorios de Huesca (Monflorite) y Sevilla
(Aeropuerto) se refieren a once meses.

Das con temperatura igual o superior a 25 C


?? Ao 1997: Los datos de los observatorios de vila (Observatorio), Soria
(Observatorio), Badajoz (Talavera la Real), Huelva (Ronda Este), Mahn e Izaa
(Santa Cruz de Tenerife) se refieren a once meses.
?? Ao 1998: Los datos de los observatorios de Zaragoza (Aeropuerto), Lleida
(Observatorio 2) y Palma (Centro meteorolgico) se refieren a once meses.
?? Ao 1999: Los datos de los observatorios de Soria (Observatorio), Valladolid
(Observatorio), Girona (Costa Brava), Jan (Cerro de los Lirios) e Izaa (Santa Cruz
de Tenerife) se refieren a once meses.
?? Ao 2000: Los datos de los observatorios de Jan (Cerro de los Lirios), Mahn y
Palma (Centro meteorolgico) se refieren a once meses.
?? Ao 2001: Los datos de los observatorios de Bilbao (Aeropuerto), Cceres
(Observatorio), Huesca (Monflorite), Lleida (Observatorio2), Palma (Centro
meteorolgico) y Melilla (Aeropuerto) se refieren a once meses.

229

?? Ao 2002: Los datos de los observatorios de Huesca (Monflorite) y Sevilla


(Aeropuerto) se refieren a once meses.

Horas de Sol
?? Ao 1997: Los datos de los observatorios de San Sebastin (Igueldo), Izaa (Santa
Cruz de Tenerife) y Palmas (Las) (Gando) se refieren a once meses.
?? Ao 1998: Los datos de los observatorios de Almera (Aeropuerto) y Mahn se
refieren a once meses.
?? Ao 1999: Los datos de los observatorios de Corua (A), Lugo (Las Rozas),
Santiago, San Sebastin (Igueldo), Valladolid (Observatorio), Albacete (Los
Llanos), Prat de Llobregat (Aeropuerto), Girona (Costa Brava), Lleida (Observatorio
2), Almera (Aeropuerto) e Izaa (Santa Cruz de Tenerife) se refieren a once meses.
?? Ao 2000: Los datos de los observatorios de Lugo (Las Rozas), Burgos (Villafra),
Albacete (Los Llanos), Sevilla (Aeropuerto) y Mlaga ( Aeropuerto) se refieren a
once meses.
?? Ao 2001: Los datos de los observatorios de Vitoria (Foronda) y Prat de Llobregat
(Aeropuerto) se refieren a once meses.

230

BIBLIOGRAFA

?? Getting Strated with Data Warehouse and Business Intelligence MARIA


SUELI

ALMEIDA,

MISSAO

ISHIKAWA,

JOERG

REINSCHMIDT,

TORSTEN ROEBER IBM Redbooks.


?? Data Warehousing Paper JOHN J. MARTIN IBM Global Services.
?? Business Intelliegence Certification Guide JOERG REINSCHMIDT,
ALLISON FRANCOISE IBM Redbooks.
?? Uso de Intelligent Miner for Data Versin 8. Release 1 IBM 1996-2002.
?? Apuntes de Tcnicas de Inteligencia Artificial MIGUEL ANGEL SANZ
BOBI, JOSE ANGEL OLIVAS Universidad Pontificia de Comillas. 20032004.
?? Fundamentals of DW and Business Intelligence for Knowledge Management
IBM IT Education Services.
?? Data Mining: Concepts and Techniques JIAWEI HAN, MICHELINE
KAMBER Morgan Kaufmann Publishers
?? Anlisis de Componentes Principales Universidad Catlica de la Santsima
Concepcin. Facultad de ingeniera.
?? Intelligent Miner for Data: Enhance your business intelligence JOERG
REINSCHMIDT, HELENA GOTTSCHALK, HOSUNG KIM, DAMIAAN
ZWIETERING IBM Redbooks.

231

Vous aimerez peut-être aussi