Vous êtes sur la page 1sur 4

DATAWAREHOUSE

Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar informacin de
una o ms fuentes distintas, para luego procesarla permitiendo su anlisis desde infinidad de pespectivas y con
grandes velocidades de respuesta. La creacin de un datawarehouse representa en la mayora de las ocasiones el
primer paso, desde el punto de vista tcnico, para implantar una solucin completa y fiable de Business
Intelligence.

La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se almacena la informacin
(modelos de tablas en estrella, en copo de nieve, cubos relacionales... etc). Este tipo de persistencia de la
informacin es homognea y fiable, y permite la consulta y el tratamiento jerarquizado de la misma (siempre en
un entorno diferente a los sistemas operacionales).

El trmino Datawarehouse fue acuado por primera vez por Bill Inmon, y se traduce literalmente como almacn de
datos. No obstante, y como cabe suponer, es mucho ms que eso. Segn defini el propio Bill Inmon, un
datawarehouse se caracteriza por ser:

Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura consistente,
por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas.
La informacin suele estructurarse tambin en distintos niveles de detalle para adecuarse a las distintas
necesidades de los usuarios.

Temtico: slo los datos necesarios para el proceso de generacin del conocimiento del negocio se
integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y
entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser
consolidados en una nica tabla del datawarehouse. De esta forma, las peticiones de informacin sobre
clientes sern ms fciles de responder dado que toda la informacin reside en el mismo lugar.

Histrico: el tiempo es parte implcita de la informacin contenida en un datawarehouse. En los sistemas


operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente.
Por el contrario, la informacin almacenada en el datawarehouse sirve, entre otras cosas, para realizar
anlisis de tendencias. Por lo tanto, el datawarehouse se carga con los distintos valores que toma una
variable en el tiempo para permitir comparaciones.

No voltil: el almacn de informacin de un datawarehouse existe para ser ledo, pero no modificado. La
informacin es por tanto permanente, significando la actualizacin del datawarehouse la incorporacin de
los ltimos valores que tomaron las distintas variables contenidas en l sin ningn tipo de accin sobre lo
que ya exista.

Otra caracterstica del datawarehouse es que contiene metadatos, es decir, datos sobre los datos. Los metadatos
permiten saber la procedencia de la informacin, su periodicidad de refresco, su fiabilidad, forma de clculo... etc.
Los metadatos sern los que permiten simplificar y automatizar la obtencin de la informacin desde los sistemas
operacionales a los sistemas informacionales.

Los objetivos que deben cumplir los metadatos, segn el colectivo al que va dirigido, son:

Dar soporte al usuario final, ayudndole a acceder al datawarehouse con su propio lenguaje de
negocio, indicando qu informacin hay y qu significado tiene. Ayudar a construir consultas, informes y
anlisis, mediante herramientas de Business Intelligence como DSS, EIS o CMI.

Dar soporte a los responsables tcnicos del datawarehouse en aspectos de auditora, gestin de
la informacin histrica, administracin del datawarehouse, elaboracin de programas de extraccin de la
informacin, especificacin de las interfaces para la realimentacin a los sistemas operacionales de los
resultados obtenidos... etc.

Por ltimo, destacar que para comprender ntegramente el concepto de datawarehouse, es importante entender
cual es el proceso de construccin del mismo, denominado ETL (Extraccin, Transformacin y Carga), a partir de
los sistemas operaciones de una compaa:

Extraccin: obtencin de informacin de las distintas fuentes tanto internas como externas.

Transformacin: filtrado, limpieza, depuracin, homogeneizacin y agrupacin de la informacin.

Carga: organizacin y actualizacin de los datos y los metadatos en la base de datos.

Una de las claves del xito en la construccin de un datawarehouse es el desarrollo de forma gradual,
seleccionando a un departamento usuario como piloto y expandiendo progresivamente el almacn de datos a los
dems usuarios. Por ello es importante elegir este usuario inicial o piloto, siendo importante que sea un
departamento con pocos usuarios, en el que la necesidad de este tipo de sistemas es muy alta y se puedan
obtener y medir resultados a corto plazo.

Principales aportaciones de un datawarehouse

Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en
informacin integrada y global del negocio.

Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones ocultas
entre los datos del almacn; obteniendo un valor aadido para el negocio de dicha informacin.

Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos
escenarios.

Simplifica dentro de la empresa la implantacin de sistemas de gestin integral de la relacin con el cliente.
Supone una optimizacin tecnolgica y econmica en entornos de Centro de Informacin, estadstica o de
generacin de informes con retornos de la inversin espectaculares.

MODELO MULTIDIMENSIONAL

El modelo multidimensional dentro del entorno de las bases de datos, es una disciplina de
diseo que se sustenta en el modelo entidad-relacin y en las realidades de la ingeniera de
texto y datos numricos.

Modela las particularidades de los procesos que ocurren en una organizacin, dividindolos
en mediciones y entorno. Las medidas son en su mayora, medidas numricas, y se les
denomina hechos. Alrededor de estos hechos existe un contexto que describe en qu
condiciones y en qu momento se registr este hecho.

Aunque el entorno se ve como un todo, existen registros lgicos de diferentes caractersticas


que describen un hecho, por ejemplo, si el hecho referrido, es la venta de un producto en una
cadena de tiendas, se podra dividir el entorno que rodea al hecho de la cantidad vendida, en
el producto vendido, el cliente que lo compr, la tienda y la fecha en que se realiz la venta. A
estas divisiones se le denomina dimensiones y a diferencia de los hechos que son numricos,
estos son fundamentalmente textos descriptivos.

Las medidas, como se expres anteriormente, se registran en las tablas de hechos, siendo la
llave de esta tabla, la combinacin de las mltiples llaves forneas que hacen referencia a las
dimensiones que describen la ocurrencia de este hecho, en otras palabras, cada una de las
llaves extranjeras en las tablas de hecho se corresponden con la llave primaria de una
dimensin.

TABLAS DE HECHOS
Las tablas de hechos, representan los procesos que ocurren en la organizacin, son
independientes entre s (no se relacionan unas con otras). En estas, se almacenan las
medidas numricas de la organizacin. Cada medida, se corresponde con una interseccin de
valores de las dimensiones y generalmente se trata de cantidades numricas, continuamente
evaluadas y aditivas. La razn de estas caractersticas, es que facilita que los miles de
registros que involucran una consulta, sean comprimidos ms fcilmente y se pueda dar
respuesta con rapidez, a una solicitud que abarque gran cantidad de informacin.

TABLAS DE DIMENSIONES
Una tabla de dimensin contiene, por lo general, una llave simple y un conjunto de atributos
que describen la dimensin. En dependencia del esquema multidimensional que se siga,
pueden existir atributos que representen llaves forneas de otras tablas de dimensin, es
decir, que establecen una relacin de esta tabla con otra dimensin.

Las tablas de dimensin, son las que alimentan a las tablas de hechos, como se expres
anteriormente, la llave de un hecho es la composicin de las llaves de las dimensiones que
estn conectados a esta, por tanto, los atributos que conforman las tablas de dimensiones
tambin describen el hecho.

DIMENSIN TIEMPO
La dimensin ms importante de un Data Warehouse, es la dimensin tiempo. Cada hechos
que se registra en un tabla de hecho, tiene asociada una marca de tiempo, es decir, en qu
momento ocurri este hecho. Esto permite el almacenamiento y anlisis histrico de la
informacin. La insercin de datos, en la base de datos multidimensional, se hace por
intervalos de tiempo, lo cual asegura un orden implcito.

Vous aimerez peut-être aussi