Vous êtes sur la page 1sur 19

1

Clase No. 1 Introduccin al Data Warehousing.



Tabla de contenido
Contenido
Introduccin ........................................................................................................................................ 2
1. ASPECTOS TERICOS ....................................................................................................................... 3
1.1 INTRODUCCION AL CONCEPTO DATA WAREHOUSING ............................................................. 3
1.2 Problemas que dan origen a un Data WareHouse. ......................................................... 3
1.3 Beneficios asociados al Data WareHouse ....................................................................... 3
1.4 Diferentes tipos de informacin ..................................................................................... 4
1.5 Sistemas de Soporte de Decisiones ..................................................................................... 4
1.6 Arquitectura Data Warehouse ............................................................................................ 5
1.6.3 Fuentes de datos ......................................................................................................... 5
1.6.4 Extraccin, transformacin y carga (ETL) .................................................................... 5
1.6.5 Ambiente Data Warehouse ......................................................................................... 7
1.6.6 Data Mart .................................................................................................................... 7
1.6.7 Herramientas de acceso y uso .................................................................................... 7
1.6.8 Metadatos ................................................................................................................... 7
1.7 Business Intelligence ........................................................................................................... 8
1.7.1 Datos, informacin, conocimiento .............................................................................. 8
1.8 Modelado de Datos ........................................................................................................... 11
1.8.1 El modelo relacional ............................................................................................... 11
1.8.3 Diagrama en Estrella ................................................................................................. 14


2


Introduccin
En la actualidad, el dinmico mundo de los negocios plantea la necesidad de disponer de
un acceso rpido y sencillo a informacin para la toma de decisiones. Dicha informacin
debe estar estructurada y elaborada de acuerdo a parmetros de calidad, a fin de
posibilitar una adaptacin gil y precisa a las fluctuaciones del ambiente externo.
Las empresas disponen, para la gestin de sus procesos de negocio, de sistemas
transaccionales corporativos que manejan enormes cantidades de datos, organizados de
forma tal que puedan ser utilizados por las aplicaciones operacionales existentes. Los
niveles gerenciales necesitan a menudo tomar decisiones de alto nivel, cruciales para el
funcionamiento de la empresa. Frecuentemente se basan en su experiencia, utilizando un
enfoque subjetivo del proceso decisorio. Este enfoque no es apto para las condiciones del
mundo actual en el que los sistemas de gestin de calidad vigentes han demostrado la
importancia de la toma de decisiones basada en cifras, datos y hechos.
El Data Warehouse permite que los gerentes tomen decisiones siguiendo un enfoque
racional, basados en informacin confiable y oportuna. Consiste bsicamente en la
transformacin de los datos operacionales en informacin til para decidir. El uso del Data
Warehouse permite tambin encontrar relaciones ocultas entre los datos y predecir el
comportamiento futuro bajo condiciones dadas.
La filosofa de trabajo del Data Warehouse es diferente a la de los sistemas
transaccionales. Se modelan los datos a partir de dimensiones, en lugar del tradicional
modelado relacional, y las herramientas de acceso a los datos se basan en una tecnologa
de procesamiento analtico, distinta al procesamiento transaccional de los sistemas
operacionales.
Los datos operacionales que sirven de entrada al Data Warehouse generalmente estn
dispersos en distintos sistemas de la organizacin, desarrollados en diferentes entornos
de desarrollo, por diferentes personas y en diferentes momentos. Es tarea fundamental
del Data Warehouse recolectarlos, unificarlos y depurarlos segn las necesidades del
negocio, eliminando inconsistencias y conservando slo la informacin til para los
objetivos empresariales. Esto se lleva a cabo mediante procesos que se ejecutan
peridicamente y conducen a mantener la informacin actualizada.
Los datos dentro de un ambiente Data Warehouse pueden organizarse en un Data
Warehouse corporativo, o dividirse por rea o sector departamental, almacenndose en
Data Marts, que son similares a una versin reducida de un Data Warehouse. Otra de las
caractersticas particulares de un Data Warehouse es la importancia que presentan los
metadatos, o datos acerca de los datos, considerados en todas las etapas de su desarrollo.
Las aplicaciones de usuario final que acceden al Data Warehouse brindan a los gerentes la
posibilidad de ver la informacin a diferentes niveles de agregacin (detallados o
resumidos) y filtrar las consultas por distintas variables.
Finalmente, el Data Warehouse permite aplicar herramientas como el Data Mining, para
encontrar relaciones entre los datos a fin de comprender las causas de variabilidad
presentes y realizar pronsticos con el apoyo de modelos estadsticos.
3

1. ASPECTOS TERICOS
1.1 INTRODUCCION AL CONCEPTO DATA WAREHOUSING
Se puede caracterizar un data warehouse haciendo un contraste de cmo los datos de un
negocio almacenados en un data warehouse, difieren de los datos operacionales usados
por las aplicaciones de produccin.

1.2 Problemas que dan origen a un Data WareHouse.
Los Data Warehouse surgen por los siguientes problemas:
Falta de integracin de la informacin. Muchos de los datos de que disponen las
empresas se encuentra en diversos almacenes de datos porque han evolucionado como
sistemas independientes, en diferentes lenguajes, desarrollados por diferentes personas y
en diferentes momentos. Estos almacenes de datos son incapaces de ofrecer a la empresa
una visin consolidada ya que no poseen vinculacin entre ellos.
Sobrecarga de informacin. En las ltimas dcadas, los sistemas operacionales han
producido una gran cantidad de datos, los que son difciles de analizar para tomar
decisiones de negocio. A pesar de las grandes sumas invertidas en tecnologa de la
informacin, los distintos departamentos dentro de las empresas todava carecen de
herramientas para explorar esos datos de una manera gil y eficaz.
Exceso de informacin genrica y despersonalizada. Por lo general, los informes
producidos por un sistema operacional contienen una gran cantidad de datos. Sin
embargo, ofrecen muy poca informacin que ayude a la toma de decisiones. Estos
informes no tienen la capacidad de adaptarse a las necesidades actuales de los usuarios, y
carecen de informacin personalizada y/o relevante para los distintos perfiles que existen
en un negocio.
Falta de retroalimentacin oportuna para la mejora de los negocios. En las
organizaciones, los ejecutivos trabajan hacindose preguntas e imaginando posibles
situaciones futuras. Los resultados obtenidos de esa labor generarn a su vez ms
preguntas y el planteo de nuevas situaciones repitiendo el ciclo hasta conseguir los
fundamentos para tomar una decisin. Con el uso de los sistemas operacionales, este
proceso se hace dificultoso, sino imposible, al no tener posibilidad de generar informes
adaptados a las necesidades del momento.
1.3 Beneficios asociados al Data WareHouse
Las ventajas competitivas en una empresa, al permitir el desempeo de tareas que
utilizando los sistemas tradicionales sufriran un costo adicional, por ejemplo:
Mejor servicio al cliente. Lo dicho en el punto anterior implica una importante mejora en
la calidad de gestin, lo que tambin repercute en la relacin con el cliente. De hecho, el
que un Data Warehouse implique una mayor flexibilidad ante el entorno tiene una
consecuencia directa en una mayor capacidad para responder a las necesidades de los
clientes.
4

Rediseo de procesos. Ofrecer a los usuarios una capacidad de anlisis de la
informacin de su negocio que tiende a ser ilimitada y permite con frecuencia obtener una
visin ms profunda y clara de los procesos de negocio propiamente dichos, lo que a su
vez permite obtener ideas renovadoras para el rediseo de los mismos.
1.4 Diferentes tipos de informacin
El ingreso de datos en el data warehouse viene desde el ambiente operacional en casi
todos los casos. El data warehouse es siempre un almacn de datos transformados y
separados fsicamente de la aplicacin donde se encontraron los datos en el ambiente
operacional.
El proceso automatizado de un negocio utiliza datos operacionales, los que constituyen el
conjunto de registros de las transacciones del negocio. Estos datos son creados durante la
ejecucin de estos procesos y son almacenados en un archivo o en una base de datos.
Lo que el usuario del negocio necesita como entrada a sus actividades de anlisis son
datos informativos. Estos son una combinacin de datos operacionales que han sido
modificados, depurados, transformados, consolidados y organizados desde diversas
fuentes externas al proceso del negocio. Este tipo de informacin generalmente es
especfico para un conjunto de usuarios del negocio que lo hacen significante y til para
su anlisis.
Ambos tipos de datos y ambos tipos de uso son muy importantes, pero es difcil cumplir
con ambos propsitos en el mismo sistema.
En el siguiente cuadro se muestran las diferencias entre los datos operacionales y los
datos informativos.

Datos Operacionales
Orientados a una aplicacin
Integracin limitada
Constantemente actualizados
Slo valores actuales
Soportan operaciones diarias

Datos Informativos
Orientados a un tema
Integrados
No voltiles
Valores a lo largo del tiempo
Soportan decisiones de administracin
1.5 Sistemas de Soporte de Decisiones
En el proceso de tomar decisiones hay dos partes en general: tener los datos y obtener
respuestas de los datos.
Un Sistema de Soporte de Decisiones (SSD) puede ser definido de una manera general
como un sistema de computacin diseado para apoyar al proceso de toma de decisiones
(de planeamiento, de administracin y operacionales) en un negocio.
Este tipo de Sistema contiene todos los servicios o procesos para elegir, manipular y
analizar datos informativos y presentar los resultados. Debera brindar acceso
transparente a los datos en varias partes del Data Warehouse y proveer de interfaces
comunes a un grupo de usuarios de la organizacin. Fundamentalmente, un Sistema de
Soporte de Decisiones constituye la ventana del usuario a los datos informativos
almacenados en el Data Warehouse.
5

1.6 Arquitectura Data Warehouse
Poder transformar los datos en conocimiento es un proceso complejo. Un Data Warehouse
es mucho ms que simplemente copiar datos de un lugar a otro, de los sistemas
operacionales a una base de datos informativa independiente. Un Data Warehouse es, en
primer lugar, una arquitectura que debe servir como infraestructura para proporcionar
una solucin completa a los problemas que le dieron origen. La arquitectura de un Data
Warehouse se representa en la Figura



1.6.3 Fuentes de datos
Este componente es el que normalmente est presente originariamente en las
organizaciones, y a partir del cual se realiza la captura de datos que se contemplar en el
Data Warehouse. Estas fuentes de datos pueden ser sistemas operacionales corporativos
(representan el entorno del que se obtienen la mayor parte de los datos significativos de
la operativa diaria de la compaa), sistemas operacionales departamentales y fuentes
externas como copias de respaldo, planillas de clculo, archivos planos, reportes de la
empresa, resultados de investigaciones de mercado, etc.

1.6.4 Extraccin, transformacin y carga (ETL)
Para poblar el Data Warehouse se deben mover bloques de datos, muchas veces desde
diferentes sistemas operativos, estructuras de archivos y bases de datos, mediante
procesos programados que se ejecutan frecuentemente fuera del horario de trabajo para
no insumir tiempo de procesamiento del hardware de la empresa, entorpeciendo la
operatoria de la misma.
6

Los subsistemas para poblar el Data Warehouse se pueden construir utilizando
herramientas y productos disponibles en el mercado, programas y procesos codificados
desde cero, o combinaciones de estos elementos.
Al construir los sistemas para poblar el Data Warehouse, se debe considerar la posibilidad
de que estos permitan regular el crecimiento evolutivo del Data Warehouse, brindando
escalabilidad y soporte para grandes cantidades de datos y consultas complejas. Se
pueden encontrar dificultades adicionales dependiendo de las fuentes de datos que se
tengan disponibles, que implican el uso de diferentes herramientas y tecnologas para
acceder a cada uno de ellos.

1.6.4.1 Extraccin (Extraction)
El propsito principal de la fase de extraccin es capturar y copiar los datos requeridos de
uno o ms sistemas operacionales o fuentes de datos. Los datos que se extraen son
colocados en un archivo intermedio con un formato definido, que luego ser utilizado por
la siguiente fase del proceso.
Los registros que sean rechazados en el proceso deben ser registrados en un archivo o log
de rechazos para que puedan ser analizados posteriormente y as tener la posibilidad de
cargarlos en el Data Warehouse correctamente. Adems, esto permite descubrir los
errores que han ocurrido en los procesos de creacin de los datos operacionales. Ejemplos
de estos errores son violaciones de integridad, claves duplicadas, formatos de datos
incorrectos y datos invlidos como campos vacos, fechas futuras e importes negativos
cuando estos no correspondan. En nuestro Caso: nmeros telefnicos invlidos,
estndares no respetados, llamadas duplicadas y campos nulos.
Hay que tener en cuenta que despus de la fase inicial de carga del Data Warehouse slo
es necesario cargar los datos nuevos y que han sido modificados.

1.6.4.2 Transformacin (Transformation)
Las funciones bsicas a ser realizadas en esta fase consisten en leer los archivos
intermedios generados por la fase de extraccin, realizar las transformaciones necesarias,
construir los registros en el formato del Data Warehouse y crear un archivo de salida
conteniendo todos los registros nuevos a ser cargados en el Data Warehouse. La mayor
parte del trabajo en esta fase involucra el efectuar las transformaciones necesarias. Estas
transformaciones incluyen:
Combinar campos mltiples de nombres y apellidos en un solo campo.
Fusionar campos o datos homnimos.
Separar un campo de fecha en campos de ao, mes y da.
Cambiar la representacin de los datos, como TRUE (verdadero) a 1, y FALSE (falso) a 0,
o cdigos postales numricos a alfanumricos, respetando los estndares de la empresa.
Cambiar un dato que tiene mltiples representaciones a una sola representacin, como
por ejemplo definir un formato comn para nmeros telefnicos, o establecer un trmino
comn para los nombres de los campos o los valores de los datos que sean sinnimos.

7

1.6.5 Ambiente Data Warehouse
Es el bloque donde se almacenan los datos informativos, utilizado principalmente para
usos estratgicos. No obstante, existen herramientas que no hacen uso de este bloque,
realizando las consultas multidimensionales directamente sobre la base operacional. En
este caso se puede pensar en el Data Warehouse simplemente como una vista lgica o
virtual de datos.

1.6.6 Data Mart
Un Data Mart es una implementacin de un Data Warehouse con un determinado alcance
de informacin y un soporte limitado para procesos analticos, que sirve a un slo
departamento de una organizacin o para el anlisis de problemas de un tema particular.
El Data Warehouse es el resultado de la unin de los Data Marts de la empresa.

1.6.7 Herramientas de acceso y uso
Sin las herramientas adecuadas de acceso y anlisis el Data Warehouse se puede convertir
en una mezcla de datos sin ninguna utilidad. Es necesario poseer tcnicas que capturen
los datos importantes de manera rpida y puedan ser analizados desde diferentes puntos
de vista.
Tambin deben transformar los datos capturados en informacin til para el negocio.
Actualmente a este tipo de herramientas se las conocen como Herramientas de
Inteligencia de Negocio (Business Intelligence Tools, BIT) y estn situadas
conceptualmente sobre el Data Warehouse. Cada usuario final debe seleccionar la
herramienta que mejor se ajusta a sus necesidades y a su Data Warehouse. Entre ellas
podemos citar las Consultas SQL (Structured Query Language), las Herramientas MDA
(Multidimensional Analysis), OLAP (On-Line Analytical Processing) y las herramientas Data
Mining.
Este bloque tambin incluye el hardware y software involucrados en mostrar la
informacin en pantalla y emitir reportes de impresin, hojas de clculo, grficos y
diagramas para el anlisis y presentacin.

1.6.8 Metadatos
Los metadatos son datos acerca de los datos. En una base de datos los metadatos son la
representacin de los diversos objetos que definen una base de datos, por ejemplo,
ubicacin y descripcin de base de datos, tablas, nombres y resmenes. Tambin
podemos mencionar las descripciones lgicas y fsicas de tablas, columnas y atributos.

Uno de los problemas con el que pueden encontrarse los usuarios de un Data Warehouse
es saber lo que hay en l y cmo pueden acceder a lo que quieren. A fin de proveer el
acceso a los datos universales, es absolutamente necesario mantener los metadatos.



8

1.7 Business Intelligence
Business Intelligence es la habilidad para transformar los datos en informacin, y la
informacin en conocimiento, de forma que se pueda optimizar el proceso de toma de
decisiones en los negocios.
Desde un punto de vista ms pragmtico, y asocindolo directamente con las tecnologas
de la informacin, podemos definir Business Intelligence como el conjunto de
metodologas, aplicaciones y tecnologas que permiten reunir, depurar y transformar datos
de los sistemas transaccionales e informacin desestructurada (interna y externa a la
compaa) en informacin estructurada, para su explotacin directa (reporting, cubos
OLAP, alertas...) o para su anlisis y conversin en conocimiento, dando as soporte a la
toma de decisiones sobre el negocio.
1.7.1 Datos, informacin, conocimiento
En qu se diferencia el conocimiento de los datos y de la informacin? En una
conversacin informal, los tres trminos suelen utilizarse indistintamente y esto puede
llevar a una interpretacin libre del concepto de conocimiento. Quizs la forma ms
sencilla de diferenciar los trminos sea pensar que los datos estn localizados en el mundo
y el conocimiento est localizado en agentes de cualquier tipo (personas, empresas,
mquinas...), mientras que la informacin adopta un papel mediador entre ambos.

1.7.2 Datos

Los datos son la mnima unidad semntica, y se corresponden con elementos primarios de
informacin que por s solos son irrelevantes como apoyo a la toma de decisiones.
Tambin se pueden ver como un conjunto discreto de valores, que no dicen nada sobre el
por qu de las cosas y no son orientativos para la accin.
9

Un nmero telefnico o un nombre de una persona, por ejemplo, son datos que, sin un
propsito, una utilidad o un contexto no sirven como base para apoyar la toma de una
decisin. Los datos pueden ser una coleccin de hechos almacenados en algn lugar fsico
como un papel, un dispositivo electrnico (CD, DVD, disco duro...), o la mente de una
persona. En este sentido las tecnologas de la informacin han aportado mucho a
recopilacin de datos.
Como cabe suponer, los datos pueden provenir de fuentes externas o internas a la
organizacin, pudiendo ser de carcter objetivo o subjetivo, o de tipo cualitativo o
cuantitativo, etc.
1.7.3 Informacin

La informacin se puede definir como un conjunto de datos procesados y que tienen un
significado (relevancia, propsito y contexto), y que por lo tanto son de utilidad para quin
debe tomar decisiones, al disminuir su incertidumbre. Los datos se pueden transforman en
informacin aadindoles valor:
Contextualizando: se sabe en qu contexto y para qu propsito se generaron.
Categorizando: se conocen las unidades de medida que ayudan a interpretarlos.
Calculando: los datos pueden haber sido procesados matemtica o
estadsticamente.
Corrigiendo: se han eliminado errores e inconsistencias de los datos.
Condensando: los datos se han podido resumir de forma ms concisa
(agregacin).
Por tanto, la informacin es la comunicacin de conocimientos o inteligencia, y es capaz
de cambiar la forma en que el receptor percibe algo, impactando sobre sus juicios de valor
y sus comportamientos.
Informacin = Datos + Contexto (aadir valor) + Utilidad (disminuir la incertidumbre)
1.7.4 Conocimiento

El conocimiento es una mezcla de experiencia, valores, informacin y know-how que sirve
como marco para la incorporacin de nuevas experiencias e informacin, y es til para la
accin. Se origina y aplica en la mente de los conocedores. En las organizaciones con
frecuencia no slo se encuentra dentro de documentos o almacenes de datos, sino que
tambin esta en rutinas organizativas, procesos, prcticas, y normas.
El conocimiento se deriva de la informacin, as como la informacin se deriva de los
datos. Para que la informacin se convierta en conocimiento es necesario realizar acciones
como:
10

Comparacin con otros elementos.
Prediccin de consecuencias.
Bsqueda de conexiones.
Conversacin con otros portadores de conocimiento.


11

1.8 Modelado de Datos
Para comprender uno de los aspectos ms relevantes de la arquitectura del Data
Warehouse, como es el modelado de datos, es necesario establecer primero las
diferencias sustanciales entre los dos mundos de modelado existentes: entidad-relacin
(ER) y dimensional.
El modelado entidad-relacin se utiliza habitualmente para crear un nico modelo
complejo de todos los procesos de una organizacin. Este enfoque ha demostrado ser
efectivo para crear sistemas eficientes de procesamiento transaccional en lnea (OLTP).
Por otra parte, el modelado dimensional crea modelos individuales para reflejar procesos
discretos de negocio. Este modelado organiza la informacin en estructuras que
usualmente corresponden a la forma en que los analistas realizan sus consultas de los
datos del Data Warehouse.

1.8.1 El modelo relacional
En la mayora de los sistemas transaccionales el objetivo del modelo es garantizar la
integridad de los datos, adems de eliminar cualquier tipo de redundancia en los datos.
Este enfoque es perfecto para los entornos de procesamiento transaccional, porque las
transacciones son muy simples y deterministas. El xito del procesamiento transaccional
en un entorno de bases de datos relacionales se debe bsicamente a esta disciplina de
modelado.





Sin embargo, para el propsito de un Data Warehouse, el modelo relacional (ER) presenta
los siguientes problemas:
12

Legibilidad limitada. Los usuarios finales no son capaces de entender el modelo ER. Por
tanto, no pueden navegar por dicho modelo en busca de informacin.
Dificultad para las herramientas de consulta en el acceso a un modelo ER general.
Las herramientas de consulta a menudo poseen prestaciones mediocres o inaceptables
cuando se trabaja en entornos relacionales de grandes volmenes de informacin.
La utilizacin de la tcnica de modelado ER frustra el principal atractivo del Data
Warehouse. Al utilizar el modelado ER queda frustrada la recuperacin de informacin
intuitiva y con alto rendimiento.
1.8.2 El modelo de Hechos Dimensionales (DFM)
El anlisis de los datos en un tiempo finito, ha trado consigo estudios sobre la mejor
forma de almacenar y representar estos datos para que puedan ser consultados de una
forma ms rpida. El modelado dimensional es una tcnica de diseo lgico que busca
presentar la informacin en un marco estndar e intuitivo que permita un acceso de alto
rendimiento. Este modelado se vale de los principios de la disciplina que emplea el modelo
relacional con algunas importantes restricciones.
El modelado dimensional es esencialmente til para resumir y organizar los datos y la
presentacin de informacin para soportar el anlisis de la misma. Existen algunos
conceptos bsicos para comprender la filosofa de este tipo de modelado:
reas temas
medidas
dimensiones
hechos
Un rea tema como es una cuestin de inters de una funcin empresarial. Las reas
tema en conjunto constituyen el mbito de implementacin del Data Warehouse. Por
ejemplo, el departamento de Comercializacin de una empresa puede estar interesado en
las reas tema de Pedidos, Promociones, Mercados y Ventas.
El uso del Modelo Multidimensional se basa en el estudio de los eventos del negocio
analizados desde sus distintas dimensiones. As:
Definicin 1: Llamamos evento o Hecho a una operacin que se realiza en el negocio en
un tiempo determinado. Son objeto de anlisis para la toma de decisiones. Se epresentan
en una caja con su nombre y las medidas que lo caracterizan. (Robert Wrembel &
Christian Concilia, 2007)

13



Figura: Representacin grfica de un Hecho y sus dimensiones
Los Hechos estn estrechamente relacionados con el tiempo. Los eventos que son
estticos no tiene objetivo de anlisis para este modelo, aunque son muy pocos los
hechos que no ocurren con determinada periodicidad en un negocio. Los hechos estn
caracterizados por medidas numricas como se muestra en el ejemplo de la figura: la
cantidad, el precio unitario, el descuento, etc, son las medidas del Hecho (VENTA).
Nota: Fjese que el producto que se vende, su costo y la fecha de la venta no son
caractersticas de esta como lo podran ser en cualquier diseo relacional. En este caso,
esos seran dimensiones de ese Hecho, por las que, puede ser analizado ms adelante.
Definicin 2: Una Medida es una propiedad de un Hecho (casi siempre numrica), que
es usada para su anlisis. (Robert Wrembel & Christian Concilia, 2007)
Nota: Un hecho puede no poseer ninguna medida. En ese caso se dice que el Hecho es
vaco y solo se usa para contar la aparicin de este en el tiempo.
Definicin3: Una Dimensin es una caracterstica de un hecho que permite su anlisis
posterior, en el proceso de toma de decisiones. (Robert Wrembel & Christian Concilia,
2007)
Nota: Un hecho debe estar relacionado al menos con una dimensin: "El tiempo".
Es un inters del negocio tomar decisiones sobre los hechos que ocurren en este, pero
para esto se necesita su anlisis. Por ejemplo Las ventas en la semana antes del 14 de
Febrero, puede ser un objeto de anlisis para un negocio comercial. Para esto se necesita
tener el Hecho Ventas analizado en la dimensin Tiempo. En este caso en los Das:
7 <= d <= 14.
14

Si se quisiera saber que productos fueron los ms vendidos en esos das entonces
tendramos que adicionar una nueva dimensin de anlisis, Producto. As adicionando
dimensiones a nuestro estudio se pudieran llegar a conclusiones sobre si el siguiente ao
en esa poca debera comprarse ms objetos de un producto o menos de otro. Elemento
este muy importante para la futura estrategia de la empresa.
Definicin 4: En una empresa pueden existir varios hechos que sean analizados por
dimensiones iguales. En este caso se les llama a estas dimensiones: Dimensiones
Compartidas. (Robert Wrembel & Christian Concilia, 2007). Un ejemplo de esto es El
Hecho Ventas puede ser analizado en las dimensiones Tiempo y Producto. Lo mismo
ocurre con el Hecho Compras.
Las dimensiones deben ser atmicas y las relaciones entre estas crean jerarquas que
permiten un anlisis jerrquico de los datos. Un ejemplo de esto es el Tiempo, que es
dividido en tres dimensiones. Da, Mes y Ao. Cada uno es una dimensin distinta, pero
relacionadas jerrquicamente en una relacin de 1 a muchos, que permite el anlisis del
Hecho, por das, meses o aos, o la combinacin de ellos. Esto da al traste con las
acostumbradas (OLTP) que manejan el Tiempo como una propiedad de una entidad, y lo
tratan como un todo. Por lo que, como podemos inferir de aqu: en muchos casos har
falta convertir las bases de datos de estos sistemas a la nueva filosofa. SQL Server tiene
facilidades para esto llamadas DTS (Data Transformation Services del Integration
Services) que permite leer datos desde cualquier SGBDR que posea un driver ODBC,
OLEDB, o ADO de Microsoft.

1.8.3 Diagrama en Estrella
Uno de los tipos de consultas ms usadas en las OLAP es la llamada Estrella. Su nombre lo
adquiere debido a que su implementacin en un ambiente relacional (MOLAP
Multidimentional Online Analitical Processing) est dado por varias tablas que almacenan
las jerarquas dimensionales y una tabla que contiene el hecho con una relacin 1:m con
estas tablas de dimensiones. Veamos un ejemplo grfico:
15


Figura : Diagrama en estrella del Hecho, Ventas.
Como podemos ver en la figura las tablas de dimensiones estn ligadas a la tabla Hecho,
por relaciones. La integridad referencial es llevada a cabo por la creacin de llaves
forneas en la tabla Hecho, que a su ves forman parte de la llave principal de la esta
tabla. Es importante destacar que las jerarquas completas son guardadas en una sola
tabla dimensin. Este es el formato no normalizado, existe otro formato que intenta
normalizar estas tablas dimensin. Ejemplo (Time_Dim). Cada tabla dimensin tiene su
propia llave que es mantenida por el sistema Data Warehouse. A estas llaves se les llama
"Surrogate Key". Las llaves Surrogate J errquicas, no son ms que una codificacin de
cada elemento de la jerarqua almacenado en la tabla dimensin. Veamos en la figura de
cmo se logran estas llaves.

Figura : Formacin de una llave Surrogate Jerrquica (Robert Wrembel & Christian Concilia, 200)
16

Vamos a ver ahora como sera una consulta sobre este tipo de diagrama en estrella:


Figura : Plantilla de consulta para una consulta en estrella (ad hoc star query)
(Robert Wrembel & Christian Concilia, 2007)

Nota: En la figura las D1, D2, .. , Dk significan tablas de dimensin y los LP1, LP2, ,LPk
son los predicados usados para simplificar la consulta. El ejemplo siguiente muestra mejor
como sera esta consulta: (Robert Wrembel & Christian Concilia, 2007)

En este tipo de procesamiento el mayor de los problemas es el super join que se crea al
procesar las tablas de dimensiones con los datos de la tabla Hecho, para esto se han
hecho varios estudios sobre la mejor forma de hacer este tipo de consultas de forma que
sean lo ms ptimas posibles, una de las tcnicas mejores probadas es la de reescribir la
consulta como lo muestra el siguiente ejemplo que mostramos:
Ejemplo: Optimizar la consulta en el Data Warehouse (Robert Wrembel & Christian
Concilia, 2007)
17


1.8.4 Cubos de datos
Estos no son ms que el conjunto formado por todas las tablas Dimensin y la tabla Hecho
que al final dan una vista en forma de Cubo cuyas celdas estn compuestas por las
medidas de la tabla Hecho. Esta es la base de las aplicaciones OLAP. El cubo de datos es
lo que hace que los reportes sean obtenidos con un bajo tiempo de respuesta y que el
anlisis de los datos pueda ser tan diverso, pues cada cara del cubo se refiere a un
anlisis distinto de las medidas almacenadas. Veamos el ejemplo grfico del cubo:

Figura : Cubo de datos (Microsoft Books Online, 2000)
18

Como podemos ver en el ejemplo la cantidad de produccin puede ser analizada por
producto, teniendo en cuenta la dimensin Producto, Por Tiempo, por Localizacin de
las Industrias o en su conjunto por todas ellas a la vez o cualquier combinacin de estas.
Esto le da al analista o al sistema experto una amplia gama de posibilidades de las cuales
puede tomar ventaja. En nuestro caso de estudio de las ventas. El cubo de datos formado
por la Tabla Sales_Fac en conjunto con las restantes tablas de Dimensin nos permite
analizar las ventas por Empleado, por Consumidor, por Tiempo, Etc.

19

Cuestionario
1. Qu son los Data Warehouse?
2. Cul fueron la problemticas en las Tecnologas de la Informacin que le dan
origen?
3. Cules son las partes constructivas del Data WareHouse?. Definir cada una.
4. Dnde puede ubicar a un Data WareHouse en la Inteligencia de Negocios?
5. Ejemplifique un hecho multidimensional a partir de un pequeo esquema relacional.
Situ llaves Surrogate y diagrame el cubo resultante.

Vous aimerez peut-être aussi