Académique Documents
Professionnel Documents
Culture Documents
Introduccin[editar]
La propuesta de Codd consista en realizar una disposicin de los datos en vectores para
permitir un anlisis rpido. Estos vectores son llamados cubos. Disponer los datos en cubos
evita una limitacin de las bases de datos relacionales, que no son muy adecuadas para el
anlisis instantneo de grandes cantidades de datos. Las bases de datos relacionales son
ms adecuados para registrar datos provenientes de transacciones (conocido comoOLTP o
procesamiento de transacciones en lnea). Aunque existen muchas herramientas de
generacin de informes para bases de datos relacionales, stas son lentas cuando debe
explorarse toda la base de datos.
Por ejemplo, una empresa podra analizar algunos datos financieros por producto, por
perodo, por ciudad, por tipo de ingresos y de gastos, y mediante la comparacin de los datos
reales con un presupuesto. Estosparmetros en funcin de los cuales se analizan los datos se
conocen como dimensiones. Para acceder a los datos slo es necesario indexarlos a partir
de los valores de las dimensiones o ejes.
El almacenar fsicamente los datos de esta forma tiene sus pros y sus contras. Por ejemplo,
en estas bases de datos las consultas de seleccin son muy rpidas (de hecho, casi
instantneas). Pero uno de los problemas ms grandes de esta forma de almacenamiento es
que una vez poblada la base de datos sta no puede recibir cambios en su estructura. Para
ello sera necesario redisear el cubo.
En un sistema OLAP puede haber ms de tres dimensiones, por lo que a
los cubos OLAP tambin reciben el nombre de hipercubos. Las herramientas comerciales
Un ejemplo[editar]
Un analista financiero podra querer ver los datos de diversas formas, por ejemplo,
visualizndolos en funcin de todas las ciudades (que podran figurar en el eje de abscisas) y
todos los productos (en el eje de ordenadas), y esto podra ser para un perodo determinado,
para la versin y el tipo de gastos. Despus de haber visto los datos de esta forma particular
el analista podra entonces querer ver los datos de otra manera y poder hacerlo de forma
inmediata. El cubo podra adoptar una nueva orientacin para que los datos aparezcan ahora
en funcin de los perodos y el tipo de coste. Debido a que esta reorientacin implica resumir
una cantidad muy grande de datos, esta nueva vista de los datos se debe generar de manera
eficiente para no malgastar el tiempo del analista, es decir, en cuestin de segundos, en lugar
de las horas que seran necesarias en una base de datos relacional convencional.
Dimensiones y jerarquas[editar]
Cada una de las dimensiones de un cubo OLAP puede resumirse mediante una jerarqua.
Por ejemplo si se considera una escala (o dimensin) temporal "Mayo de 2005" se puede
incluir en "Segundo Trimestre de 2005", que a su vez se incluye en "Ao 2005". De igual
manera, otra dimensin de un cubo que refleje una situacin geogrfica, las ciudades se
pueden incluir en regiones, pases o regiones mundiales; los productos podran clasificarse
por categoras, y las partidas de gastos podran agruparse en tipos de gastos. En cambio, el
analista podra comenzar en un nivel muy resumido, como por ejemplo el total de la diferencia
entre los resultados reales y lo presupuestado, para posteriormente descender en el cubo (en
sus jerarquas) para poder observar con un mayor nivel de detalle que le permita descubrir en
el cubo los lugares en los que se ha producido esta diferencia, segn los productos y
perodos.
Los atributos X, Y, Z se corresponden con los ejes del cubo, mientras que el valor
de W devuelto por cada tripleta (X, Y, Z) se corresponde con el dato o elemento que se
rellena en cada celda del cubo.
Debido a que los dispositivos de salida (monitores, impresoras, ...) slo cuentan con dos
dimensiones, no pueden caracterizar fcilmente cuatro dimensiones, es ms prctico
proyectar "rebanadas" o secciones de los datos del cubo (se dice proyectar en el sentido
clsico vector-analtico de reduccin dimensional, no en el sentido de SQL, aunque los
dos conceptos son claramente anlogos), tales como la expresin:
W : (X,Y) W
Aunque no se conserve la clave del cubo (al faltar el parmetro Z), puede tener algn
significado semntico, sin embargo, tambin puede que una seccin de la
representacin funcional con tres parmetros para un determinado valor de Z tambin
resulte de inters.
La motivacin que hay tras OLAP vuelve a mostrar de nuevo el paradigma de
los informes de tablas cruzadas de los sistema de gestin de base de datos de los 80.
Se puede desear una visualizacin al estilo de una hoja de clculo, donde los valores
de X se encuentran en la fila $1, los valores de Y aparecen en la columna $A, y los
valores de W: (X,Y) W se encuentran en las celdas individuales a partir de la
celda $B2 y desde ah, hacia abajo y hacia la derecha. Si bien se puede utilizar
el Lenguaje de Manipulacin de Datos (o DML) de SQL para mostrar las
tuplas (X,Y,W), este formato de salida no es tan deseable como la alternativa
de tablas cruzadas. El primer mtodo requiere que se realice una bsqueda lineal
para cada par (X,Y) dado, para determinar el correspondiente valor de W, mientras
que el segundo permite realizar una bsqueda ms convenientemente permitiendo
localizar el valor W en la interseccin de la columna X apropiada con la
fila Y correspondiente.
Se ha desarrollado el lenguaje MDX (MultiDimensional eXpressions o expresiones
multidimensionales) para poder expresar problemas OLAP de forma fcil. Aunque es
posible traducir algunas de sus sentencias a SQLtradicional, con frecuencia se
requieren expresiones SQL poco claras incluso para las sentencias ms simples
del MDX. Este lenguaje ha sido acogido por la gran mayora de los proveedores de
OLAP y se ha convertido en norma de hecho para estos sistemas.