Vous êtes sur la page 1sur 43

La Investigacin en OLAP y Data Warehousing: Pasado, Presente y Futuro

Alejandro Vaisman Universidad de Buenos Aires / Universidad de Chile


avaisman@dc.uba.ar

Jornadas de Data Mining Facultad de Ciencias Exactas y Naturales UBA 29 de Setiembre de 2006
9/29/2006 1

Agenda
Conceptos generales Tpicos de investigacin Pasado y presente Futuro

9/29/2006

Agenda
Conceptos generales Tpicos de investigacin Pasado y presente Futuro

9/29/2006

Definicin
Data Warehousing: almacenamiento, transformacin y distribucin de datos tiles para los responsables de tomar decisiones

9/29/2006

Definicin (cont.)
Un Data Warehouse es una coleccin de datos orientada al negocio, integrada, variante en el tiempo y no voltil para el soporte del proceso de toma de decisiones de la gerencia. W.H. Inmon
9/29/2006 5

Caractersticas
Orientado al Negocio - organiza y presenta los datos desde la perspectiva del usuario. Maneja gran volumen de datos - contiene datos histricos. Almacena informacin sobre diversos medios - a causa del gran volumen que debe manejar.

9/29/2006

Caractersticas(cont.)
Abarca mltiples versiones de un esquema de base de datos - debido a la informacin histrica que contiene. Sumariza y agrega informacin - para presentarla de una manera comprensible para los usuarios. Integra y asocia informacin proveniente de diversas fuentes - datos recolectados durante aos por diversas aplicaciones.
9/29/2006 7

Motivacin

Mercados altamente dinmicos y competitivos. Necesidad de tomar decisiones rpidamente. Aumento de la capacidad de almacenamiento. Crecientes volmenes de informacin disponible. Baja de costos del Hardware.

9/29/2006

OLTP - On Line Transaction Processing Procesamiento de los datos operacionales. Gran nivel de detalle. Sistemas diseados para soportar actualizaciones consistentes (normalizacin). Ineficiente para toma de decisiones. Consultas orientadas a obtener como respuesta unos pocos registros.
9/29/2006 9

OLAP - On Line Analytical Processing


Sistemas que permiten recolectar y organizar la informacin analtica realmente necesaria y disponer inmediatamente de ella en diversos formatos (tablas, grficos, reportes, etc.). Analizan los datos desde diferentes perspectivas (dimensiones) del negocio. Soportan anlisis complejos de grandes volmenes de datos. En consecuencia:
Distintas tecnicas de diseo requeridas (p.ej. desnormalizacin) Distintos mecanismos de procesamiento de consultas (orientados a consultas de agregacin)
9/29/2006 10

OLTP vs. OLAP


OLTP
Usuario Tipico Uso del sistema Interaccion usuarios Unidad de trabajo Caracteristicas Registros accedidos Cant. de usuarios Focalizacion
9/29/2006

OLAP
profesional anlisis ad-hoc consulta lectura millones cientos extraer informacin
11

empleado operacional predeterminada transaccion lectura/escritura decenas miles ABM de datos

Componentes
Fuentes de datos. Sistemas operacionales, informacin externa, etc. Meta Datos. Estructura, definicin y origen de los Datos. Data Warehouse. Datos organizados y herramientas para su anlisis. Usuarios . Responsables de tomar decisiones.

9/29/2006

12

Tres Clases de Data Warehouse


Enterprise Warehouse
Representa la informacin de toda la organizacin

Data Mart
Un subconjunto de la informacin de la organizacin, que es de valor para grupos especficos de usuarios.

Virtual Warehouse
Un conjunto de vistas sobre los datos operacionales Solo unas pocas se materializan
9/29/2006 13

Arquitectura Tpica
Otras Fuentes Metadata

Monitor & Integrador

OLAP Server

BD Transformacin Operacionales Carga


Actualizacin

Extraccin

Data Warehouse

Server

Analysis Consultas Reportes Data mining

Data Marts

Fuentes de datos Almacenamiento de datos


9/29/2006

Motor OLAP

Herramientas Front-End
14

El Modelo Multidimensional
Vista multidimensional del data warehouse => influencia el diseo de la base de datos, las herramientas front-end, y los motores OLAP. Modelo multidimensional de datos: un conjunto de medidas numricas son los objetos de anlisis.
Ej: ventas, beneficios, duracin de llamadas, etc.

Adicionalmente existen, asociadas a las medidas, las dimensiones de anlisis, que proveen el contexto a las medidas, y se describen mediante atributos.
El modelo define una medida como un valor en un espacio multidimensional. Estas medidas pueden tambin representar datos agregados.

Las dimensiones se pueden organizar en jerarquas de agregacin.


15

9/29/2006

Jerarquas Dimensionales
all regin Alemania Europa all ... Amrica del Norte

pas

...

Espaa

Canad

...

Mjico

ciudad oficina Esquema


9/29/2006

Frankfurt

...

Vancouver L. Chan ...

...

Toronto

M. Wind

Instancia
16

Ejemplo de Data Cube


Pr od uc to
TV PC VCR sum 1ertrim 2doQtr

Tiempo
3ertrim 4totrim sum

Ventas totales de TV en U.S.A. U.S.A Canada Mjico sum

9/29/2006

Pas
17

Diseo
El esquema estrella (Kimball, 1995) describe el modelo multidimensional de datos mediante tablas de hechos y tablas de dimensin. Ejemplo: queremos modelar y analizar las ventas a travs de mltiples dimensiones. Tablas de Dimensin: Productos (item_id, marca, tipo), o Tiempo (da, semana, mes, trimestre, ao), Geografa (sucursal, ciudad, region) Tablas de Hechos: contienen medidas (como ventas_totales) y las claves de las tablas de dimensin; ej: Ventas (item_id,da,sucursal,ventas_totales). Variante normalizada: el esquema snowflake. No provee soporte directo a las jerarquias dimensionales

9/29/2006

18

Diseo Fsico: ROLAP vs. MOLAP


El modelo multidimensional es implementado directamente por los llamados servidores MOLAP (Multidimensional OLAP).
Soportan la visin multidimensional de datos mediante un motor de almacenamiento multidimensional, conformado por arrays propietarios. No requieren un mapping entre modelos. Excelente performance; problema: dimensiones esparzas.

Si se utilizan BD relacionales como servidores, el modelo y sus operaciones deben ser mapeados a relaciones y consultas SQL => implementacin ROLAP (Relational OLAP)
Extienden el modelo relacional los servidores relacionales con middleware que soporta consultas multidimensionales. Utilizan diversas tcnicas de materializacin de vistas.

9/29/2006

19

Agenda
Conceptos generales Tpicos de investigacin Pasado y presente Futuro

9/29/2006

20

Tpicos de investigacin
(i) Diseo y modelado
Distintos modelos multidimensionales
Modelos relacionales y multidimensionales (ROLAP/MOLAP)

Formas normales / constraints Metodologas Mapeo de modelos (ER - Star Schema)

9/29/2006

21

Tpicos de investigacin (cont.)


(ii) Procesamiento de consultas
Optimizacin tradicional
Materializacin de vistas
Materializacin total vs. Seleccin de vistas materializadas

Indexacin
Indices multidimensionales Indices Bitmap Star-Join, etc.

Optimizacin avanzada
Range queries Iceberg queries Cube Caching Procesamiento paralelo

9/29/2006

22

Tpicos de investigacin (cont.)


(iii) Integracin de datos Integracin de datos de distintas fuentes Aspectos tericos
LAV GAV - GLAV

Mediadores, wrappers Resolucin de conflictos

9/29/2006

23

Tpicos de investigacin (cont.)


(iv) Mantenimiento del Data Warehouse Mantenimiento de vistas materialzadas Minimizacin del tiempo de updates
Propagacin y refresco Mantenimiento incremental

Mantenimiento on-line (distintas versiones simultneas) Updates


Dimensiones Fact tables

9/29/2006

24

Tpicos de investigacin (cont.)


(v) Miscelneas
Privacidad y seguridad de la informacin en OLAP
Premisa: permitir el anlisis, manteniendo la privacidad de la informacin

Visualizacin en OLAP Calidad de datos OLAP en sistemas de informacin geogrfica (GIS)


Agregacin de regiones Agregacin de medidas combinadas con consultas sobre geometras Top-k queries

OLAP y dispositivos moviles


Modelado Procesamiento de consultas

9/29/2006

25

Tpicos de investigacin (cont.)


(vi) Modelos avanzados
Temporal OLAP
Mantenimiento de la historia del DW Evolucin de esquemas vs. versionado de esquemas

OLAP en arquitecturas P2P OLAP & XML


Anlisis OLAP para datos XML Web Warehousing
Considerar la Web como un gran repositorio de informacin. Aplicar tcnicas OLAP al sitio Web de la organizacin. Publicar el DW en la Web.

9/29/2006

26

Agenda
Conceptos generales Tpicos de investigacin Pasado y presente Futuro

9/29/2006

27

Pasado y Presente
Principios de los 90 Inmon define data warehousing Inters desde el mundo empresario Inters desde los proveedores de software Tema casi ignorado en el mundo acadmico Aparecen los primeros problemas comunes a los DBMSs tradicionales:
Integracin de fuentes heterogneas Vistas materializadas Resolver eficientemente consultas que incluyen agregacin de datos
9/29/2006 28

Pasado y Presente (cont.)


1995, ao clave Comienzo del proyecto de DW de Stanford
Desarrollo de algoritmos y herramientas eficientes para integracin de informacin desde fuentes heterogneas

Creciente interes desde el mundo acadmico


Aparecen workshops y conferencias dedicadas al tema Papers en las conferencias ms importantes (SIGMOD, VLDB, ICDE, EDBT)

Comienzan a surgir herramientas comerciales especializadas

9/29/2006

29

Pasado y Presente (cont.)


1995, ao clave Paper de J. Widom en CIKM95: Research Problems in Data Warehousing
Identifica una serie de problemas: Deteccin de cambios (refresco incremental de datos) Mantenimiento de vistas materializadas (summary tables) El proceso de ETL (Extraction, Transformation and Loading) Optimizacin Diseo Evolucin

9/29/2006

30

Pasado y Presente (cont.)


Entre 1995 y 1999...
Modelado Agrawal, Gupta, Sarawagi, Modeling Multidimensional Databases. IBM Research Center, Almaden, 1995. Cabibbo & Torlone, Querying Multidimensional Databases, DBPL 1997; A Logical Approach to Multidimensional Databases, EDBT 1998 (mapping ERStar Schema). M. Gyssens & L.V.S. Lakshmanan, A foundation for multi-dimensional databases, VLDB 1997. (basado en el MR) Gray et al. Data Cube: A Relational Aggregation Operator Generalizing Group-By, Cross-Tab, and Sub-Totals, Journal of Data Mining & Knowledge Discovery, 1997.

9/29/2006

31

Pasado y Presente (cont.)


Entre 1995 y 1999...
Query processing & Indexing V. Harinarayan, A. Rajaraman, J.D. Ullman, Implementing Data Cubes Efficiently, SIGMOD 1996. S. Agarwal, R. Agrawal, P.M. Deshpande, A. Gupta, J.F. Naughton, R. Ramakrishnan, S. Sarawagi, On the Computation of Multidimensional Aggregates, VLDB 1996. H. Gupta, Selection of Views to Materialize in a Data Warehouse, ICDT 1997. Y. Zhao, P.M. Deshpande, J.F. Naughton, An Array-Based Algorithm for Simultaneous Multidimensional Aggregates, SIGMOD 1997. H. Gupta, V. Harinarayan, A. Rajaraman, J. Ullman, Index Selection for OLAP, ICDE 1997. S. Sarawagi, Indexing OLAP Data, IEEE Data Engineering Bulletin, 1997. Wu & Buchmann, Encoded Bitmap Indexing for Data Warehouses, ICDE 1998.
9/29/2006 32

Pasado y Presente (cont.)


Entre 1995 y 1999...
Mantenimiento Y. Zhuge, H. Garcia-Molina, J. Hammer, J. Widom, View Maintenance in a Warehousing Environment, SIGMOD 1995. I.S. Mumick, Quass, B.S. Mumick, Maintenance of data cubes and summary tables in a warehouse, SIGMOD 1997. D. Quass and J. Widom, On-Line Warehouse View Maintenance for Batch Updates, SIGMOD 1997. Labio, Yerneni, Garcia-Molina, Shrinking the Warehouse Update Window, SIGMOD 1999. Hurtado, Mendelzon, Vaisman, Maintaining Data Cubes under Dimension Updates, ICDE 1999.

9/29/2006

33

Pasado y Presente (cont.)


Hacia fines del siglo XX...
Contina el inters de la comunidad cientfica Se consolida el nmero de herramientas comerciales Se desarrollan (sobre todo a nivel internacional) una gran cantidad de implementaciones.

9/29/2006

34

Pasado y Presente (cont.)


Hacia fines del siglo XX...
Paper de Vassiliadis en DMDW 2000: Gulliver in the land of Data Warehousing: Practical Experiences and Observations of a Researcher
Detecta un gap significativo entre investigacin e industria
Investigadores no conocen los problemas reales Empresas no interesadas en los resultados de las investigaciones

20 papers por ao en VLDB, PODS, SIGMOD


Temas: optimizacin, seleccin de vistas materializadas, integracin de datos

Problemas:

9/29/2006

Falta de metodologas de diseo y desarrollo Falta de standards para metadatos Falta de soluciones para ETL Dificultad para estimar el tamao de las vistas
35

Pasado y Presente (cont.)


Donde estamos hoy?
Menos investigacin en DW & OLAP, NO indica que todo est resuelto Entre 2000 y 2006, actividad centrada en workshops y conferencias especializadas (DOLAP, DMDW, DaWaK)
Mendelzon & Vaisman, Temporal Queries in OLAP, VLDB 2000. Andreas Bauer, Wolfgang Hmmer, Wolfgang Lehner, and Lutz Schlesinger, A Decathlon in Multidimensional Modelling: Open Issues and Some Solutions, DaWaK 2002. Veronika Peralta & Raul Ruggia, Using Design Guidelines to Improve Data Warehouse Logical Design, DMDW 2003. Dong Xin, Jiawei Han, Xiaolei Li, and Benjamin W. Wah, Star-Cubing: Computing Iceberg Cubes by Top-Down and Bottom-Up Integration, VLDB, 2003. S.Chen, B. Liu, E.Rundensteiner, Multiversion Based View Maintenance Over Distributed Data Sources, ACM TODS 2004. B. Shah, K. Ramachandran, V. Raghavan, H. Gupta, A Hybrid Approach for Data Warehouse View Selection, International Journal of Data Warehousing and Mining, 2006.

9/29/2006

36

Pasado y Presente (cont.)


Que estamos haciendo en la FCEyN?
Temporal OLAP: TOLAP / TOLAP en la Web
Vaisman, Ktenas, Izquierdo, A Web-based Architecture for Temporal OLAP, IJWET special issue on Data Warehousing in Web, Mobile, And Wireless Environments, 2006. Vaisman, Ktenas, Izquierdo, Web-enabled Temporal OLAP, LA-Web 2006.

P2P OLAP Requerimientos, calidad de datos


Data Quality-Based Requirements Elicitation for Decision Support Systems, en: Data Warehouses and OLAP: Concepts, Architectures and Solutions, Cap. 7., 2006. Alejandro A. Vaisman: Requirements Elicitation for Decision Support Systems: A Data Quality Approach, ICEIS 2006. Proyecto en calidad de datos en DW con la Universidad de la Republica, Uruguay.

OLAP & GIS


Proyecto PICT Cooperacin bilateral SECyT-FWO, con la Universidad de Hasselt, Blgica

9/29/2006

37

Pasado y Presente (cont.)


Donde estamos hoy? Arquitecturas Modelado, requerimientos, calidad OLAP Lenguajes de consulta / procesamiento Optimizacin y tunning Indexing, DW fsico

9/29/2006

38

Agenda
Conceptos generales Tpicos de investigacin Pasado y presente Futuro

9/29/2006

39

Futuro
Temas abiertos Diseadores
Metodologas standard y utilizables para: Requerimientos Modelizacin Integracin de fuentes de datos Esquemas de documentacin integrados

9/29/2006

40

Futuro (cont.)
Temas abiertos Usuarios
Documentacin, descripciones de alto nivel para comprender mejor la informacin como un activo Metadatos Standard de interoperabilidad en arquitecturas federativas Calidad de datos Falta de un enfoque comn para evaluar la calidad de los datos Evolucin

9/29/2006

41

Futuro (cont.)
Temas abiertos Herramientas
Integracin de fuentes. Diseo
Herramientas CASE especializadas

Herramientas de documentacin
Requerimientos Modelizacin Integracin de fuentes de datos

Evolucin
Herramientas que soporten naturalmente versionado y evolucin
9/29/2006 42

Futuro (cont.)

Preguntas?

9/29/2006

43

Vous aimerez peut-être aussi