Académique Documents
Professionnel Documents
Culture Documents
Jornadas de Data Mining Facultad de Ciencias Exactas y Naturales UBA 29 de Setiembre de 2006
9/29/2006 1
Agenda
Conceptos generales Tpicos de investigacin Pasado y presente Futuro
9/29/2006
Agenda
Conceptos generales Tpicos de investigacin Pasado y presente Futuro
9/29/2006
Definicin
Data Warehousing: almacenamiento, transformacin y distribucin de datos tiles para los responsables de tomar decisiones
9/29/2006
Definicin (cont.)
Un Data Warehouse es una coleccin de datos orientada al negocio, integrada, variante en el tiempo y no voltil para el soporte del proceso de toma de decisiones de la gerencia. W.H. Inmon
9/29/2006 5
Caractersticas
Orientado al Negocio - organiza y presenta los datos desde la perspectiva del usuario. Maneja gran volumen de datos - contiene datos histricos. Almacena informacin sobre diversos medios - a causa del gran volumen que debe manejar.
9/29/2006
Caractersticas(cont.)
Abarca mltiples versiones de un esquema de base de datos - debido a la informacin histrica que contiene. Sumariza y agrega informacin - para presentarla de una manera comprensible para los usuarios. Integra y asocia informacin proveniente de diversas fuentes - datos recolectados durante aos por diversas aplicaciones.
9/29/2006 7
Motivacin
Mercados altamente dinmicos y competitivos. Necesidad de tomar decisiones rpidamente. Aumento de la capacidad de almacenamiento. Crecientes volmenes de informacin disponible. Baja de costos del Hardware.
9/29/2006
OLTP - On Line Transaction Processing Procesamiento de los datos operacionales. Gran nivel de detalle. Sistemas diseados para soportar actualizaciones consistentes (normalizacin). Ineficiente para toma de decisiones. Consultas orientadas a obtener como respuesta unos pocos registros.
9/29/2006 9
OLAP
profesional anlisis ad-hoc consulta lectura millones cientos extraer informacin
11
Componentes
Fuentes de datos. Sistemas operacionales, informacin externa, etc. Meta Datos. Estructura, definicin y origen de los Datos. Data Warehouse. Datos organizados y herramientas para su anlisis. Usuarios . Responsables de tomar decisiones.
9/29/2006
12
Data Mart
Un subconjunto de la informacin de la organizacin, que es de valor para grupos especficos de usuarios.
Virtual Warehouse
Un conjunto de vistas sobre los datos operacionales Solo unas pocas se materializan
9/29/2006 13
Arquitectura Tpica
Otras Fuentes Metadata
OLAP Server
Extraccin
Data Warehouse
Server
Data Marts
Motor OLAP
Herramientas Front-End
14
El Modelo Multidimensional
Vista multidimensional del data warehouse => influencia el diseo de la base de datos, las herramientas front-end, y los motores OLAP. Modelo multidimensional de datos: un conjunto de medidas numricas son los objetos de anlisis.
Ej: ventas, beneficios, duracin de llamadas, etc.
Adicionalmente existen, asociadas a las medidas, las dimensiones de anlisis, que proveen el contexto a las medidas, y se describen mediante atributos.
El modelo define una medida como un valor en un espacio multidimensional. Estas medidas pueden tambin representar datos agregados.
9/29/2006
Jerarquas Dimensionales
all regin Alemania Europa all ... Amrica del Norte
pas
...
Espaa
Canad
...
Mjico
Frankfurt
...
...
Toronto
M. Wind
Instancia
16
Tiempo
3ertrim 4totrim sum
9/29/2006
Pas
17
Diseo
El esquema estrella (Kimball, 1995) describe el modelo multidimensional de datos mediante tablas de hechos y tablas de dimensin. Ejemplo: queremos modelar y analizar las ventas a travs de mltiples dimensiones. Tablas de Dimensin: Productos (item_id, marca, tipo), o Tiempo (da, semana, mes, trimestre, ao), Geografa (sucursal, ciudad, region) Tablas de Hechos: contienen medidas (como ventas_totales) y las claves de las tablas de dimensin; ej: Ventas (item_id,da,sucursal,ventas_totales). Variante normalizada: el esquema snowflake. No provee soporte directo a las jerarquias dimensionales
9/29/2006
18
Si se utilizan BD relacionales como servidores, el modelo y sus operaciones deben ser mapeados a relaciones y consultas SQL => implementacin ROLAP (Relational OLAP)
Extienden el modelo relacional los servidores relacionales con middleware que soporta consultas multidimensionales. Utilizan diversas tcnicas de materializacin de vistas.
9/29/2006
19
Agenda
Conceptos generales Tpicos de investigacin Pasado y presente Futuro
9/29/2006
20
Tpicos de investigacin
(i) Diseo y modelado
Distintos modelos multidimensionales
Modelos relacionales y multidimensionales (ROLAP/MOLAP)
9/29/2006
21
Indexacin
Indices multidimensionales Indices Bitmap Star-Join, etc.
Optimizacin avanzada
Range queries Iceberg queries Cube Caching Procesamiento paralelo
9/29/2006
22
9/29/2006
23
9/29/2006
24
9/29/2006
25
9/29/2006
26
Agenda
Conceptos generales Tpicos de investigacin Pasado y presente Futuro
9/29/2006
27
Pasado y Presente
Principios de los 90 Inmon define data warehousing Inters desde el mundo empresario Inters desde los proveedores de software Tema casi ignorado en el mundo acadmico Aparecen los primeros problemas comunes a los DBMSs tradicionales:
Integracin de fuentes heterogneas Vistas materializadas Resolver eficientemente consultas que incluyen agregacin de datos
9/29/2006 28
9/29/2006
29
9/29/2006
30
9/29/2006
31
9/29/2006
33
9/29/2006
34
Problemas:
9/29/2006
Falta de metodologas de diseo y desarrollo Falta de standards para metadatos Falta de soluciones para ETL Dificultad para estimar el tamao de las vistas
35
9/29/2006
36
9/29/2006
37
9/29/2006
38
Agenda
Conceptos generales Tpicos de investigacin Pasado y presente Futuro
9/29/2006
39
Futuro
Temas abiertos Diseadores
Metodologas standard y utilizables para: Requerimientos Modelizacin Integracin de fuentes de datos Esquemas de documentacin integrados
9/29/2006
40
Futuro (cont.)
Temas abiertos Usuarios
Documentacin, descripciones de alto nivel para comprender mejor la informacin como un activo Metadatos Standard de interoperabilidad en arquitecturas federativas Calidad de datos Falta de un enfoque comn para evaluar la calidad de los datos Evolucin
9/29/2006
41
Futuro (cont.)
Temas abiertos Herramientas
Integracin de fuentes. Diseo
Herramientas CASE especializadas
Herramientas de documentacin
Requerimientos Modelizacin Integracin de fuentes de datos
Evolucin
Herramientas que soporten naturalmente versionado y evolucin
9/29/2006 42
Futuro (cont.)
Preguntas?
9/29/2006
43