DISEÑO DE BASE DE DATOS Operacional vs datawarehouse Data Warehouse Base de Datos Operacional
Datos operacionales Datos del negocio para
Información
Orientado a la aplicación Orientado al sujeto
Actual Actual + histórico
Detallada Detallada + más resumida
Cambia Continuamente Estable
Características de un datawarehouse – orientado al tema Orientado al tema: la información se clasifica en base a los aspectos que son de interés para la empresa. Siendo así, los datos tomados están en contraste con los clásicos procesos orientados a las aplicaciones. En el ambiente operacional por ejemplo, una aplicación de ingreso de órdenes puede acceder a los datos sobre clientes, productos y cuentas. En el ambiente data warehousing se organiza alrededor de sujetos tales como cliente, vendedor, producto y actividad. Características de un datawarehouse – orientado al tema Características de un datawarehouse - integracion El aspecto más importante del ambiente data warehousing es que la información encontrada al interior está siempre integrada. A través de los años, los diseñadores de las diferentes aplicaciones han tomado sus propias decisiones sobre cómo se debería construir una aplicación. Los estilos y diseños personalizados se muestran de muchas maneras. Se diferencian en la codificación, en las estructuras claves, en sus características físicas, en las convenciones de nombramiento y otros. Características de un datawarehouse - integracion Codificación. Los diseñadores de aplicaciones codifican el campo GENERO en varias formas. Un diseñador representa GENERO como una "M" y una "F", otros como un "1" y un "0", otros como una "X" y una "Y" e inclusive, como "masculino" y "femenino". No importa mucho cómo el GENERO llega al data warehouse. Probablemente "M" y "F" sean tan buenas como cualquier otra representación. Lo importante es que sea de cualquier fuente de donde venga, el GENERO debe llegar al data warehouse en un estado integrado uniforme. Características de un datawarehouse - integración Medida de atributos. Los diseñadores de aplicaciones miden las unidades de medida de las tuberías en una variedad de formas. Un diseñador almacena los datos de tuberías en centímetros, otros en pulgadas, otros en millones de pies cúbicos por segundo y otros en yardas. Al dar medidas a los atributos, la transformación traduce las diversas unidades de medida usadas en las diferentes bases de datos para transformarlas en una medida estándar común. Convenciones de Nombramiento. El mismo elemento es frecuentemente referido por nombres diferentes en las diversas aplicaciones. El proceso de transformación asegura que se use preferentemente el nombre de usuario. Características de un datawarehouse - integración Fuentes Múltiples. El mismo elemento puede derivarse desde fuentes múltiples. En este caso, el proceso de transformación debe asegurar que la fuente apropiada sea usada, documentada y movida al depósito. Tal como se muestra en las siguientes figuras, los puntos de integración afectan casi todos los aspectos de diseño - las características físicas de los datos, la disyuntiva de tener más de una de fuente de datos, el problema de estándares de denominación inconsistentes, formatos de fecha inconsistentes y otros. Características de un datawarehouse - integración Características de un datawarehouse – de tiempo variante Toda la información del data warehouse es requerida en algún momento. Esta característica básica de los datos en un depósito, es muy diferente de la información encontrada en el ambiente operacional. Como la información en el data warehouse es solicitada en cualquier momento (es decir, no "ahora mismo"), los datos encontrados en el depósito se llaman de "tiempo variante". Los datos históricos son de poco uso en el procesamiento operacional. La información del depósito por el contraste, debe incluir los datos históricos para usarse en la identificación y evaluación de tendencias. Características de un datawarehouse – de tiempo variante Características de un datawarehouse – no volátil La información es útil sólo cuando es estable. Los datos operacionales cambian sobre una base momento a momento. La perspectiva más grande, esencial para el análisis y la toma de decisiones, requiere una base de datos estable. La actualización (insertar, borrar y modificar), se hace regularmente en el ambiente operacional sobre una base de registro por registro. Pero la manipulación básica de los datos que ocurre en el data warehouse es mucho más simple. Hay dos únicos tipos de operaciones: la carga inicial de datos y el acceso a los mismos. No hay actualización de datos (en el sentido general de actualización) en el depósito, como una parte normal de procesamiento. Características de un datawarehouse – no volátil Características de un datawarehouse – no volátil – factores a considerar Los datos se filtran cuando pasan desde el ambiente operacional al de depósito. Existe mucha data que nunca sale del ambiente operacional. Sólo los datos que realmente se necesitan ingresarán al ambiente de data warehouse. El horizonte de tiempo de los datos es muy diferente de un ambiente al otro. La información en el ambiente operacional es más reciente con respecto a la del data warehouse. Desde la perspectiva de los horizontes de tiempo únicos, hay poca superposición entre los ambientes operacional y de data warehouse. Características de un datawarehouse – no volátil – factores a considerar El data warehouse contiene un resumen de la información que no se encuentra en el ambiente operacional. Los datos experimentan una transformación fundamental cuando pasa al data warehouse. La mayor parte de los datos se alteran significativamente al ser seleccionados y movidos al data warehouse. Dicho de otra manera, la mayoría de los datos se alteran física y radicalmente cuando se mueven al depósito. No es la misma data que reside en el ambiente operacional desde el punto de vista de integración. En vista de estos factores, la redundancia de datos entre los dos ambientes es una ocurrencia rara, que resulta en menos de 1%. Estructura de un datawarehouse Detalle de datos actuales. En gran parte, el interés más importante radica en el detalle de los datos actuales, debido a que: Refleja las ocurrencias más recientes, las cuales son de gran interés Es voluminoso, ya que se almacena al más bajo nivel de granularidad. Casi siempre se almacena en disco, el cual es de fácil acceso, aunque su administración sea costosa y compleja. Estructura de un datawarehouse Detalle de datos antiguos. La data antigua es aquella que se almacena sobre alguna forma de almacenamiento masivo. No es frecuentemente su acceso y se almacena a un nivel de detalle, consistente con los datos detallados actuales. Mientras no sea prioritario el almacenamiento en un medio de almacenaje alterno, a causa del gran volumen de datos unido al acceso no frecuente de los mismos, es poco usual utilizar el disco como medio de almacenamiento. Estructura de un datawarehouse
Datos ligeramente resumidos. La data ligeramente
resumida es aquella que proviene desde un bajo nivel de detalle encontrado al nivel de detalle actual. Este nivel del data warehouse casi siempre se almacena en disco. Los puntos en los que se basa el diseñador para construirlo son: Que la unidad de tiempo se encuentre sobre la esquematización hecha. Qué contenidos (atributos) tendrá la data ligeramente resumida. Datos completamente resumidos. El siguiente nivel de datos encontrado en el data warehouse es el de los datos completamente resumidos. Estos datos son compactos y fácilmente accesibles. metadata Es la información sobre los datos que se alimenta, se transforma y existe en el data warehouse. Metadata es un concepto genérico, pero cada implementación de la metadata usa técnicas y métodos específicos. Típicamente, la metadata incluye los siguientes ítems: Las estructuras de datos que dan una visión de los datos al administrador de datos. Las definiciones del sistema de registro desde el cual se construye el data warehouse. Las especificaciones de transformaciones de datos que ocurren tal como la fuente de datos se replica al data warehouse. Metadata en datawarehouse En el almacenamiento de datos, metadatos contiene las definiciones de los datos (el significado y el origen de cada columna), la definición del propio almacén de datos (en otras palabras, el almacén de datos estructura, los procesos ETL, y la calidad de los datos), la definición de los sistemas relacionados (por ejemplo, los sistemas de fuente), la información de auditoría (lo que los procesos corriendo y cuando se quedaron), y el uso (que los informes y los cubos son utilizados por quién y cuándo). Metadata en datawarehouse Por lo tanto, tenemos siete tipos de metadatos: • Definición de datos y metadatos de mapeo contiene el significado de cada hecho y en la columna de dimensión y donde los datos están viniendo. • Estructura de metadatos de datos describe la estructura de las tablas en cada almacén de datos. • Fuente de metadatos del sistema se describe la estructura de datos de bases de datos del sistema de origen. • Los metadatos proceso de ETL se describe cada flujo de datos en los procesos de ETL. • Metadatos de calidad de los datos se describen las reglas de calidad de datos, sus niveles de riesgo, y sus acciones. • Auditoría de metadatos contiene un registro de los procesos y actividades en el almacén de datos. • El uso de metadatos contiene un registro de eventos de uso de las aplicaciones. Transformación de datos - etl Uno de los desafíos de cualquier implementación de data warehouse, es el problema de transformar los datos. La transformación se encarga de las inconsistencias en los formatos de datos y la codificación, que pueden existir dentro de una base de datos única y que casi siempre existen cuando múltiples bases de datos contribuyen al data warehouse. La transformación de datos también se encarga de las inconsistencias en el contenido de datos. Una vez que se toma la decisión sobre que reglas de transformación serán establecidas, deben crearse e incluirse las definiciones en las rutinas de transformación. Transformación de datos - etl Se requieren herramientas de gestión de datos para extraer datos desde bases de datos y/o archivos operacionales, luego es necesario manipular o transformar los datos antes de cargar los resultados en el data warehouse. Tomar los datos desde varias bases de datos operacionales y transformarlos en datos requeridos para el depósito, se refiere a la transformación o a la integración de datos. Las bases de datos operacionales, diseñadas para el soporte de varias aplicaciones de producción, frecuentemente difieren en el formato. Transformación de datos - etl Diagrama conceptual etl DATOS sucios La limpieza de una data "sucia" es un proceso multifacético y complejo. Los pasos a seguir son los siguientes: 1. Analizar sus datos corporativos para descubrir inexactitudes, anomalías y otros problemas. 2. Transformar los datos para asegurar que sean precisos y coherentes. 3. Asegurar la integridad referencial, que es la capacidad del data warehouse, para identificar correctamente al instante cada objeto del negocio, tales como un producto, un cliente o un empleado. 4. Validar los datos que usa la aplicación del data warehouse Usos del datawarehouse Los datos operacionales y los datos del data warehouse son accedidos por usuarios que usan los datos de maneras diferentes. Uso de Base de Datos Uso de Data Warehouse Operacionales Muchos usuarios concurrentes Pocos usuarios concurrentes
Consultas predefinidas y Consultas complejas,
Actualizables frecuentemente no anticipadas. Cantidades pequeñas de Cantidades grandes de datos datos Detallados detallados Requerimientos de respuesta Requerimientos de respuesta Inmediata no críticos datamart Un data mart es subconjunto de datos del almacén de datos con el propósito de ayudar a que un área o departamento específico pueda tomar mejores decisiones. Los datos existentes en este contexto pueden ser agrupados, explorados y propagados de múltiples maneras para que diferentes grupos de usuarios realicen la explotación de los mismos de la forma más conveniente según sus necesidades. El data mart es un sistema orientado a la consulta, en el que se producen procesos por lotes de carga de datos con una frecuencia conocida y no muy alta. Es consultado mediante herramientas OLAP que ofrecen una percepción multidimensional de la información datamart un data mart dependiente es un subconjunto lógico o un subconjunto físico de un almacén de datos más grande, que se ha apartado por alguna de las siguientes razones: Si se necesita para un esquema o modelo de datos espacial; Prestaciones: para descargar el data mart a una computadora Independiente para mejorar la eficiencia o para obviar las necesidades de administrar todo el volumen del almacén de datos centralizado; Seguridad: para separar un subconjunto de datos de forma selectiva a los que queremos permitir o restringir el acceso; Conveniencia: la de poder pasar por alto las autorizaciones y requerimientos necesarios para poder incorporar una nueva aplicación en el almacén de datos principal de la empresa; Demostración: para demostrar la viabilidad y el potencial de una aplicación antes de migrarla al almacén de datos de la Empresa; Política: cuando se decide una estrategia para las TICs en situaciones en las que un grupo de usuarios tiene más influencia, para determinar si se financia dicha estrategia o descubrir si ésta no sería buena para el almacén de datos centralizado; Política: estrategia para los consumidores de los datos en situaciones en las que un equipo de almacén de datos no está en condiciones de crear un almacén de datos utilizable. Datamining (mineria de datos) El datamining, es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto. Básicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales. Datamaning (mineria de datos) Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior, el proceso común a todos ellos se suele componer de cuatro etapas principales: Determinación de los objetivos. Trata de la delimitación de los objetivos que el cliente desea bajo la orientación del especialista en data mining. Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining. Determinación del modelo. Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial. Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones. Datamining (mineria de datos) Carga de trabajo de un Datamining Extensiones del datamining Web mining Una de las extensiones del data mining consiste en aplicar sus técnicas a documentos y servicios del Web, lo que se llama web mining (minería de web). Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP, navegador, cookies, etc.) que los servidores automáticamente almacenan en una bitácora de accesos (log). Las herramientas de web mining analizan y procesan estos logs para producir información significativa, Por ejemplo, cómo es la navegación de un cliente antes de hacer una compra en línea. Debido a que los contenidos de Internet consisten en varios tipos de datos, como texto, imagen, vídeo, metadatos o hiperligas, investigaciones recientes usan el término multimedia data mining (minería de datos multimedia) como una instancia del web mining para tratar ese tipo de datos. Los accesos totales por dominio, horarios de accesos más frecuentes y visitas por día, entre otros datos, son registrados por herramientas estadísticas que complementan todo el proceso de análisis del web mining. Extensiones del datamining
Text Mining: Estudios recientes indican que el
ochenta por ciento de la información de una compañía está almacenada en forma de documentos. Sin duda, este campo de estudio es muy vasto, por lo que técnicas como la categorización de texto, el procesamiento de lenguaje natural, la extracción y recuperación de la información o el aprendizaje automático, entre otras, apoyan al text mining (minería de texto). bibliografia Data Warehousing - Publicado Originalmente en http://personal.lobocom.es/claudio/gen0 06.htm - Escrito por el profesor Claudio Cesares claudio@lobocom.es Building a Data Warehouse - Vincent Rainardi