OPERACIONAL VS DATAWAREHOUSE Base de Datos Operacional Data Warehouse
Datos operacionales Datos del negocio para Informacin
Orientado a la aplicacin Orientado al sujeto
Actual Actual + histrico
Detallada Detallada + ms resumida
Cambia Continuamente Estable
CARACTERSTICAS DE UN DATAWAREHOUSE ORIENTADO AL TEMA Orientado al tema: la informacin se clasifica en base a los aspectos que son de inters para la empresa. Siendo as, los datos tomados estn en contraste con los clsicos procesos orientados a las aplicaciones. En el ambiente operacional por ejemplo, una aplicacin de ingreso de rdenes puede acceder a los datos sobre clientes, productos y cuentas. En el ambiente data warehousing se organiza alrededor de sujetos tales como cliente, vendedor, producto y actividad. CARACTERSTICAS DE UN DATAWAREHOUSE ORIENTADO AL TEMA CARACTERSTICAS DE UN DATAWAREHOUSE - INTEGRACION El aspecto ms importante del ambiente data warehousing es que la informacin encontrada al interior est siempre integrada. A travs de los aos, los diseadores de las diferentes aplicaciones han tomado sus propias decisiones sobre cmo se debera construir una aplicacin. Los estilos y diseos personalizados se muestran de muchas maneras. Se diferencian en la codificacin, en las estructuras claves, en sus caractersticas fsicas, en las convenciones de nombramiento y otros. CARACTERSTICAS DE UN DATAWAREHOUSE - INTEGRACION Codificacin. Los diseadores de aplicaciones codifican el campo GENERO en varias formas. Un diseador representa GENERO como una "M" y una "F", otros como un "1" y un "0", otros como una "X" y una "Y" e inclusive, como "masculino" y "femenino". No importa mucho cmo el GENERO llega al data warehouse. Probablemente "M" y "F" sean tan buenas como cualquier otra representacin. Lo importante es que sea de cualquier fuente de donde venga, el GENERO debe llegar al data warehouse en un estado integrado uniforme. CARACTERSTICAS DE UN DATAWAREHOUSE - INTEGRACIN Medida de atributos. Los diseadores de aplicaciones miden las unidades de medida de las tuberas en una variedad de formas. Un diseador almacena los datos de tuberas en centmetros, otros en pulgadas, otros en millones de pies cbicos por segundo y otros en yardas. Al dar medidas a los atributos, la transformacin traduce las diversas unidades de medida usadas en las diferentes bases de datos para transformarlas en una medida estndar comn. Convenciones de Nombramiento. El mismo elemento es frecuentemente referido por nombres diferentes en las diversas aplicaciones. El proceso de transformacin asegura que se use preferentemente el nombre de usuario. CARACTERSTICAS DE UN DATAWAREHOUSE - INTEGRACIN Fuentes Mltiples. El mismo elemento puede derivarse desde fuentes mltiples. En este caso, el proceso de transformacin debe asegurar que la fuente apropiada sea usada, documentada y movida al depsito. Tal como se muestra en las siguientes figuras, los puntos de integracin afectan casi todos los aspectos de diseo - las caractersticas fsicas de los datos, la disyuntiva de tener ms de una de fuente de datos, el problema de estndares de denominacin inconsistentes, formatos de fecha inconsistentes y otros. CARACTERSTICAS DE UN DATAWAREHOUSE - INTEGRACIN CARACTERSTICAS DE UN DATAWAREHOUSE DE TIEMPO VARIANTE Toda la informacin del data warehouse es requerida en algn momento. Esta caracterstica bsica de los datos en un depsito, es muy diferente de la informacin encontrada en el ambiente operacional. Como la informacin en el data warehouse es solicitada en cualquier momento (es decir, no "ahora mismo"), los datos encontrados en el depsito se llaman de "tiempo variante". Los datos histricos son de poco uso en el procesamiento operacional. La informacin del depsito por el contraste, debe incluir los datos histricos para usarse en la identificacin y evaluacin de tendencias. CARACTERSTICAS DE UN DATAWAREHOUSE DE TIEMPO VARIANTE CARACTERSTICAS DE UN DATAWAREHOUSE NO VOLTIL La informacin es til slo cuando es estable. Los datos operacionales cambian sobre una base momento a momento. La perspectiva ms grande, esencial para el anlisis y la toma de decisiones, requiere una base de datos estable. La actualizacin (insertar, borrar y modificar), se hace regularmente en el ambiente operacional sobre una base de registro por registro. Pero la manipulacin bsica de los datos que ocurre en el data warehouse es mucho ms simple. Hay dos nicos tipos de operaciones: la carga inicial de datos y el acceso a los mismos. No hay actualizacin de datos (en el sentido general de actualizacin) en el depsito, como una parte normal de procesamiento. CARACTERSTICAS DE UN DATAWAREHOUSE NO VOLTIL CARACTERSTICAS DE UN DATAWAREHOUSE NO VOLTIL FACTORES A CONSIDERAR Los datos se filtran cuando pasan desde el ambiente operacional al de depsito. Existe mucha data que nunca sale del ambiente operacional. Slo los datos que realmente se necesitan ingresarn al ambiente de data warehouse. El horizonte de tiempo de los datos es muy diferente de un ambiente al otro. La informacin en el ambiente operacional es ms reciente con respecto a la del data warehouse. Desde la perspectiva de los horizontes de tiempo nicos, hay poca superposicin entre los ambientes operacional y de data warehouse. CARACTERSTICAS DE UN DATAWAREHOUSE NO VOLTIL FACTORES A CONSIDERAR El data warehouse contiene un resumen de la informacin que no se encuentra en el ambiente operacional. Los datos experimentan una transformacin fundamental cuando pasa al data warehouse. La mayor parte de los datos se alteran significativamente al ser seleccionados y movidos al data warehouse. Dicho de otra manera, la mayora de los datos se alteran fsica y radicalmente cuando se mueven al depsito. No es la misma data que reside en el ambiente operacional desde el punto de vista de integracin. En vista de estos factores, la redundancia de datos entre los dos ambientes es una ocurrencia rara, que resulta en menos de 1%. ESTRUCTURA DE UN DATAWAREHOUSE Detalle de datos actuales. En gran parte, el inters ms importante radica en el detalle de los datos actuales, debido a que: Refleja las ocurrencias ms recientes, las cuales son de gran inters Es voluminoso, ya que se almacena al ms bajo nivel de granularidad. Casi siempre se almacena en disco, el cual es de fcil acceso, aunque su administracin sea costosa y compleja. ESTRUCTURA DE UN DATAWAREHOUSE Detalle de datos antiguos. La data antigua es aquella que se almacena sobre alguna forma de almacenamiento masivo. No es frecuentemente su acceso y se almacena a un nivel de detalle, consistente con los datos detallados actuales. Mientras no sea prioritario el almacenamiento en un medio de almacenaje alterno, a causa del gran volumen de datos unido al acceso no frecuente de los mismos, es poco usual utilizar el disco como medio de almacenamiento. ESTRUCTURA DE UN DATAWAREHOUSE Datos ligeramente resumidos. La data ligeramente resumida es aquella que proviene desde un bajo nivel de detalle encontrado al nivel de detalle actual. Este nivel del data warehouse casi siempre se almacena en disco. Los puntos en los que se basa el diseador para construirlo son: Que la unidad de tiempo se encuentre sobre la esquematizacin hecha. Qu contenidos (atributos) tendr la data ligeramente resumida. Datos completamente resumidos. El siguiente nivel de datos encontrado en el data warehouse es el de los datos completamente resumidos. Estos datos son compactos y fcilmente accesibles. METADATA Es la informacin sobre los datos que se alimenta, se transforma y existe en el data warehouse. Metadata es un concepto genrico, pero cada implementacin de la metadata usa tcnicas y mtodos especficos. Tpicamente, la metadata incluye los siguientes tems: Las estructuras de datos que dan una visin de los datos al administrador de datos. Las definiciones del sistema de registro desde el cual se construye el data warehouse. Las especificaciones de transformaciones de datos que ocurren tal como la fuente de datos se replica al data warehouse. METADATA EN DATAWAREHOUSE En el almacenamiento de datos, metadatos contiene las definiciones de los datos (el significado y el origen de cada columna), la definicin del propio almacn de datos (en otras palabras, el almacn de datos estructura, los procesos ETL, y la calidad de los datos), la definicin de los sistemas relacionados (por ejemplo, los sistemas de fuente), la informacin de auditora (lo que los procesos corriendo y cuando se quedaron), y el uso (que los informes y los cubos son utilizados por quin y cundo). METADATA EN DATAWAREHOUSE Por lo tanto, tenemos siete tipos de metadatos: Definicin de datos y metadatos de mapeo contiene el significado de cada hecho y en la columna de dimensin y donde los datos estn viniendo. Estructura de metadatos de datos describe la estructura de las tablas en cada almacn de datos. Fuente de metadatos del sistema se describe la estructura de datos de bases de datos del sistema de origen. Los metadatos proceso de ETL se describe cada flujo de datos en los procesos de ETL. Metadatos de calidad de los datos se describen las reglas de calidad de datos, sus niveles de riesgo, y sus acciones. Auditora de metadatos contiene un registro de los procesos y actividades en el almacn de datos. El uso de metadatos contiene un registro de eventos de uso de las aplicaciones. TRANSFORMACIN DE DATOS - ETL Uno de los desafos de cualquier implementacin de data warehouse, es el problema de transformar los datos. La transformacin se encarga de las inconsistencias en los formatos de datos y la codificacin, que pueden existir dentro de una base de datos nica y que casi siempre existen cuando mltiples bases de datos contribuyen al data warehouse. La transformacin de datos tambin se encarga de las inconsistencias en el contenido de datos. Una vez que se toma la decisin sobre que reglas de transformacin sern establecidas, deben crearse e incluirse las definiciones en las rutinas de transformacin. TRANSFORMACIN DE DATOS - ETL Se requieren herramientas de gestin de datos para extraer datos desde bases de datos y/o archivos operacionales, luego es necesario manipular o transformar los datos antes de cargar los resultados en el data warehouse. Tomar los datos desde varias bases de datos operacionales y transformarlos en datos requeridos para el depsito, se refiere a la transformacin o a la integracin de datos. Las bases de datos operacionales, diseadas para el soporte de varias aplicaciones de produccin, frecuentemente difieren en el formato. TRANSFORMACIN DE DATOS - ETL DIAGRAMA CONCEPTUAL ETL DATOS SUCIOS La limpieza de una data "sucia" es un proceso multifactico y complejo. Los pasos a seguir son los siguientes: 1. Analizar sus datos corporativos para descubrir inexactitudes, anomalas y otros problemas. 2. Transformar los datos para asegurar que sean precisos y coherentes. 3. Asegurar la integridad referencial, que es la capacidad del data warehouse, para identificar correctamente al instante cada objeto del negocio, tales como un producto, un cliente o un empleado. 4. Validar los datos que usa la aplicacin del data warehouse USOS DEL DATAWAREHOUSE
Los datos operacionales y los datos del data
warehouse son accedidos por usuarios que usan los datos de maneras diferentes. Uso de Base de Datos Uso de Data Warehouse Operacionales Muchos usuarios concurrentes Pocos usuarios concurrentes
Consultas predefinidas y Consultas complejas,
Actualizables frecuentemente no anticipadas. Cantidades pequeas de datos Cantidades grandes de datos Detallados detallados Requerimientos de respuesta Requerimientos de respuesta no Inmediata crticos DATAMART Un data mart es subconjunto de datos del almacn de datos con el propsito de ayudar a que un rea o departamento especfico pueda tomar mejores decisiones. Los datos existentes en este contexto pueden ser agrupados, explorados y propagados de mltiples maneras para que diferentes grupos de usuarios realicen la explotacin de los mismos de la forma ms conveniente segn sus necesidades. El data mart es un sistema orientado a la consulta, en el que se producen procesos por lotes de carga de datos con una frecuencia conocida y no muy alta. Es consultado mediante herramientas OLAP que ofrecen una percepcin multidimensional de la informacin DATAMART un data mart dependiente es un subconjunto lgico o un subconjunto fsico de un almacn de datos ms grande, que se ha apartado por alguna de las siguientes razones: Si se necesita para un esquema o modelo de datos espacial; Prestaciones: para descargar el data mart a una computadora Independiente para mejorar la eficiencia o para obviar las necesidades de administrar todo el volumen del almacn de datos centralizado; Seguridad: para separar un subconjunto de datos de forma selectiva a los que queremos permitir o restringir el acceso; Conveniencia: la de poder pasar por alto las autorizaciones y requerimientos necesarios para poder incorporar una nueva aplicacin en el almacn de datos principal de la empresa; Demostracin: para demostrar la viabilidad y el potencial de una aplicacin antes de migrarla al almacn de datos de la Empresa; Poltica: cuando se decide una estrategia para las TICs en situaciones en las que un grupo de usuarios tiene ms influencia, para determinar si se financia dicha estrategia o descubrir si sta no sera buena para el almacn de datos centralizado; Poltica: estrategia para los consumidores de los datos en situaciones en las que un equipo de almacn de datos no est en condiciones de crear un almacn de datos utilizable. DATAMINING (MINERIA DE DATOS) El datamining, es el conjunto de tcnicas y tecnologas que permiten explorar grandes bases de datos, de manera automtica o semiautomtica, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto. Bsicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prcticas estadsticas y, en algunos casos, de algoritmos de bsqueda prximos a la Inteligencia Artificial y a las redes neuronales. DATAMANING (MINERIA DE DATOS) Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior, el proceso comn a todos ellos se suele componer de cuatro etapas principales: Determinacin de los objetivos. Trata de la delimitacin de los objetivos que el cliente desea bajo la orientacin del especialista en data mining. Preprocesamiento de los datos. Se refiere a la seleccin, la limpieza, el enriquecimiento, la reduccin y la transformacin de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining. Determinacin del modelo. Se comienza realizando unos anlisis estadsticos de los datos, y despus se lleva a cabo una visualizacin grfica de los mismos para tener una primera aproximacin. Segn los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes reas de la Inteligencia Artificial. Anlisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los anlisis estadsticos y de visualizacin grfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones. DATAMINING (MINERIA DE DATOS) Carga de trabajo de un Datamining EXTENSIONES DEL DATAMINING Web mining Una de las extensiones del data mining consiste en aplicar sus tcnicas a documentos y servicios del Web, lo que se llama web mining (minera de web). Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP, navegador, cookies, etc.) que los servidores automticamente almacenan en una bitcora de accesos (log). Las herramientas de web mining analizan y procesan estos logs para producir informacin significativa, Por ejemplo, cmo es la navegacin de un cliente antes de hacer una compra en lnea. Debido a que los contenidos de Internet consisten en varios tipos de datos, como texto, imagen, vdeo, metadatos o hiperligas, investigaciones recientes usan el trmino multimedia data mining (minera de datos multimedia) como una instancia del web mining para tratar ese tipo de datos. Los accesos totales por dominio, horarios de accesos ms frecuentes y visitas por da, entre otros datos, son registrados por herramientas estadsticas que complementan todo el proceso de anlisis del web mining. EXTENSIONES DEL DATAMINING Text Mining: Estudios recientes indican que el ochenta por ciento de la informacin de una compaa est almacenada en forma de documentos. Sin duda, este campo de estudio es muy vasto, por lo que tcnicas como la categorizacin de texto, el procesamiento de lenguaje natural, la extraccin y recuperacin de la informacin o el aprendizaje automtico, entre otras, apoyan al text mining (minera de texto). BIBLIOGRAFIA
Data Warehousing - Publicado Originalmente
en http://personal.lobocom.es/claudio/gen006.ht m - Escrito por el profesor Claudio Cesares claudio@lobocom.es Building a Data Warehouse - Vincent Rainardi