Académique Documents
Professionnel Documents
Culture Documents
Business Intelligence
software que le posibilita a los usuarios la obtencin de informaciones corporativas mas fcilmente. El software BI debe permitir que sean derivadas las transacciones y sumarios que el usuario necesite, sin que se precise conocer cuales son las fuentes de esos datos
Retrospectivo Esttico
RDBMS SQL
Retrospectivo Dinmico
Prospectivo. Proactivo
Data Warehouse
El objetivo de los DWs (almacenamiento de datos) es almacenar los datos oriundos de los diversos sistemas de informacin transaccionales en varios grados de relaciones y sumarios, con el fin de facilitar y agilizar los procesos de toma de decisin por diferentes niveles gerenciales.
Orientados al usuario
Los datos almacenados en el Data Warehouse proveen informacin sobre un tema en particular en vez de atender la operatoria de gestin de la compaa.
Integridad
Esos datos deben ser tratados (identificados, catalogados, recolectados, a disponibilidad, transformados en informaciones) e integrados permitiendo diversas formas de consultas, a travs de mecanismos amistosos de las herramientas de los usuarios.
Variacin en el tiempo
Los DWs son normalmente actualizados en Batch (actualizados una o algunas veces por da y no conteniendo los datos de las transacciones de la empresa de manera online) y pueden contener grandes cantidades de datos.
Alcance
Los Datamarts(DMs) son DWs de alcance limitados, dicho de otra manera son pequeos repositorios de datos especficos para cada rea de negocios o departamentos de las empresas.
Data Warehouse
Tanto los DWs como los DMs forman la base a partir de la cual las empresas pueden utilizar las herramientas BI Business Intelligence -para la extraccin de informaciones gerenciales
Data Warehouse
Datos sumarizados, derivados Por tema Estticos hasta su actualizacin
Data Warehouse
Optimizada para querys complejos (DESNORMALIZADA) Media y baja
Data Warehouse
Ad hoc Heurstico Segundos a minutos
Datos fracturados
datos incompatibles mltiples fuentes de datos
Data Marts
Los Datamarts(DMs) son DWs de alcance limitados, dicho de otra manera son pequeos repositorios de datos especficos para cada rea de negocios o departamentos de las empresas.
OLAP
DW
Datos operacionales y externos
Data Mining
Componentes del DW
Fuentes de datos Procedimientos de Extraccin Procedimientos de Transformacin Procedimientos de carga (Loading) Soporte fsico de los datos (DBMS) Herramientas de explotacin : OLAP, reporting, Data Mining, etc.
ETL
ETL
Procedimientos (herramientas) destinados a obtener los datos de las fuentes operacionales, limpiarlos, convertirlos a los formatos de utilizacin y cargarlos en el repositorio final.
Integridad de datos
Los datos cumplen condiciones de integridad cuando se ajustan a todos los stndares de valor y completitud. Todos los datos del DW son correctos El DW est completo (no existen ms datos fuera de l).
Integridad de datos
La credibilidad del DW depende de la integridad de sus datos El uso del DW depende de la percepcin de los usuarios y de la confianza que tengan en su contenido. De la integridad de datos depende el xito del proyecto.
Controles de Integridad
Controles de Prevencin : controlan la integridad antes de cargar los datos en el DW. Controles de Deteccin : aseguran la exactitud y completitud de la informacin una vez cargada en el DW.
Data Process Flow Stages: 1.Data Migration 2.Cleansing 3.Transformation 4.Loading 5.Reconciliation
Migracin
Staging area : rea de trabajo fuera del DW. El propsito de la migracin es mover los datos de los sistemas operacionales a las reas de trabajo (staging areas). NO se debe mover datos innecesarios (control preventivo).
Identificar datos redundantes Identificar valores atpicos (outliers) Identificar valores perdidos (missings)
Limpieza (actividades)
Se debe uniformar las tablas de cdigos de los sistemas operacionales y simplificar esquemas de codificacin Datos complejos, que representan varios atributos a la vez, deben ser particionados.
Transformacin
Son procesos destinados a adaptar los datos al modelo lgico del DW Se generan reglas de transformacin. Las reglas deben validarse con los usuarios del DW
Transformacin
Generalmente el DW no contiene informacin de las entidades que - en los sistemas operacionales - son muy dinmicas y sufren frecuentes cambios. Si es necesario se utilizan Snapshots (fotos instantneas)
Transformacin
La des-normalizacin de los datos tiene como propsito mejorar la performance. Otro propsito es el de reflejar relaciones estticas,es decir, que no cambian en una perspectiva histrica. Por ejemplo: producto - precio vigente al momento de facturacin.
Transformacin (sumarizaciones)
Los datos sumarizados aceleran los tiempos de anlisis. Las sumarizaciones tambin ocultan complejidad de los datos. Las sumarizaciones pueden incluir joins de mltiples tablas Las sumarizaciones proveen mltiples vistas del mismo conjunto de datos detallados (dimensiones).
Estructura dimensional
Sumarizaciones (mantenimiento)
El mantenimiento de las sumarizaciones es una tarea crtica. El DW debe actualizarlas a medida que se cargan nuevos datos. Debe existir alguna forma de navegar los datos hasta el nivel de detalle (drill down). La definicin de la granularidad es un problema serio de diseo.
Carga (Loading)
Dos aproximaciones:
Full Refresh Incremental
Aunque el Full Refresh parece ms slido desde el punto de vista de la integridad de los datos, a medida que crece el DW se vuelve cada vez ms difcil de realizar.
Controles de deteccin
La validacin de la carga del DW identifica problemas en los datos no detectados en las etapas anteriores. Existen dos maneras de hacer la validacin:
completa (al final del proceso) por etapas a medida que se cargan los datos
Controles de deteccin
Los controles incluyen reportes que comparan los datos del DW con las fuentes operacionales a travs de:
totales de control nmero de registros cargados valores originales vs valores limpios (transformados), etc.
Herramientas ETL
Pueden ser procesos manuales diseados a medida (querys SQL, programas en Visual Basic, etc). Existen herramientas que proporcionan interfaces visuales para definir joins, transformaciones, agregados, etc. sobre las plataformas mas comunes.
Modelado de datos
Data Modelling Techniques for Data Warehousing : Cap 6 y 7
La pregunta central
De qu modo deben disearse las bases de datos que conforman un Data Warehouse para soportar eficientemente los requerimientos de los usuarios?
Por qu es importante?
Visualizacin del universo del negocio Modelo de abstraccin de las preguntas que los usuarios necesitan responder Diseo del plan de implantacin del Data Warehouse
Dos tcnicas
Modelo E-R
Entidades Atributos Relaciones
Modelo dimensional
Hechos Dimensiones Medidas
Modelo E-R
DW - OLAP
El modelo dimensional es ideal para soportar las 4 operaciones bsicas de la tecnologa OLAP:
Relacionadas con la granularidad: ROLL UP DRILL DOWN Navegacin por las dimensiones : SLICE DICE
Star
SnowFlake
Datawarehousing process
Requirements gathering
Quin (personas, grupos, usuarios, etc) Qu (se quiere analizar) Por qu Cundo (factores de oportunidad en el tiempo) Dnde (factores geogrficos) Cmo definir las medidas
Source driven
Los requerimientos se definen utilizando las fuentes de datos operacionales. La mayor ventaja es que de antemano se conoce que todos los datos podrn ser provistos ya que se sabe qu est disponible
Source driven
Se minimiza el tiempo de interaccin con los usuarios en las primeras etapas (se gana velocidad). El riesgo es producir un conjunto incorrecto de requerimientos por la poca participacin del usuario El usuario recibe lo que tenemos
User driven
Los requerimientos se definen a partir de las necesidades del usuario. Conduce a proyectos ms acotados pero probablemente ms tiles Tiene como desventaja que al no limitarse el pedido del usuario pueden solicitarse objetivos imposibles
Relevamiento:
Source driven vs User driven