Vous êtes sur la page 1sur 68

Datawarehousing

Business Intelligence
software que le posibilita a los usuarios la obtencin de informaciones corporativas mas fcilmente. El software BI debe permitir que sean derivadas las transacciones y sumarios que el usuario necesite, sin que se precise conocer cuales son las fuentes de esos datos

B.I.: recursos y herramientas


Fuentes de datos : warehouses, data marts, etc Herramientas de administracin de datos Herramientas de extraccin y consulta Herramientas de modelizacin (Data Mining)

Evolucin: Business Data to Business Information


Etapa Pregunta de Negocio Cul fue el total de ventas en Capital Federal y GBA? Cules fueron las ventas por sucursal en Capital Federal y GBA? Tecnologa disponible Proveedores Caractersticas

Data Collection (1960) Data Access (1980)

Computadoras, IBM, NCR, cintas, discos etc

Retrospectivo Esttico

RDBMS SQL

Oracle, Informix, Sybase, etc

Retrospectivo Dinmico

Evolucin: Business Data to Business Information


Etapa Pregunta de Negocio Cul fue el total de ventas en Capital Federal? Drill down a GBA Cmo evolucionarn las ventas en el prximo ao? Tecnologa disponible OLAP DW Proveedores Caractersticas

Data Navigation (1990)

Pilot, Discoverer, Arbor, etc

Retrospectivo Dinmico Niveles mltiples

Data Mining (2000)

Algoritmos avanzados Multiprocesado res

Intelligent Miner (IBM) SGI SAS, etc

Prospectivo. Proactivo

Data Warehouse
El objetivo de los DWs (almacenamiento de datos) es almacenar los datos oriundos de los diversos sistemas de informacin transaccionales en varios grados de relaciones y sumarios, con el fin de facilitar y agilizar los procesos de toma de decisin por diferentes niveles gerenciales.

Orientados al usuario
Los datos almacenados en el Data Warehouse proveen informacin sobre un tema en particular en vez de atender la operatoria de gestin de la compaa.

Integridad
Esos datos deben ser tratados (identificados, catalogados, recolectados, a disponibilidad, transformados en informaciones) e integrados permitiendo diversas formas de consultas, a travs de mecanismos amistosos de las herramientas de los usuarios.

Variacin en el tiempo
Los DWs son normalmente actualizados en Batch (actualizados una o algunas veces por da y no conteniendo los datos de las transacciones de la empresa de manera online) y pueden contener grandes cantidades de datos.

Alcance
Los Datamarts(DMs) son DWs de alcance limitados, dicho de otra manera son pequeos repositorios de datos especficos para cada rea de negocios o departamentos de las empresas.

Data Warehouse
Tanto los DWs como los DMs forman la base a partir de la cual las empresas pueden utilizar las herramientas BI Business Intelligence -para la extraccin de informaciones gerenciales

Datos operacionales y Data Warehouse


Datos operacionales Contenido Organizacin Estabilidad
Valores elementales Por aplicacin Dinmicos

Data Warehouse
Datos sumarizados, derivados Por tema Estticos hasta su actualizacin

Datos operacionales y Data Warehouse


Datos operacionales Estructura Frecuencia de acceso Tipo de acceso
Optimizada para uso transaccional (NORMALIZADA) Alta

Data Warehouse
Optimizada para querys complejos (DESNORMALIZADA) Media y baja

Lectura / escritura Lectura Actualizacin Sumarizacin campo por campo

Datos operacionales y Data Warehouse


Datos operacionales Uso Tiempo de respuesta
Predecible Repetitivo Segundos

Data Warehouse
Ad hoc Heurstico Segundos a minutos

Problemas con los datos


Demasiados datos
datos corruptos o con ruido datos redundantes (requieren factorizacin) datos irrelevantes excesiva cantidad de datos

Problemas con los datos


Pocos datos
atributos perdidos (missings) valores perdidos poca cantidad de datos

Datos fracturados
datos incompatibles mltiples fuentes de datos

Cuntos datos son necesarios?


Cuntas filas?. Cuntas columnas?. Cunta historia? Regla general : cuanto ms datos, mejor En la prctica : condicionado a los recursos de obtencin y procesamiento.

Data Marts
Los Datamarts(DMs) son DWs de alcance limitados, dicho de otra manera son pequeos repositorios de datos especficos para cada rea de negocios o departamentos de las empresas.

Explotacin del Datawarehouse


Metadata
Extraccin, clean up y carga de datos Report Query, EIS

OLAP

DW
Datos operacionales y externos
Data Mining

Componentes del DW
Fuentes de datos Procedimientos de Extraccin Procedimientos de Transformacin Procedimientos de carga (Loading) Soporte fsico de los datos (DBMS) Herramientas de explotacin : OLAP, reporting, Data Mining, etc.
ETL

ETL
Procedimientos (herramientas) destinados a obtener los datos de las fuentes operacionales, limpiarlos, convertirlos a los formatos de utilizacin y cargarlos en el repositorio final.

Integridad de datos
Los datos cumplen condiciones de integridad cuando se ajustan a todos los stndares de valor y completitud. Todos los datos del DW son correctos El DW est completo (no existen ms datos fuera de l).

Integridad de datos
La credibilidad del DW depende de la integridad de sus datos El uso del DW depende de la percepcin de los usuarios y de la confianza que tengan en su contenido. De la integridad de datos depende el xito del proyecto.

Controles de Integridad
Controles de Prevencin : controlan la integridad antes de cargar los datos en el DW. Controles de Deteccin : aseguran la exactitud y completitud de la informacin una vez cargada en el DW.

Data Process Flow

Data Process Flow Stages: 1.Data Migration 2.Cleansing 3.Transformation 4.Loading 5.Reconciliation

Etapas del proceso ETL


Migracin de datos Limpieza Transformacin
(clculos,agregados,sumarizaciones,desnormalizacin).

Carga Conciliacin - Validacin

Migracin
Staging area : rea de trabajo fuera del DW. El propsito de la migracin es mover los datos de los sistemas operacionales a las reas de trabajo (staging areas). NO se debe mover datos innecesarios (control preventivo).

Limpieza (Data cleaning)


Corregir, estandarizar y completar los datos

Identificar datos redundantes Identificar valores atpicos (outliers) Identificar valores perdidos (missings)

Limpieza (actividades)
Se debe uniformar las tablas de cdigos de los sistemas operacionales y simplificar esquemas de codificacin Datos complejos, que representan varios atributos a la vez, deben ser particionados.

Transformacin
Son procesos destinados a adaptar los datos al modelo lgico del DW Se generan reglas de transformacin. Las reglas deben validarse con los usuarios del DW

Transformacin
Generalmente el DW no contiene informacin de las entidades que - en los sistemas operacionales - son muy dinmicas y sufren frecuentes cambios. Si es necesario se utilizan Snapshots (fotos instantneas)

Transformacin
La des-normalizacin de los datos tiene como propsito mejorar la performance. Otro propsito es el de reflejar relaciones estticas,es decir, que no cambian en una perspectiva histrica. Por ejemplo: producto - precio vigente al momento de facturacin.

Transformacin (sumarizaciones)
Los datos sumarizados aceleran los tiempos de anlisis. Las sumarizaciones tambin ocultan complejidad de los datos. Las sumarizaciones pueden incluir joins de mltiples tablas Las sumarizaciones proveen mltiples vistas del mismo conjunto de datos detallados (dimensiones).

Estructura dimensional

Sumarizaciones (mantenimiento)
El mantenimiento de las sumarizaciones es una tarea crtica. El DW debe actualizarlas a medida que se cargan nuevos datos. Debe existir alguna forma de navegar los datos hasta el nivel de detalle (drill down). La definicin de la granularidad es un problema serio de diseo.

El nivel de granularidad: problema de diseo del DW


Cal es la unidad de tratamiento (fila) Qu es un cliente? Una cuenta, un individuo, una familia Cmo se sumariza la dimensin tiempo? Das, semanas, meses ?

Carga (Loading)
Dos aproximaciones:
Full Refresh Incremental

Aunque el Full Refresh parece ms slido desde el punto de vista de la integridad de los datos, a medida que crece el DW se vuelve cada vez ms difcil de realizar.

Controles de deteccin
La validacin de la carga del DW identifica problemas en los datos no detectados en las etapas anteriores. Existen dos maneras de hacer la validacin:
completa (al final del proceso) por etapas a medida que se cargan los datos

Controles de deteccin
Los controles incluyen reportes que comparan los datos del DW con las fuentes operacionales a travs de:
totales de control nmero de registros cargados valores originales vs valores limpios (transformados), etc.

Herramientas ETL
Pueden ser procesos manuales diseados a medida (querys SQL, programas en Visual Basic, etc). Existen herramientas que proporcionan interfaces visuales para definir joins, transformaciones, agregados, etc. sobre las plataformas mas comunes.

Modelado de datos
Data Modelling Techniques for Data Warehousing : Cap 6 y 7

La pregunta central
De qu modo deben disearse las bases de datos que conforman un Data Warehouse para soportar eficientemente los requerimientos de los usuarios?

Por qu es importante?
Visualizacin del universo del negocio Modelo de abstraccin de las preguntas que los usuarios necesitan responder Diseo del plan de implantacin del Data Warehouse

Dos tcnicas
Modelo E-R
Entidades Atributos Relaciones

Modelo dimensional
Hechos Dimensiones Medidas

Modelo E-R

Modelo dimensional: HECHOS


Hechos : coleccin de items de datos y datos de contexto. Cada hecho representa un item de negocio, una transaccin o un evento Los hechos se registran en las tablas CENTRALES del DW

Modelo dimensional: DIMENSION


Una dimensin es una coleccin de miembros o unidades o individuos del mismo tipo Cada punto de entrada de la tabla de HECHOS est conectado a una DIMENSION Determinan el contexto de los HECHOS

Modelo dimensional: DIMENSIONES


Se utilizan como parmetros para los anlisis OLAP Dimensiones habituales son:
Tiempo Geografa Cliente Vendedor

Modelo dimensional: DIMENSIONES - Miembros


Dimensin Tiempo Geografa Cliente Vendedor Miembro Meses, Trimestre, Aos Pas, Regin, Ciudad Id Cliente Id Vendedor

Modelo dimensional DIMENSIONES - Jerarqua

Modelo dimensional DIMENSIONES : Medidas


Medida : es un atributo numrico de un hecho que representa la performance o comportamiento del negocio relativo a la dimensin Ejemplos:
Ventas en $$ Cantidad de productos Total de transacciones, etc.

Visualizacin de un modelo dimensional

DW - OLAP
El modelo dimensional es ideal para soportar las 4 operaciones bsicas de la tecnologa OLAP:
Relacionadas con la granularidad: ROLL UP DRILL DOWN Navegacin por las dimensiones : SLICE DICE

Drill Down - Roll Up

Slice and Dice

Modelos bsicos dimensionales


STAR SNOWFLAKE

Star

SnowFlake

E-R - Modelo dimensional


El modelo dimensional puede verse como un caso particular del modelo de ER Foreing keys Dimension Hecho Entidad

Datawarehousing process

Manage the Project


Es un proceso cclico e iterativo Refiere al manejo del PROYECTO, no al manejo del Warehouse (ONGOING)

Define the project


Qu se necesita analizar y por qu?Cul es el alcance del proyecto? El contexto de definicin y los alcances del proyecto DEBEN permitir FLEXIBILIDAD. NO deben ser demasiado especficos.

Requirements gathering
Quin (personas, grupos, usuarios, etc) Qu (se quiere analizar) Por qu Cundo (factores de oportunidad en el tiempo) Dnde (factores geogrficos) Cmo definir las medidas

Source driven
Los requerimientos se definen utilizando las fuentes de datos operacionales. La mayor ventaja es que de antemano se conoce que todos los datos podrn ser provistos ya que se sabe qu est disponible

Source driven
Se minimiza el tiempo de interaccin con los usuarios en las primeras etapas (se gana velocidad). El riesgo es producir un conjunto incorrecto de requerimientos por la poca participacin del usuario El usuario recibe lo que tenemos

User driven
Los requerimientos se definen a partir de las necesidades del usuario. Conduce a proyectos ms acotados pero probablemente ms tiles Tiene como desventaja que al no limitarse el pedido del usuario pueden solicitarse objetivos imposibles

Relevamiento:
Source driven vs User driven

Source driven - User driven


Data Mart : User driven
Global Data Warehouse : Source driven para partir el proyecto en reas temticas. Luego para cada rea se utiliza un enfoque User driven

Vous aimerez peut-être aussi