Académique Documents
Professionnel Documents
Culture Documents
Warehouse
Unidad I
¿Qué es un data warehouse?
• Un data warehouse es un repositorio central de información que se puede analizar para tomar
decisiones mejor informadas.
• Los datos fluyen hacia un data warehouse a partir de sistemas transaccionales, bases de datos
relacionales y otros orígenes, normalmente a un ritmo regular.
• Los analistas empresariales, los científicos de datos y los responsables de la toma de decisiones
obtienen acceso a los datos mediante herramientas de inteligencia empresarial (BI), clientes SQL
y otras aplicaciones analíticas.
• Para que las empresas se mantengan competitivas, los datos y el análisis se han vuelto
fundamentales.
• Las empresas utilizan informes, paneles de control y herramientas analíticas para extraer
información de los datos, monitorizar el desempeño de la empresa y respaldar la toma de
decisiones.
• Estos informes, paneles y herramientas de análisis cuentan con almacenes de datos que
almacenan los datos de manera eficaz para reducir la entrada y la salida y suministrar resultados
de consultas a gran velocidad a cientos y miles de usuarios de manera simultánea.
Arquitectura de un Datawarehouse
• Un datawarehouse está compuesto por datos provenientes de
diversos sistemas operacionales (o también llamados
transaccionales).
• Cuando se habla de poblar un datawarehouse, se hace referencia al
proceso de tomar los datos de dichos sistemas para cargarlos en el
datawarehouse.
• Ahora bien, los datos crudos por sí mimos, en la base de datos del
datawarehouse no son útiles para ser presentados.
• Para presentar los datos al usuario final existen diversas alternativas,
algunas de ellas a través de desarrollos a medida o también mediante
herramientas existentes en el mercado desarrolladas a tal fin.
Arquitectura de un Datawarehouse
Arquitectura de un Datawarehouse
• Procesos de un Data Warehouse
• Extracción: obtención de información de las distintas fuentes tanto internas
como externas.
• Elaboración: filtrado, limpieza, depuración, homogeneización y agrupación de
la información.
• Carga: organización y actualización de los datos y los metadatos en la base de
datos.
• Explotación: extracción y análisis de la información en los distintos niveles de
agrupación.
Arquitectura de un Datawarehouse
• Procesos de un Data Warehouse
• Desde el punto de vista del usuario, el único proceso visible es la explotación
del almacén de datos, aunque el éxito del Data Warehouse radica en los tres
procesos iniciales que alimentan la información del mismo y suponen el
mayor porcentaje de esfuerzo (en torno a un 80%) a la hora de desarrollar el
almacén.
Arquitectura de un Datawarehouse
• Sistema Fuente (Source System)
• Denominamos sistema fuente a todo aquel sistema que proporciona datos al
datawarehouse para su análisis y explotación.
• Como ejemplo de un sistema fuente (los sistemas operacionales o transaccionales
nombrados anteriormente son sistemas fuente) podemos mencionar a los existentes
en los puestos de caja de un supermercado, que se encuentran permanentemente
generando registros en bases de datos transaccionales.
• La prioridad fundamental de un sistema de caja de un supermercado es que se
encuentre permanentemente funcionando y los tiempos de respuesta sean válidos
para los usuarios.
• Por otro lado, las consultas que se realizan sobre los movimientos de los puestos de
caja son escasas y dado el volumen de la información a almacenar, estos sistemas
tienden a no contener información histórica.
Arquitectura de un Datawarehouse
• Sistema Fuente (Source System)
• Los sistemas fuente son generalmente sistemas operacionales o
transaccionales (aunque otros sistemas también pueden ser fuente de datos
sin ser de estas clases) cuya función es capturar las transacciones de un
negocio.
• Un sistema fuente es frecuentemente llamado “ sistema legacy” en los
ambientes de mainframe.
• Las máximas prioridades de un sistema fuente son que se encuentre
funcionando y disponible.
• Por otro lado, las consultas a los sistemas fuentes son escasas y por lo general
contienen muy poca información histórica.
Arquitectura de un Datawarehouse
• Sistema Fuente (Source System)
• En cuanto a la base de datos de los sistemas fuente, se las suele denominar
bases de datos OLTP (on-line transaction processing).
• Por lo general, se puede ver que los sistemas transaccionales cuentan con su
base de datos modeladas bajo el esquema de entidad-relación
• Estas bases de datos se encuentran en mayor o menor medida normalizadas
de forma tal de evitar duplicidades de datos, optimizando espacio de
almacenamiento.
• Algunos ejemplos de sistemas fuentes son SAP, Peoplesoft, el ERP de Oracle,
un sistema de caja de una sucursal bancaria, o cualquier otra aplicación que
una empresa tenga desarrollada a medida con el fin de capturar las
transacciones del negocio.
Arquitectura de un Datawarehouse
• Área de Staging (almacenamiento intermedio) de Datos
• Como ya se mencionó anteriormente, cuando se quiere analizar el funcionamiento
de una empresa o de un área en particular, es necesario obtener datos de distintos
sistemas fuente para analizarlos en su conjunto.
• Volviendo al caso de un supermercado, quizás algún directivo o gerente del mismo
desee obtener un reporte que indique cuál ha sido el efecto de publicitar una
determinada oferta de un producto por televisión.
• Para poder lograr esto, puede ser necesario integrar los datos de los sistemas
transaccionales de caja (que indiquen cantidad de unidades vendidas de un
producto) con los sistemas de marketing (que indiquen cuando y en qué canal
apareció la oferta).
• Por otro lado, podría darse el caso de que para un mismo producto el código que
utiliza el sistema de caja sea distinto al código que utiliza el sistema de marketing con
lo cual sea necesario integrarlos.
Arquitectura de un Datawarehouse
• Área de Staging (almacenamiento intermedio) de Datos
• O quizás marketing no cuente con un sistema transaccional, sino que los
datos se encuentren en planillas Excel.
• En definitiva, la función de un Area de Staging de Datos es recibir los datos de
los sistemas transaccionales al fin de limpiarlos, transformarlos, combinarlos,
integrarlos y eliminar datos duplicados preparando los mismos para ser
usados en un datawarehouse o data mart.
Arquitectura de un Datawarehouse
• Área de Staging (almacenamiento intermedio) de Datos
Cargas de trabajo admitidas Análisis, generación de informes, big data Procesamiento de transacciones
Datos recopilados y normalizados desde muchos Datos registrados tal cual desde un único origen,
Origen de datos
orígenes como un sistema transaccional
Optimizado para acceso simple y desempeño de Optimizado para operaciones de escritura de alto
Almacenamiento de datos consultas de alta velocidad con almacenamiento en procesamiento a un único bloque físico orientado a
columnas filas
Nivel de detalle
Datos completos y detallados Puede incluir datos resumidos
de los datos
Bases de datos Multidimensional
Bases de datos Multidimensional