Vous êtes sur la page 1sur 13

ARQUITECTURA DE UNA BODEGA

DE DATOS

Estructura de contenidos
INTRODUCCIN.................................................................... 3
1. ARQUITECTURA DE UNA BODEGA DE DATOS......................... 3
1.1 PROPIEDADES................................................................. 3
1.2 ARQUITECTURA DE UNA CAPA........................................... 4
1.3 ARQUITECTURA DE DOS CAPAS......................................... 5
1.3.1 Capa Fuente................................................................. 5
1.3.2 Extraccin de Datos....................................................... 6
1.3.3 Capa de Data Warehouse............................................... 7
1.3.4 Anlisis........................................................................ 7
1.4 ARQUITECTURA DE TRES CAPAS........................................ 8
1.5 Data Marts...................................................................... 9
GLOSARIO............................................................................ 11
BIBLIOGRAFA...................................................................... 12
WEBGRAFA.......................................................................... 12

FAVA - Formacin en Ambientes Virtuales de Aprendizaje

SENA - Servicio Nacional de Aprendizaje

Mapa conceptual
ARQUITECTURA DE UNA BODEGA DE DATOS
2
FAVA - Formacin en Ambientes Virtuales de Aprendizaje

SENA - Servicio Nacional de Aprendizaje

Arquitectura de una Bodega de Datos

INTRODUCCIN
El manejo de informacin inmerso en las dinmicas organizacionales
actuales, exige la combinacin de estrategias que involucran por un lado
el uso y mantenimiento de bases de datos relacionales con las que se
realizan tareas transaccionales y operativas, al tiempo que se derivan
otras tareas asociadas a la toma de decisiones producto de las actividades
gerenciales que se enfocan en el anlisis de datos complejos y de gran
volumen. Los datos de comportamiento variable y creciente representados
en fuentes heterogneas deben ser depurados y presentados de una
forma resumida y concreta para revisar tendencias y evaluar acciones
especficas procurando generar ventaja comparativa y permitiendo a las
organizaciones proyectarse en mercados cada vez ms competitivos. En
estos escenarios aparecen las Bodegas de Datos (del ingls data warehouse)
para brindar soluciones orientadas a poder almacenar y centralizar la
informacin originada a partir de distintas fuentes y definidas como lo
expresa el autor Ralph Kimball como: Una copia de las transacciones de
datos especficamente estructurada para la consulta y el anlisis.
Enfocados en esta tarea, nos ocuparemos de estudiar las diferentes
opciones de arquitectura que se podran abordar al momento de definir la
creacin de una bodega de datos.

1.

ARQUITECTURA DE UNA BODEGA DE DATOS

1.1 PROPIEDADES
Para poder definir la arquitectura de una bodega de datos, debemos
analizar unas propiedades esenciales representadas en:
Separacin: Los procesos de anlisis y transacciones deberan
ser guardados en lo posible de forma independiente.
Escalabilidad: Las arquitecturas de Hardware y Software deben
ser fciles de mejorar conforme al volumen de los datos, definidas
para fcil administracin y manejo de procesos, estimadas por el
nmero de requerimientos de usuarios que determinan incrementos
progresivamente.

3
FAVA - Formacin en Ambientes Virtuales de Aprendizaje

SENA - Servicio Nacional de Aprendizaje

Arquitectura de una Bodega de Datos

Extensibilidad: La arquitectura debe estar en capacidad de recibir


nuevas aplicaciones y tecnologas sin redisear el sistema
Seguridad: Monitorear los accesos es una tarea esencial previa al
almacenamiento de los datos en un data warehouse.
Administrable: La administracin de los datos en el la bodega de
datos no debe ser compleja
Dos clasificaciones son comnmente adoptadas para definir la arquitectura
de una bodega de datos. La primera clasificacin, es una estructura que
depende del nmero de capas usada por la arquitectura. La segunda
clasificacin, depende de cmo las diferentes capas son empleadas para
crear vistas del data warehouse orientada a necesidades especficas de
una empresa o a departamentos especficos de la organizacin.
1.2 ARQUITECTURA DE UNA CAPA

Source layer

Operational data

Data warehouse

Middleware

Analysis
Reporting
tools
OLAP
tools

4
FAVA - Formacin en Ambientes Virtuales de Aprendizaje

SENA - Servicio Nacional de Aprendizaje

Una arquitectura de una capa no es comnmente usada en la prctica. La


meta en esta arquitectura es minimizar la cantidad de datos almacenados
removiendo datos redundantes.
Esto significa que un Data Warehouse es implementado como una vista
multidimensional de datos operacionales creados por un middleware
especfico, o el procesamiento con una capa intermedia.
La debilidad de esta arquitectura radica en su incapacidad para cumplir con
el requisito de la separacin entre el proceso de anlisis y transaccional.
Las consultas de anlisis son enviadas a los datos operacionales una vez
el middleware los interpreta. En este sentido, las consultas afectan la
carga de trabajo de las transacciones regulares. Adicionalmente, aunque
esta arquitectura puede reunir los requerimientos para integracin
y exactitud de los datos, este no puede registrar ms datos que los
provenientes de las fuentes bsicas. Por esta razn, un enfoque virtual
para almacenamiento de datos slo puede tener xito si las necesidades
de anlisis son particularmente restringidas y el volumen de datos a
analizar es muy grande.
1.3 ARQUITECTURA DE DOS CAPAS
El concepto de separacin es la esencia en la definicin de la arquitectura
tpica para un sistema de almacenamiento de datos pensado en dos capas
tal cual como se aprecia en la figura 2. Se denomina arquitectura de dos
capas a la separacin fsica entre las fuentes de datos disponibles y lo
dispuesto en la bodega de datos, que consta de cuatro etapas posteriores
de flujo de datos enunciadas a continuacin:
1.3.1 Capa Fuente
Un sistema de almacenamiento de datos utiliza fuentes heterogneas
de datos. Esos datos se almacenan originalmente en la base de datos
relacional o bases de datos legadas, o puede provenir de sistemas de
informacin externos a la empresa.

5
FAVA - Formacin en Ambientes Virtuales de Aprendizaje

SENA - Servicio Nacional de Aprendizaje

Arquitectura de una Bodega de Datos

Source layer
Operational data

External data

Data staging

ETL tools

Data warehouse

Meta-data

Data warehouse
layer

Data marts

Analysis
What-if analysis
tools

Reporting
tools
OLAP
tools

Data mining
tools

1.3.2 Extraccin de Datos


Los datos almacenados en las fuentes deben ser extrados y limpiados
para remover inconsistencias y llenar espacios vacos, integrando fuentes
de datos heterogneos a partir de esquemas comunes. Las llamadas
herramientas ETL (Extraction, Transformation and Loading) pueden
mezclar esquemas heterogneos, extraer, transformar, limpiar, validar,
filtrar, y cargar fuentes de datos dentro de una bodega de datos. En s,
esta etapa se ocupa de los problemas que son tpicos de los sistemas de
informacin distribuidos, tales como la gestin de datos inconsistentes y
estructuras de datos incompatibles.

6
FAVA - Formacin en Ambientes Virtuales de Aprendizaje

SENA - Servicio Nacional de Aprendizaje

Arquitectura de una Bodega de Datos

1.3.3 Capa de Data Warehouse


La informacin es almacenada en un repositorio centralizado denominado
data warehouse o bodega de datos. El data warehouse puede ser
accedido directamente, pero este tambin puede ser usado como fuente
para creacin de data marts, los cuales parcialmente replican contenidos
de los data warehouse y son diseados por necesidades de dependencias
especficas en una empresa. Los repositorios que contienen la meta
data almacenan informacin como fuentes, procedimientos de acceso,
extraccin de datos, usuarios, esquemas de data mart, etc.
1.3.4 Anlisis
En esta capa, la integracin de datos es eficiente y de acceso flexible
para generar informes, analizar la informacin de forma dinmica y
simular escenarios hipotticos de negocio. Esta capa debe funcionar con
navegadores de datos agregados, optimizadores de consultas complejas,
y con interfaces grficas de usuario de fcil manejo.
Es necesario estudiar a fondo la diferencia arquitectnica entre los
almacenes de datos y los data marts. Los componentes sealados como
un data warehouse en la figura 2 son frecuentemente llamados data
warehouse primario o data warehouse corporativo que actan como
un sistema de almacenamiento centralizado para todos los datos que se
resumen.
Los Data marts pueden ser vistos como pequeos almacenes de datos
replicando la parte de una almacn de datos principal requerido en el
dominio de una aplicacin especfica.
A continuacin se enuncian algunos beneficios de una arquitectura de dos
capas:
En sistemas de bodega de datos, la informacin de buena calidad
est siempre disponible, incluso cuando el acceso a las fuentes se niega
temporalmente por razones tcnicas o razones de la organizacin.
El anlisis de consultas en la bodega de datos no afecta la
administracin de las transacciones.

7
FAVA - Formacin en Ambientes Virtuales de Aprendizaje

SENA - Servicio Nacional de Aprendizaje

Arquitectura de una Bodega de Datos

Las bodegas de datos son estructuradas lgicamente de acuerdo a


un modelo multidimensional.
Las bodegas de datos pueden utilizar soluciones especficas de diseo
orientadas a la optimizacin de aplicaciones de anlisis y reportes.
1.4 ARQUITECTURA DE TRES CAPAS
Source layer
Operational data

External data

Data staging

ETL tools

Reconcilled layer

Reconciled data
Meta-data
ETL tools

Data warehouse

Data warehouse
layer

Data marts

Analysis
What-if analysis
tools

Reporting
tools
OLAP
tools

Data mining
tools

8
FAVA - Formacin en Ambientes Virtuales de Aprendizaje

SENA - Servicio Nacional de Aprendizaje

Arquitectura de una Bodega de Datos

En esta arquitectura, la tercera capa es la capa de datos reconciliados


o almacn de datos operativos. En esta capa se materializan los datos
operativos obtenidos despus de la integracin y la limpieza de datos
desde el origen. Como resultado, los datos son integrados, coherentes,
actuales y detallados. La figura muestra una bodega de datos que no
es poblada de sus fuentes de forma directa, pero si a partir de datos
reconciliados.
La principal ventaja de la capa de reconciliacin de datos es que esta
crea un modelo de referencia de datos comn para una empresa en su
conjunto. De igual forma, se separan los problemas de extraccin de datos
de las fuentes y la integracin de datos para poblar la bodega de datos. En
algunos casos, la capa de reconciliacin es usada para llevar a cabo tareas
ms operativas, tales como la elaboracin de informes diarios que no
pueden ser adecuadamente preparados con las aplicaciones corporativas,
o generando los flujos de datos para alimentar procesos externos
peridicamente con el fin hacer integracin y limpieza. Sin embargo,
los datos conciliados conducen a una mayor redundancia de datos de
origen operativo. Tenga presente que se puede suponer que incluso las
arquitecturas de dos capas pueden tener una capa de reconciliacin que
no est especficamente materializada, pero si se puede presentar en una
forma virtual dado que se define como una vista que brinda coherencia de
los datos fuentes integrados.
1.5 Data Marts
Un data mart es un subconjunto o una agregacin de los datos almacenados
en un almacn de datos principal. Se incluye un conjunto de piezas de
informacin relativa a reas especficas de negocio, un departamento de
la empresa o categoras de usuarios.
Los data marts generados a partir de una bodega de datos primaria son
llamados frecuentemente dependientes. Pese a que los data marts no son
estrictamente necesarios, son muy tiles para los sistemas de bodegas de
datos en medianas y grandes empresas debido a que:
Son usados como bloques de construccin mientras se incrementa
el desarrollo de las bodegas de datos.
Exponen la informacin requerida por un grupo especfico de
usuarios para solucionar consultas especficas.

9
FAVA - Formacin en Ambientes Virtuales de Aprendizaje

SENA - Servicio Nacional de Aprendizaje

Arquitectura de una Bodega de Datos

Pueden ofrecer un mejor rendimiento, ya que son ms pequeos


que las bodegas de datos primarias.
En ocasiones, principalmente por polticas y organizacin, debe
utilizar una arquitectura diferente en el que las fuentes se utilizan para
poblar los data marts. Si no hay una bodega de datos principal, esto
simplifica el proceso de diseo, pero conlleva el riesgo de inconsistencias
entre los data marts. Para evitar estos problemas, se puede crear
una bodega de datos principal y seguir teniendo los data marts
independientes. En comparacin con el estndar de la arquitectura de
dos capas expuesta en la figura 2, las funciones de los data marts y la
bodega de datos estn invertidas. En este caso la bodega de datos se
llena de a travs de los data marts y puede ser consultada directamente
para generar los patrones de acceso tan fcil como sea posible.

10
FAVA - Formacin en Ambientes Virtuales de Aprendizaje

SENA - Servicio Nacional de Aprendizaje

GLOSARIO
DATA MART: subconjunto o agregacin de los datos almacenados en un
almacn de datos principal.
DATA WAREHOUSE: Coleccin de informacin originada a partir de
distintas fuentes y definidas como lo expresa el autor Ralph Kimball como
Una copia de las transacciones de datos especficamente estructurada
para labores de consulta y anlisis.
ETL: Extraccin, transformacin y carga de datos.
MIDDLEWARE: Software que asiste a una aplicacin para interactuar
o comunicarse con otras aplicaciones, software, redes, hardware y/o
sistemas operativos.

11
FAVA - Formacin en Ambientes Virtuales de Aprendizaje

SENA - Servicio Nacional de Aprendizaje

BIBLIOGRAFA
Mateo Golfarelli; Stefano Rizzi(2009). Data Warehouse Design: Modern
Principles and Methodologies. McGraw-Hill.
Zorrilla, M. (2008). Data WareHouse y OLAP. Recuperado el 15 de
mayo de 2012, Universidad de Cantabria.

WEBGRAFA

Pgina tomada de Wikipedia (Wikipedia). Recuperado el 18 de
mayo de 2012, de Almacn de datos:
http://es.wikipedia.org/wiki/Almac%C3%A9n_de_datos

12
FAVA - Formacin en Ambientes Virtuales de Aprendizaje

SENA - Servicio Nacional de Aprendizaje

Control de documento
Construccin Objeto de Aprendizaje
Arquitectura de una Bodega de Datos
Desarrollador de contenido
Experto temtico

Fernelly Carvajal Silva

Asesor pedaggico

Rafael Neftal Lizcano Reyes

Produccin Multimedia

Luis Fernando Botero Mendoza


Victor Hugo Tabares

Programadores

Daniel Eduardo Martnez


Grateful Dead Montao Sierra

Lder expertos temticos

Ana Yaqueline Chavarro Parra

Lder lnea de produccin

Santiago Lozada Garcs

13
FAVA - Formacin en Ambientes Virtuales de Aprendizaje

SENA - Servicio Nacional de Aprendizaje

Vous aimerez peut-être aussi