Vous êtes sur la page 1sur 19

AO DE LA PROMOCIN DE LA INDUSTRIA

RESPONSABLE Y DEL COMPROMISO CLIMTICO

TRABAJO PERSONAL: Almacenamiento de base de datos


y servidores de bases de datos

Curso:
- Sistemas de base de datos
Docente:
- Juan Navarro Lopez
Alumno:
- Chavez Contreras Mauro

Seccin:
- BI1101

Trujillo Per
2015

ndice
1.

Data Warehouse o almacn de datos.......................................................4

2.

Orgenes de los almacenes de datos.......................................................5

3.

Bases de datos operativas y almacenes de datos....................................6

4.

Arquitectura de un almacn de datos......................................................7

5.

Modelos de datos para almacenes de datos............................................8

6.

Arquitectura del Data Warehouse:...........................................................9

7.

Servidores de bases de datos................................................................13

Introduccion
Las empresas disponen de sistemas orientados a la automatizacin de sus
procesos y al manejo de la informacin derivada de ellos, mediante el empleo
de diversos modelos de operacin y administracin de datos, con los que
alimentan el acervo de informacin que representa el know how de la
organizacin. En el mundo actual los almacenes de datos se consideran de
vital importancia, no slo porque contienen informacin especfica de la
empresa, sino tambin porque esta informacin en manos de la competencia
puede terminar con dicha empresa. El siguiente trabajo tiene por objetivo dar a
conocer algunos conceptos y definiciones de almacenes de datos y como estn
compuestos as como su arquitectura.

1. Data Warehouse o almacn de datos


Almacn de datos (Bodega de Datos, Data warehouse) es una integrada
coleccin de datos que contiene datos procedentes de sistemas del
planeamiento del recurso de la empresa (SAP, CRM, ERP) y de otros sistemas
relacionados al negocio. Los almacenes de datos contienen a menudo datos y
parmetros introducidos manualmente para mantener configuracin solicitada.
Los almacenes de datos contienen informacin que se subdivide a veces en
unidades lgicas ms pequeas, llamadas los centros comerciales (data
marts).
Almacn de datos contiene datos usados en operaciones diarias para la ayuda
en la toma de decisiones, para el anlisis y para controlar. La base de datos
esta actualizada peridicamente sin interrumpir funcionamiento de los sistemas
relacionados al negocio (mltiples fuentes). El almacn de datos puede ser
implementado en una arquitectura de base de datos (como Oracle, SQL
Server) o en un producto dedicado (Teradata por ejemplo).
Bill Inmon fue uno de los primeros autores en escribir sobre el tema de los
almacenes de datos, define un data warehouse (almacn de datos) en
trminos de las caractersticas del repositorio de datos:

Orientado a temas.- Los datos en la base de datos estn organizados


de manera que todos los elementos de datos relativos al mismo evento u
objeto del mundo real queden unidos entre s.

Variante en el tiempo.- Los cambios producidos en los datos a lo largo


del tiempo quedan registrados para que los informes que se puedan
generar reflejen esas variaciones.

No voltil.- La informacin no se modifica ni se elimina, una vez


almacenado un dato, ste se convierte en informacin de slo lectura, y se
mantiene para futuras consultas.

Integrado.- La base de datos contiene los datos de todos los sistemas


operacionales de la organizacin, y dichos datos deben ser consistentes.

Inmon defiende una metodologa descendente (top-down) a la hora de disear


un almacn de datos, ya que de esta forma se considerarn mejor todos los
datos corporativos. En esta metodologa los Data marts se crearn despus de
haber terminado el data warehouse completo de la organizacin.

2. Orgenes de los almacenes de datos


Muchas organizaciones que usan tecnologa de base de datos estndar para
recopilar, almacenar y procesar grandes cantidades de sus datos operativos
comenzaron a ver ms de cerca sus almacenes de datos actuales e histricos
como fuentes de informacin para ayudarse a tomar mejores decisiones
empresariales. Han desarrollado almacenes de datos para sistemas de apoyo
de decisiones (DSS, por sus siglas en ingls) y aplicaciones similares.
Decisiones como dnde abrir un nuevo almacn, a qu audiencia dirigirse para
una campaa publicitaria, a cules clientes otorgar prstamos y cundo
ordenar artculos adicionales se pueden hacer con ms confianza cuando se
basan sobre un cuidadoso examen de los patrones encontrados en los datos
existentes. Los proveedores de DBMS, incluidos Oracle e IBM, rpidamente
agregaron caractersticas a sus lneas de productos para permitir el
almacenamiento de los datos a partir de sus sistemas de base de datos
estndar. Se han desarrollado nuevas y poderosas herramientas analticas
para extraer ms informacin de los datos almacenados en tales almacenes.
SQL: 1999 contiene extensiones que apoyan las funciones requeridas por los
almacenes de datos. Los datos en un almacn de datos con frecuencia se
recopilan a partir de varios departamentos o sitios que pertenecen a una gran
empresa. El trmino lo acu W. H. Inmon, quien describi un almacn de
datos como una coleccin de datos orientada a sujeto, integrada, no voltil,
variable en el tiempo que se utiliza principalmente en toma de decisiones
organizacionales (Inmon, 2002). Un almacn de datos se establece para
aplicaciones que apoyan decisiones, y no para procesamiento de transacciones

ordinarias. Est optimizado para recuperacin de datos, en oposicin a


procesamiento de transacciones.

3. Bases de datos operativas y almacenes de datos


Las bases de datos operativas tradicionales soportan procesamiento de
transaccin en lnea (OLTP, por sus siglas en ingls), que de manera
caracterstica involucran un nmero limitado de transacciones repetitivas, cada
una de las cuales afecta algunas tuplas en un momento en una base de datos
relacional. Una base de datos como sta se desarrolla para servir a las
necesidades de informacin de los usuarios finales, y est diseada para
soportar sus operaciones empresariales diarias. La alta disponibilidad y
desempeo eficiente son factores cruciales en el xito de una base de datos
operativa. Debe proporcionar apoyo para un gran volumen de transacciones y
entregar respuestas a las consultas de los usuarios u otras operaciones en
lnea en un marco temporal corto. Una base de datos operativa se actualiza en
tiempo real, conforme ocurren las transacciones del negocio. Actualizaciones,
inserciones y borrados se deben realizar rpidamente para mantener la base
de datos en un estado que refleje el entorno actual de la empresa.
En contraste, los almacenes de datos soportan OLAP (On-Line Analytical
Processing: procesamiento analtico en lnea), as como toma de decisiones.
Los datos en un almacn de datos se pueden llevar directamente de bases de
datos operativas mltiples, en diferentes periodos (datos histricos) y tambin
pueden incluir datos de otras fuentes, datos resumidos y metadatos. Las
fuentes pueden tener distintos modelos o estndares, pero el almacn de datos
integra los datos de modo que los usuarios ven un modelo consistente. El
almacn de datos por lo general contiene una cantidad muy grande de datos, y
est optimizado para procesamiento eficiente de consultas y presentacin de
resultados para apoyo de decisiones. Las actualizaciones no son tan
frecuentes como lo son en las bases de datos operativas, pero se realizan de
manera peridica. Las aplicaciones OLAP por lo general deben pasar a travs
de grandes cantidades de datos para producir resultados. Los analistas
examinan los datos almacenados en el almacn usando consultas complejas,
que generalmente involucran operadores de agrupacin y agregacin. Pueden
hacer anlisis en series de tiempo usando datos histricos. El minado de datos
es el proceso de descubrir nueva informacin mediante bsqueda de grandes

cantidades de datos. El propsito es descubrir patrones o tendencias en los


datos que sern tiles para la organizacin.
4. Arquitectura de un almacn de datos
A diferencia de una base de datos operativa, para la cual se pueden especificar
requisitos por adelantado, un almacn de datos debe disearse para apoyar
consultas ad hoc y nuevos y no anticipados tipos de anlisis. Los datos se
toman de fuentes de datos, que pueden incluir bases de datos operativas
mltiples, otras entradas como archivos independientes y datos ambientales
como informacin geogrfica o datos financieros. Los datos se deben extraer
de las fuentes con el empleo de herramientas externas al sistema que puedan
acomodar las diferencias entre las fuentes heterogneas. Los datos se
reformatean en un formato consistente. Los datos tambin se pueden verificar
para integridad y validez, un proceso llamado limpieza de datos, para asegurar
su calidad antes de cargarlos en el almacn. Luego los datos se ponen en el
modelo de datos para el almacn y carga. El proceso de carga es una
transaccin larga, pues por lo general est involucrado un gran volumen de
datos, de modo que el sistema debe usar herramientas de gestin de
transaccin para garantizar recuperacin adecuada en el evento de falla
durante la transaccin de carga. El sistema de gestin de base de datos que
soporta al almacn de datos tiene un catlogo de sistema que almacena
metadatos, as como otros componentes del sistema de la base de datos.
Luego el almacn de datos se usa para soportar consultas para OLAP, con el
fin de proporcionar informacin para sistemas de apoyo de decisiones que
usan los administradores para toma de decisiones estratgicas, y a fin de
proporcionar los datos para las herramientas de minado de datos que
descubren nueva informacin acerca de patrones en los datos. Ciertos
segmentos de los datos estn organizados en subconjuntos llamados data
marts (mercado de datos, subconjunto de informacin de un Dataware
House), que se enfoca en sujetos especficos. Por ejemplo, un data mart podra
contener informacin especializada acerca de un solo departamento dentro de
la organizacin. Todos estos usos pueden resultar en nuevo conocimiento, que
luego se puede usar como una fuente de datos desde la que se pueden

formatear datos y ponerlos en el almacn. Los datos de todas las fuentes se


deben refrescar de manera peridica. Si hay suficiente espacio de
almacenamiento, los nuevos datos simplemente se agregan al almacn
existente, y los datos antiguos se mantienen en tanto sean tiles. De otro
modo, los datos que ya no se usan ms se purgan de manera peridica, y se
agregan nuevos datos. La frecuencia y mbito de las actualizaciones depende
del entorno. Los factores que se deben considerar para decidir la poltica de
actualizacin incluyen cunto almacenamiento est disponible, si el almacn
necesita datos recientes, si puede estar fuera de lnea durante la regeneracin,
y cunto tardar el proceso para transmitir los datos, limpieza, formateo, carga
y construccin de ndices. La poltica usual es hacer una regeneracin parcial
de manera peridica.

5. Modelos de datos para almacenes de datos


Aunque los modelos en las fuentes de datos pueden variar, el almacn de
datos en s debe usar un solo modelo consistente que aloje las necesidades de
los usuarios. Los almacenes de datos generalmente usan un modelo
multidimensional. Los datos se pueden considerar como residentes en una
matriz multidimensional llamada cubo de datos. El cubo puede pivotear o
rotar para mostrar una dimensin de inters diferente.

En un modelo multidimensional, es posible crear un nivel de granularidad ms


grueso al combinar o agregar datos, un proceso llamado rollup (exploracin
superficial).
El proceso inverso es el drill-down (exploracin minuciosa). En este proceso
se proporciona ms detalle sobre cierta dimensin, usando granularidad ms
fina para los datos.
Cuando el pivoteo y/o rollup de un cubo de datos da por resultado una
presentacin bidimensional estilo hoja de clculo, es natural agregar totales
para las filas y columnas, lo que forma una tabulacin cruzada (crosstabulation). Si examina una porcin del cubo de datos con el uso de una
seleccin donde especifique igualdad de condiciones para una o ms
dimensiones, este tipo de operacin tambin se llama slice (proyectar en
dimensiones), el cubo de datos, porque parece como si el usuario hubiera
cortado a travs del cubo en la direccin seleccionada. Una operacin
adicional, llamada dicing (seleccionar sobre una dimensin), se realiza si
especifica un rango de valores en una seleccin.
6. Arquitectura del Data Warehouse:
Cuando diseamos la arquitectura de un sistema de Data Warehouse nos
hemos de plantear los diferentes entornos por los que han de pasar los datos
en su camino hacia su Data mart o cubo de destino. Dada la cantidad de
transformaciones que se han de realizar, y que normalmente el DWH, adems
de cumplir su funcin de soporte a los requerimientos analticos, realiza una
funcin de integracin de datos que van a conformar el Almacn Corporativo y
que van a tener que ser consultados tambin de la manera tradicional por
los sistemas operacionales, es muy recomendable crear diferentes reas de
datos en el camino entre los sistemas origen y las herramientas OLAP.
Cada una de estas reas se distinguir por las funciones que realiza, de qu
manera se organizan los datos en la misma, y a qu tipo de necesidad puede
dar servicio. El rea que se encuentra 'al final del camino' es importante, pero

no va a ser la nica que almacene los datos que van a explotar las
herramientas de reporting.
Tampoco hay una convencin estandar sobre lo que abarca exactamente cada
rea, y la obligatoriedad de utilizar cada una de ellas. Cada proyecto es un
mundo, e influyen muchos factores como la complejidad, el volumen de
informacin del mismo, si realmente se quiere utilizar el Data Warehouse como
almacn corporativo o Sistema Maestro de Datos, o si existen necesidades
reales de soporte al reporting operacional.
Visto esto, comentar a continuacin las reas de datos que se suelen utilizar,
e ir perfilando una propuesta de arquitectura que cada uno ha de adaptar a
sus necesidades o simplemente a su gusto en funcin de su experiencia.

Staging Area

Es un rea temporal donde se recogen los datos que se necesitan de los


sistemas origen. Se recogen los datos estrictamente necesarios para las
cargas, y se aplica el mnimo de transformaciones a los mismos. No se
aplican restricciones de integridad ni se utilizan claves, los datos se tratan
como si las tablas fueran ficheros planos. De esta manera se minimiza la
afectacin a los sistemas origen, la carga es lo ms rpida posible para
minimizar la ventana horaria necesaria, y se reduce tambin al mnimo la
posibilidad de error. Una vez que los datos estn traspasados, el DWH se
independiza de los sistemas origen hasta la siguiente carga. Lo nico que
se suele aadir es algn campo que almacene la fecha de la carga.
Obviamente estos datos no van a dar servicio a ninguna aplicacin de
reporting, son datos temporales que una vez hayan cumplido su funcin
sern eliminados, de hecho en el esquema lgico de la arquitectura muchas
veces no aparece, ya que su funcin es meramente operativa.
Hay quien considera que la Staging Area abarca ms de lo que he
comentado, o incluso que este area engloba todo el entorno donde se
realizan los procesos de ETL, yo me decanto por su utilizacin slo como
rea temporal.

ODS (Operational Data Store)

Como su nombre indica, este area es la que va a dar soporte a los sistemas
operacionales. El modelo de datos del Almacn de Datos Operacional sigue
una estructura relacional y normalizada, para que cualquier herramienta de
reporting o sistema operacional pueda consultar sus datos. Est dentro del
Data Warehouse porque se aprovecha el esfuerzo de integracin que
supone la creacin del Almacn de Datos Corporativo para poder atender
tambin a necesidades operacionales, pero no es obligatorio, y ni siquiera
es algo especfico del Business Intelligence, los ODS ya existan antes de
que empezramos a hablar de BI y de DWH.
No almacena datos histricos, muestra la imagen del momento actual,
aunque eso no significa que no se puedan registrar los cambios.
Los datos del ODS se recogen de la Stage Area, y aqu s que se realizan
transformaciones, limpieza de datos y controles de integridad referencial
para que los datos estn perfectamente integrados en el modelo relacional
normalizado.
Hay que tener en cuenta que la actualizacin de los datos del ODS no va a
ser instantnea, los cambios en los datos de los sistemas origen no se
vern reflejados hasta que finalice la carga correspondiente. Es decir, que
se irn actualizando los datos cada cierto tiempo, cosa que hay que explicar
a los usuarios, porque los informes que se lancen contra el ODS casi nunca
podrn estar tan 'al minuto' como los que existan en el sistema origen. Lo
que s se puede hacer es definir una mayor frecuencia de carga para el
ODS que para el Almacn Corporativo. Si es necesario, se puede refrescar
el ODS cada 15 minutos, y el resto cada da.

Almacn de Datos Corporativo

El Almacn de Datos Corporativo s que contiene datos histricos, y est


orientado a la explotacin analtica de la informacin que recoge. Las
herramientas DSS o de reporting analtico atacarn principalmente a los
Data marts, pero tambin se pueden realizar consultas directamente contra

el Almacn de Datos Corporativo, sobretodo cuando sea necesario mostrar


a la vez informacin que se encuentre en diferentes Datamarts.
En l se almacenan datos que pueden provenir tanto de la Staging Area
como del ODS. Si ya hemos realizado procesos de transformacin e
integracin en el ODS no los vamos a repetir para pasar los mismos datos
al Almacn Corporativo. Lo que no se pueda recoger desde el ODS s que
habr que ir a buscarlo a la Staging Area.
El esquema se parece al de un modelo relacional normalizado, pero en l
ya se aplican tcnicas de desnormalizacin. No debera contener un
nmero excesivo de tablas ni de relaciones ya que, por ejemplo, muchas
relaciones jerrquicas que en un modelo normalizado se implementaran
con tablas separadas aqu ya deberan crearse en una misma tabla, que
despus representar una dimensin. Otra particularidad es que la mayora
de las tablas han de incorporar campos de fecha para controlar la fecha de
carga, la fecha en que se produce un hecho, o el periodo de validez del
registro.
Si el Data Warehouse no es demasiado grande, o el nivel de exigencia no
es muy elevado en cuanto a los requerimientos 'operacionales', para
simplificar la estructura se puede optar por prescindir del ODS, y si es
necesario adecuar el Almacn de Datos Corporativo para servir a los dos
tipos de reporting. En este caso, el rea resultante sera el DWH
Corporativo, pero a veces tambin se le llama ODS.

Data marts

Y por fin llegamos a la ltima rea de datos, que es el lugar donde se crean
los Data marts. stos se obtienen a partir de la informacin recopilada en el
rea del Almacn Corporativo. Cada Data Mart es como un subconjunto de
este almacn, pero orientado a un tema de anlisis, normalmente asociado
a un departamento de la empresa.
Los Data marts se disean con estructura multidimensional, cada objeto de
anlisis es una tabla de hechos enlazada con diversas tablas de
dimensiones. Si se disean siguiendo el Modelo en Estrella habr

prcticamente una tabla para cada dimensin, es la versin ms


desnormalizada. Si se sigue un modelo de Copo de Nieve las tablas de
dimensiones estarn menos desnormalizadas y para cada dimensin se
podrn utilizar varias tablas enlazadas jerrquicamente.
Este rea puede residir en la misma base de datos que las dems si la
herramienta de explotacin es de tipo ROLAP, o tambin puede crearse ya
fuera de la BD, en la estructura de datos propia que generan las
aplicaciones

de

tipo

MOLAP,

ms

conocida

como

los

cubos

multidimensionales.
El paso del anterior rea de datos a esta ha de ser bastante simple, cosa
que adems proporciona una cierta independencia sobre el software que se
utiliza para el reporting analtico. Si por cualquier razn es necesario
cambiar la herramienta de OLAP habra que hacer poco ms que redefinir
los metadatos y regenerar los cubos, y si el cambio es entre dos de tipo
ROLAP ni siquiera esto ltimo sera necesario. En cualquier caso, las reas
anteriores no tienen por qu modificarse.

7. Servidores de bases de datos

Qu es un servidor de base de datos?

Un servidor de bases de datos se utiliza para almacenar, recuperar y


administrar los datos de una base de datos. El servidor gestiona las
actualizaciones de datos, permite el acceso simultneo de muchos
servidores o usuarios web y garantiza la seguridad y la integridad de los
datos. Y cuando hablamos de datos, podemos estar hablando sobre
millones de elementos a los que acceden al mismo tiempo miles de
usuarios.
As como sus funciones bsicas, el software de servidores de bases de
datos ofrece herramientas para facilitar y acelerar la administracin de

bases de datos. Algunas funciones son la exportacin de datos, la


configuracin del acceso de los usuarios y el respaldo de datos.

Cmo se usan las bases de datos?

Las bases de datos tienen todo tipo de usos, como gestin de documentos,
gestin de registros, ndices de motores de bsqueda, para servidores de
correo electrnico y para brindar contenido dinmico de pginas web. Una
persona, aplicacin o script de pgina web puede consultar la base de datos
con el lenguaje SQL.
Los servidores de bases de datos se usan en el alojamiento de pginas web
para insertar contenido en pginas web dinmicas. Las pginas dinmicas
utilizan diseos de tipo estndar que son llenadas con informacin en
funcin de la direccin URL de la pgina, o de otras variables como las
credenciales de usuario o las acciones que se realicen en la pgina.
Algunos ejemplos de pginas dinmicas que utilizan bases de datos son los
siguientes:
o Contenido en publicaciones de blogs o pginas de categora de blogs
o Anuncios clasificados de empleos o sitios web de clasificados
o Informacin de directorios web y mapas
o El contenido de su actividad en Facebook
o Resultados de Google y otras bsquedas
o Secciones de contenido administrable en sitios web
o Listas de productos de sitios de comercio electrnico y detalles de
procesos de compra
o Detalles y configuracin de la cuenta cuando inici sesin en un sitio
web.

Cules son los servidores de bases de datos ms conocidos?

Los cinco servidores de base de datos de empresas ms conocidos son:


1. Oracle
2. SQL Server
3. DB2
4. Sybase
5. MySQL
MySQL es la base de datos ms famosa de alojamiento web. Se trata de
una opcin poderosa y tambin gratis (cdigo abierto) diseada para
funcionar con el famoso lenguaje de programacin PHP. Microsoft SQL
Server es muy popular en sitios web, empresas y ms, pues se integra
fcilmente con otros servicios de Microsoft.
Cmo elegir el tamao de un servidor para su base de datos
La eleccin de un servidor para su base de datos depende de muchos
factores, como el tamao de la base de datos y la frecuencia y la
naturaleza de las consultas a la base de datos. No existen reglas rgidas
y rpidas para determinar el tamao ideal de un servidor para sus datos,
pero algunos consejos que puede tener en cuenta son:
Analice y evale el rendimiento de su servidor de base de datos

para poder tomar decisiones ms informadas sobre sus requerimientos


de informtica y almacenamiento.
Asegrese de que tenga suficiente espacio de almacenamiento

para sus bases de datos, tanto para la actividad actual como para el
futuro.
o

Mantenga sus ndices en la memoria RAM para evitar la


paginacin (haga que su RAM disponible para el servidor de base de
datos sea mayor en tamao que el ndice, para que solo se necesite una
consulta).

Asegrese de que su sistema operativo permita la memoria RAM

que necesita (32 bits o 63 bits).


Si detecta presin de la CPU (alto consumo de la CPU, tareas en

espera de la CPU), considere la posibilidad de agregar ms CPU o ms


rpidas.
Use la tecnologa RAID para mejorar la confiabilidad y el

rendimiento de su servidor.
Haga una estimacin del precio de la banda ancha, considere

el alojamiento con tarifa plana como una opcin.


Para ver una gua completa y detallada sobre cmo elegir el hardware, y
tambin nuestra lnea actual de servidores dedicados, consulte nuestra
gua sobre hardware para servidores de bases de datos.

Alojamiento avanzado

Cuando el tiempo de inactividad no es una opcin, cuando muchos


servidores web necesitan acceder a una base de datos nica, o cuando su
aplicacin o sitio web tiene que hacer frente a los niveles de trfico altos
(por citar algunos ejemplos), un clster de servidores puede ser la solucin.
Al implementar un servidor dedicado totalmente dedicado a su servidor de
base de datos (en lugar de alojar servidores web o de datos en el mismo
hardware), usted no solo aumentar los recursos disponibles para su
servidor dedicado, sino que tambin ser ms fcil gestionar, evaluar y
escalar sus servidores. Podr entender y controlar el uso de los recursos.
Adems, las tareas como migrar su base de datos, configurar su servidor o
aadir ms recursos para sus bases de datos pueden realizarse por
separado de los dems servicios, y as simplificar y acelerar el proceso.
An ms, al implementar servidores de bases de datos dedicados activos y
pasivos

con

replicacin

recuperacin

ante

fallos

usted

estar

protegindose de las interrupciones producidas por fallos en la aplicacin o


el hardware. Y mediante una Red de rea de almacenamiento, usted puede

compartir datos de forma unificada entre varios servidores de bases de


datos, sitios web o usuarios.

Bibliografia

ETL Tool, 2014. Herramientas para diseadores de bases de datos.

Disponible en: http://etl-tools.info/es/bi/almacendedatos_arquitectura.htm


Wikipedia, Inciclopedia en lnea. Data warehouse. Disponible en:

http://en.wikipedia.org/wiki/Data_warehouse
Ricardo C. Baes de datos. Mc GrawHill, Mexico D. F. 2009

Vous aimerez peut-être aussi