Vous êtes sur la page 1sur 37

Datawarehousing

DISEÑO DE
BASE DE DATOS
Operacional vs
datawarehouse Data Warehouse
Base de Datos Operacional

Datos operacionales Datos del negocio para


Información

Orientado a la aplicación Orientado al sujeto

Actual Actual + histórico

Detallada Detallada + más resumida

Cambia Continuamente Estable


Características de un
datawarehouse – orientado al
tema
 Orientado al tema: la información se clasifica
en base a los aspectos que son de interés
para la empresa. Siendo así, los datos
tomados están en contraste con los clásicos
procesos orientados a las aplicaciones.
 En el ambiente operacional por ejemplo, una
aplicación de ingreso de órdenes puede
acceder a los datos sobre clientes, productos
y cuentas.
 En el ambiente data warehousing se organiza
alrededor de sujetos tales como cliente,
vendedor, producto y actividad.
Características de un
datawarehouse – orientado al tema
Características de un
datawarehouse - integracion
 El aspecto más importante del ambiente data
warehousing es que la información encontrada al
interior está siempre integrada.
 A través de los años, los diseñadores de las
diferentes aplicaciones han tomado sus propias
decisiones sobre cómo se debería construir una
aplicación. Los estilos y diseños personalizados se
muestran de muchas maneras.
 Se diferencian en la codificación, en las
estructuras claves, en sus características físicas, en
las convenciones de nombramiento y otros.
Características de un
datawarehouse - integracion
 Codificación. Los diseñadores de aplicaciones
codifican el campo GENERO en varias formas. Un
diseñador representa GENERO como una "M" y
una "F", otros como un "1" y un "0", otros como una
"X" y una "Y" e inclusive, como "masculino" y
"femenino".
 No importa mucho cómo el GENERO llega al data
warehouse. Probablemente "M" y "F" sean tan
buenas como cualquier otra representación. Lo
importante es que sea de cualquier fuente de
donde venga, el GENERO debe llegar al data
warehouse en un estado integrado uniforme.
Características de un
datawarehouse - integración
 Medida de atributos. Los diseñadores de
aplicaciones miden las unidades de medida de las
tuberías en una variedad de formas. Un diseñador
almacena los datos de tuberías en centímetros,
otros en pulgadas, otros en millones de pies
cúbicos por segundo y otros en yardas.
 Al dar medidas a los atributos, la transformación
traduce las diversas unidades de medida usadas
en las diferentes bases de datos para
transformarlas en una medida estándar común.
 Convenciones de Nombramiento. El mismo
elemento es frecuentemente referido por nombres
diferentes en las diversas aplicaciones. El proceso
de transformación asegura que se use
preferentemente el nombre de usuario.
Características de un
datawarehouse - integración
 Fuentes Múltiples. El mismo elemento puede
derivarse desde fuentes múltiples. En este
caso, el proceso de transformación debe
asegurar que la fuente apropiada sea usada,
documentada y movida al depósito.
 Tal como se muestra en las siguientes figuras,
los puntos de integración afectan casi todos
los aspectos de diseño - las características
físicas de los datos, la disyuntiva de tener más
de una de fuente de datos, el problema de
estándares de denominación inconsistentes,
formatos de fecha inconsistentes y otros.
Características de un
datawarehouse - integración
Características de un
datawarehouse – de tiempo
variante
 Toda la información del data warehouse es
requerida en algún momento. Esta característica
básica de los datos en un depósito, es muy diferente
de la información encontrada en el ambiente
operacional.
 Como la información en el data warehouse es
solicitada en cualquier momento (es decir, no
"ahora mismo"), los datos encontrados en el depósito
se llaman de "tiempo variante".
 Los datos históricos son de poco uso en el
procesamiento operacional. La información del
depósito por el contraste, debe incluir los datos
históricos para usarse en la identificación y
evaluación de tendencias.
Características de un
datawarehouse – de tiempo
variante
Características de un
datawarehouse – no volátil
 La información es útil sólo cuando es estable. Los
datos operacionales cambian sobre una base
momento a momento. La perspectiva más grande,
esencial para el análisis y la toma de decisiones,
requiere una base de datos estable.
 La actualización (insertar, borrar y modificar), se hace
regularmente en el ambiente operacional sobre una
base de registro por registro. Pero la manipulación
básica de los datos que ocurre en el data warehouse
es mucho más simple. Hay dos únicos tipos de
operaciones: la carga inicial de datos y el acceso a
los mismos. No hay actualización de datos (en el
sentido general de actualización) en el depósito,
como una parte normal de procesamiento.
Características de un
datawarehouse – no volátil
Características de un
datawarehouse – no volátil –
factores a considerar
 Los datos se filtran cuando pasan desde el
ambiente operacional al de depósito. Existe
mucha data que nunca sale del ambiente
operacional. Sólo los datos que realmente se
necesitan ingresarán al ambiente de data
warehouse.
 El horizonte de tiempo de los datos es muy
diferente de un ambiente al otro. La información
en el ambiente operacional es más reciente con
respecto a la del data warehouse. Desde la
perspectiva de los horizontes de tiempo únicos,
hay poca superposición entre los ambientes
operacional y de data warehouse.
Características de un
datawarehouse – no volátil –
factores a considerar
 El data warehouse contiene un resumen de la información
que no se encuentra en el ambiente operacional.
 Los datos experimentan una transformación fundamental
cuando pasa al data warehouse. La mayor parte de los
datos se alteran significativamente al ser seleccionados y
movidos al data warehouse. Dicho de otra manera, la
mayoría de los datos se alteran física y radicalmente
cuando se mueven al depósito. No es la misma data que
reside en el ambiente operacional desde el punto de vista
de integración.
 En vista de estos factores, la redundancia de datos entre
los dos ambientes es una ocurrencia rara, que resulta en
menos de 1%.
Estructura de un
datawarehouse
 Detalle de datos actuales. En gran parte, el
interés más importante radica en el detalle
de los datos actuales, debido a que:
 Refleja las ocurrencias más recientes, las
cuales son de gran interés
 Es voluminoso, ya que se almacena al más
bajo nivel de granularidad.
 Casi siempre se almacena en disco, el cual es
de fácil acceso, aunque su administración
sea costosa y compleja.
Estructura de un
datawarehouse
 Detalle de datos antiguos. La data antigua es
aquella que se almacena sobre alguna
forma de almacenamiento masivo. No es
frecuentemente su acceso y se almacena a
un nivel de detalle, consistente con los datos
detallados actuales. Mientras no sea
prioritario el almacenamiento en un medio
de almacenaje alterno, a causa del gran
volumen de datos unido al acceso no
frecuente de los mismos, es poco usual utilizar
el disco como medio de almacenamiento.
Estructura de un
datawarehouse

Datos ligeramente resumidos. La data ligeramente


resumida es aquella que proviene desde un bajo nivel
de detalle encontrado al nivel de detalle actual. Este
nivel del data warehouse casi siempre se almacena en
disco. Los puntos en los que se basa el diseñador para
construirlo son:
 Que la unidad de tiempo se encuentre sobre la
esquematización hecha.
 Qué contenidos (atributos) tendrá la data ligeramente
resumida.
Datos completamente resumidos. El siguiente nivel de
datos encontrado en el data warehouse es el de los
datos completamente resumidos. Estos datos son
compactos y fácilmente accesibles.
metadata
 Es la información sobre los datos que se
alimenta, se transforma y existe en el data
warehouse. Metadata es un concepto
genérico, pero cada implementación de la
metadata usa técnicas y métodos específicos.
Típicamente, la metadata incluye los siguientes
ítems:
 Las estructuras de datos que dan una visión de
los datos al administrador de datos.
 Las definiciones del sistema de registro desde el
cual se construye el data warehouse.
 Las especificaciones de transformaciones de
datos que ocurren tal como la fuente de datos
se replica al data warehouse.
Metadata en datawarehouse
 En el almacenamiento de datos,
metadatos contiene las definiciones de
los datos (el significado y el origen de
cada columna), la definición del propio
almacén de datos (en otras palabras, el
almacén de datos estructura, los
procesos ETL, y la calidad de los datos), la
definición de los sistemas relacionados
(por ejemplo, los sistemas de fuente), la
información de auditoría (lo que los
procesos corriendo y cuando se
quedaron), y el uso (que los informes y los
cubos son utilizados por quién y cuándo).
Metadata en datawarehouse
 Por lo tanto, tenemos siete tipos de metadatos:
• Definición de datos y metadatos de mapeo contiene el
significado de cada hecho y en la columna de dimensión y
donde los datos están viniendo.
• Estructura de metadatos de datos describe la estructura
de las tablas en cada almacén de datos.
• Fuente de metadatos del sistema se describe la estructura
de datos de bases de datos del sistema de origen.
• Los metadatos proceso de ETL se describe cada flujo de
datos en los procesos de ETL.
• Metadatos de calidad de los datos se describen las reglas
de calidad de datos, sus niveles de riesgo, y sus acciones.
• Auditoría de metadatos contiene un registro de los
procesos y actividades en el almacén de datos.
• El uso de metadatos contiene un registro de eventos de
uso de las aplicaciones.
Transformación de datos - etl
 Uno de los desafíos de cualquier implementación
de data warehouse, es el problema de
transformar los datos. La transformación se
encarga de las inconsistencias en los formatos de
datos y la codificación, que pueden existir dentro
de una base de datos única y que casi siempre
existen cuando múltiples bases de datos
contribuyen al data warehouse.
 La transformación de datos también se encarga
de las inconsistencias en el contenido de datos.
Una vez que se toma la decisión sobre que reglas
de transformación serán establecidas, deben
crearse e incluirse las definiciones en las rutinas de
transformación.
Transformación de datos - etl
 Se requieren herramientas de gestión de datos
para extraer datos desde bases de datos y/o
archivos operacionales, luego es necesario
manipular o transformar los datos antes de cargar
los resultados en el data warehouse.
 Tomar los datos desde varias bases de datos
operacionales y transformarlos en datos requeridos
para el depósito, se refiere a la transformación o a
la integración de datos. Las bases de datos
operacionales, diseñadas para el soporte de varias
aplicaciones de producción, frecuentemente
difieren en el formato.
Transformación de datos - etl
Diagrama conceptual etl
DATOS sucios
 La limpieza de una data "sucia" es un proceso
multifacético y complejo. Los pasos a seguir son los
siguientes:
1. Analizar sus datos corporativos para descubrir
inexactitudes, anomalías y otros problemas.
2. Transformar los datos para asegurar que sean
precisos y coherentes.
3. Asegurar la integridad referencial, que es la
capacidad del data warehouse, para identificar
correctamente al instante cada objeto del
negocio, tales como un producto, un cliente o un
empleado.
4. Validar los datos que usa la aplicación del data
warehouse
Usos del datawarehouse
 Los datos operacionales y los datos del data
warehouse son accedidos por usuarios que
usan los datos de maneras diferentes.
Uso de Base de Datos Uso de Data Warehouse
Operacionales
Muchos usuarios concurrentes Pocos usuarios concurrentes

Consultas predefinidas y Consultas complejas,


Actualizables frecuentemente no
anticipadas.
Cantidades pequeñas de Cantidades grandes de datos
datos Detallados detallados
Requerimientos de respuesta Requerimientos de respuesta
Inmediata no críticos
datamart
 Un data mart es subconjunto de datos del almacén
de datos con el propósito de ayudar a que un área
o departamento específico pueda tomar mejores
decisiones. Los datos existentes en este contexto
pueden ser agrupados, explorados y propagados de
múltiples maneras para que diferentes grupos de
usuarios realicen la explotación de los mismos de la
forma más conveniente según sus necesidades.
 El data mart es un sistema orientado a la consulta,
en el que se producen procesos por lotes de carga
de datos con una frecuencia conocida y no muy
alta. Es consultado mediante herramientas OLAP que
ofrecen una percepción multidimensional de la
información
datamart
un data mart dependiente es un subconjunto lógico o un subconjunto físico
de un almacén de datos más grande, que se ha apartado por alguna de las
siguientes razones:
 Si se necesita para un esquema o modelo de datos espacial;
 Prestaciones: para descargar el data mart a una computadora
 Independiente para mejorar la eficiencia o para obviar las necesidades
de administrar todo el volumen del almacén de datos centralizado;
 Seguridad: para separar un subconjunto de datos de forma selectiva a
los que queremos permitir o restringir el acceso;
 Conveniencia: la de poder pasar por alto las autorizaciones y
requerimientos necesarios para poder incorporar una nueva aplicación
en el almacén de datos principal de la empresa;
 Demostración: para demostrar la viabilidad y el potencial de una
aplicación antes de migrarla al almacén de datos de la Empresa;
 Política: cuando se decide una estrategia para las TICs en situaciones en
las que un grupo de usuarios tiene más influencia, para determinar si se
financia dicha estrategia o descubrir si ésta no sería buena para el
almacén de datos centralizado;
 Política: estrategia para los consumidores de los datos en situaciones en
las que un equipo de almacén de datos no está en condiciones de crear
un almacén de datos utilizable.
Datamining (mineria de datos)
 El datamining, es el conjunto de técnicas y
tecnologías que permiten explorar grandes bases
de datos, de manera automática o
semiautomática, con el objetivo de encontrar
patrones repetitivos, tendencias o reglas que
expliquen el comportamiento de los datos en un
determinado contexto.
 Básicamente, el datamining surge para intentar
ayudar a comprender el contenido de un
repositorio de datos. Con este fin, hace uso de
prácticas estadísticas y, en algunos casos, de
algoritmos de búsqueda próximos a la Inteligencia
Artificial y a las redes neuronales.
Datamaning (mineria de datos)
 Aunque en datamining cada caso concreto puede ser
radicalmente distinto al anterior, el proceso común a todos ellos
se suele componer de cuatro etapas principales:
 Determinación de los objetivos. Trata de la delimitación de los
objetivos que el cliente desea bajo la orientación del especialista
en data mining.
 Preprocesamiento de los datos. Se refiere a la selección, la
limpieza, el enriquecimiento, la reducción y la transformación de
las bases de datos. Esta etapa consume generalmente alrededor
del setenta por ciento del tiempo total de un proyecto de data
mining.
 Determinación del modelo. Se comienza realizando unos análisis
estadísticos de los datos, y después se lleva a cabo una
visualización gráfica de los mismos para tener una primera
aproximación. Según los objetivos planteados y la tarea que debe
llevarse a cabo, pueden utilizarse algoritmos desarrollados en
diferentes áreas de la Inteligencia Artificial.
 Análisis de los resultados. Verifica si los resultados obtenidos son
coherentes y los coteja con los obtenidos por los análisis
estadísticos y de visualización gráfica. El cliente determina si son
novedosos y si le aportan un nuevo conocimiento que le permita
considerar sus decisiones.
Datamining (mineria de datos)
Carga de trabajo de un
Datamining
Extensiones del datamining
 Web mining
Una de las extensiones del data mining consiste en aplicar sus
técnicas a documentos y servicios del Web, lo que se llama
web mining (minería de web). Todos los que visitan un sitio en
Internet dejan huellas digitales (direcciones de IP, navegador,
cookies, etc.) que los servidores automáticamente
almacenan en una bitácora de accesos (log). Las
herramientas de web mining analizan y procesan estos logs
para producir información significativa,
 Por ejemplo, cómo es la navegación de un cliente antes de
hacer una compra en línea. Debido a que los contenidos de
Internet consisten en varios tipos de datos, como texto,
imagen, vídeo, metadatos o hiperligas, investigaciones
recientes usan el término multimedia data mining (minería de
datos multimedia) como una instancia del web mining para
tratar ese tipo de datos.
 Los accesos totales por dominio, horarios de accesos más
frecuentes y visitas por día, entre otros datos, son registrados
por herramientas estadísticas que complementan todo el
proceso de análisis del web mining.
Extensiones del datamining

 Text Mining: Estudios recientes indican que el


ochenta por ciento de la información de una
compañía está almacenada en forma de
documentos. Sin duda, este campo de estudio es
muy vasto, por lo que técnicas como la
categorización de texto, el procesamiento de
lenguaje natural, la extracción y recuperación de
la información o el aprendizaje automático, entre
otras, apoyan al text mining (minería de texto).
bibliografia
 Data Warehousing - Publicado
Originalmente en
http://personal.lobocom.es/claudio/gen0
06.htm - Escrito por el profesor Claudio
Cesares claudio@lobocom.es
 Building a Data Warehouse - Vincent
Rainardi

Vous aimerez peut-être aussi