Vous êtes sur la page 1sur 37

DATAWAREHOUSING

OPERACIONAL VS DATAWAREHOUSE
Base de Datos Operacional Data Warehouse

Datos operacionales Datos del negocio para Informacin

Orientado a la aplicacin Orientado al sujeto

Actual Actual + histrico

Detallada Detallada + ms resumida

Cambia Continuamente Estable


CARACTERSTICAS DE UN DATAWAREHOUSE
ORIENTADO AL TEMA
Orientado al tema: la informacin se clasifica en
base a los aspectos que son de inters para la
empresa. Siendo as, los datos tomados estn en
contraste con los clsicos procesos orientados a
las aplicaciones.
En el ambiente operacional por ejemplo, una
aplicacin de ingreso de rdenes puede acceder a
los datos sobre clientes, productos y cuentas.
En el ambiente data warehousing se organiza
alrededor de sujetos tales como cliente, vendedor,
producto y actividad.
CARACTERSTICAS DE UN DATAWAREHOUSE
ORIENTADO AL TEMA
CARACTERSTICAS DE UN DATAWAREHOUSE -
INTEGRACION
El aspecto ms importante del ambiente data
warehousing es que la informacin encontrada al
interior est siempre integrada.
A travs de los aos, los diseadores de las
diferentes aplicaciones han tomado sus propias
decisiones sobre cmo se debera construir una
aplicacin. Los estilos y diseos personalizados se
muestran de muchas maneras.
Se diferencian en la codificacin, en las
estructuras claves, en sus caractersticas fsicas,
en las convenciones de nombramiento y otros.
CARACTERSTICAS DE UN DATAWAREHOUSE -
INTEGRACION
Codificacin. Los diseadores de aplicaciones codifican
el campo GENERO en varias formas. Un diseador
representa GENERO como una "M" y una "F", otros como
un "1" y un "0", otros como una "X" y una "Y" e inclusive,
como "masculino" y "femenino".
No importa mucho cmo el GENERO llega al data
warehouse. Probablemente "M" y "F" sean tan buenas
como cualquier otra representacin. Lo importante es
que sea de cualquier fuente de donde venga, el
GENERO debe llegar al data warehouse en un estado
integrado uniforme.
CARACTERSTICAS DE UN DATAWAREHOUSE -
INTEGRACIN
Medida de atributos. Los diseadores de aplicaciones miden
las unidades de medida de las tuberas en una variedad de
formas. Un diseador almacena los datos de tuberas en
centmetros, otros en pulgadas, otros en millones de pies
cbicos por segundo y otros en yardas.
Al dar medidas a los atributos, la transformacin traduce las
diversas unidades de medida usadas en las diferentes
bases de datos para transformarlas en una medida
estndar comn.
Convenciones de Nombramiento. El mismo elemento es
frecuentemente referido por nombres diferentes en las
diversas aplicaciones. El proceso de transformacin asegura
que se use preferentemente el nombre de usuario.
CARACTERSTICAS DE UN DATAWAREHOUSE -
INTEGRACIN
Fuentes Mltiples. El mismo elemento puede derivarse
desde fuentes mltiples. En este caso, el proceso de
transformacin debe asegurar que la fuente apropiada
sea usada, documentada y movida al depsito.
Tal como se muestra en las siguientes figuras, los
puntos de integracin afectan casi todos los aspectos
de diseo - las caractersticas fsicas de los datos, la
disyuntiva de tener ms de una de fuente de datos, el
problema de estndares de denominacin
inconsistentes, formatos de fecha inconsistentes y
otros.
CARACTERSTICAS DE UN DATAWAREHOUSE -
INTEGRACIN
CARACTERSTICAS DE UN DATAWAREHOUSE
DE TIEMPO VARIANTE
Toda la informacin del data warehouse es requerida en
algn momento. Esta caracterstica bsica de los datos
en un depsito, es muy diferente de la informacin
encontrada en el ambiente operacional.
Como la informacin en el data warehouse es solicitada
en cualquier momento (es decir, no "ahora mismo"), los
datos encontrados en el depsito se llaman de "tiempo
variante".
Los datos histricos son de poco uso en el
procesamiento operacional. La informacin del depsito
por el contraste, debe incluir los datos histricos para
usarse en la identificacin y evaluacin de tendencias.
CARACTERSTICAS DE UN DATAWAREHOUSE
DE TIEMPO VARIANTE
CARACTERSTICAS DE UN DATAWAREHOUSE
NO VOLTIL
La informacin es til slo cuando es estable. Los datos
operacionales cambian sobre una base momento a
momento. La perspectiva ms grande, esencial para el
anlisis y la toma de decisiones, requiere una base de datos
estable.
La actualizacin (insertar, borrar y modificar), se hace
regularmente en el ambiente operacional sobre una base de
registro por registro. Pero la manipulacin bsica de los
datos que ocurre en el data warehouse es mucho ms
simple. Hay dos nicos tipos de operaciones: la carga inicial
de datos y el acceso a los mismos. No hay actualizacin de
datos (en el sentido general de actualizacin) en el depsito,
como una parte normal de procesamiento.
CARACTERSTICAS DE UN DATAWAREHOUSE
NO VOLTIL
CARACTERSTICAS DE UN DATAWAREHOUSE
NO VOLTIL FACTORES A CONSIDERAR
Los datos se filtran cuando pasan desde el ambiente
operacional al de depsito. Existe mucha data que
nunca sale del ambiente operacional. Slo los datos que
realmente se necesitan ingresarn al ambiente de data
warehouse.
El horizonte de tiempo de los datos es muy diferente de
un ambiente al otro. La informacin en el ambiente
operacional es ms reciente con respecto a la del data
warehouse. Desde la perspectiva de los horizontes de
tiempo nicos, hay poca superposicin entre los
ambientes operacional y de data warehouse.
CARACTERSTICAS DE UN DATAWAREHOUSE
NO VOLTIL FACTORES A CONSIDERAR
El data warehouse contiene un resumen de la informacin
que no se encuentra en el ambiente operacional.
Los datos experimentan una transformacin fundamental
cuando pasa al data warehouse. La mayor parte de los datos
se alteran significativamente al ser seleccionados y movidos
al data warehouse. Dicho de otra manera, la mayora de los
datos se alteran fsica y radicalmente cuando se mueven al
depsito. No es la misma data que reside en el ambiente
operacional desde el punto de vista de integracin.
En vista de estos factores, la redundancia de datos entre los
dos ambientes es una ocurrencia rara, que resulta en menos
de 1%.
ESTRUCTURA DE UN DATAWAREHOUSE
Detalle de datos actuales. En gran parte, el
inters ms importante radica en el detalle de los
datos actuales, debido a que:
Refleja las ocurrencias ms recientes, las cuales
son de gran inters
Es voluminoso, ya que se almacena al ms bajo
nivel de granularidad.
Casi siempre se almacena en disco, el cual es de
fcil acceso, aunque su administracin sea
costosa y compleja.
ESTRUCTURA DE UN DATAWAREHOUSE
Detalle de datos antiguos. La data antigua es
aquella que se almacena sobre alguna forma de
almacenamiento masivo. No es frecuentemente
su acceso y se almacena a un nivel de detalle,
consistente con los datos detallados actuales.
Mientras no sea prioritario el almacenamiento en
un medio de almacenaje alterno, a causa del gran
volumen de datos unido al acceso no frecuente de
los mismos, es poco usual utilizar el disco como
medio de almacenamiento.
ESTRUCTURA DE UN DATAWAREHOUSE
Datos ligeramente resumidos. La data ligeramente resumida
es aquella que proviene desde un bajo nivel de detalle
encontrado al nivel de detalle actual. Este nivel del data
warehouse casi siempre se almacena en disco. Los puntos
en los que se basa el diseador para construirlo son:
Que la unidad de tiempo se encuentre sobre la
esquematizacin hecha.
Qu contenidos (atributos) tendr la data ligeramente
resumida.
Datos completamente resumidos. El siguiente nivel de datos
encontrado en el data warehouse es el de los datos
completamente resumidos. Estos datos son compactos y
fcilmente accesibles.
METADATA
Es la informacin sobre los datos que se alimenta, se
transforma y existe en el data warehouse. Metadata es
un concepto genrico, pero cada implementacin de la
metadata usa tcnicas y mtodos especficos.
Tpicamente, la metadata incluye los siguientes tems:
Las estructuras de datos que dan una visin de los
datos al administrador de datos.
Las definiciones del sistema de registro desde el cual
se construye el data warehouse.
Las especificaciones de transformaciones de datos que
ocurren tal como la fuente de datos se replica al data
warehouse.
METADATA EN DATAWAREHOUSE
En el almacenamiento de datos, metadatos contiene las
definiciones de los datos (el significado y el origen
de cada columna), la definicin del propio almacn de
datos (en otras palabras, el almacn de datos
estructura, los procesos ETL, y la calidad de los datos),
la definicin de los sistemas relacionados (por
ejemplo, los sistemas de fuente), la informacin de
auditora (lo que los procesos corriendo y cuando se
quedaron), y el uso (que los informes y los cubos son
utilizados por quin y cundo).
METADATA EN DATAWAREHOUSE
Por lo tanto, tenemos siete tipos de metadatos:
Definicin de datos y metadatos de mapeo contiene el significado
de cada hecho y en la columna de dimensin y donde los datos
estn viniendo.
Estructura de metadatos de datos describe la estructura de las
tablas en cada almacn de datos.
Fuente de metadatos del sistema se describe la estructura de
datos de bases de datos del sistema de origen.
Los metadatos proceso de ETL se describe cada flujo de datos en
los procesos de ETL.
Metadatos de calidad de los datos se describen las reglas de
calidad de datos, sus niveles de riesgo, y sus acciones.
Auditora de metadatos contiene un registro de los procesos y
actividades en el almacn de datos.
El uso de metadatos contiene un registro de eventos de uso de las
aplicaciones.
TRANSFORMACIN DE DATOS - ETL
Uno de los desafos de cualquier implementacin de
data warehouse, es el problema de transformar los
datos. La transformacin se encarga de las
inconsistencias en los formatos de datos y la
codificacin, que pueden existir dentro de una base de
datos nica y que casi siempre existen cuando mltiples
bases de datos contribuyen al data warehouse.
La transformacin de datos tambin se encarga de las
inconsistencias en el contenido de datos. Una vez que
se toma la decisin sobre que reglas de transformacin
sern establecidas, deben crearse e incluirse las
definiciones en las rutinas de transformacin.
TRANSFORMACIN DE DATOS - ETL
Se requieren herramientas de gestin de datos para
extraer datos desde bases de datos y/o archivos
operacionales, luego es necesario manipular o
transformar los datos antes de cargar los resultados en
el data warehouse.
Tomar los datos desde varias bases de datos
operacionales y transformarlos en datos requeridos
para el depsito, se refiere a la transformacin o a la
integracin de datos. Las bases de datos operacionales,
diseadas para el soporte de varias aplicaciones de
produccin, frecuentemente difieren en el formato.
TRANSFORMACIN DE DATOS - ETL
DIAGRAMA CONCEPTUAL ETL
DATOS SUCIOS
La limpieza de una data "sucia" es un proceso multifactico
y complejo. Los pasos a seguir son los siguientes:
1. Analizar sus datos corporativos para descubrir
inexactitudes, anomalas y otros problemas.
2. Transformar los datos para asegurar que sean precisos y
coherentes.
3. Asegurar la integridad referencial, que es la capacidad del
data warehouse, para identificar correctamente al instante
cada objeto del negocio, tales como un producto, un cliente
o un empleado.
4. Validar los datos que usa la aplicacin del data warehouse
USOS DEL DATAWAREHOUSE

Los datos operacionales y los datos del data


warehouse son accedidos por usuarios que
usan los datos de maneras diferentes.
Uso de Base de Datos Uso de Data Warehouse
Operacionales
Muchos usuarios concurrentes Pocos usuarios concurrentes

Consultas predefinidas y Consultas complejas,


Actualizables frecuentemente no
anticipadas.
Cantidades pequeas de datos Cantidades grandes de datos
Detallados detallados
Requerimientos de respuesta Requerimientos de respuesta no
Inmediata crticos
DATAMART
Un data mart es subconjunto de datos del almacn de
datos con el propsito de ayudar a que un rea o
departamento especfico pueda tomar mejores
decisiones. Los datos existentes en este contexto
pueden ser agrupados, explorados y propagados de
mltiples maneras para que diferentes grupos de
usuarios realicen la explotacin de los mismos de la
forma ms conveniente segn sus necesidades.
El data mart es un sistema orientado a la consulta, en
el que se producen procesos por lotes de carga de datos
con una frecuencia conocida y no muy alta. Es
consultado mediante herramientas OLAP que ofrecen
una percepcin multidimensional de la informacin
DATAMART
un data mart dependiente es un subconjunto lgico o un subconjunto fsico de un
almacn de datos ms grande, que se ha apartado por alguna de las siguientes
razones:
Si se necesita para un esquema o modelo de datos espacial;
Prestaciones: para descargar el data mart a una computadora
Independiente para mejorar la eficiencia o para obviar las necesidades de
administrar todo el volumen del almacn de datos centralizado;
Seguridad: para separar un subconjunto de datos de forma selectiva a los que
queremos permitir o restringir el acceso;
Conveniencia: la de poder pasar por alto las autorizaciones y requerimientos
necesarios para poder incorporar una nueva aplicacin en el almacn de datos
principal de la empresa;
Demostracin: para demostrar la viabilidad y el potencial de una aplicacin antes de
migrarla al almacn de datos de la Empresa;
Poltica: cuando se decide una estrategia para las TICs en situaciones en las que un
grupo de usuarios tiene ms influencia, para determinar si se financia dicha
estrategia o descubrir si sta no sera buena para el almacn de datos centralizado;
Poltica: estrategia para los consumidores de los datos en situaciones en las que un
equipo de almacn de datos no est en condiciones de crear un almacn de datos
utilizable.
DATAMINING (MINERIA DE DATOS)
El datamining, es el conjunto de tcnicas y tecnologas
que permiten explorar grandes bases de datos, de
manera automtica o semiautomtica, con el objetivo
de encontrar patrones repetitivos, tendencias o reglas
que expliquen el comportamiento de los datos en un
determinado contexto.
Bsicamente, el datamining surge para intentar ayudar
a comprender el contenido de un repositorio de datos.
Con este fin, hace uso de prcticas estadsticas y, en
algunos casos, de algoritmos de bsqueda prximos a
la Inteligencia Artificial y a las redes neuronales.
DATAMANING (MINERIA DE DATOS)
Aunque en datamining cada caso concreto puede ser radicalmente distinto
al anterior, el proceso comn a todos ellos se suele componer de cuatro
etapas principales:
Determinacin de los objetivos. Trata de la delimitacin de los objetivos que
el cliente desea bajo la orientacin del especialista en data mining.
Preprocesamiento de los datos. Se refiere a la seleccin, la limpieza, el
enriquecimiento, la reduccin y la transformacin de las bases de datos.
Esta etapa consume generalmente alrededor del setenta por ciento del
tiempo total de un proyecto de data mining.
Determinacin del modelo. Se comienza realizando unos anlisis
estadsticos de los datos, y despus se lleva a cabo una visualizacin
grfica de los mismos para tener una primera aproximacin. Segn los
objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse
algoritmos desarrollados en diferentes reas de la Inteligencia Artificial.
Anlisis de los resultados. Verifica si los resultados obtenidos son
coherentes y los coteja con los obtenidos por los anlisis estadsticos y de
visualizacin grfica. El cliente determina si son novedosos y si le aportan
un nuevo conocimiento que le permita considerar sus decisiones.
DATAMINING (MINERIA DE DATOS)
Carga de trabajo de un Datamining
EXTENSIONES DEL DATAMINING
Web mining
Una de las extensiones del data mining consiste en aplicar sus
tcnicas a documentos y servicios del Web, lo que se llama web
mining (minera de web). Todos los que visitan un sitio en Internet
dejan huellas digitales (direcciones de IP, navegador, cookies, etc.)
que los servidores automticamente almacenan en una bitcora de
accesos (log). Las herramientas de web mining analizan y procesan
estos logs para producir informacin significativa,
Por ejemplo, cmo es la navegacin de un cliente antes de hacer una
compra en lnea. Debido a que los contenidos de Internet consisten
en varios tipos de datos, como texto, imagen, vdeo, metadatos o
hiperligas, investigaciones recientes usan el trmino multimedia data
mining (minera de datos multimedia) como una instancia del web
mining para tratar ese tipo de datos.
Los accesos totales por dominio, horarios de accesos ms
frecuentes y visitas por da, entre otros datos, son registrados por
herramientas estadsticas que complementan todo el proceso de
anlisis del web mining.
EXTENSIONES DEL DATAMINING
Text Mining: Estudios recientes indican que el
ochenta por ciento de la informacin de una
compaa est almacenada en forma de
documentos. Sin duda, este campo de estudio
es muy vasto, por lo que tcnicas como la
categorizacin de texto, el procesamiento de
lenguaje natural, la extraccin y recuperacin
de la informacin o el aprendizaje automtico,
entre otras, apoyan al text mining (minera de
texto).
BIBLIOGRAFIA

Data Warehousing - Publicado Originalmente


en
http://personal.lobocom.es/claudio/gen006.ht
m - Escrito por el profesor Claudio Cesares
claudio@lobocom.es
Building a Data Warehouse - Vincent Rainardi

Vous aimerez peut-être aussi