Vous êtes sur la page 1sur 43

ET

Kimball Methodology

From: Kimballs The Microsoft Data Warehouse Toolkit


Kimball defines a development lifecycle, where Inmon is just about the data warehouse (not how used)
2

ETL

El proceso ETL es la base del DW. Un sistema ETL bien diseado extrae
datos de los sistemas de origen, asegura la consistencia y calidad de los
datos, se ajusta de manera que las diversas fuentes de datos puedan
integrarse, y finalmente entrega los datos en un formato adecuado para que
los desarrolladores de pueden crear aplicaciones y los usuarios finales
puedan tomar decisiones.
El proceso ETL es una actividad back room que no es visible a los usuarios
finales; este proceso consume aproximadamente el 70% requeridos para la
implementacin y mantenimiento de un tpico DW.
El proceso ETL agrega valor significativo a la data.

ETL
Entre los objetivos del proceso se tiene:
Remover errores y corregir data desconocida o sin significado.
Provee medidas de confianza de los datos.
Captura el flujo transaccional de la data
Ajusta la data proveniente de mltiples fuentes origen para ser utilizados de
forma conjunta.
Estructura la data para ser utilizada por las herramientas de usuario final

El Staging rea
El Staging rea es el lugar de trnsito de los datos en su camino de la
fuente al Data Warehouse. La mayor parte del esfuerzo en la construccin
de un Data Warehouse se despliega en el Staging rea, donde se
construyen y se implementan los procesos de extraccin, limpieza,
transporte, transformacin y carga de los datos.

Normalmente el Data Warehouse y los sistemas transaccionales residen


en plataformas de bases de datos distintas debido a que las
configuraciones que tienen ambos ambientes son muy diferentes, y con la
finalidad que los procesos de Soporte a decisiones, que normalmente son
pesados, no afecten a los sistemas operacionales.

La herramienta que se utiliza para la construccin de los procesos del


Staging rea es la herramienta ETL, que es una herramienta
especializada en el tratamiento de los datos, sobre todo en el manejo de
grandes volmenes.
5

El Staging rea

Poblamiento del Data Warehouse


El proceso de poblar un Data Warehouse se
puede dividir en 5 tipos de subprocesos:

Descubrir

Extraer

Transformar

Transportar

Cargar

Poblamiento del Data Warehouse


Descubrir

En esta etapa se analiza la fuente de


informacin, seleccionando los datos a
extraer, los niveles de calidad de estos y la
disponibilidad de los mismos.

Extraer

El proceso de extraccin se realizara sobre


fuentes heterogneas, es por ello que se
debe contar con una herramienta ETL
abierta a todas las fuentes y a todas las
plataformas.

Poblamiento del Data Warehouse


Transformar
El proceso de transformacin se
encarga de cambiar los formatos de
datos del sistema fuente al sistema
destino, as como de realizar la
integracin de las fuentes y la
estandarizacin de los datos

El componente mas importante de los


procesos de transformacin es el
mapeo de los datos, que es la base de
las definiciones de las reglas de
transformacin, constituye la fuente
ms importante de metadatos y es la
base sobre la cual se manejan los
cambios.

Poblamiento del Data Warehouse


Los procesos de transformacin sern muy
variados y dependern de las reglas del
negocio, entre los tipos ms importantes se
pue den distinguir los siguientes:

10

- Conversin de llaves
concatenadas

Poblamiento del Data Warehouse


-Consolidacin de datos

11

- Separacin de campos FreeForm

Poblamiento del Data Warehouse


- Separacin de datos que tienen
codificacin binaria

12

- Derivar datos a partir de las


fuentes

Poblamiento del Data Warehouse


Transformando cdigos de
produccin

13

Asignacin de llaves
artificiales

Poblamiento del Data Warehouse


Tabla Look up
Es una tabla de referencia que
bsicamente tiene do s columnas que
contienen las equivalencias entre los
cdigos de las fuentes y los cdigos de
Data Warehouse.

14

Especificaciones del proceso ETL


El proceso ETL se especifica en una tabla
similar a la de la figura siguiente que
incluye el mapeo de la fuente al destino y
en la que se incluye las reglas de
transformacin a implementar.

15

Especificaciones del proceso ETL


Fuentes y objetivos
En general existirn procesos ETL entre la
fuente y el warehouse o entre el warehouse
y los datamarts o entre el ODS y los
modelos de minera de datos, o todas las
combinaciones posibles como se muestra
en la figura anterior.

16

Estandarizacin y limpieza de datos

17

Estandarizacin de datos
Es el proceso orientado a la uniformizar los
datos en base a las definiciones y luego en
base a la realidad. Por ejemplo un caso tpico
es el que se presenta es cuando existen
campos que contienen diferente valor como
por ejemplo Andy y Andrew y que se
refieren a la misma persona real, o el caso en
el que el campo contiene los mismos valores
Brenda y Brenda per o que en la realidad
corresponden a personas distintas.

Este problema se puede resolver con dos


tipos de procesos que son complementarios.
El primero un proceso automtico q ue tenga
rutinas
que
permitan
identificar
automticamente estos registro s y el
segundo un proceso de gestin visual que
tenga como finalidad complementar al
18

Limpieza de datos
El problema de la calidad de los datos se
puede enfrentar en parte con rutinas de
limpieza que permitan reducir el nmero de
registro s con error.

En el siguiente cuadro se muestra un caso


tpico de una tabla en la que se registran el
nmero de documento y el nombre digita dos
y en la que se puede distinguir errores de
digitacin comunes.

Al igual que en el caso anterior el problema se


puede enfrentar con rutinas que permitan
identificar estos registros de manera
automtica complementadas por procesos de
gestin visual de la informacin.

19

No. Doc.

Nombre

02336589

Juan Prez Costa

2336589

Prez Costa, Juan

02336689

Juan Prez Costa

Posibles soluciones:
Construir rutinas de limpieza y transformacin.

Comprar herramientas especializadas en el tratamiento


de nombres.

Establecer procesos de gestin visual de la informacin.

La importancia de los metadatos


Qu son los Metadatos?

Importancia de los metadatos


Los metadatos son como las fichas de
catlogo de u na biblioteca que ayudan a
saber el contenido y la ubicacin de un
libro

20


Importancia de los metadatos en el desarrollo del Data
Warehouse
Cada etapa en la construccin del Data
Warehouse genera un conjunto de
metadatos propios, estos metadatos
se deben unificar en un solo
repositorio.

Los metadatos que se generan en


cada etapa son:

En la extraccin de las fuentes:

Identificacin de campos fuente.


Registro de cambios.
Resolucin de inconsistencias.
Mapas

Transformaciones. En el Staging rea:


Integracin y segmentacin.
Resmenes, adiciones.
Clculos previos y derivaciones.

En el bloque de Acceso y uso:


Proporciona un mapa de navegacin para la exploracin de la
informacin.
Las herramientas de explotacin generan metadatos propios.
21

Transformaciones.

Tipos de Metadatos por los


usuarios que los utilizan
De acuerdo al tipo de
usuario los metadatos
pueden ser: Metadatos
tcnicos y metadatos del
negocio

22

Arquitectura de metadatos
La implementacin de un Data Warehouse requiere tambin la
implementacin de un repositorio unificado de Metadatos, este
repositorio recibir los metadatos que se generan en todas los
bloques de la arquitectura del Data Warehouse.

23

Arquitectura de metadatos
Los usuarios de los metadatos
tendrn necesidad de ver los
siguientes metadatos:

Usuarios tcnicos:

Datos sobre el proceso ETL


Datos sobre el DBMS.
Archivos, arquitectura.
Modelos fsico, lgico.
Mapeos.

Usuarios de negocio:

reas de negocio
Definiciones de reglas de
negocio.
Como utilizar las
herramientas.
Significado de la
informacin
Ubicacin de la informacin
24

Fuentes de metadatos
Como se puede apreciar en la arquitectura de metadatos, las fuentes
de estos ltimos son diversas y al igual que las fuentes de datos de
un datawarehouse requieren procedimientos ETL que lean los
metadatos locales de cada herramienta y los centralicen en un solo
repositorio unificado
Las fuentes de metadatos son:

25

Lgica de programas.
Comentarios en los programas
Comentarios en archivos de datos.
Secuencias de jobs y sus comentarios.
Metadatos del repositorio de la
herramienta CASE.
Modelos de datos.
Diccionarios de la base de datos.
Documentos que contengan reglas de
negocio

Poblando el data warehouse, primera


carga y procesos de actualizacin - El
OBJETIVOS
ESPECFICOS
acceso
a
los datos
Comprender los procesos de primera carga y actualizacin.

Presentar una metodologa de construccin de un Data Warehouse.


Identificar las formas de acceso a los datos.

CONTENIDO
Los procesos de primera carga.
Los procesos de actualizacin del warehouse.
Atributos de la calidad de datos.
Anomalas en la data operacional.
Finalidad del Datawarehouse
La fbrica de informacin.
Tcnicas de acceso a los datos
26

Los procesos de primera carga


Los procesos de carga al Data Warehouse tienen caractersticas
muy particulares lo que hace necesario, en muchos casos,
implementar procesos exclusivamente para la primera
carga y procesos diferentes para los refrescos peridicos.

El aspecto ms importante en un proceso de primera carga es el
volumen de informacin que se va a llevar desde la fuente hasta el
Data Warehosue, en la primera carga se suele llevar toda la
informacin histrica lo que hace que los volmenes de datos a
extraer, procesar, transportar y cargar sean muy grandes. En
algunos casos particulares cuando el volumen de informacin no
sea muy grande se puede utilizar el mismo proceso para ambos
fines
27

Los procesos de primera carga


Muchas veces el proceso de carga de volmenes considerables de datos
puede tomar mucho tiempo por lo que se deber utilizar herramientas
especializadas en el tratamiento masivo de informacin como los Bulk
Loaders para la descarga y carga de informacin en tablas y los
algoritmos hash cuando se trate de Tablas Look-up en los procesos
de transformacin.
En el caso particular de un modelo
estrella, en el proceso de primera
carga
se
deben
cargar
las
dimensiones, como se ve en la figura
siguiente, y la parte histrica de la
tabla de hechos, en ese orden
necesariamente,
debido
a
que
despus de cargadas las dimensiones
se podrn gener ar las tablas Lookup que permitirn hacer las
asignaciones de las llaves art ificiales
de la Fact-table.

28

Los procesos de actualizacin del


warehouse
En el caso de los procesos de
refresco peridico, es importante
identificar la informacin que
cambi en el ltimo periodo de
tiempo
desde
la
ultima
actualizacin,
el
volumen
de
informacin a tratar puede ser
relativamente menor al caso de la
primera carga.

La caracterstica del proceso de


carga deber ser t al que permita el
proceso ms rpido posible, de
manera que las mltiples fuentes

29

Capturando los datos que cambian


Uno de los problemas a resolver en el diseo de un proceso de refresco del data
warehouse es la tcnica para identificar los registros que cambiaron en el sistema
transaccional. As tambin no se debe perder de vista que por la naturaleza
peridica del proceso de carga siempre habr transacciones (estados intermedios
en la figura siguiente) que no se capturarn para el Data Warehouse, esta es una
limitacin intrnseca en todo proceso batch.
Algunas tcnicas que se pueden utilizar para
identificar los cambios son las siguientes:
Comparar archivos.
Sobre la base de fecha de cambio.
Triggers.
El log del DBMS.

30

Transferencia de datos
En funcin al tamao de los archivos
que se muevan de la plataforma
OLTP a la plataforma de Data
Warehouse se debe considerar una
estrategia adecuada, para ello
considerar los anchos de banda de
las redes de comunicaciones que
une las distintas plataformas.

En los casos de la primera carga,


dependiendo del volumen de datos a
transportar, es posible que sea
necesario transportar la informacin
en medio fsico.
31

Alternativas para la transmisin de la


informacin son las siguientes:
Replicacin de uno a muchos, cuando
una BD replica a mltiples BD.
Replicacin de muchos a uno, cuando
se replica de mltiples BD a una BD,
tambin llamado centralizacin.
Replicacin uno a uno, cuando se
replica de una BD a otra BD.
Cualquiera de estos esquemas puede
aplicarse tanto de la fuente al
warehouse como del warehouse a los
DataMarts.

Protocolo TCP/IP

32

Alternativas para la transmisin


de la informacin son las
siguientes:
Otras formas de
transferencia:

Transferencia de Base a
base (replicacin).
Transferencia de archivos.

33

Introduccin a la calidad de datos


La calidad de los datos de las fuentes es un problema que debe ser
enfrentado en el proceso de construccin de un DW. Los sistemas
operacionales usualmente capturan muchos datos pero solamente
validan aquellos que son de inters para el proceso en particular.

Es as que con la finalidad de mejorar la calidad de los datos de los


sistemas operacionales, se originaran cambios en los sistemas
transaccionales con la finalidad de mejorar la informacin a futuro,
y procedimientos de gestin de datos que permitan mejorar la
informacin histrica.

En general se definir niveles mnimos de calidad tambin para el


DW pues es probable que no toda la informacin de las fuentes
pueda ser corregida o gestionada.
34

Dimensiones de la calidad de datos


El problema de la calidad
de los datos se puede
analizar
de
manera
general
desde
tres
grandes
perspectivas,
independiente de si se
trate de la fuente o del
Data warehouse.

Estas dimensiones son las siguientes:

Calidad de las definiciones de los


datos: Referida a si se cuenta con
definiciones de reglas de negocio claras,
completas y precisas.

Calidad del contenido: Los valores de los


datos deben ser concordantes con las
reglas del negocio.

Calidad de la presentacin : Transformar


la data en informacin accesible cuando
sea necesario, es decir si la informacin
esta disponible en la oportunidad que se
requiera. Esta dimensin sera analizada
despus de construido el DW.

35

Atributos de la calidad de datos


Los atributos de la calidad de datos estn referido s al contenido de los datos estructurados
de las bases de datos a analizar, esta base de datos puede ser la del sistema transaccional o
la base de datos de Data warehouse. Los atributos de la calidad de datos son los siguientes:

Exactitud

Existencia

Es un atributo que no es identificable o


cuantificable con mucha facilidad pues son
valores de datos que estn permitidos pero
que no corresponden a informacin real o
consistente. Se puede medir calculando el
nmero de registros inexactos entre el
nmero de registros to tales.

Es el nmero de registros en NULL entre el


nmero d e registros totales, nos dice el
porcentaje con registros de campos nulos.

36

Atributos de la calidad de datos


Validez
Es el atributo que mide el porcentaje de
registros con valores fuera del rango o de
los dominios definidos.

Temporalidad
Es atributo que mide la disponibilidad de los datos en
un periodo de tiempo definido, por ejemplo el periodo
de refresco del Data Warehouse.

onde el dominio del campo sexo es: (M: Masculino F: Femenino)

Unicidad
Es el porcentaje de tablas con llave primaria
y de llaves primarias que estn activas.
37

Consistencia
Es el grado de integridad de los datos, referido a la
existencia y validez de llaves primarias y llaves forneas
en la base de da tos a analizar.

Anomalas de la data operacional


Las principales anomalas de los datos que
se encuentran en las bases de datos
operacionales son las siguientes:

Una tabla tpica se vera como en la


siguiente figura:

Errores en el ingreso de datos (digitacin).


Validaciones inadecuadas en los sistemas
de ingreso de informacin.
Prioridades de los sistemas operacionales.
Datos que se ingresan en campos FreeForm.
Anomalas en reglas de negocio (a travs
del tiempo).

38

Soluciones

Finalidad del Datawarehouse

Existen en el mercado herramientas


especializadas en limpieza de
determinados tipos de datos, por ejemplo
Trillium es una herramienta de limpieza de
datos de nombres en ingles.

La finalidad de construir un Datawarehouse


es poder analizar la informacin histrica
comprendiendo el pasado y el presente
para poder decidir el futuro.

En general una solucin de calidad de


datos es un proceso en el que puede haber
varias herramientas o algoritmos que
ayuden a identificar los datos errados y a
corregirlos. Este proceso debe ser
complementado y apoyado por un trabajo
manual arduo, en el que participaran las
reas usua rias de los sistemas
operacionales y del mismo Data
warehouse.

39

El Datawarehouse es una base de datos


que necesita una infraestructura de acceso
a la informacin adecuada a cada tipo de
usuario y a cada tema especfico. Adems
se debe proporcionar informacin
oportuna, integrada, en cualquier lugar.

El potencial del
Datawarehouse

Derivar valor empresarial de un DW es un


esfuerzo complejo por ello es necesario
proveer la infraestructura de acceso
adecuada.

Es as que un DW proporcionar
informacin para la toma de decisiones
estratgicas a un nivel gerencial, y tambin
para la toma de decisiones operativas
como a nivel de atencin al cliente en un
Call center.

Las herramientas que debe tener el DW

deben ir desde las que permitan explorar la


El potencial del DW esta en extraer
informacin en detalle hasta las que
proporciones vistas agregadas de la
conocimiento a partir de los datos, y para
informacin y que permitan tomar
lograrlo debe proporcionar las
decisiones a diferentes niveles jerrquicos
herramientas adecuadas.
Las aplicaciones tpicas de un DW son las
y funcionales.
siguientes:
Anlisis de rentabilidad y crecimiento.
Administracin estratgica.
Conocimiento del cliente.
Administracin de relaciones con el
cliente.
Administracin de los activos.
Permite medir resultados.
40

La fbrica de informacin
El conjunto de aplicaciones de
un DW, que sirven para dar
acceso a la informacin recibe el
nombre fbrica de informacin.
Esta fbrica de informacin tiene
una diversidad de herramientas
de
consulta
anlisis
y
exploracin de la informacin.

r la fbrica de informacin el enlace entre el usuario y el DW requiere de una arquitectura.

41

Los usuarios
Los usuarios son la razn de ser del DW, pues
son ellos quienes pueden extraer el
conocimiento de la informacin con la ayuda de
su experiencia.
Por ello los usuarios se caracterizan por lo
siguiente:
Entienden la semntica de los datos del
Warehouse. Aprenden a explorar el Warehouse.
Tienen la experiencia.
Se debe proporcionar a cada usuario la
herramienta ms adecuada de acuerdo a su rol,
funcin y de acuerdo a su experiencia con las
herramientas de informticas, para lograrlo se
debe analizar y clasificar a los usuarios
Desde la perspectiva del DW se tienen los
siguientes tipos de usuarios:
Por funciones:
Contabilidad, marketing, produccin. Por
jerarqua:
Ejecutivos, analistas, apoyo. Por nivel de
competencia:
Ocasionales, regulares y expertos.

42

Tcnicas de acceso a los


datos

Las tcnicas de acceso al DW son las formas


en que se tiene el acceso a la informacin,
estas se clasifican en:
Procesamiento informtico.
Procesamiento analtico.
Minera de datos.
El siguiente grfico muestra la relacin de
las tcnicas con las formas de anlisis:

Bibliografa
http://www.lifecycle-toolkit.com/
the DW ETL Toolkit; Practical Techniques for Extracting,
Cleaning, Conforming, and Delivering Data por Ralph
Kimball, Joe Caserta

Vous aimerez peut-être aussi