Académique Documents
Professionnel Documents
Culture Documents
Kimball Methodology
ETL
El proceso ETL es la base del DW. Un sistema ETL bien diseado extrae
datos de los sistemas de origen, asegura la consistencia y calidad de los
datos, se ajusta de manera que las diversas fuentes de datos puedan
integrarse, y finalmente entrega los datos en un formato adecuado para que
los desarrolladores de pueden crear aplicaciones y los usuarios finales
puedan tomar decisiones.
El proceso ETL es una actividad back room que no es visible a los usuarios
finales; este proceso consume aproximadamente el 70% requeridos para la
implementacin y mantenimiento de un tpico DW.
El proceso ETL agrega valor significativo a la data.
ETL
Entre los objetivos del proceso se tiene:
Remover errores y corregir data desconocida o sin significado.
Provee medidas de confianza de los datos.
Captura el flujo transaccional de la data
Ajusta la data proveniente de mltiples fuentes origen para ser utilizados de
forma conjunta.
Estructura la data para ser utilizada por las herramientas de usuario final
El Staging rea
El Staging rea es el lugar de trnsito de los datos en su camino de la
fuente al Data Warehouse. La mayor parte del esfuerzo en la construccin
de un Data Warehouse se despliega en el Staging rea, donde se
construyen y se implementan los procesos de extraccin, limpieza,
transporte, transformacin y carga de los datos.
El Staging rea
Descubrir
Extraer
Transformar
Transportar
Cargar
Extraer
10
- Conversin de llaves
concatenadas
11
12
13
Asignacin de llaves
artificiales
14
15
16
17
Estandarizacin de datos
Es el proceso orientado a la uniformizar los
datos en base a las definiciones y luego en
base a la realidad. Por ejemplo un caso tpico
es el que se presenta es cuando existen
campos que contienen diferente valor como
por ejemplo Andy y Andrew y que se
refieren a la misma persona real, o el caso en
el que el campo contiene los mismos valores
Brenda y Brenda per o que en la realidad
corresponden a personas distintas.
Limpieza de datos
El problema de la calidad de los datos se
puede enfrentar en parte con rutinas de
limpieza que permitan reducir el nmero de
registro s con error.
19
No. Doc.
Nombre
02336589
2336589
02336689
Posibles soluciones:
Construir rutinas de limpieza y transformacin.
20
Importancia de los metadatos en el desarrollo del Data
Warehouse
Cada etapa en la construccin del Data
Warehouse genera un conjunto de
metadatos propios, estos metadatos
se deben unificar en un solo
repositorio.
Transformaciones.
22
Arquitectura de metadatos
La implementacin de un Data Warehouse requiere tambin la
implementacin de un repositorio unificado de Metadatos, este
repositorio recibir los metadatos que se generan en todas los
bloques de la arquitectura del Data Warehouse.
23
Arquitectura de metadatos
Los usuarios de los metadatos
tendrn necesidad de ver los
siguientes metadatos:
Usuarios tcnicos:
Usuarios de negocio:
reas de negocio
Definiciones de reglas de
negocio.
Como utilizar las
herramientas.
Significado de la
informacin
Ubicacin de la informacin
24
Fuentes de metadatos
Como se puede apreciar en la arquitectura de metadatos, las fuentes
de estos ltimos son diversas y al igual que las fuentes de datos de
un datawarehouse requieren procedimientos ETL que lean los
metadatos locales de cada herramienta y los centralicen en un solo
repositorio unificado
Las fuentes de metadatos son:
25
Lgica de programas.
Comentarios en los programas
Comentarios en archivos de datos.
Secuencias de jobs y sus comentarios.
Metadatos del repositorio de la
herramienta CASE.
Modelos de datos.
Diccionarios de la base de datos.
Documentos que contengan reglas de
negocio
CONTENIDO
Los procesos de primera carga.
Los procesos de actualizacin del warehouse.
Atributos de la calidad de datos.
Anomalas en la data operacional.
Finalidad del Datawarehouse
La fbrica de informacin.
Tcnicas de acceso a los datos
26
28
29
30
Transferencia de datos
En funcin al tamao de los archivos
que se muevan de la plataforma
OLTP a la plataforma de Data
Warehouse se debe considerar una
estrategia adecuada, para ello
considerar los anchos de banda de
las redes de comunicaciones que
une las distintas plataformas.
Protocolo TCP/IP
32
Transferencia de Base a
base (replicacin).
Transferencia de archivos.
33
35
Exactitud
Existencia
36
Temporalidad
Es atributo que mide la disponibilidad de los datos en
un periodo de tiempo definido, por ejemplo el periodo
de refresco del Data Warehouse.
Unicidad
Es el porcentaje de tablas con llave primaria
y de llaves primarias que estn activas.
37
Consistencia
Es el grado de integridad de los datos, referido a la
existencia y validez de llaves primarias y llaves forneas
en la base de da tos a analizar.
38
Soluciones
39
El potencial del
Datawarehouse
Es as que un DW proporcionar
informacin para la toma de decisiones
estratgicas a un nivel gerencial, y tambin
para la toma de decisiones operativas
como a nivel de atencin al cliente en un
Call center.
La fbrica de informacin
El conjunto de aplicaciones de
un DW, que sirven para dar
acceso a la informacin recibe el
nombre fbrica de informacin.
Esta fbrica de informacin tiene
una diversidad de herramientas
de
consulta
anlisis
y
exploracin de la informacin.
41
Los usuarios
Los usuarios son la razn de ser del DW, pues
son ellos quienes pueden extraer el
conocimiento de la informacin con la ayuda de
su experiencia.
Por ello los usuarios se caracterizan por lo
siguiente:
Entienden la semntica de los datos del
Warehouse. Aprenden a explorar el Warehouse.
Tienen la experiencia.
Se debe proporcionar a cada usuario la
herramienta ms adecuada de acuerdo a su rol,
funcin y de acuerdo a su experiencia con las
herramientas de informticas, para lograrlo se
debe analizar y clasificar a los usuarios
Desde la perspectiva del DW se tienen los
siguientes tipos de usuarios:
Por funciones:
Contabilidad, marketing, produccin. Por
jerarqua:
Ejecutivos, analistas, apoyo. Por nivel de
competencia:
Ocasionales, regulares y expertos.
42
Bibliografa
http://www.lifecycle-toolkit.com/
the DW ETL Toolkit; Practical Techniques for Extracting,
Cleaning, Conforming, and Delivering Data por Ralph
Kimball, Joe Caserta