Vous êtes sur la page 1sur 7

Tarea #1, Curso: Bases de datos. Cdigo: BIT-29.

Carrera: Ingeniera en Telemtica


Estudiante: Eduardo Loaiza Mata.
Profesor: Ing. Henry Jimnez Marchena.

ETL (extraction, transformation & load):


ETL es un trmino estndar que se utiliza para referirse al movimiento y
transformacin de datos. Se trata del proceso que permite a las
organizaciones mover datos desde mltiples fuentes, reformatearlos y
cargarlos en otra base de datos (denominada data mart o data warehouse) con
el objeto de analizarlos. Tambin pueden ser enviados a otro sistema
operacional para apoyar un proceso de negocio.
Datawarehouse:
Los sistemas de Datawarehouse (DW) son repositorios centralizados de
informacin, donde se vuelcan los datos provenientes de las aplicaciones de la
empresa. Esta informacin se recoge con el objeto de poder luego ser
aprovechada mediante aplicaciones de reporting o de analtica. En definitiva los
DW son la base para el funcionamiento de las aplicaciones OLAP, de soporte a la
decisin y en general de la inteligencia de negocio. Las caractersticas ms
importantes de este repositorio de datos son las siguientes (Wikipedia):
Orientado a temas: Los datos en la base de datos estn organizados de manera
que todos los elementos de datos relativos al mismo evento u objeto del mundo
real queden unidos entre s.
Variante en el tiempo: Los cambios producidos en los datos a lo largo del tiempo
quedan registrados para que los informes que se puedan generar reflejen esas
variaciones.
No voltil: La informacin no se modifica ni se elimina, una vez almacenado un
dato, ste se convierte en informacin de slo lectura, y se mantiene para futuras
consultas.
Integrado: La base de datos contiene los datos de todos los sistemas
operacionales de la organizacin, y dichos datos deben ser consistentes. Un
Datawarehouse se estructura de la siguiente manera:

Tarea #1, Curso: Bases de datos. Cdigo: BIT-29. Carrera: Ingeniera en Telemtica
Estudiante: Eduardo Loaiza Mata.
Profesor: Ing. Henry Jimnez Marchena.

Los Data marts son subconjuntos de datos de un data warehouse para reas
especficas. Entre las caractersticas de un data mart destacan:
Usuarios limitados.
rea especfica.
Tiene un propsito especfico.
Tiene una funcin de apoyo.
Este tipo de aplicaciones se suelen incluir dentro del mbito de las Bases de
Datos, por lo que aplicaciones de este tipo son:
Oracle Database
Microsoft SQL Server
MySQL
PostgreSQL
IBM Websphere DB2
En definitiva, el principal objetivo de este proceso es facilitar el movimiento de
los datos y la transformacin de los mismos, integrando los distintos sistemas
y fuentes en la organizacin moderna.
El trmino ETL corresponde a las siglas en ingls de:

Extract: extraer.
Transform: transformar.
Load: cargar.

Son uno de los pilares clave a la hora de planificar y disear una


infraestructura de manejo de Data, que implique la integracin de diferentes y
variadas fuentes de datos. Por lo tanto, estos procesos, representan uno de los
pilares fundamentales, tanto en simples proyectos de recopilacin de informacin
como en soluciones complejas de BigData; sobre todo si se requiere mucha
precisin o una continua actualizacin en los datos a procesar.
Aunque son transparentes para los usuarios, son los responsables de recopilar la
informacin de las distintas fuentes de origen y de adaptarla, de limpiarla y de
integrarla en cualquier tipo de repositorio digital: un data mart, una base de
conocimiento, etc. Por lo tanto, los procesos ETL son los responsables de
recopilar los datos y hacer posible que el conocimiento que encierran los datos,
pueda ser presentado mediante distintas herramientas de anlisis y reporting.

Tarea #1, Curso: Bases de datos. Cdigo: BIT-29. Carrera: Ingeniera en Telemtica
Estudiante: Eduardo Loaiza Mata.
Profesor: Ing. Henry Jimnez Marchena.

Para que su operativa sea ms ptima, deben ser los propios crawlers (robots)
que recopilan la informacin, los responsables de complementar y enriquecer cada
dato, asocindole los metadatos que le corresponden (fecha de carga, fuente,
fiabilidad del dato, frecuencia de refresco, significado, relaciones, sentimiento, etc.)
y que permiten su posterior procesado y recuperacin.
Las fases de los procesos ETL:

Extraccin: Es la fase inicial y consiste en obtener los datos de las fuentes


de origen, realizando los volcados de forma completa o incremental.
Habitualmente y con el objetivo de evitar saturaciones en las plataformas de
servidores de las organizaciones, se suele implementar repositorios
intermedios, conocidos como ODS (Operational Data Store), que actan
como pasarelas entre los sistemas de las fuentes de datos y los sistemas
de destino de la informacin.
Transformacin: Cuando los datos proceden de distintas fuentes de
repositorios digitales, lo normal es que no coincidan en formato, lo que se
conoce como datos NoSQL distintos. Por este motivo resulta imprescindible
realizar una serie de procesos de transformacin para evitar duplicidades
innecesarias o impedir que se establezcan islas de datos que no tienen
conexin entre ellas. En esta fase se aplican una serie de reglas de negocio
(o funciones) sobre los datos extrados para convertirlos en datos con una
estructura lgica comn para su procesamiento y anlisis posterior.
Carga: Esta ltima fase consiste en introducir los datos, ya estructurados
(transformados) en base al formato deseado, dentro del sistema destino
donde sern procesados y analizados. A la hora de realizar esta carga en el
repositorio final se puede apostar por dos frmulas: (i) sobre-escribir la
informacin preexistente o (ii) establecer unos ndices de historial de
cambios, para realizar consultas retrospectivas

A la hora de lanzarse esta ltima fase, en situaciones de que sea necesario


realizar una carga masiva de datos, resulta casi imprescindible desactivar
temporalmente la integridad referencial de la base de datos destino, con lo que se
deben contemplar subprocesos que garanticen la integridad final de dicho
repositorio.
Qu sistemas se pueden integrar en un proceso ETL?
Los procesos ETL pueden incluir:

Sistemas legacy. Es decir, legados, heredados o antiguos.

Sistemas nuevos. Basados en Windows, Linux y tambin en las redes


sociales modernas: Facebook, Twitter, LinkedIn, etc.

Los sistemas legacy o heredados se caracterizan, generalmente, por: ser


cerrados, no permitir cambios y tener un difcil acceso (normalmente se necesita

Tarea #1, Curso: Bases de datos. Cdigo: BIT-29. Carrera: Ingeniera en Telemtica
Estudiante: Eduardo Loaiza Mata.
Profesor: Ing. Henry Jimnez Marchena.

algn tipo de driver especial). Son sistemas que procesan hacia dentro y, por lo
tanto, no permiten la agregacin de una computadora que trabaje en paralelo.
Por el
Linux)
granja
nodos

contrario, los sistemas nuevos o modernos (basados en Windows o


son abiertos, amplios e interconectados. Un ejemplo lo constituira una
de servidores Linux, la cual permite la interconexin de los distintos
entre s.

Beneficios de los procesos ETL:


A cualquier empresa u organizacin le beneficia poner en marcha un proceso ETL
para mover y transformar los datos que maneja por los siguientes motivos:

Poder crear una Master Data Management, es decir, un repositorio central


estandarizado de todos los datos de la organizacin. Por ejemplo, si tenemos
un objeto cliente en una base de datos de crditos y otro objeto cliente en la
base de datos de tarjetas de crdito, lo que hara el Master sera definir, de
forma concreta e inequvoca, un registro cliente nico con su nombre y
apellidos para la organizacin.

Posibilita a los directivos tomar decisiones estratgicas basadas en el


anlisis de los datos cargados en las bases nuevas y actualizadas: la daya
mart o data warehouse.

Sirve para integrar sistemas. Las organizaciones crecen de forma orgnica y


cada vez se van agregando ms fuentes de datos. Esto provoca que comience
a surgir nuevas necesidades, como por ejemplo integrar los datos de
un banking on line con los datos antiguos de un sistema legacy.

Poder tener una visin global de todos los datos consolidados en una data
warehouse. Por ejemplo, crear una estrategia de marketing basndose en el
anlisis de los datos anteriores.

En sntesis, ETL son todas las actividades necesarias relacionadas a la


administracin de datos y metadatos para satisfacer las necesidades de
informacin".

Tarea #1, Curso: Bases de datos. Cdigo: BIT-29. Carrera: Ingeniera en Telemtica
Estudiante: Eduardo Loaiza Mata.
Profesor: Ing. Henry Jimnez Marchena.

Poderosos algoritmos y
procesos que extraen datos
desde algn recurso y se
transforma en determinado
formato y base de datos
escogido.

La arquitectura ETL debiera pensarse como un servicio independiente a la


presentacin y consulta de datos, es decir, dedicar hardware y software para esto
y en la implementacin seguir las mejores prcticas recomendadas por cada
vendedor y aquellas que la experiencia indican.
El proceso de ETL, desde el punto de vista tecnolgico es un FCE (Factor Crtico
de xito) de una solucin BI, permite automatizar y simplificar procesos muchas
veces complejos o demandantes en tiempo, sobre todo de mantencin de las
soluciones. La mayora de los proyectos de data warehousing incorporan procesos
de ETL, es comn ver en ms del 80% de estos proyectos un tem para ETL; no
as los sistemas operacionales los cuales an prevalece el movimiento de datos
por cdigo o a travs de las mismas aplicaciones.
Adems, el proceso ETL no es percibido desde el punto de vista usuario final de
los sistemas de informacin (salvo en determinados casos de minera de datos o
anlisis especfico), sin embargo, los usuarios tienen una participacin importante
en la concepcin y el desarrollo de stos procesos. Es el negocio el que plantea
sus necesidades de informacin y los requerimientos iniciales del sistema.
Esto plantea dos requisitos importantes en los datos que deben ser cumplidos por
el proceso ETL:
-Las necesidades de informacin determinan las fuentes de los datos y dicen
dnde se deben buscar, recolectar, transformar e integrar los datos.
- Las necesidades de informacin determinan el diseo de la base de datos
analtica, es decir, el repositorio de los datos que el proceso de ETL se encargar
de integrar y traspasar los datos para lograr el objetivo de la solucin final.
Para cumplir con estos objetivos se indica lo que se espera cuando el sistema est

Tarea #1, Curso: Bases de datos. Cdigo: BIT-29. Carrera: Ingeniera en Telemtica
Estudiante: Eduardo Loaiza Mata.
Profesor: Ing. Henry Jimnez Marchena.

terminado (alcance), las expectativas (funcionalidades), lo que existe y cmo se


genera actualmente y esto sirve de input para la definicin de las fuentes y
destinos de datos.
Lgicamente el diseo de una base de datos analtica no se debe acotar a una
necesidad particular, se dise de tal forma de hacerla flexible de incorporar
nuevos elementos al modelo, para eso se crean dimensiones que permiten
analizar diversas problemticas de negocio.
Por eso es bueno hablar de la Estrategia ETL que debe tomar en cuenta fuentes
y destinos de datos; ventanas de disponibilidad de las bases de datos; rendimiento
de los motores operacionales de informacin y motor del servidor ETL para elegir
dnde realizar las operaciones y sacar el mximo provecho al rendimiento.

Al igual que en casos anteriores, muchas bases de datos del mercado incluyen
funcionalidades o mdulos de ETL. Algunas aplicaciones especficas de ETL son:
Talend.
Kettle.
WebFocus - iWay Data Migrator Server.
BO Data Integrator.
Barracuda SW Integrator.
Cognos Decisionstream.
Conclusiones:
Proceso ETL: un sistema efectivo, pero con retos y cuestiones a resolver
Como hemos visto, los procesos ETL son muy tiles y beneficiosos para las
organizaciones por su capacidad para integrar grandes bases de datos,
logrando as una visin nica global que permite, a los analistas y directivos,
tomar las decisiones estratgicas adecuadas.
La implantacin de un sistema ETL bien definido supone todo un reto puesto que,
para
que
sea
realmente
efectivo,
debe
permitir
integrar
los
sistemas legacy (algunos ya muy obsoletos) con los ms modernos. Adems, el
acceso a todos estos sistemas se debe producir no solo en modo de lectura, sino
tambin como escritura.

Tarea #1, Curso: Bases de datos. Cdigo: BIT-29. Carrera: Ingeniera en Telemtica
Estudiante: Eduardo Loaiza Mata.
Profesor: Ing. Henry Jimnez Marchena.

Bibliografa:
http://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/312584/ProcesosETL-Definici-n-Caracter-sticas-Beneficios-y-Retos
http://analisisbi.blogspot.com/2009/10/sistemas-etl.html
Betts, Mitch. "The future of business intelligence". Computerworld.

Vous aimerez peut-être aussi