Vous êtes sur la page 1sur 21

Página 1 de 21

AA5-Ev1-Validación de técnicas de migración y herramientas ETCL

Miguel Ángel Ruiz Vega

Agosto 2019

Sena Centro de Servicios Financieros

Bogotá Cundinamarca

Gestión y Seguridad de bases de datos


Página 2 de 21

Tabla de contenido
Introducción………………………………………………………………………..3

Objetivo General…………………………………………………………………...4

Objetivo Especifico………………………………………………………………..5

Herramientas ETL….……………………………………………………………...6
Página 3 de 21

Introducción

Las herramientas ETL son de gran ayuda e importancia en un proceso que lleve una

empresa porque nos permiten extraer información sin importar el sistema manejador,

transformarlo y cargarlo debidamente en otro sistema distinto al cual se llevaba control de

los datos que tiene la compañía o empresa.

Muchas de las empresas apuestan por herramientas que contribuyan de manera oportuna y

sobre todo con la mayor precisión posible al momento de realizar limpieza, cargue y

reformateo de los datos que se encuentran dentro de una organización esto con el fin de

hacer mas eficiente los sistemas de información asociadas a la compañía.


Página 4 de 21

Objetivos Generales

Identificar herramientas ETL que ayuden en el proceso de extracción, transformación y

cargue de base de datos en empresas con alto flujo de información que requiere de su

máximo desarrollo y de baja perdida de información.


Página 5 de 21

Objetivos Específicos

Numerar herramientas ETL que ayuden a los procesos de las bases de datos para

efectividad.

Identificar que herramientas cuentas como más opciones de trabajo.

Realizar un análisis de cada herramienta y verificar cual presenta más y mejor

estabilidad.

Saber que tan compatibles es cada herramienta con los distintos sistemas

manejadores de bases de datos.


Página 6 de 21

Sincronización de base de datos

Es una técnica muy utilizada en procesos de migración de datos, consiste en hacer que

dos bases de datos sean equivalentes en el mismo tiempo. Se logra mediante la copia de

datos y metadatos de una base de datos origen a una base de datos destino mediante una

herramienta tecnológica. Los asistentes de sincronización de los SMBD son configurados

con las bases de datos origen y la base de datos destino, parametrizando la ubicación de

particiones y métodos de seguridad.

Importación/Exportación de Archivos (CSV) o XML a través de

comandos de consola o interfaz gráfica.

Para las actividades de migración de datos es muy común utilizar archivos para el

movimiento de los datos. Se pueden utilizar diferentes tipos de archivos, pero los formatos

más usados son los archivos de texto, llamados archivos planos, que guardan la

información sin formato usando solo caracteres. Los sistemas de codificación más comunes

para estos archivos son: ASCII, ISO-8859-1 o latín-1 y Unicode.

Los archivos de texto pueden tener formato delimitado utilizando coma (,), punto y

coma (;) o Tabulaciones para delimitar los campos definiendo de esa forma columnas y

filas. También pueden tener formato de ancho fijo para los campos, que se utiliza para

delimitar columnas y filas.

Un formato de archivo plano muy usado es el “.CSV” (Comma-SeparatedValues, en

español Valores Separados por Coma), donde el delimitador usado es una coma.
Página 7 de 21

Muy usado para movimientos de datos con hojas de cálculo. Otro formato útil para la

migración de datos es el “.XML” (eXtensible Marckup Language), que utiliza un

metalenguaje extensible de etiquetas las cuales sirven como estándar para intercambio de

información estructurada entre distintas plataformas.

Sentencias DML

Una posibilidad de los SMBD es la utilización de sentencias DML para generar scripts

SQL que permiten realizar migraciones de bases de datos existentes.

En un script SQL se pueden realizar las siguientes tareas:

Copia de seguridad para creación de todos los usuarios, grupos,

inicios de sesión y permisos.

Creación o actualización de código para la implementación de una

base de datos.

Creación de un entorno de pruebas.

Los procesos se orientan al uso de las sentencias DML, para realizar el paso de datos de

la base de datos de origen a la base de datos destino, a través de los entornos

administrativos de los SMBD.


Página 8 de 21

Procedimientos ETCL (Extracción, Transformación, Limpieza y

Carga)

Esta técnica se basa en el diseño y construcción de procedimientos técnicos para

realizar Extracción, Transformación, Limpieza y cargue de Datos (ETCL).

Los procedimientos o pasos necesarios para el desarrollo de un proyecto de migración de

datos utilizando la metodología ETCL son:


Página 9 de 21

En todo proceso de migración, se ha de proceder a integrar dos o más sistemas por lo

cual pueden usarse diferentes técnicas, siendo las más comunes:

• Perfilado de datos: Permite explorar los propios datos, agregando a los de origen
las reglas necesarias. Esta técnica hace posible también el obtener resultados acerca
de duplicidades o errores en los datos.
• Limpieza de datos: Puede llevarse a cabo empleando para ello una herramienta de
Data Quality que ayude a eliminar errores, incorrecciones o duplicidades, entre
otras inconsistencias; y que, al mismo tiempo, enriquezca y homologue los datos,
preparándolos para el sistema de destino.
• Conexión a distintas fuentes de datos: Técnica que precisa de una herramienta ad
hoc que garantice el hacerlo en condiciones de simultaneidad.
Las ventajas que proporciona el usar estas tecnologías se traducen en un aumento de la

precisión, reducción del índice de errores, mayor agilidad y optimización del tiempo; ya

que su automatización evita los procesos manuales, algo que supone su principal beneficio.

QUÉ SE DEBE TENER EN CUENTA PARA LA ELECCIÓN DEL SOFTWARE

DE ETL

Existen muchas herramientas de ETL diferentes, como también hay infinidad de bases

de datos, sistemas y organizaciones distintas. En el momento de seleccionar la que liderará

la migración e integración de datos pueden tomarse en consideración las recomendaciones

de Gartner en cuanto a las cualidades que la herramienta ha de presentar:

• Adaptabilidad a distintos sistemas operativos y plataformas hardware.


• Capacidades de gestión de datos: en cuanto a minería, perfilado y calidad.
• Habilidades para monitorizar, gestionar y controlar los procesos de integración de
datos: en lo relativo a gestión de errores, recolección de estadísticas de ejecución,
controles de seguridad, etc.
• Capacidades SOA.
• Capacidades de diseño y entorno de desarrollo: como soporte para test,
representaciones gráficas, modelos y flujos de datos y flujos de datos, etc.
• Cualidades de arquitectura e integración referidas al grado de interoperabilidad,
compactación y consistencia de los diferentes componentes que la formen.
Página 10 de 21

Aunque la elección de un software de ETL no es sencilla, su repercusión en el curso del

proyecto es decisiva. Una decisión correcta pasa por la automatización y en base a ella

quedan garantizados:

• Un aumento en la velocidad de desarrollo del proyecto.


• La descentralización del control de la ejecución y de todos los procesos.
• Una mayor agilidad en el negocio.
• Mayor precisión.
• Minimización de errores.

Ventajas de la Sincronización de datos

Aumento de la fiabilidad: mediante la replicación de base de datos a través de

múltiples servidores, te aseguras que los datos van a estar disponibles incluso en el

caso de que una de las máquinas tenga un fallo grave de hardware. El sistema

distribuido de gestión de bases de datos debe ser capaz de enrutar a los usuarios

afectados a otro de los nodos disponibles.

Mejora en el rendimiento: al estar los datos distribuidos en diferentes servidores, los

múltiples accesos no saturan los servidores. Esto es importante sobre todo en el caso

de aplicaciones que pueden tener miles o cientos de miles de peticiones simultáneas.

El rendimiento de las aplicaciones aumenta notablemente.

Mejora en la seguridad de los datos: en un sistema transaccional tradicional, todas

las actualizaciones de una base de datos se guardan en un mismo disco. La


Página 11 de 21

seguridad de tus datos queda entonces en manos de la estrategia de copias de

seguridad que tengas implementada en ese servidor. Con la replicación de base de

datos aumentas la seguridad de los datos ya que las actualizaciones están siendo

escritas en varios servidores. Es decir, varios discos, varias fuentes de alimentación,

CPU’s, etc. son utilizadas para asegurar que tus datos estarán a salvo en algunos

servidores, aunque pueda ocurrir un desastre en otros.

Importación/Exportación de Archivos (CSV) o XML a través de comandos de

consola o interfaz gráfica.

ventajas

Importar datos desde archivos CSV y XML

Importar datos directamente o generar un script SQL de importación

Exportar datos en formatos XML, CSV, HTML o Excel

Exportar datos desde cualquier tabla o vista de la BD

Exportar datos desde una consulta SQL

Copiar datos de una ventana de resultados y pegarlos en otra aplicación

Vista previa de datos antes de importarlos/exportarlos

Ventajas sentencias DML

Copia de seguridad para creación de todos los usuarios, grupos,

inicios de sesión y permisos.


Página 12 de 21

Creación o actualización de código para la implementación de una

base de datos.

Creación de un entorno de pruebas.

Ventajas ETL

Consolidación de los metadatos en un catálogo unificado de integración

(Metadata Manager).

Sus herramientas permiten una colaboración de TI y negocio.

Capacidades de desarrollo que aceleran el desarrollo y simplifican la

administración.

Herramientas visuales y de productividad que facilita la colaboración entre los

diferentes especialistas.

Una arquitectura basada en metadatos nos evita recodificar, aumenta la

productividad y, además, simplifica el desarrollo de servicios web.

Mayor agilidad en la entrega de los datos e informes críticos.


Página 13 de 21

BITOOL
Característica Definición Pantalla
Fácil Administración de BiTool Permite mantener ordenado las
Proyectos. carpetas de proyectos.

BiTool Server
Fácil conexión a Base de Permite conectarse a cualquier motor de base
Datos. de datos, entre los que también incluyen
archivos de texto y hojas de cálculo.
Varias Conexiones
Uso de Constantes El uso de variables permite al administrador
Globales de Base de Datos tener mayor seguridad
sobre la base de datos ya que solo le entrega
el nombre de la variable de conexión al Creación de Variables
Programador.

También el uso de variables ayuda a pasar de


ambiente de desarrollo a producción en
menos de 5 segundos y sin modificar ni una
línea de código.
Manejo de Variables BiTool Permite crear variables numéricas,
Locales texto o de Fecha y estos valores pueden ser
modificados en tiempo de ejecución, así
mismo podrá consultar si la variable en Ejemplo con
determinado momento tiene un determinado Variables
valor y activar un evento.
Opciones de Notificación BiTool cuenta con varios objetos de
conexión, siendo los mas importantes:
Notificación en pantalla y Notificación por e-
Mail. Ejemplo de Uso de Notificadores
Página 14 de 21

Uso de Importadores y BiTool cuenta permite que los usuarios


Data Entries interactúen durante el proceso de carga, por
ejemplo que el proceso notifique a un
usuario determinado que es el momento de Creación de Data Entries
ingresar los archivos de texto que le envía
algún proveedor de información, el proceso
de carga se paraliza hasta que el usuario
ingrese dichos archivos a sistema.
Workflow de Importadores
Otra manera en que el usuario puede
interactuar con el sistema es a través de
los Data Entries, donde el sistema abre una
pantalla al usuario para que ingrese los datos
que le solicita, el proceso de carga se Parámetros del Importador
paraliza hasta que haya ingresado
correctamente todos los datos.

En ambos casos el sistema cuenta con un


robot que puede ser configurado para
detectar que los importadores y/o Data
entries no han sido ingresados en su
momento oportuno y podría trasladar la tarea
a otro usuario o notificar a la gerencia.

Permite Recursividad BiTool permite hacer llamadas recursivas


entre proyectos o entre bloques de código,
esta función es ideal cuando se esta
haciendo una validación de datos y no se Llamada Recursiva
requiere que continué hasta que el proceso
haya terminado en forma satisfactoria.
Buen Manejo de BiTool permite realizar complejos escenarios
WorkFlow de workflow, manejando 3 eventos que
determinan la ruta a seguir dentro del flujo
esto son: Terminó Satisfactorio, Errada o WorkFlow Complejos
Hacer siempre sin importar el estado.
BiTool cuenta con algunos objetos de
bifurcación, bucle y llamadas al mismo
proyecto.
Permite Llamada a BiTool permite llamar a programas externos
Programas externos tanto en el lado del cliente como del
servidor, esta opciones ideal cuando se tiene
proyectos de cargas utilizando algún Llamadas a Programas Externos
software especializado del mercado como
por ejemplo: DataJuction, DTS, Etc o
programa de carga desarrollado por la misma
Página 15 de 21

compañía, estos programas pueden ser


incluidos dentro del proceso de carga,
reduciendo así el costo de migración.

Requerimien Ventajas Desventajas Tiempo

tos técnicos

SQL • Es un sistema de gestión • Utiliza mucho la memoria 3


de base de datos. RAM para las instalaciones
SERVER SQL • Es útil para manejar y y utilización de software. semanas.
obtener datos de la red de • No se puede utilizar como
INTEGRATIO Server redes. practicas porque se Semana
• Nos permite olvidarnos prohíben muchas cosas,
N SERVICES Estándar de los ficheros que tiene restricciones en lo 1:
forman la base de datos. particular.
• Si trabajamos en una red • La relación, calidad y el Análisis
social nos permite precio está muy debajo
agregar otros servidores comparado con oracle. de datos
de SQL Server. Por • Tiene muchos bloqueos a
ejemplo, dos personas nivel de página, un tamaño Semana
que trabajan con SQL de página fijo y demasiado
Server, uno de ellos se pequeño, una pésima 2:
puede conectar al implementación de los
servidor de su otro tipos de datos variables. Migració
compañero y así se
puede ver las bases de n y
datos del otro compañero
con SQL Server. validación
• SQL permite administrar
permisos a todo. de
También permite que
alguien conecte su información
SQLO al nuestro, pero
sin embargo podemos Semana
decirle que no puede ver
esta base de datos, pero 3:
otro sí.
Optimiza

ción de

proceso
Página 16 de 21

ORACLE Oracle • Oracle es el motor de • Las versiones más recientes 3


base de datos objeto- de Oracle son la 11g, 10g,
WAREHOUS Estándar relacional más usado a 9g, 8g, desde el semanas.
nivel mundial. lanzamiento original de la 8
E BUILDER • Puede ejecutarse en todas se sucedieron varias
las plataformas, desde versiones con correcciones,
una Pc hasta un hasta alcanzar la Semana
supercomputador. estabilidad en la 8.0.3. El
• Oracle soporta todas las motivo de tantos fallos fue, 1:
funciones que se esperan al parecer, la remodelación
de un servidor "serio": del sistema de Análisis
un lenguaje de diseño de almacenamiento por causa
bases de datos muy de la introducción de de datos
completo (PL/SQL) que extensiones orientadas a
permite implementar objetos.
diseños "activos", con • El mayor inconveniente de
triggers y procedimientos Oracle es quizás su precio. Semana
almacenados, con una Incluso las licencias de
integridad referencial Personal Oracle son 2:
declarativa bastante excesivamente caras, en mi
potente. opinión. Otro problema es Migració
• Permite el uso de la necesidad de ajustes. Un
particiones para la error frecuente consiste en n y
mejora de la eficiencia, pensar que basta instalar el
de replicación e incluso Oracle en un servidor y validación
ciertas versiones admiten enchufar directamente las
la administración de aplicaciones clientes. Un de
bases de datos Oracle mal configurado
distribuidas. puede ser información
• El software del servidor desesperantemente lento.
puede ejecutarse en • También es elevado el
multitud de sistemas coste de la información, y
operativos. sólo últimamente han Semana
• Existe incluso una comenzado a aparecer
versión personal para buenos libros sobre asuntos 3:
Windows 9x, lo cual es técnicos distintos de la
un punto a favor para los simple instalación y Optimiza
desarrolladores que se administración.
llevan trabajo a casa. ción de
• Oracle es la base de
proceso
datos con más
orientación hacía
INTERNET.
Página 17 de 21

Los servicios de integración de Microsoft SQL Server le permiten automatizar la


ejecución de scripts DDL, tareas de procesamiento de modelos de cubos y minería,
y tareas de consulta de minería de datos. Los servicios de integración pueden
considerarse como una colección de tareas de control de flujo y mantenimiento,
que pueden vincularse para formar trabajos de procesamiento de datos
secuenciales y paralelos.

Integration Services está diseñado para realizar operaciones de limpieza de datos


durante las tareas de procesamiento de datos y para reunir datos de diferentes
fuentes de datos. Al trabajar con cubos y modelos de minería, Integration Services
puede transformar datos no numéricos en datos numéricos, y puede garantizar que
los valores de los datos se encuentren dentro de los límites esperados, creando así
datos limpios desde los cuales se pueblan tablas de hechos y dimensiones.

APLICACIÓN SMBD SELECCIONADO

1. SQL SERVER INTEGRATION SERVICES:

Microsoft Integration Services es una plataforma para la creación de soluciones


empresariales de transformaciones de datos e integración de datos. Integration Services
sirve para resolver complejos problemas empresariales mediante la copia o descarga de
archivos, el envío de mensajes de correo electrónico como respuesta a eventos, la
actualización de almacenamientos de datos, la limpieza y minería de datos, y la
administración de objetos y datos de SQL Server. Los paquetes pueden funcionar en
solitario o junto con otros paquetes para hacer frente a las complejas necesidades de la
empresa. Integration Services puede extraer y transformar datos de diversos orígenes como
archivos de datos XML, archivos planos y orígenes de datos relacionales y, después, cargar
los datos en uno o varios destinos.

Integration Services contiene un variado conjunto de tareas y transformaciones integradas,


herramientas para la creación de paquetes y el servicio Integration Services para ejecutar y
administrar los paquetes. Las herramientas gráficas de Integration Services se pueden usar
para crear soluciones sin escribir una sola línea de código. También se puede programar el
amplio modelo de objetos de Integration Services para crear paquetes mediante
programación y codificar tareas personalizadas y otros objetos de paquete.

El SSIS Import/Export Wizard permite mover datos de origen a destino sin modificar los
datos del origen y permitiendo hacer iteraciones y cambios de información antes de llegar
al destino dentro de tablas de ETL. Se pueden importar datos de fuentes diferentes a SQL
Server.
Página 18 de 21

Con la herramienta Business Intelligence Development Studio, se pueden realizar tareas de


migración fácilmente usando tareas visuales. Si se desea crear nueva funcionalidad, se
pueden crear scripts en c# o VB.

Los paquetes, que son las unidades de almacenamiento de estas tareas de migración se
pueden guardar en archivos dtsx o en la base de datos en formato XML.

Una vez implementado el paquete puede ser depurado.

Caracteristicas SSIS

• Ultima Version: SQL Server 2014 Integration Services

• Requerimientos Técnicos:

• Instalar en un equipo de 64 bits

• Instalar en un servidor dedicado para ETL

• Si requiere las características en tiempo de diseño de Integration Services, también


debe instalar Business Intelligence Development Studio.

• Si necesita las versiones de 32 bits de las herramientas y del motor en tiempo de


ejecución de Integration Services para ejecutar ciertos paquetes en modo de 32 bits,
también debe instalar Business Intelligence Development Studio.

2. ORACLE WAREHOUSE BUILDER:

Es una complete herramienta para todos los aspectos de administración de datos y


metadatos. Esta brinda características para asegurar la calidad de datos, que integran el
modelado relacional y multidimensional y que permiten la administración de todo el ciclo
de vida de datos y metadatos

Enterprise ETL Option

La opción empresarial ETL (Enterprise ETL Option) para Warehouse Builder es una
opción que puede ser adquirida con Oracle Warehouse Builder como parte de la edición
empresarial del motor de base de datos (Oracle DB Enterprise Edition).
Página 19 de 21

En grandes implementaciones, más y más procesos se ejecutan en paralelo, agotando los


recursos debido a las grandes cantidades de datos que participan en la carga.

Como parte de la Enterprise ETL Option, Warehouse Builder permite ejecutar cargas de
datos usando métodos rápidos y eficientes tales como el Oracle Data Pump y transportable
tablespaces. Esta es una aproximación completamente diferente al movimiento de datos que
se realiza por medio de conjuntos de datos controlados por el motor de base de datos. Los
incrementos en velocidad de carga se deben entonces a la omisión de las capas SQL
tradicionales.

En Warehouse Builder la lógica de dimensiones lentamente cambiantes es diseñada en los


metadatos de la dimensión. La dimensión captura toda la lógica que será aplicada a los
datos que se insertan dentro de la misma.

Una vez, los usuarios de negocio han decidido que atributos son importantes, el modelador
de datos diseña la dimensión. Con los pasos de ETL el desarrollador ve esta dimensión
como cualquier otra. El siguiente paso es definir cómo efectuar los cambios y
actualizaciones en la dimensión. Warehouse Builder automatiza esto basado en la
definición de la dimensión. La combinación entre estos pasos, el diseño y la
estandarización hacen que los procesos relacionados con dimensiones lentamente
cambiantes presente un alto desempeño en su ejecución.

Traza Lineal de Principio a Fin

Los servicios de administración de dependencias (Warehouse Builder Dependency


Management ) le permiten prever el efecto que puedan tener los cambios que se hagan en
cualquier lugar de los metadatos del sistema ETL antes de que estos puedan afectarlo y
deterióralo.

Con la Enterprise ETL Option de Warehouse Builder, es posible generar un modelo para
configurar los ambientes de desarrollo, pruebas y producción a niveles separados. Para
mover los cambios desde el ambiente de desarrollo a producción, el código generado en
desarrollo es modificado en producción solo en áreas específicas. Por ejemplo, la
información sobre las conexiones es substituida por la definida en desarrollo.
Página 20 de 21

APLICACIÓN DE USO LIBRE

Benetl: Es una herramienta ETL de uso libre, desarrollada entre los años 2007 – 2014,

hecha en java y trabaja con base a lenguajes de base de datos PostgreSQL o MySQL.

Esta herramienta se creó para facilitar el trabajo con archivos TXT, CSV o archivos de

fuente de datos XML. Para recuperar los datos que tendrán que definir un dato de tiempo y

una entidad, que está representado por datos a calcular o para mostrar. Todos los objetos

útiles serán creados por Benetl dentro de una base de datos MySQL o PostgreSQL. La

aplicación también es capaz de recuperar automáticamente los datos mediante el uso de

diversas tareas planificadas de su sistema.

Mediante el uso de Benetl podrá se ha podido recuperar fácilmente la información de los

archivos de datos planos, la organización y el filtrado de acuerdo con su dato de tiempo y

entidad.

Caracteristicas Benetl

Tecnologias:

Java 7 update 80

PostgreSQL 9.5.0 (con el apoyo plpgsql)

MySQL 5.6 con función de OLD_PASSWORD de inicio de sesión de

usuario (para controlador suministrado)

Con Windows (se utiliza "tareas programadas")

Benetl 4.7 funciona en Linux.

Requerimientos Tecnicos:
Página 21 de 21

ejecución de Java (JRE) 1.7

base de datos PostgreSQL 9.5 con soporte plpgsql

base de datos de MySQL 5.6 con OLD_PASSWORD la función de

inicio de sesión de usuario o el controlador oficial de MySQL (no

incluido)

Probado en sistemas de 64 bits

Ejemplo: Nombre EtlTool… Definir Nombre, Este nombre es también el

nombre de la tabla de PostgreSQL o tabla de MySQL donde se

almacenan las líneas de datos.

Un archivo llamado "EtlTool.bat" se creará en la carpeta de origen de datos.

Vous aimerez peut-être aussi