Vous êtes sur la page 1sur 17

GESTION Y SEGURIDAD DE BASES DE DATOS

AA5-EV1-VALIDACIÓN DE TÉCNICAS DE MIGRACIÓN Y HERRAMIENTAS ETL

ALCALDÍA DE SAN ANTONIO DEL SENA

ALDAIR ALFONSO GONZALEZ AMAYA

SENA

COLOMBIA

2019
ALCALDIA DE SAN ANTONIO DEL SENA

MIGRACIÓN: SECRETARÍA DE HACIENDA

TÉCNICAS EXISTENTES

Existen varias técnicas relacionadas con los procesos de migración de


datos, a continuación, se
relacionan las más utilizadas en los procesos actuales.

SINCRONIZACIÓN DE BASE DE DATOS

Es una técnica muy utilizada en procesos de migración de datos, consiste


en hacer que dos bases
de datos sean equivalentes en el mismo tiempo.

Se logra mediante la copia de datos y metadatos de una base de datos


origen a una base de
datos destino mediante una herramienta tecnológica. Los asistentes de
sincronización de los
SMBD son configurados con las bases de datos origen y la base de datos
destino, parametrizando
la ubicación de particiones y métodos de seguridad.

IMPORTACIÓN/EXPORTACIÓN DE ARCHIVOS (CSV) O XML A TRAVÉS DE

COMANDOS DE CONSOLA O INTERFAZ GRÁFICA

Para las actividades de migración de datos es muy común utilizar archivos


para el movimiento
de los datos. Se pueden utilizar diferentes tipos de archivos, pero los
formatos más usados son
los archivos de texto, llamados archivos planos, que guardan la
información sin formato usando
solo caracteres.

Los sistemas de codificación más comunes para estos archivos son: ASCII,
ISO-8859-1 o Latín-1
y Unicode.

Los archivos de texto pueden tener formato delimitado utilizando coma


(,), punto y coma (;) o
Tabulaciones para delimitar los campos definiendo de esa forma columnas y
filas. También
pueden tener formato de ancho fijo para los campos, que se utiliza para
delimitar columnas y
filas.

Un formato de archivo plano muy usado es el “.CSV” (Comma-Separated-


Values, en español
Valores Separados por Coma), donde el delimitador usado es una coma. Muy
usado para
movimientos de datos con hojas de cálculo.
Otro formato útil para la migración de datos es el “.XML” (eXtensible
Marckup Language), que
utiliza un metalenguaje extensible de etiquetas las cuales sirven como
estándar para
intercambio de información estructurada entre distintas plataformas.

SENTENCIAS DML

Una posibilidad de los SMBD es la utilización de sentencias DML para


generar scripts SQL que
permiten realizar migraciones de bases de datos existentes.

En un script SQL se pueden realizar las siguientes tareas:

Copia de seguridad para creación de todos los usuarios, grupos,


inicios de
sesión y permisos.
Creación o actualización de código para la implementación de una
base de
datos.
Creación de un entorno de pruebas.
Los procesos se orientan al uso de las sentencias DML, para realizar el
paso de datos de la base
de datos de origen a la base de datos destino, a través de los entornos
administrativos de los
SMBD.

PROCEDIMIENTOS ETCL (EXTRACCIÓN, TRANSFORMACIÓN, LIMPIEZA Y CARGA)

Esta técnica se basa en el diseño y construcción de procedimientos


técnicos para realizar
Extracción, Transformación, Limpieza y Cargue de Datos (ETCL). Los
procedimientos o pasos
necesarios para el desarrollo de un proyecto de migración de datos
utilizando la metodología
ETCL son:

En todo proceso de migración, se ha de proceder a integrar dos o más


sistemas por lo cual
pueden usarse diferentes técnicas, siendo las más comunes:

Perfilado de datos: Permite explorar los propios datos, agregando


a los de origen las
reglas necesarias. Esta técnica hace posible también el obtener
resultados acerca de
duplicidades o errores en los datos.
Limpieza de datos: Puede llevarse a cabo empleando para ello una
herramienta de Data
Quality que ayude a eliminar errores, incorrecciones o
duplicidades, entre otras
inconsistencias; y que, al mismo tiempo, enriquezca y homologue
los datos,
preparándolos para el sistema de destino.
Conexión a distintas fuentes de datos: Técnica que precisa de una
herramienta ad hoc
que garantice el hacerlo en condiciones de simultaneidad.

Las ventajas que proporciona el usar estas tecnologías se traducen en un


aumento de la
precisión, reducción del índice de errores, mayor agilidad y optimización
del tiempo; ya que su
automatización evita los procesos manuales, algo que supone su principal
beneficio.

QUÉ SE DEBE TENER EN CUENTA PARA LA ELECCIÓN DEL SOFTWARE DE ETL

Existen muchas herramientas de ETL diferentes, como también hay infinidad


de bases de datos,
sistemas y organizaciones distintas. En el momento de seleccionar la que
liderará la migración e
integración de datos pueden tomarse en consideración las recomendaciones
de Gartner en
cuanto a las cualidades que la herramienta ha de presentar:

Adaptabilidad a distintos sistemas operativos y plataformas


hardware.
Capacidades de gestión de datos: en cuanto a minería, perfilado y
calidad.
Habilidades para monitorizar, gestionar y controlar los procesos
de integración de datos:
en lo relativo a gestión de errores, recolección de estadísticas
de ejecución, controles
de seguridad, etc.
Capacidades SOA.
Capacidades de diseño y entorno de desarrollo: como soporte para
test,
representaciones gráficas, modelos y flujos de datos y flujos de
datos, etc.
Cualidades de arquitectura e integración referidas al grado de
interoperabilidad,
compactación y consistencia de los diferentes componentes que la
formen.

Aunque la elección de un software de ETL no es sencilla, su repercusión


en el curso del proyecto
es decisiva. Una decisión correcta pasa por la automatización y en base a
ella quedan
garantizados:

Un aumento en la velocidad de desarrollo del proyecto.


La descentralización del control de la ejecución y de todos los
procesos.
Una mayor agilidad en el negocio.
Mayor precisión.
Minimización de errores.

HERRAMIENTAS ETCL

APLICACIÓN DE USO LIBRE

Benetl: Es una herramienta ETL de uso libre, desarrollada entre los años
2007 – 2014, hecha en
java y trabaja con base a lenguajes de base de datos PostgreSQL o MySQL.

Esta herramienta se creó para facilitar el trabajo con archivos TXT, CSV
o archivos de fuente de
datos XML. Para recuperar los datos que tendrán que definir un dato de
tiempo y una entidad,
que está representado por datos a calcular o para mostrar. Todos los
objetos útiles serán
creados por Benetl dentro de una base de datos MySQL o PostgreSQL. La
aplicación también es
capaz de recuperar automáticamente los datos mediante el uso de diversas
tareas planificadas
de su sistema.

Mediante el uso de Benetl podrá se ha podido recuperar fácilmente la


información de los
archivos de datos planos, la organización y el filtrado de acuerdo con su
dato de tiempo y
entidad.

Caracteristicas Benetl
Tecnologias:
o Java 7 update 80
o PostgreSQL 9.5.0 (con el apoyo plpgsql)
o MySQL 5.6 con función de OLD_PASSWORD de inicio de sesión
de usuario (para
controlador suministrado)
o Con Windows (se utiliza "tareas programadas")
o Benetl 4.7 funciona en Linux.
Requerimientos Tecnicos:
o ejecución de Java (JRE) 1.7
o base de datos PostgreSQL 9.5 con soporte plpgsql
o base de datos de MySQL 5.6 con OLD_PASSWORD la función de
inicio de sesión
de usuario o el controlador oficial de MySQL (no
incluido)
o Probado en sistemas de 64 bits
Ejemplo: Nombre EtlTool… Definir Nombre, Este nombre es también el
nombre de la
tabla de PostgreSQL o tabla de MySQL donde se almacenan las líneas
de datos.

Un archivo llamado "EtlTool.bat" se creará en la carpeta de origen


de datos.

Debe presionar enter para validar su nombre EtlTool, y luego se


pueden guardar los
parámetros.
APLICACIÓN SMBD SELECCIONADO

SQL SERVER INTEGRATION SERVICES:


Microsoft Integration Services es una plataforma para la creación de
soluciones empresariales
de transformaciones de datos e integración de datos. Integration Services
sirve para resolver
complejos problemas empresariales mediante la copia o descarga de
archivos, el envío de
mensajes de correo electrónico como respuesta a eventos, la actualización
de almacenamientos
de datos, la limpieza y minería de datos, y la administración de objetos
y datos de SQL Server.
Los paquetes pueden funcionar en solitario o junto con otros paquetes
para hacer frente a las
complejas necesidades de la empresa. Integration Services puede extraer y
transformar datos
de diversos orígenes como archivos de datos XML, archivos planos y
orígenes de datos
relacionales y, después, cargar los datos en uno o varios destinos.

Integration Services contiene un variado conjunto de tareas y


transformaciones integradas,
herramientas para la creación de paquetes y el servicio Integration
Services para ejecutar y
administrar los paquetes. Las herramientas gráficas de Integration
Services se pueden usar para
crear soluciones sin escribir una sola línea de código. También se puede
programar el amplio
modelo de objetos de Integration Services para crear paquetes mediante
programación y
codificar tareas personalizadas y otros objetos de paquete.

El SSIS Import/Export Wizard permite mover datos de origen a destino sin


modificar los datos
del origen y permitiendo hacer iteraciones y cambios de información antes
de llegar al destino
dentro de tablas de ETL. Se pueden importar datos de fuentes diferentes a
SQL Server.

Con la herramienta Business Intelligence Development Studio, se pueden


realizar tareas de
migración fácilmente usando tareas visuales. Si se desea crear nueva
funcionalidad, se pueden
crear scripts en c# o VB.

Los paquetes, que son las unidades de almacenamiento de estas tareas de


migración se pueden
guardar en archivos dtsx o en la base de datos en formato XML.

Una vez implementado el paquete puede ser depurado.

Caracteristicas SSIS
Ultima Version: SQL Server 2014 Integration Services
Requerimientos Técnicos:
o Instalar en un equipo de 64 bits
o Instalar en un servidor dedicado para ETL
o Si requiere las características en tiempo de diseño de
Integration Services,
también debe instalar Business Intelligence Development
Studio.
o Si necesita las versiones de 32 bits de las herramientas y
del motor en tiempo
de ejecución de Integration Services para ejecutar
ciertos paquetes en modo de
32 bits, también debe instalar Business Intelligence
Development Studio

ORACLE WAREHOUSE BUILDER:

Es una complete herramienta para todos los aspectos de administración de


datos y metadatos.
Esta brinda características para asegurar la calidad de datos, que
integran el modelado relacional
y multidimensional y que permiten la administración de todo el ciclo de
vida de datos y
metadatos
Enterprise ETL Option

La opción empresarial ETL (Enterprise ETL Option) para Warehouse Builder


es una opción que
puede ser adquirida con Oracle Warehouse Builder como parte de la edición
empresarial del
motor de base de datos (Oracle DB Enterprise Edition).

Opciones Avanzadas para Carga de Datos

En grandes implementaciones, más y más procesos se ejecutan en paralelo,


agotando los
recursos debido a las grandes cantidades de datos que participan en la
carga.

Como parte de la Enterprise ETL Option, Warehouse Builder permite


ejecutar cargas de datos
usando métodos rápidos y eficientes tales como el Oracle Data Pump y
transportable
tablespaces. Esta es una aproximación completamente diferente al
movimiento de datos que se
realiza por medio de conjuntos de datos controlados por el motor de base
de datos. Los
incrementos en velocidad de carga se deben entonces a la omisión de las
capas SQL
tradicionales.

Soporte a Dimensiones Lentamente Cambiantes Integrado

En Warehouse Builder la lógica de dimensiones lentamente cambiantes es


diseñada en los
metadatos de la dimensión. La dimensión captura toda la lógica que será
aplicada a los datos
que se insertan dentro de la misma.
Una vez, los usuarios de negocio han decidido que atributos son
importantes, el modelador de
datos diseña la dimensión. Con los pasos de ETL el desarrollador ve esta
dimensión como
cualquier otra. El siguiente paso es definir cómo efectuar los cambios y
actualizaciones en la
dimensión. Warehouse Builder automatiza esto basado en la definición de
la dimensión. La
combinación entre estos pasos, el diseño y la estandarización hacen que
los procesos
relacionados con dimensiones lentamente cambiantes presente un alto
desempeño en su
ejecución.

Traza Lineal de Principio a Fin

Los servicios de administración de dependencias (Warehouse Builder


Dependency
Management) le permiten prever el efecto que puedan tener los cambios que
se hagan en
cualquier lugar de los metadatos del sistema ETL antes de que estos
puedan afectarlo y
deterióralo.

Por primera vez, tendrá la posibilidad de administrar los cambios de su


sistema de manera
proactiva. Como un ejemplo (Figura 3), usted puede propagar los cambios a
través de su sistema
haciendo uso el Mapping Editor.
Administración de Configuraciones Avanzadas

Tener que mover sistemas o aplicaciones de un ambiente a otro


(por ejemplo de desarrollo a
producción) es un problema frecuente.

Con la Enterprise ETL Option de Warehouse Builder, es posible


generar un modelo para
configurar los ambientes de desarrollo, pruebas y producción a
niveles separados. Para mover
los cambios desde el ambiente de desarrollo a producción, el
código generado en desarrollo es
modificado en producción solo en áreas específicas. Por ejemplo,
la información sobre las
conexiones es substituida por la definida en desarrollo.

VENTAJAS, DESVENTAJAS, TIEMPOS Y COSTO DE LAS HERRAMIENTAS.

Tecnica Descripcion
Sincronizacion de Es una técnica muy utilizada en procesos de migración
de datos, consiste en hacer que dos bases
base de datos de datos sean equivalentes en el mismo tiempo.
Se logra mediante la copia de datos y metadatos de una
base de datos origen a una base de datos
destino mediante una herramienta tecnológica. Los
asistentes de sincronización de los SMBD son
configurados con las bases de datos origen y la base de
datos destino,
parametrizando la ubicación de particiones y métodos de
seguridad.
Requerimientos Ventajas
Desventajas Tiempo
Técnicos
SQL SERVER Sql server standar Es un sistema de Utiliza
mucho la 3 semanas.
gestión de base de
memoria RAM para las Semana 1:
datos.
instalaciones y Análisis de
Es útil para manejar y
utilización de datos
obtener datos de la red
software. Semana 2:
de redes. No
se puede utilizar Migración y
Nos permite olvidarnos
como practicas validación de
de los ficheros que
porque se prohíben información
forman la base de
muchas cosas, tiene Semana 3:
datos.
restricciones en lo Optimización de
Si trabajamos en una
particular. proceso
red social nos permite La
relación, calidad y el
agregar otros
precio está muy
servidores de SQL
debajo comparado
Server. Por ejemplo,
con oracle.
dos personas que Tiene
muchos
trabajan con SQL
bloqueos a nivel de
Server, uno de ellos se
página, un tamaño de
puede conectar al
página fijo y
servidor de su otro
demasiado pequeño,
compañero y así se
una pésima
puede ver las bases de
implementación de los
datos del otro
tipos de datos
compañero con SQL
variables.
Server.
SQL permite
administrar permisos a
todo. También permite
que alguien conecte su
SQLO al nuestro, pero
sin embargo podemos
decirle que no puede
ver esta base de datos,
pero otro sí.
ORACLE Oracle Estándar Oracle es el motor de Las
versiones más 3 semanas.
WAREHOUSE base de datos objeto recientes
de Oracle Semana 1:
BUILDER relacional más usado a son la
11g, 10g, 9g, 8g, Análisis de datos
nivel mundial. desde el
lanzamiento Semana 2:
Puede ejecutarse en original
de la 8 se Migración y
todas las plataformas,
sucedieron varias validación de
desde una Pc hasta un versiones
con información
supercomputador.
correcciones, hasta Semana 3:
Oracle soporta todas alcanzar
la estabilidad Optimización de
las funciones que se en la
8.0.3. El motivo proceso
esperan de un servidor de tantos
fallos fue, al
"serio": un lenguaje de parecer,
la
diseño de bases de
remodelación del
datos muy completo sistema
de
(PL/SQL) que permite
almacenamiento por
implementar diseños causa
de la
"activos", con triggers y
introducción de
procedimientos
extensiones
almacenados, con una
orientadas a objetos.
integridad referencial El
mayor
declarativa bastante
inconveniente de
potente. Oracle es
quizás su
Permite el uso de precio.
Incluso las
particiones para la licencias
de Personal
mejora de la eficiencia, Oracle
son
de replicación e incluso
excesivamente caras,
ciertas versiones en mi
opinión. Otro
admiten la problema
es la
administración de necesidad
de ajustes.
bases de datos Un error
frecuente
distribuidas. consiste
en pensar
El software del servidor que basta
instalar el
puede ejecutarse en Oracle en
un servidor
multitud de sistemas y
enchufar
operativos.
directamente las
Existe incluso una
aplicaciones clientes.
versión personal para Un
Oracle mal
Windows 9x, lo cual es
configurado puede ser
un punto a favor para
desesperantemente
los desarrolladores que lento.
se llevan trabajo a casa. También
es elevado el
Oracle es la base de coste
de la
datos con más
información, y sólo
orientación hacía
últimamente han
INTERNET. comenzado
a aparecer
buenos
libros sobre
asuntos técnicos
distintos de la simple
instalación y
administración.