Vous êtes sur la page 1sur 14

AA5-EV1-VALIDACION DE TECNICAS DE MIGRACION Y

HERRAMIENTAS ETCL

Presentado por:

ALBA RUBY MESA YEPES


GREISON DARIO PEMBERTY VELEZ
LUISA FERNANDA CANO

ESPECIALIZACION BASE DE DATOS


SENA
Mayo 30 d !01"
ALCALDIA DE SAN ANTONIO DEL SENA
MIGRACI#N$ SECRETAR%A DE HACIENDA
T&CNICAS E'ISTENTES
Existen varias técnicas relacionadas con los procesos de migración de datos, a
continuación se relacionan las más utilizadas en los procesos actuales.
SINCRONIZACI#N DE BASE DE DATOS
Es una técnica muy utilizada en procesos de migración de datos, consiste en hacer que
dos bases de datos sean equivalentes en el mismo tiempo.
e logra mediante la copia de datos y metadatos de una base de datos origen a una base
de datos destino mediante una herramienta tecnológica. !os asistentes de sincronización
de los "#$ son con%igurados con las bases de datos origen y la base de datos destino,
parametrizando la ubicación de particiones y métodos de seguridad.
IMPORTACI#N(E'PORTACI#N DE ARCHIVOS )CSV* O 'ML A TRAV&S DE
COMANDOS DE CONSOLA O INTERFAZ GR+FICA
Para las actividades de migración de datos es muy com&n utilizar archivos para el
movimiento de los datos. e pueden utilizar di%erentes tipos de archivos, pero los %ormatos
más usados son los archivos de texto, llamados archivos planos, que guardan la
in%ormación sin %ormato usando solo caracteres.
!os sistemas de codi%icación más comunes para estos archivos son: '()), )*+-+/ o
!at0n+/ y 1nicode.
!os archivos de texto pueden tener %ormato delimitado utilizando coma 2,3, punto y coma
243 o 5abulaciones para delimitar los campos de%iniendo de esa %orma columnas y %ilas.
5ambién pueden tener %ormato de ancho %i6o para los campos, que se utiliza para delimitar 
columnas y %ilas.
1n %ormato de archivo plano muy usado es el 7.(89 2(omma+eparated+8alues, en
espaol 8alores eparados por (oma3, donde el delimitador usado es una coma. "uy
usado para movimientos de datos con ho6as de cálculo.
*tro %ormato &til para la migración de datos es el 7.;"!9 2e;tensible "arc<up !anguage3,
que utiliza un metalengua6e extensible de etiquetas las cuales sirven como estándar para
intercambio de in%ormación estructurada entre distintas plata%ormas.
SENTENCIAS DML
1na posibilidad de los "#$ es la utilización de sentencias $"! para generar scripts
=! que permiten realizar migraciones de bases de datos existentes.
En un script =! se pueden realizar las siguientes tareas:

• (opia de seguridad para creación de todos los usuarios, grupos, inicios de sesión
y permisos.
• (reación o actualización de código para la implementación de una base de datos.
• (reación de un entorno de pruebas.

!os procesos se orientan al uso de las sentencias $"!, para realizar el paso de datos de
la base de datos de origen a la base de datos destino, a través de los entornos
administrativos de los "#$.

PROCEDIMIENTOS ETCL )E'TRACCI#N, TRANSFORMACI#N, LIMPIEZA Y CARGA*


Esta técnica se basa en el diseo y construcción de procedimientos técnicos para realizar 
Extracción, 5rans%ormación, !impieza y (argue de $atos 2E5(!3. !os procedimientos o
pasos necesarios para el desarrollo de un proyecto de migración de datos utilizando la
metodolog0a E5(! son:

En todo proceso de migración, se ha de proceder a ./a do2 o 42 22/a2  por lo


cual pueden usarse di%erentes técnicas, siendo las más comunes:

• P6ado d da/o2$ Permite explorar los propios datos, agregando a los de origen


las reglas necesarias. Esta técnica hace posible también el obtener resultados
acerca de duplicidades o errores en los datos.
• L78a d da/o2$ Puede llevarse a cabo empleando para ello una herramienta
de $ata =uality que ayude a eliminar errores, incorrecciones o duplicidades, entre
otras inconsistencias4 y que, al mismo tiempo, enriquezca y homologue los datos,
preparándolos para el sistema de destino.
• Co.9:. a d2/./a2 ;./2 d da/o2$  5écnica que precisa de una herramienta
ad hoc que garantice el hacerlo en condiciones de simultaneidad.
!as venta6as que proporciona el usar estas tecnolog0as se traducen en un aumento de la
precisión, reducción del 0ndice de errores, mayor agilidad y optimización del tiempo4 ya
que su automatización evita los procesos manuales, algo que supone su principal
bene%icio.
<U& SE DEBE TENER EN CUENTA PARA LA ELECCI#N DEL SOFT=ARE DE ETL
Existen muchas herramientas de E5! di%erentes, como también hay in%inidad de bases de
datos, sistemas y organizaciones distintas. En el momento de seleccionar la que liderará
la migración e integración de datos pueden tomarse en consideración las
recomendaciones de >artner en cuanto a las cualidades que la herramienta ha de
presentar:

•  'daptabilidad a distintos sistemas operativos y plata%ormas hard?are.


• (apacidades de gestión de datos: en cuanto a miner0a, per%ilado y calidad.
• @abilidades para monitorizar, gestionar y controlar los procesos de integración de
datos: en lo relativo a gestión de errores, recolección de estad0sticas de e6ecución,
controles de seguridad, etc.
• (apacidades *'.
• (apacidades de diseo y entorno de desarrollo: como soporte para test,
representaciones grá%icas, modelos y %lu6os de datos y %lu6os de datos, etc.
• (ualidades de arquitectura e integración re%eridas al grado de interoperabilidad,
compactación y consistencia de los di%erentes componentes que la %ormen.
 'unque la elección de un so%t?are de E5! no es sencilla, su repercusión en el curso del
proyecto es decisiva. 1na decisión correcta pasa por la automatización y en base a ella
quedan garantizados:

• 1n aumento en la velocidad de desarrollo del proyecto.


• !a descentralización del control de la e6ecución y de todos los procesos.
• 1na mayor agilidad en el negocio.
• "ayor precisión.
• "inimización de errores.
HERRAMIENTAS ETCL
APLICACI#N DE USO LIBRE
B./6$ Es una herramienta E5! de uso libre, desarrollada entre los aos ABBC D AB/,
hecha en 6ava y traba6a con base a lengua6es de base de datos Postgre=! o "y=!>
Esta herramienta se creó para %acilitar el traba6o con archivos 5;5, (8 o archivos de
%uente de datos ;"!. Para recuperar los datos que tendrán que de%inir un dato de tiempo
y una entidad, que está representado por datos a calcular o para mostrar. 5odos los
ob6etos &tiles serán creados por #enetl dentro de una base de datos "y=! o
Postgre=!. !a aplicación también es capaz de recuperar automáticamente los datos
mediante el uso de diversas tareas plani%icadas de su sistema.
"ediante el uso de #enetl podrá se ha podido recuperar %ácilmente la in%ormación de los
archivos de datos planos, la organización y el %iltrado de acuerdo con su dato de tiempo y
entidad.

Caa?/2/?a2 B./6
T?.o6oa2$
• Fava C update B
• Postgre=! .-.B 2con el apoyo plpgsql3
• "y=! -.G con %unción de *!$HP'I*J$ de inicio de sesión de
usuario 2para controlador suministrado3
• (on Iindo?s 2se utiliza Ktareas programadasK3
• #enetl .C %unciona en !inux.
• R@;./o2 T?.?o2:
• e6ecución de Fava 2FJE3 /.C
• base de datos Postgre=! .- con soporte plpgsql
• base de datos de "y=! -.G con *!$HP'I*J$ la %unción de inicio de
sesión de usuario o el controlador o%icial de "y=! 2no incluido3
• Probado en sistemas de G bits
• E76o: Lombre Etl5oolM $e%inir Lombre, Este nombre es también el nombre de
la tabla de Postgre=! o tabla de "y=! donde se almacenan las l0neas de
datos.
1n archivo llamado KEtl5ool.batK se creará en la carpeta de origen de datos.
$ebe presionar enter para validar su nombre Etl5ool, y luego se pueden guardar 
los parámetros.

APLICACI#N SMBD SELECCIONADO


1> S<L SERVER INTEGRATION SERVICES$
"icroso%t )ntegration ervices es una plata%orma para la creación de soluciones
empresariales de trans%ormaciones de datos e integración de datos. )ntegration ervices
sirve para resolver comple6os problemas empresariales mediante la copia o descarga de
archivos, el env0o de mensa6es de correo electrónico como respuesta a eventos, la
actualización de almacenamientos de datos, la limpieza y miner0a de datos, y la
administración de ob6etos y datos de =! erver. !os paquetes pueden %uncionar en
solitario o 6unto con otros paquetes para hacer %rente a las comple6as necesidades de la
empresa. )ntegration ervices puede extraer y trans%ormar datos de diversos or0genes
como archivos de datos ;"!, archivos planos y or0genes de datos relacionales y,
después, cargar los datos en uno o varios destinos.
)ntegration ervices contiene un variado con6unto de tareas y trans%ormaciones
integradas, herramientas para la creación de paquetes y el servicio )ntegration ervices
para e6ecutar y administrar los paquetes. !as herramientas grá%icas de )ntegration
ervices se pueden usar para crear soluciones sin escribir una sola l0nea de código.
5ambién se puede programar el amplio modelo de ob6etos de )ntegration ervices para
crear paquetes mediante programación y codi%icar tareas personalizadas y otros ob6etos
de paquete.
El ) )mportNExport Iizard permite mover datos de origen a destino sin modi%icar los
datos del origen y permitiendo hacer iteraciones y cambios de in%ormación antes de llegar 
al destino dentro de tablas de E5!. e pueden importar datos de %uentes di%erentes a =!
erver.
(on la herramienta #usiness )ntelligence $evelopment tudio, se pueden realizar tareas
de migración %ácilmente usando tareas visuales. i se desea crear nueva %uncionalidad,
se pueden crear scripts en cO o 8#.
!os paquetes, que son las unidades de almacenamiento de estas tareas de migración se
pueden guardar en archivos dtsx o en la base de datos en %ormato ;"!.
1na vez implementado el paquete puede ser depurado.
Caa?/2/?a2 SSIS
• U6/a V2o.: =! erver AB/ )ntegration ervices
• R@;./o2 T?.?o2$
• )nstalar en un equipo de G bits
• )nstalar en un servidor dedicado para E5!
• i requiere las caracter0sticas en tiempo de diseo de )ntegration ervices,
también debe instalar #usiness )ntelligence $evelopment tudio.
• i necesita las versiones de A bits de las herramientas y del motor en tiempo de
e6ecución de )ntegration ervices para e6ecutar ciertos paquetes en modo de A
bits, también debe instalar #usiness )ntelligence $evelopment tudio.

!> ORACLE =AREHOUSE BUILDER$


Es una complete herramienta para todos los aspectos de administración de datos y
metadatos. Esta brinda caracter0sticas para asegurar la calidad de datos, que integran el
modelado relacional y multidimensional y que permiten la administración de todo el ciclo
de vida de datos y metadatos
E./72 ETL O7/o.

!a opción empresarial E5! 2Enterprise E5! *ption3 para Iarehouse #uilder es una
opción que puede ser adquirida con *racle Iarehouse #uilder como parte de la edición
empresarial del motor de base de datos 2*racle $# Enterprise Edition3.
Qigura / *pciones de Iarehouse #uilder.
Este resumen e6ecutivo cubre &nicamente la E5! Enterprise *ption como se muestra en la %igura /.

O7?o.2 Aa.8ada2 7aa Caa d Da/o2

En grandes implementaciones, más y más procesos se e6ecutan en paralelo, agotando


los recursos debido a las grandes cantidades de datos que participan en la carga.

(omo parte de la Enterprise E5! *ption, Iarehouse #uilder permite e6ecutar cargas de
datos usando métodos rápidos y e%icientes tales como el *racle $ata Pump y
transportable tablespaces. Esta es una aproximación completamente di%erente al
movimiento de datos que se realiza por medio de con6untos de datos controlados por el
motor de base de datos. !os incrementos en velocidad de carga se deben entonces a la
omisión de las capas =! tradicionales.

So7o/ a D.2o.2 L./a./ Caa./2 I./ado

En Iarehouse #uilder la lógica de dimensiones lentamente cambiantes es diseada en


los metadatos de la dimensión. !a dimensión captura toda la lógica que será aplicada a
los datos que se insertan dentro de la misma.

Qigura A. $imensiones !entamente (ambiantes

1na vez, los usuarios de negocio han decidido que atributos son importantes, el
modelador de datos disea la dimensión. (on los pasos de E5! el desarrollador ve esta
dimensión como cualquier otra. El siguiente paso es de%inir cómo e%ectuar los cambios y
actualizaciones en la dimensión. Iarehouse #uilder automatiza esto basado en la
de%inición de la dimensión. !a combinación entre estos pasos, el diseo y la
estandarización hacen que los procesos relacionados con dimensiones lentamente
cambiantes presente un alto desempeo en su e6ecución.
Ta8a L.a6 d P.?7o a F.

!os servicios de administración de dependencias 2Iarehouse #uilder $ependency


"anagement 3 le permiten prever el e%ecto que puedan tener los cambios que se hagan
en cualquier lugar de los metadatos del sistema E5! antes de que estos puedan a%ectarlo
y deterióralo.

Qigura . Propagando cambios en el sistema.

Por primera vez, tendrá la posibilidad de administrar los cambios de su sistema de


manera proactiva. (omo un e6emplo 2Qigura 3, usted puede propagar los cambios a
través de su sistema haciendo uso el "apping Editor.
Ad.2/a?:. d Co.;a?o.2 Aa.8ada2

5ener que mover sistemas o aplicaciones de un ambiente a otro 2por e6emplo de


desarrollo a producción3 es un problema %recuente.
(on la Enterprise E5! *ption de Iarehouse #uilder, es posible generar un modelo para
con%igurar los ambientes de desarrollo, pruebas y producción a niveles separados. Para
mover los cambios desde el ambiente de desarrollo a producción, el código generado en
desarrollo es modi%icado en producción solo en áreas espec0%icas. Por e6emplo, la
in%ormación sobre las conexiones es substituida por la de%inida en desarrollo.

VENTAAS, DESVENTAAS, TIEMPOS Y COSTO DE LAS HERRAMIENTAS>

T?.?a D2?7?:.
Es una técnica muy utilizada en procesos de migración de datos, consiste en hacer que dos
bases de datos sean equivalentes en el mismo tiempo.
e logra mediante la copia de datos y metadatos de una base de datos origen a una base
S.?o.8a?:. de datos destino mediante una herramienta tecnológica. !os asistentes de sincronización
d a2 d de los "#$ son con%igurados con las bases de datos origen y la base de datos destino,
da/o2 parametrizando la ubicación de particiones y métodos de seguridad.

Jequerimientos 8enta6as $esventa6as 5iempo


técnicos
S<L SERVER • Es un sistema de gestión • 1tiliza mucho la memoria J'" 3 2a.a2>
INTEGRATION =! erver   de base de datos. para las instalaciones y
Estándar • Es &til para mane6ar y utilización de so%t?are. emana /:
SERVICES Lo se puede utilizar como  'nálisis de
obtener datos de la red de •

redes. practicas porque se proh0ben datos


• Los permite olvidarnos de muchas cosas, tiene
los %icheros que %orman la restricciones en lo particular. emana A:
base de datos. • !a relación, calidad y el precio "igración y
• i traba6amos en una red está muy deba6o comparado con validación de
social nos permite oracle. in%ormación
agregar otros servidores • 5iene muchos bloqueos a nivel
de =! erver. Por   de página, un tamao de página emana :
e6emplo, dos personas %i6o y demasiado pequeo, una *ptimización
que traba6an con =! pésima implementación de los de proceso
erver, uno de ellos se tipos de datos variables.
puede conectar al
servidor de su otro
compaero y as0 se
puede ver las bases de
datos del otro compaero
con =! erver.
• =! permite administrar 
permisos a todo. 5ambién
permite que alguien
conecte su =!* al
nuestro, pero sin embargo
podemos decirle que no
puede ver esta base de
datos, pero otro s0.
ORACLE *racle Estándar • *racle es el motor de • !as versiones más recientes de 3 2a.a2>
=AREHOUSE base de datos ob6eto+ *racle son la //g, /Bg, g, g,
relacional más usado a desde el lanzamiento original de emana /:
BUILDER nivel mundial. la  se sucedieron varias  'nálisis de
• Puede e6ecutarse en versiones con correcciones, datos
todas las plata%ormas, hasta alcanzar la estabilidad en
desde una Pc hasta un la .B.. El motivo de tantos emana A:
supercomputador. %allos %ue, al parecer, la "igración y
• *racle soporta todas las remodelación del sistema de validación de
%unciones que se esperan almacenamiento por causa de la in%ormación
de un servidor KserioK: un introducción de extensiones
lengua6e de diseo de orientadas a ob6etos. emana :
bases de datos muy • El mayor inconveniente de *ptimización
completo 2P!N=!3 que *racle es quizás su precio. de proceso
permite implementar  )ncluso las licencias de Personal
diseos KactivosK, con *racle son excesivamente caras,
triggers y procedimientos en mi opinión. *tro problema es
almacenados, con una la necesidad de a6ustes. 1n error 
integridad re%erencial %recuente consiste en pensar que
declarativa bastante basta instalar el *racle en un
potente. servidor y enchu%ar directamente
• Permite el uso de las aplicaciones clientes. 1n
particiones para la me6ora *racle mal con%igurado puede
de la e%iciencia, de ser desesperantemente lento.
replicación e incluso • 5ambién es elevado el coste de
ciertas versiones admiten la in%ormación, y sólo
la administración de &ltimamente han comenzado a
bases de datos aparecer buenos libros sobre
distribuidas. asuntos técnicos distintos de la
• El so%t?are del servidor  simple instalación y
puede e6ecutarse en administración.
multitud de sistemas
operativos.
• Existe incluso una versión
personal para Iindo?s
x, lo cual es un punto a
%avor para los
desarrolladores que se
llevan traba6o a casa.
• *racle es la base de
datos con más orientación
hac0a )L5EJLE5.
PRECIO LICENCIA S<L SERVER !01

Ediciones
Precio de
de =! "odelo de $isponibilidad de
)deal para... *pen L!
erver licencia canal
21$3
AB/
E./72 Jendimiento con%iable y completo Por n&cleoRR !icencias por volumen, S/,A-GRRR
para satis%acer los requisitos de hosting
base de datos y de #usiness
)ntelligence más exigentes. !a
edición Enterprise proporciona los
niveles de servicio y rendimiento
más altos para las cargas de traba6o
de nivel /.R
B;2.22 1na plata%orma amplia que permite ervidor T !icencias por volumen, S,BRRR
I./66.? a las organizaciones compilar e ('!RRRR hosting
implementar soluciones de #)
seguras, escalables y
administrables.
S/a.dad Quncionalidad de #usiness Por n&cleoRR !icencias por volumen, S,C/CRRR
)ntelligence y administración de hosting
datos básica para cargas de traba6o
que no son cr0ticas, con recursos de
5) m0nimos.
ervidor T !icencias por volumen, S/RRR
('!RRRR hosting, minorista 2QPP3
D6o7 8ersión completamente %uncional de Por usuario !icencias por volumen, SRRR
=! erver que permite a los minorista 2QPP3
desarrolladores compilar, probar y
demostrar aplicaciones con so%t?are
de =! erver de una manera
rentable.

PRECIO LICENCIA ORACLE

http:NN???.oracle.comNusNcorporateNpricingNprice+listsNbusiness+intelligence+price+list+
BC/C.pd% 
BIBLIOGRAFIA>

http:NNblog.po?erdata.esNel+valor+de+la+gestion+de+datosNbidN-/ANE5!+t+cnicas+de+
migraci+n+y+tipos+de+so%t?are
https:NNplatzi.comNblogNque+es+postgresqlN
http:NN???.oracle.comNtechnologyNproductsN?arehouseN//gr/NdatasheetsN?arehouse+
builder+//g+etldatasheet.pd% 

Vous aimerez peut-être aussi