Vous êtes sur la page 1sur 131

UNIVERSIDAD DE GUAYAQUIL

FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS


CARRERA DE INGENIERIA EN SISTEMAS
COMPUTACIONALES
ESTUDIO DEL DISEO DE TRANSFORMACIN DE DATOS UTILIZANDO LA
HERRAMIENTA SPOON DE PENTAHO OPEN SOURCE BUSINESS INTELLIGENCE
SOBRE PLATAFORMA LINUX

TESIS DE GRADO
Previa a la obtencin del Ttulo de:

INGENIERO EN SISTEMAS COMPUTACIONALES


AUTOR:
JOHANNA ALEXANDRA HERNANDEZ VELASCO

GUAYAQUIL ECUADOR
2013

UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS
CARRERA DE INGENIERIA EN SISTEMAS
COMPUTACIONALES

ESTUDIO DEL DISEO DE TRANSFORMACIN DE DATOS UTILIZANDO LA


HERRAMIENTA SPOON DE PENTAHO OPEN SOURCE BUSINESS INTELLIGENCE
SOBRE PLATAFORMA LINUX

TESIS DE GRADO
Previa a la obtencin del Ttulo de:

INGENIERO EN SISTEMAS COMPUTACIONALES

JOHANNA ALEXANDRA HERNANDEZ VELASCO

TUTOR: ING. FRANCISCO PALACIOS

GUAYAQUIL ECUADOR
2013

REPOSITORIO NACIONAL EN CIENCIAS Y TECNOLOGA


FICHA DE REGISTRO DE TESIS

ESTUDIO DEL DISEO DE TRANSFORMACIN DE DATOS UTILIZANDO LA


HERRAMIENTA SPOON DE PENTAHO OPEN SOURCE BUSINESS INTELLIGENCE SOBRE
PLATAFORMA LINUX
TTULO

REVISORES:
INSTITUCIN:

Universidad de Guayaquil

FACULTAD:

Ciencias Matemticas y

Fsicas
CARRERA: INGENIERA EN SISTEMAS COMPUTACIONALES
FECHA DE PUBLICACIN:

11/11/2013

N DE PGS.: 125

REA TEMTICA: BASE DE DATOS


PALABRAS CLAVES:

En aos recientes, se ha producido un incremento continuo en la cantidad de datos


manipulados por los sistemas manejadores de bases de datos (DBMS); no resulta extrao para un
DBMS manipular base de datos con tamaos que van desde los cientos de gigabytes hasta terabytes. La
migracin de bases de datos es generalmente una tarea compleja que no slo supone transferir datos
entre tipos de almacenaje y formatos de un servidor de base de datos a otro; sino que tambin supone
reescribir sentencias SQL o incluso procedimientos (SPL) de lgica de negocio. Aparte de la dificultad
de transferir la informacin entre los dos sistemas gestores de base de datos, tambin influir en la
complejidad el tipo de los datos de las tablas que estamos utilizando. Por ejemplo, las fechas, los
campos numricos con decimales o los boleanos pueden dar problemas al pasar de un sistema a otro
porque pueden almacenarse de maneras distintas o, en el caso de los nmeros, con una precisin
distinta. El objetivo del estudio en el diseo de la transformacin es demostrar cmo esta interesante y
til herramienta Open Source llamada SPOON puede transponer la informacin de manera sencilla
mediante parmetros y configuraciones del usuario de manera ntegra y confiable.
RESUMEN:

N DE REGISTRO(en base de datos):

N DE CLASIFICACIN:

DIRECCIN URL (tesis en la web):


ADJUNTO PDF
CONTACTO CON AUTOR:
JOHANNA ALEXANDRA HERNANDEZ VELASCO
CONTACTO DE LA INSTITUCIN

SI
Telfono:
0996697285
Nombre:

NO
E-mail:
johy_0110@hotmail.com

Telfono:

Guayaquil, Noviembre de 2013

ARTA DE ACEPTACIN DEL TUTOR

APROBACION DEL TUTOR

En mi calidad de Tutor del trabajo de investigacin, ESTUDIO DEL DISEO DE


TRANSFORMACIN DE DATOS UTILIZANDO LA HERRAMIENTA SPOON
DE

PENTAHO

OPEN

SOURCE

BUSINESS

INTELLIGENCE

SOBRE

PLATAFORMA LINUX elaborado por la Srta. JOHANNA ALEXANDRA


HERNANDEZ VELASCO, egresado

de la Carrera de Ingeniera en Sistemas

Computacionales, Facultad de Ciencias Matemticas y Fsicas de la Universidad de


Guayaquil, previo a la obtencin del Ttulo de Ingeniero en Sistemas, me permito
declarar que luego de haber orientado, estudiado y revisado, la Apruebo en todas sus
partes.

Atentamente,

.
Ing. Francisco Palacios
TUTOR

II

DEDICATORIA

El logro de esta etapa en mi vida


quiero dedicrselo a mis padres, a
mi hijo y a todos quienes en algn
momento colaboraron directa o
indirectamente en este maravilloso
resultado.

Gracias

Dios

por

haberme dado fortaleza para salir


avante en mi carrera.

III

AGRADECIMIENTO

Gracias Pap y Mam por sus valores


e mpetu de superacin que nos
inculcaron desde pequeos a sus hijos
para que seamos personas de bien. Lo
lograron.
Por toda la entrega, cuidado y amor
mientras mi compaa estaba ausente
en horas de estudio para con mi hijo,
gracias Sra. Pilar Flores Lucn.
Gracias a mis hermanos y a toda mi
familia por su apoyo absoluto en cada
momento de mi vida, los quiero
mucho.
Por su puesto no pueden faltar los
amigos y amigas, que siempre
estuvieron ah para animarme,
alentarme y con todo esto lograr
crecer como persona cada da ms.

IV

TRIBUNAL DE GRADO

Ing. Fernando Abad Montero, M. Sc


DECANO DE LA FACULTAD
CIENCIAS MATEMATICAS Y
FISICAS

Ing. Julio Csar Castro Rosado


DIRECTOR
CISC, CIN

Nombres y Apellidos
DIRECTOR DE TESIS

Nombres y Apellidos
PROFESOR DEL REA
TRIBUNAL

Ab. Juan Chvez Atocha


SECRETARIO

DECLARACIN EXPRESA

La responsabilidad del contenido de esta Tesis de


Grado, me corresponden exclusivamente; y el
patrimonio intelectual de la misma a la
UNIVERSIDAD DE GUAYAQUIL

Johanna Alexandra Hernndez Velasco

VI

.
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMTICAS Y FSICAS
CARRERA DE INGENIERIA EN SISTEMAS
COMPUTACIONALES

ESTUDIO DEL DISEO DE TRANSFORMACIN DE DATOS UTILIZANDO LA


HERRAMIENTA SPOON DE PENTAHO OPEN SOURCE BUSINESS
INTELLIGENCE SOBRE PLATAFORMA LINUX

Tesis de Grado que se presenta como requisito para optar por el ttulo de INGENIERO
en SISTEMAS COMPUTACIONALES

Auto/a: JOHANNA HERNNDEZ VELASCO


C.I. 0919227801
Tutor: ING. FRANCISCO PALACIOS

Guayaquil, Noviembre de 2013

VII

CERTIFICADO DE ACEPTACIN DEL TUTOR

En mi calidad de Tutor de Tesis de Grado, nombrado por el Consejo Directivo de la


Facultad de Ciencias Matemticas y Fsicas de la Universidad de Guayaquil.
CERTIFICO:
Que he analizado el Proyecto de Grado presentado por el/la estudiante
JOHANNA ALEXANDRA HERNNDEZ VELASCO, como requisito previo para optar
por el ttulo de Ingeniero en Sistemas Computacionales cuyo problema es:
ESTUDIO DEL DISEO DE TRANSFORMACIN DE DATOS UTILIZANDO LA
HERRAMIENTA SPOON DE PENTAHO OPEN SOURCE BUSINESS
INTELLIGENCE SOBRE PLATAFORMA LINUX.
Considero aprobado el trabajo en su totalidad.
Presentado por:

HERNNDEZ VELASCO JOHANNA ALEXANDRA

091922780-1

Tutor: ING. FRANCISCO PALACIOS

Guayaquil, Noviembre de 2013

VIII

UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMTICAS Y FSICAS
CARRERA DE INGENIERIA EN SISTEMAS
COMPUTACIONALES
Autorizacin para Publicacin de Tesis en Formato Digital
1. Identificacin de la Tesis
Nombre Alumno: Johanna Alexandra Hernndez Velasco
Direccin: 7 lagos mz 41 villa 6
Telfono: 0996697285
E-mail: johy_0110@hotmail.com
Facultad: Matemticas y Fsicas
Carrera: Ingeniera en Sistemas Computacionales
Ttulo al que opta: Ingeniero en Sistemas Computacionales
Profesor gua: Ing. Francisco Palacios
Ttulo de la Tesis: ESTUDIO DEL DISEO DE TRANSFORMACIN DE DATOS

UTILIZANDO LA HERRAMIENTA SPOON DE PENTAHO OPEN SOURCE


BUSINESS INTELLIGENCE SOBRE PLATAFORMA LINUX
Temas Tesis: SPOON, PENTAHO, OPEN SOURCE, PLATAFORMA, LINUX
2. Autorizacin de Publicacin de Versin Electrnica de la Tesis
A travs de este medio autorizo a la Biblioteca de la Universidad de Guayaquil y a la Facultad
de Ciencias Matemticas y Fsicas a publicar la versin electrnica de esta tesis.
Publicacin electrnica:
Inmediata

Despus de 1 ao

Firma Alumno:
3. Forma de envo:
El texto de la Tesis debe ser enviado en formato Word, como archivo .Doc. O .RTF y .Puf para
PC. Las imgenes que la acompaen pueden ser: .gif, .jpg o .TIFF.
DVDROM

CDROM X

IX

NDICE GENERAL
CARTA DE ACEPTACIN DEL TUTOR.......................................................................Ii
DEDICATORIA..............................................................................................................IIi
AGRADECIMIENTO....................................................................................................IIIi
NDICE GENERAL........................................................................................................XI
NDICE DE CUADROS................................................................................................XII
NDICE DE GRAFICOS..............................................................................................XIII
RESUMEN..................................................................................................................XIVi
ABSTRACT.................................................................................................................XVi
INTRODUCCIN 1
CAPITULO I El PROBLEMA 3
UBICACIN DEL PROBLEMA EN UN CONTEXTO..................................................3
SITUACIN CONFLICTO NUDOS CRTICOS............................................................7
CAUSAS Y CONSECUENCIAS DEL PROBLEMA......................................................8
DELIMITACIN DEL PROBLEMA.............................................................................10
PLANTEAMIENTO........................................................................................................11
EVALUACIN DEL PROBLEMA................................................................................11
OBJETIVO DE LA INVESTIGACION.........................................................................12
JUSTIFICACION E IMPORTANCIA DE LA INVESTIGACIN...............................58
BENEFICIOS..................................................................................................................59
CAPITULO II MARCO TERICO

60

ANTECEDENTES DEL ESTUDIO 60


FUNDAMENTACIN TERICA.................................................................................63
BENEFICIOS DE LA HERRAMIENTA SPOON..........................................................68
EXTRACCIN Y TRANSFORMACIN......................................................................85
FUNDAMENTACIN LEGAL......................................................................................98
HIPTESIS O PREGUNTAS A OBJETAR.................................................................101
DEFINICIONES CONCEPTUALES...........................................................................102
CAPITULO III - METODOLOGIA
DISEO DEL ESTUDIO

103

103

MODALIDAD DEL DISEO DE TRANSFORMACIN..........................................103


TIPO DE ESTUDIO......................................................................................................103

POBLACIN Y MUESTRA........................................................................................104
OPERACIONALIZACIN DE LAS VARIABLES.....................................................106
INSTRUMENTOS DE RECOLECCIN DE DATOS.................................................109
PROCESAMIENTO DE LA INFORMACIN............................................................109
RECOLECCIN DE LA INFORMACIN..................................................................110
PROCESAMIENTO Y ANLISIS...............................................................................113
CRITERIOS PARA LA ELABORACIN DE LA PROPUESTA................................128
CAPITULO IV MARCO ADMINISTRATIVO

82

CRONOGRAMA............................................................................................................82
PRESUPUESTO..............................................................................................................85
CAPITULO V CONCLUSIONES Y RECOMENDACIONES

90

CONCLUSIONES...........................................................................................................90
RECOMENDACIONES.................................................................................................91

XI

XII

NDICE DE CUADROS
Pg.IL
CUADRO N. 1
MENSAJES QUE ARROJA LA HERRAMIENTA .53
CUADRO N. 2
BARRAS DE HERRAMIENTAS SPOON..................................................................56
CUADRO N. 3
VARIABLES DEL ESTUDIO........................................................................................ 67
CUADRO N. 4
Datos Obtenidos de la Empresa.......................................................................................70
CUADRO N. 5
Estimacin de Porcentaje................................................................................................ 72
CUADRO N. 6
MATRIZ DE OPERACIONALIZACIN DE VARIABLES.........................................73
CUADRO N. 7
DIAGRAMA DE LA TCNICA UTILIZADA.............................................................. 74
CUADRO N. 8
HA RECIBIDO CURSOS DE CAPACITACIN...........................................................83
CUADRO N. 9
DESEA QUE LAS TRANSACCIONES SE VALIDEN DESDE EL SISTEMA...........84
CUADRO N. 10
INVENTARIO ACTUAL DE LAS DIFERENTES AGENCIAS...................................85
CUADRO N. 11
SEGURIDADES EN REGISTRO DE TRANSACCIONES..........................................86
CUADRO N. 12
GARANTIZAR LA INVIOLABILIDAD DE SUS DATOS......................................... 87
CUADRO N. 13
TECNOLOGA DE PUNTA PARA SER CAPACITADO..............................................88
CUADRO N. 14
AHORRAR TIEMPO Y DINERO EN TODAS LAS AGENCIAS.................................. 89
CUADRO N. 15
PLANIFICACIN DETALLADO DEL TRABAJO REALIZADO............................. 95
CUADRO N. 16
REFERENCIA DE EGRESOS DEL PROYECTO.........................................................98
XIII

NDICE DE GRAFICOS
Pg.
GRFICO N. 1
ETAPAS DEL ESTUDIO DE TRANSFORMACIN DE BASE DE DATOS..............61
GRFICO N. 3
PROCESO DE MIGRACIN EN SITIO.......................................................................65
GRFICO N. 4
PROCESO DE MIGRACIN GRADUAL....................................................................66
GRFICO N. 5
PROCESO DE MIGRACIN DE BASE DE DATOS...................................................67
GRFICO N. 6
PROCESO DE MIGRACIN.........................................................................................68
GRFICO N. 7
PROCESO DE INTEGRACIN DE DATOS - PENTAHO...........................................71
GRFICO N. 8
PROCESO DE INTEGRACIN DE DATOS PENTAHO..........................................73
GRFICO N. 9
INTERFACE MODO GRFICO - SPOON PENTAHO................................................79
GRFICO N. 10
PROCESO DE EXTRACCIN DE LOS DATOS SPOON PENTAHO.....................81
GRFICO N. 11
DISEO DE TRANSFORMACIN DE DATOS..........................................................85
GRFICO N. 12
TRANSFORMACIN DE DATOS - SPOON...............................................................86
GRFICO N. 13
LOGO DE BSQUEDA DE CONEXIONES................................................................86
GRFICO N. 14
MUESTRA LOS PASOS DE CONSTRUCCIN..........................................................87
GRFICO N. 15
TRANSFORMACIN DE DATOS ENTREDA/SALIDA SPOON...........................89
GRFICO N. 16
CONFIGURACIN VARIABLES DE ENTORNO.......................................................93
GRFICO N. 17
MAPEO DE FLOJOS EN DATOS ACTUALES............................................................94
XIV

GRFICO N. 18
Tabla de Cuestionario Capacitacin..............................................................................115
GRFICO N. 19
Tabla de Cuestionario Ventas y Pagos.............................................................................82
GRFICO N. 20
Tabla de Cuestionario Inventario.....................................................................................83
GRFICO N. 21
Tabla de Cuestionario Seguridades.................................................................................84
GRFICO N. 22
Tabla de Cuestionario Garantizar transacciones..............................................................85
GRFICO N. 23
Tabla de Cuestionario Tecnologa...................................................................................86
GRFICO N. 24
Tabla de Cuestionario Ahorrar tiempo y dinero..............................................................87
GRFICO N. 25
Hiptesis Seguridad de la Informacin...........................................................................88
GRFICO N. 26
Hiptesis Inviolabilidad...................................................................................................89
GRFICO N. 27
Hiptesis Garantizar transferencias.................................................................................90
GRFICO N. 28
Hiptesis Cursos de Capacitacin.................................................................................125
GRFICO N. 29
Hiptesis Ahorrar tiempo y dinero..................................................................................92
GRFICO N. 30
CRONOGRAMA DE TRABAJO...................................................................................82

XV

ABREVIATURAS
DBMS
SQL
ETL
FCE
AWT
SWT
SAP
BI
FCE
TI
OLTP
OLAP
XML
ETTL
OSX
GTK
HP-UX
MOTIF
FreeBSD
JVM
KDE
ODBC
LGPL
GNU
JDBC
FCI
CTT-UG
CONESUP
SPSS
BDD

Es un sistema de gestin de bases de datos.


Se trata del lenguaje de consulta estructurado, para realizar
consultas a nivel de base de datos.
Estas siglas corresponden a Extraer, transformar y cargar.
Dichas iniciales significan: Factores Crticos de xito.
Referencia al Kit de herramientas de ventana abstracta.
Es un componentes para construir interfaces grficas.
Se trata de un sistema de aplicaciones y productos en
procesamiento de datos.
Las siglas significan Inteligencia de negocios.
Las iniciales se refieren a los Factores crticos de xito.
Las siglas corresponde a la Tecnologa de la informacin.
Se refiere al procesamiento de transacciones en lnea.
Trata sobre el procesamiento analtico en lnea.
Es un lenguaje de marcas extensible.
Dichas iniciales se refieren a la extraccin, transformacin,
transporte y carga de datos.
Estas abreviaturas describen los sistemas operativos basados en
Unix.
Es una biblioteca para crear la interfaz grfica de usuario.
Es la versin de Unix desarrollada y mantenida.
Se trata de una biblioteca para la creacin de entornos grficos.
Es un sistema operativo para arquitecturas x86 compatibles.
Dichas iniciales referencian a la mquina virtual Java.
Es la comunidad internacional que desarrolla software libre.
Se refiere a la comunicacin estndar de acceso a las bases de
datos.
Es la licencia pblica general reducida de GNU.
Se trata de un sistema operativo similar a Unix que es de software
libre.
Es usado para enviar comandos sql hacia una base de datos
relacional.
Se refiere al fondo competitivo de investigaciones
Significa que se debe coordinar con el centro de transferencia y
desarrollo de tecnologas de la universidad de Guayaquil.
Dichas iniciales son referidas al consejo de educacin superior del
ecuador.
Se refiere al software y soluciones de anlisis predictivos.
Siglas que referencias a la base de datos de un sistema.

XV

SIMBOLOGA

Pro

base actual

Co y C1

son los factores estimados.

es la variable independiente

composicin lineal:

H1, H2,

coeficientes dependientes

X1, X2

valores que consiguen adoptar las variables


independientes.

Representa el trmino de error de estimacin.

PQ

Varianza =0.25

Poblacin

Margen de error

Constante de correccin del error =2

Nmero de veces que se repite el dato.

XVI

UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS
CARRERA DE INGENIERIA EN SISTEMAS COMPUTACIONALES
ESTUDIO DEL DISEO DE TRANSFORMACIN DE DATOS UTILIZANDO LA
HERRAMIENTA SPOON DE PENTAHO OPEN SOURCE BUSINESS
INTELLIGENCE SOBRE PLATAFORMA LINUX
Autor: Johanna Hernndez Velasco
Tutor: Ing. Francisco Palacios

RESUMEN
En aos recientes, se ha producido un incremento continuo en la cantidad de datos
manipulados por los sistemas manejadores de bases de datos (DBMS); no resulta
extrao para un DBMS manipular base de datos con tamaos que van desde los cientos
de gigabytes hasta terabytes. La migracin de bases de datos es generalmente una tarea
compleja que no slo supone transferir datos entre tipos de almacenaje y formatos de un
servidor de base de datos a otro; sino que tambin supone reescribir sentencias SQL o
incluso procedimientos (SQL) de lgica de negocio. Aparte de la dificultad de transferir
la informacin entre los dos sistemas gestores de base de datos, tambin influir en la
complejidad el tipo de los datos de las tablas que estamos utilizando. Por ejemplo, las
fechas, los campos numricos con decimales o los boleanos pueden dar problemas al
pasar de un sistema a otro porque pueden almacenarse de maneras distintas o, en el caso
de los nmeros, con una precisin distinta. El objetivo del estudio en el diseo de la
transformacin es demostrar cmo esta interesante y til herramienta Open Source
llamada SPOON puede transponer la informacin de manera sencilla mediante
parmetros y configuraciones del usuario de manera ntegra y confiable.

XVII

UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS
CARRERA DE INGENIERIA EN SISTEMAS COMPUTACIONALES

ESTUDIO DEL DISEO DE TRANSFORMACIN DE DATOS UTILIZANDO LA


HERRAMIENTA SPOON DE PENTAHO OPEN SOURCE BUSINESS
INTELLIGENCE SOBRE PLATAFORMA LINUX

ABSTRACT

The goal of this migration is to centralize and data structures that are hosted locally
on 4 Access database, fully

and safely into

a relational

database on

an open

source platform.
The process of this migration is complex, in addition to the normal difficulty of the
process of moving data stored in a data source to another, there is also an influence on
the complexity of the problem the type of data tables that are using that can be
stored differently in each of the management systems, origin and destination. For
example, dates are subject to change format, while in Access appear in Castilian (dd /
mm / yyyy) in PostgreSQL appear in the format yyyy-mm-dd format, numeric
fields with decimals or boolean can also give us problems because can be stored in
different ways.
PostgreSQL is a database manager object

oriented, open

source,

stable,

secure,

flexible and high performance. The tool with which to filter data from one platform to
another is of Java Scipt Pentaho.

XVIII

UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS
CARRERA DE INGENIERIA EN SISTEMAS COMPUTACIONALES

ESTUDIO DEL DISEO DE TRANSFORMACIN DE DATOS UTILIZANDO LA


HERRAMIENTA SPOON DE PENTAHO OPEN SOURCE BUSINESS
INTELLIGENCE SOBRE PLATAFORMA LINUX
Autor: Johanna Hernndez Velasco
Tutor: Ing. Francisco Palacios

Proyecto de trabajo de grado que se presenta como requisito para optar por el ttulo de
INGENIERO en SISTEMAS COMPUTACIONALES.

Auto/a: Johanna Hernndez Velasco


C.I.0919227801
Tutor: Ing. Francisco Palacios

XIX

Guayaquil, Noviembre de 2013

CERTIFICADO DE ACEPTACIN DEL TUTOR


En mi calidad de Tutor del Primer Curso de Fin de Carrera, nombrado por el
Departamento de Graduacin y la Direccin de la Carrera de Ingeniera en Sistemas
Computacionales de la Universidad de Guayaquil,
CERTIFICO:
Que he analizado el Proyecto de Grado presentado por el egresado (a)
Johanna Alexandra Hernndez Velasco, como requisito previo para optar por el ttulo de
Ingeniero cuyo problema es:
ESTUDIO DEL DISEO DE TRANSFORMACIN DE DATOS UTILIZANDO LA
HERRAMIENTA SPOON DE PENTAHO OPEN SOURCE BUSINESS
INTELLIGENCE SOBRE PLATAFORMA LINUX
Considero aprobado el trabajo en su totalidad.
Presentado por:

Johanna Alexandra Hernndez Velasco

0919227801

Tutor: Ing. Francisco Palacios

Guayaquil, Noviembre de 2013

XX

INTRODUCCIN
Tradicionalmente cuando pensamos en un modelo de base de datos, se nos vienen
muchas ideas a la mente, en este estudio tomaremos un diseo como aquel que
puede representar la solucin a un problema del mundo real, para lo cual se usar
una herramienta de cdigo abierto, manteniendo una estructura segura y confiable
para la demostracin ms ptima a la interrogante planteada.
Uno de los paradigmas que a travs de los aos se ha mantenido en el mundo, es la
seguridad y confidencialidad que deben poseer las bases de datos, ya que representa
un pilar fundamental para la continuidad de todo negocio.
En sus inicios la empresa Servicios Nacionales explot sus actividades promoviendo
servicios exequiales con formas de pago muy cmodas y econmicas para el sector
de clase media baja, en referencia a este mecanismo la institucin pudo mantenerse
progresivamente en sus dos primeros aos con su agencia matriz. La solucin
tecnolgica con la que operaba la institucin, cumpla con las actividades diarias
que necesitaba la empresa en referencia al registro de sus transacciones, es decir,
ingreso de clientes, afiliaciones y recepcin de pagos.
En virtud a la operatividad de la institucin tuvieron la oportunidad de abrir otras
sucursales a nivel nacional, en este punto iniciaron sus actividades realizando el
almacenado de la informacin de los clientes de forma aislada, es decir, se realizaba
toda la gestin del negocio guardando la data en repositorios de base de datos no
relacionales, aislando la informacin del resto de agencias, causando de a poco
diferentes molestias para el personal de ventas.
Con el pasar del tiempo la informacin segua creciendo, causando disgustos al
departamento de cobranzas en su gestin en la recuperacin de la cartera, pues los
1

datos de los clientes no se encontraban del todo claros, adicionalmente existan


transacciones que se registraban de manera manual, es decir, que se recaudaban de
puerta a puerta, estas transacciones eran ingresadas al final del da en la agencia ms
cercana al vendedor, existiendo un alto riesgo en la perdida de informacin y de
dinero por parte del empleado.
En virtud de las observaciones planteadas era notable la necesidad de una
implementacin de migracin de datos, asegurando la informacin de los clientes,
mejorando el rendimiento de las transacciones, optimizando los recursos existentes
y brindando confianza a la operatividad del negocio.
En este estudio pudimos notar que durante los dos ltimos aos la institucin se ha
visto afectada por las quejas y molestias que causan la inconsistencia de los datos
almacenados, reclamos por transacciones inexistentes, entre otros.
El objetivo fundamental de este estudio del diseo es demostrar que es
posible realizar una transformacin o migracin de una base de datos
no relacional hacia otra de una manera sencilla, sin herramientas
costosas ni excesivo personal, optimizando costos y tiempo de
respuesta.
Uno de los prototipos que a travs de los aos ha permanecido es de
pensar que las organizaciones o empresas emplean sistemas basados en
ordenadores no slo para el tratamiento administrativo de sus datos
operacionales (como son la contabilidad, gestin de nminas, etc.), sino
tambin para tareas relativas a funcin de almacenamiento de los datos
dando soporte a la toma decisiones.

Cabe exaltar la importancia de migrar o cambiar los sistemas actuales de


informacin de una empresa, por otros productos o versiones que se adapten mejor a
las necesidades actuales y/o futuras de dicha empresa. Dentro de los objetivos
principales de esta demostracin es disminuir los siguientes aspectos:
REDUNDANCIA E INCONSISTENCIA DE DATOS
Es decir diversas copias de un mismo dato no concuerdan entre s, por ejemplo: que
se actualiza la direccin de un cliente en una agencia y que en otra permanezca la
anterior.
DIFICULTAD PARA TENER ACCESO A LOS DATOS
Debe contemplar un entorno de datos que facilite al usuario el manejo de los
mismos.
AISLAMIENTO DE LOS DATOS
Es difcil escribir nuevos programas de aplicacin para obtener los datos apropiados.
ANOMALAS DE ACCESOS CONCURRENTES
Optimizar el funcionamiento global del sistema y obtener un tiempo de respuesta
ptimo.
PROBLEMAS DE SEGURIDAD
Se debe considerar el control de acceso a los datos, por tal motivo debe ser
confiable, manteniendo un grado de seguridad que garantice la autentificacin y
proteccin de los datos.
PROBLEMAS DE INTEGRIDAD
Una vez terminado el proceso de la migracin se deben medir los resultados y
entregar un reporte global del trabajo, mencionando los puntos ms relevantes del
proceso.

CAPTULO I
EL PROBLEMA
CAPITULO I El PROBLEMA

PLANTEAMIENTO DEL PROBLEMA


UBICACIN DEL PROBLEMA EN UN CONTEXTO
Dentro de nuestra investigacin daremos a notar la facilidad, seguridad y confianza
que posee una herramienta de cdigo abierto, para lo cual se promovi nuestro
proyecto de tesis hacia una compaa en especial.
Con fecha 11 de Enero del 2010, la empresa Servicios Nacionales Guayas
Servinacional Cia. Ltda., tuvo un crecimiento de sus agencias a nivel nacional,
logrando abrir tres agencias adicionales en provincias como Manab, Esmeraldas y
El Oro. Con este incremento empiezan aumentar las operaciones en la empresa y a
superar sus ventas. Siendo una institucin controlada por la Superintendencia de
Compaas, deben reportar balances o estados de situacin anuales, en sustento a la
instrumentacin de Ventas de Cofres y Servicios de Cremacin, Velacin, Capillas
entre otros productos que ofrece la institucin al pblico. Adicionalmente posee
vendedores en sitio o de puerta en puerta ofreciendo los productos y servicios
generando contratos de forma manual que posteriormente sern ingresados al
sistema.
El sistema que posean era un aplicativo realizado en Power Builder con una base de
datos Access 2003, este tipo de repositorio cubra las necesidades de la empresa
desde que se inici hasta unos meses antes de que se ampliaran sus agencias.
Con el pasar de los meses el departamento de cobranzas pudo notar que la
informacin que se estaba ingresando en su base de datos se encontraba errada o
inconsistente ya que les era imposible ubicar a muchos clientes, adicionalmente
4

existan pagos duplicados afectando la empresa, todas estas anomalas aumentaban


conforme iban creciendo las operaciones.
Anualmente las instituciones que estn controladas por la Superintendencia de
Compaas estn en la obligacin de entregar estados de situacin o balances que
sustenten la continuidad del negocio, estos reportes tienen un tiempo mximo de
entrega, el cual consta de 5 das laborables. A principios del ao 2011, Servicios
Nacionales fue observada por la Superintendencia de Compaas debido atrasos en
la entrega del balance anual, despus de esta molestia la empresa decidi auditar los
costos generados en todo el ao debido a gastos que se haban generado debido al
consumo de horas extras al personal.
La empresa Servicios Nacionales estaba consciente de que posea un problema con
la informacin que era ingresada en el sistema, por este motivo utilizaban como
mecanismo de escape corregir la data en la base de datos, con el objetivo de
solventar la inconvenientes mensuales y posteriormente anuales con los entes de
control. A pesar de las molestias o trabajos extras para los empleados no se tomaba
una solucin definitiva para corregir el problema de raz ya que al tener varias
agencias a nivel nacional era complicado tener un control sobre todas de forma
eficiente. Como medida de correccin para futuros malos ingresos de la data se
realizaron campaas de concientizacin en el ingreso de la informacin en el
sistema, capacitando as a una persona por agencia con el objeto que se imparta o se
difunda el mensaje.
El mecanismo de capacitacin fue satisfactorio, sin embargo los problemas no se
solucionaron del todo ya que no solo poseen empleados atendiendo en las agencias
sino tambin empleados de campo. El purgado de los datos se segua realizando de

forma mensual, ya que se deba seguir cumpliendo con los tiempos de entrega y
erradicar las molestias de los clientes.
El contador interno de la compaa realiz un anlisis profundo del gasto que estaba
teniendo Servicios Nacionales, considerando un semestre de las agencias con mayor
movimiento. El 5 de Julio del 2011 el contador notific formalmente que la empresa
en un lapso de seis meses pierde 2 das de labores al 50% y esto representa una
prdida aproximada de $38.160,00 (treinta y ocho mil ciento sesenta dlares)
semestrales por motivos de pagos de horas extras en virtud de gestiones de campo y
modificaciones realizadas manualmente de forma emergente en la base de datos
para subsanar la informacin de los clientes, esto incurre de forma alarmante para
una empresa mediana. La deteccin y clausura de anomalas son realizadas por una
secuencia de operaciones sobre los datos sabidos como el flujo de trabajo. Para
alcanzar un correcto flujo de trabajo, se ha identificado las causas de las anomalas y
errores. Estas inconsistencias se dan como resultado por errores de mquina en
etapas de entrada de datos, poca claridad sobre el formato de ingreso al sistema,
error humano, falta de retroalimentacin en el ingreso de informacin, avera con el
teclado, etc.
La transformacin de los datos es una necesidad que surge debido al costo
representativo de la prdida utilitaria hacia la empresa, ya que esto adicional
aportara con mejoras en la seguridad o el control de la informacin entre otras
agencias o escenarios posibles ya sean estos de lentitud en sus procesos, perdida de
los datos por falta de espacio, poco rendimiento, entre otros.
A finales del ao 2011 el comit de la compaa acuerda considerar en el
presupuesto 2012 una mejora en cuanto a la infraestructura que requieren adquirir
para solventar sus gastos, desde ah la construccin del estudio de la transformacin

de datos fue diseada en base a las necesidades de esta empresa, ya que constituye
un gran problema a nivel nacional. En los actuales momentos existe el paradigma en
las empresas pequeas de poseer bases de datos no relacionales, lo cual esto con el
tiempo se ve afectado debido a su continuo crecimiento causndoles inconsistencia,
desgaste de tiempo al realizar un mantenimiento, sistemas no interrumpidos y baja
disponibilidad.
Necesidades del negocio
Para el desarrollo e implantacin de este estudio de diseo fue forzosa una
evaluacin de las insuficiencias que existen dentro de la institucin y del manejo del
ejercicio. Para esto es inevitable entender el ciclo del negocio y los requerimientos
que posee:
Cuando el ciclo de suscripcin de un servicio se logra, se le ingresan los datos del
cliente al sistema ya sea esta de forma automtica es decir, el funcionario ingresa la
informacin del cliente en su presencia en el computador o manual es decir, se le
llena al cliente un documento a pulso donde firma la suscripcin y posteriormente
esos documentos son trasladados a una agencia donde sern ingresados al sistema
por el vendedor.
Cuando el ciclo de afiliacin de un servicio llega a su fin, el cliente proceder con la
firma del contrato, el cual contiene como elemento principal la tabla de
amortizacin de sus pagos mensuales. Estas tablas son creadas por el sistema y
mantenidas en su base de datos Microsoft Access 2003 y que contienen todas las
alcuotas de cada mes entre otros rubros que se pudieran haber contratado. En el
transcurso del tiempo cuando el cliente empieza a cancelar sus alcuotas, la
recaudacin de los valores se realiza mediante la emisin de planillas de cobro que
son atesoradas en cualquier agencia, siendo este cobro guardado en la base de datos

de forma aislada ya que si el cliente vuelve a realizar el mismo pago en otra agencia
se le cobra con el mismo nmero de cuota siendo sta a pagar la cuota siguiente. Sin
embargo, existen numerosas causales por las cuales estos valores no pueden ser
recaudados, lo que ocasionan que las tablas de amortizacin no estn actualizadas en
virtud a lo contabilizado por el cliente. Como se puede observar este es un lazo
continuo entre las agencias y la matriz.
La parvedad de la empresa se origina en el instante que empieza a crecer debido al
aumento de agencias a nivel nacional, acrecentando as la cartera de clientes y la
transaccionalidad, en virtud de todos los sucesos empiezan a surgir novedades que
en primera instancia es detectado por el rea de Cobranzas, ya que al momento de
ubicar al cliente para recordarle sus pagos, encontraban informacin errada
accionando un problema en la recuperacin de la cartera y como ltima coaccin el
llamado de atencin por los entes de control.
La situacin se tornaba crtica especialmente durante el cierre anual en consecuencia
a cuadre de balance, por lo que frecuentemente el departamento de Operaciones
solicita a Sistemas que se realicen cambios manuales a fin de contar con la data
actualizada. Es importante indicar que la informacin requerida para el cierre
contable es la relacionada con la recaudacin de los dividendos mensuales y ventas
realizadas en las agencias.
Para este estudio del diseo se realiz un anlisis del porcentaje de inconsistencia
que exista por agencia, lo que pudimos observar que en las agencias nuevas se
presentaba con mayor frecuencia la inconsistencia de los datos, por lo tanto se
evalu mediante un mtodo matemtico el porcentaje de la muestra a ser tomada.
Para nuestro estudio la muestra represent el 36.7% en referencia a la poblacin, lo
cual constituye como tamao muestral solo la agencia Manab.

Dentro de esta muestra se realiz un segundo anlisis en base a la data existente,


validando el porcentaje de error de los siguientes puntos: campos, columnas, tipos
de datos, cantidad de registros de las tablas, claves primarias y forneas. En el
anlisis univariado todos los factores constituyeron riesgo para el traspaso de la
data, mientras que el anlisis multivariado, mostr que el factor con independencia
ms importante es la inconsistencia de la data. Se concluye que con la metamorfosis
de los datos todas estas falencias se corrijan y mejore su rendimiento a un 100%.
En este estudio, para exponer la utilidad de la transformacin de los datos, se
propone realizar una demostracin con un ejemplar estimado de 30GB, que
representa una muestra de nuestro universo, la misma que servir para resolver el
problema. La herramienta que usaremos para demostrar el estudio de la
transformacin de los datos se llama Spoon de Pentaho, es un diseador grfico de
transformaciones y trabajos del sistema de ETTLs, una solucin en curso de la
comunidad open source que provee a las organizaciones para sus necesidades de
inteligencia de negocios.
SITUACIN CONFLICTO NUDOS CRTICOS
A partir de esta inconsistencia resulta indispensable considerar de forma inmediata
una solucin permanente que aplaque el malestar y desgaste econmico que posee la
empresa. Todas estas variantes crearon la necesidad de realizar un estudio de diseo
con el objetivo de trasladar toda la informacin a una base de datos relacional. Cabe
mencionar las desventajas que tiene la base de datos que posee la empresa, como
son:
No es Multiplataforma.
Su uso es inadecuado para grandes proyectos.
Su centralizacin hace que sea vulnerable ante fallos.
9

No puede ser accedida simultneamente.


Posee un mximo de capacidad por archivos.
No es una base de datos relacional.
Limitaciones en el procesamiento de bsqueda.
Una migracin o transformacin de datos no es ms que un problema del mundo
real, por lo que se conllev a utilizar diversas alternativas, hasta concluir que la
mejor opcin para esta empresa era realizarlo con una herramienta de cdigo
abierto, aportando as con la utilidad financiera de la institucin. Dado que el
objetivo principal de realizar una transformacin de datos es descartar toda la data
inconsistente, crear una estructura de base de datos uniforme y amigable para el
usuario final, mantener un ambiente seguro y confiable de sus datos incluso para el
registro de pistas de auditoras.
En el levantamiento de informacin pudimos evaluar que posean un procesamiento
de informacin no acorde al crecimiento de la empresa, la cual provena por varios
factores no considerados dentro de su arquitectura de su sistema, entre los que
podemos destacar, su base de datos (Access) y el sistema de recoleccin de datos.
Constan varias opciones para estimar un estudio del diseo de trasformacin de
datos, entre los que podemos mencionar: su optimizacin de recursos y
estandarizacin de estructuras, transformacin lineal y transformacin logstica.
Teniendo en cuenta el tipo de variable que deseemos agregar al estudio (variable
dependiente o respuesta) aplicaremos un estudio u otro.
Al momento de plasmar el estudio se pudo constatar que adicional a la
transformacin de los datos se deba redisear arquitectnicamente la estructura de
la base de datos de acuerdo al giro del negocio, ya que al realizar el anlisis de la
data nos dimos cuenta que la inconsistencia de la informacin debi ser prevista en
10

las parametrizaciones que se programaban dentro del sistema antes de ser puesto en
Produccin o antes de ser entregado a la empresa para su uso (tipos de datos en
nmeros de cdula, telfonos, direcciones, genero, etc.), por lo que se lleg a la
conclusin que se clasificara en trabajos de campo y trabajos de oficina.
CAUSAS Y CONSECUENCIAS DEL PROBLEMA
CAUSAS:
Al realizar las investigaciones del problema pudimos constatar los orgenes tales
como:
Falta de capacitacin sobre el uso o ingreso de informacin en el sistema
No hubo una arquitectura del sistema
Manual de usuario inexistente hacia los colaboradores
Desconocimiento de los estndares o formatos comunes
Falla en las herramientas de trabajo ya sea teclado, configuracin regional o teclas
direccionales.
Descuido de los usuarios al realizar el ingreso de los datos.
CONSECUENCIAS:
En resultado a la inconsistencia de la muestra analizada podemos definir que las
consecuencias para este estudio son:
El desgaste de los empleados en las correcciones de la informacin.
La afectacin de forma indirecta hacia los clientes.
Falta de control y seguridad en los procesos, esto produce que su riesgo se eleve y
aumente la inconsistencia de los datos.
Las configuraciones que se realicen al transformar la data deben ser cuidadosamente
realizadas para no perder informacin.
11

Mala imagen hacia los clientes o competencias.


Aborrecimiento al sistema por parte de los usuarios.
La herramienta que se analiz para la realizacin del estudio, puede incluir
interacciones creadas en el diseo de la herramienta que impliquen una excesiva
estratificacin para la muestra disponible. En el anlisis univariado, al realizar
efectivamente las configuraciones y scripts en el diseo de transformacin se
observa que su tiempo de procesamiento de la data es bastante optimo, validando los
resultados y analizando los datos, incluso puede decidirse disear una nueva
alternativa que pueda afinar con mayor eficiencia los datos (esto depender mucho
del porcentaje de inconsistencia de la data), e incluirlo como tal en el modelo.
La probabilidad en la transformacin correcta es elevada en los diseos realizados
con muestras de tamaos pequeos, sobre todo cuando poseen poca demanda de
informacin.
Cabe sealar que al igual que en los temas anteriores, los estudios con
multicolinealidad entre las variables introducidas llamarn la atencin por la
presencia de grandes errores estndares, y frecuentementes estimaciones de registros
inconsistentes elevados. Sin embargo la multicolinealidad no afecta al sentido de las
estimaciones (la multicolinealidad no har que surja significacin donde no la hay, e
inversamente).
En aquellos escenarios del mundo real en las que no es viable experimentar con la
realidad, ofrecen un marco terico para evaluar la toma de decisiones as como sus
resultados. Los diseos pueden ser estticos o dinmicos, en un diseo esttico, la
variable tiempo no desempea un papel relevante, por el contrario en un diseo
dinmico si, ya que alguno(s) de los elementos que intervienen en este estudio no

12

permanecen constantes, en este caso tenemos un estudio dinmico por que usamos
la variable tiempo.
Habitualmente todos los estudios deterministas derivan diseos disparejos ya sean
ordinarias o parciales, stas se pueden resolver con tcnicas ordenadas y/o
numerarias.
DELIMITACIN DEL PROBLEMA
Despus de haber realizado el anlisis del diseo, se debe establecer una nueva
estructura de base de datos a fin de modelar el diseo a implementar. Esta
transformacin filtrar todos los datos inconsistente con el objetivo de minimizar
gastos innecesarios a la empresa y descartar llamados de atencin por retrasos en la
entrega de la informacin anual a los entes de control. Colindaremos el
inconveniente haciendo referencia al gasto excesivo que tiene la empresa. Para
dicho proceso hemos considerado una de las mejores herramientas de cdigo abierto
el cual posee como beneficio principal descartar el costo en licenciamiento, excluir
el desgaste de tiempo en modificaciones de la data, cumplimiento ante los entes de
control y credibilidad a nivel nacional de todos sus empleados, costo de servicio por
mantenimiento de la data y mejorar su competitividad.
Para exponer que el estudio del diseo de transformacin funciona, se elabor una
gua de recoleccin de datos basados en el diseo de transformacin realizada en
una agencia en particular, creando scripts de filtrado dentro de cada modelador que
incluye la herramienta.
Considerando como base la transformacin efectuada en una de las agencias se
desarroll un formulario para validar la migracin de los datos, el mismo que fue
validado por un experto en el rea de base de datos (Ing. Cesar Cuenca, DBA).

13

En base a la necesidad de la transformacin se crea un diseo relacional, que nos


permitir estar preparados hacia un alto crecimiento en la empresa.
La transformacin de datos pretende medir los beneficios que posee esta
herramienta de software libre migrando una base de datos de forma ntegra, rpida y
segura, beneficiando a la empresa no solo en una baja estimacin de tiempo sino en
el ahorro que representa al eximirse de contrataciones externas y probable fuga de
informacin.
PLANTEAMIENTO
FORMULACIN DEL PROBLEMA
Cmo realizar una migracin que permita trasladar el 100% de la data que se
encuentra almacenada de forma aislada, transformando estructuras sin perder
informacin importante para la institucin?
EVALUACIN DEL PROBLEMA
Evidente: Existen muchas formas de detectar que una base de datos posee
almacenado sus datos de forma inconsistente, que puede ser, monitoreando el
proceso de ingreso al sistema en forma de consulta directamente, o al actualizar
informacin bajo demanda del cliente. Este estudio demostrar la necesidad de
transformar los datos de forma ntegra hacia otra estructura relacional mediante el
uso de la herramienta Spoon de Pentaho sobre plataforma Linux.
Relevante: El riesgo de que la empresa pueda generar ms gastos operativos y
posibles llamados de atencin por los entes de control, pudiendo llegar a ser
verdaderamente alarmante, esto pasa por varios factores principalmente el factor
volumen, cabe sealar que la empresa posee 5 agencias a nivel nacional y posee una

14

trayectoria de 8 aos en el mercado, es por eso la necesidad de realizar una


transformacin eficiente que cubra a tiempo las necesidades de la empresa.
Original: Este es un campo bastante interesante, ya que en nuestro pas ha sido
poco explorado por el temor de fallas al momento de implementarse en cualquier
empresa, debido a lo poco frecuente de poseer una data inconsistente.
Factible: La migracin de los datos perfectamente realizable dado que no se trata de
un estudio extenso sin ejecucin real.
Identifica los productos esperados: Por medio de este estudio podramos no solo
demostrar la transformacin de los datos en una base de datos no relacional sino
tambin en muchas otras bases de datos soportadas por la herramienta.
OBJETIVO DE LA INVESTIGACION
Objetivo General:
Demostrar la habilidad, seguridad y rapidez que posee la herramienta Spoon de
Pentaho, en la transformacin de datos de un repositorio a otro. Ahorrando de esta
manera contratacin de personal especializado, soporte en sitio y minimizando
largas horas de ejecucin en el proceso de migracin.
Objetivos Especficos:
Utilizar la herramienta Spoon de Pentaho como un instrumento de diseo,
desarrollo, ejecucin y seguimiento para todo el proceso de migracin.
Analizar y disear los procesos de extraccin, transformacin y carga.
Transportar la data de forma ntegra y segura, validando posibles errores.
Promover la explotacin del software libre en nuestro pas.
Proveer disponibilidad en el repositorio de datos.

15

Estandarizacin de estructuras y tipos de datos, garantizando de esta manera la data


almacenada.

JUSTIFICACION E IMPORTANCIA DE LA INVESTIGACIN


Este estudio ayudar a mantener un estndar en la estructura de la base, un
rendimiento ptimo y una alta disponibilidad, adicionalmente servir para darle
mayor apertura a los software libres que en nuestro pas que prcticamente es
inexplorado.
Tambin servir para la correcta toma de decisiones en la arquitectura de algn
diseo nuevo con respecto a otros aplicativos que se pueden llegar a implementar.
Con esta investigacin ayudaremos a introducir en el Ecuador el estudio de nuevos
diseos para mejorar procesos en las bases de datos, siendo mitigada la
inconsistencia de los datos que es el eje central de toda empresa en crecimiento. En
este estudio se demostrar que las herramientas de software libre, son los ms tiles
al momento de hacer diseos o manipulacin de informacin de forma segura. La
importancia de este estudio radica, en el logro, de un grupo de datos sospechosos
que perjudican al crecimiento de la empresa. En virtud de los posibles llamados de
atencin por los entes de control, desgaste de utilidad para la compaa y prdida de
credibilidad de los clientes, se vio afectado el servicio que se ofrece.
Adicionalmente existan pagos que se receptaban de forma manual y automtica, lo
que generaba duplicidad de pagos entre agencias o hurto por parte de los empleados,
a partir de este punto se realiza un anlisis de las transacciones efectuadas
mensuales, donde se descubren varios reclamos de los clientes que no han sido
reportados. A travs del departamento de cobranzas se realizaron las indagaciones
de campo.
16

Este estudio, ayudar a disminuir los casos de reclamos por afectacin no solo al
cliente sino a la empresa ya que al momento de realizar una cobranza se realiza una
validacin de los datos. Secundariamente en la nueva estructura se prev generar
pistas de auditoria en las cuales ponga sobre aviso al administrador del sistema.
Adems por la frecuencia cada vez ms alta de las empresas en crecimiento.
Como ejemplo podemos resaltar el estudio de la Metodologa para la conversin del
Modelo Entidad Relacin al Modelo realizado por la Universidad Tcnica de
Ambato en el ao 2001, que lo trata de introducir como una nueva rea de
investigacin. En este estudio los campos de lenguajes de programacin,
inteligencia artificial e ingeniera de software han contribuido con el uso de la
tecnologa orientada a objetos en el rea de las Bases de Datos. El desafo del rea
de Bases de Datos es integrarlos en un diseo de sistema simple que mantenga el
equipo deseado para cada campo. El resultado de realizar la Conversin es la
caracterstica central de este trabajo para obtener una mejor idea y comprensin de
Bases de Datos Orientas a Objetos (http://repo.uta.edu.ec/handle/123456789/372?
show=full), en nuestro caso es lgico que sea de gran inters ya que al prescindir de
multas y de informacin consistente para la validacin de los reportes es un costo
beneficio muy considerable hacia la empresa involucrada, como valor agregado se
puede tambin mencionar que se descartarn gastos por licenciamiento del software
a utilizar al tratarse de una herramienta de software libre. Precisamente uno de los
factores de riesgo que se asocian es la probabilidad de prdida de datos, teniendo en
cuenta que una transformacin mal realizada podra dar por terminada una
estructura de informacin completa. Resulta evidente que en muchos procesos dicha
probabilidad de fallo en la transformacin o migracin de datos depende del tiempo
en el procesamiento de la data.

17

La diferencia del estudio de Metodologa para la Conversin del Modelo Entidad


Relacin al Modelo Orientado a Objetos con el estudio en el que he tenido la
oportunidad de trabajar es que nosotros no necesitamos herramientas de alto tiempo
de procesamiento ni se costosa inversin para la empresa, dado que nuestro estudio
del diseo no intenta enriquecerse ni llevarle a un alto tiempo de recuperacin,
nuestro estudio de diseo de transformacin de datos nicamente pretende
demostrar que las herramientas de cdigo abierto poseen muy buenas caractersticas
que podemos explotar con un ptimo resultado.
BENEFICIOS
Entre los beneficios que se obtendra al resolver esta situacin, podemos mencionar:
Agilidad en las consultas y trmites para los clientes
Optimizacin de gastos operativos por desgaste al personal
Fin de llamados de atencin por los entes de control
Mejorado en el procesamiento de los datos
Inventarios, ventas y pagos actualizados a nivel nacional
Ahorro de costos en software y contratacin de personal especializado para la
solucin del problema en la empresa.
Control total en el ingreso de la data, de acuerdo a los tipos de datos descritos
Competitividad y seguridad en la data existente de la institucin.

REYES (2006) Expresa: La tecnologa naci asociada con la actividad prctica


del hombre. Miles de aos despus, se separaron como ocurri con la ciencia.
18

Ella es una fuerza poderosa en el desarrollo de la civilizacin, sobre todo, a


partir del momento en que fragu su vnculo con la ciencia. Ella -al igual que el
lenguaje, los valores, el comercio y las artes- es una parte intrnseca de un
sistema cultural, que forma y refleja los valores de un sistema.(pag. 12)

CAPTULO II
MARCO TERICO
CAPITULO II MARCO TERICO

ANTECEDENTES DEL ESTUDIO


Antes de empezar a describir los factores de xito del estudio haremos una breve
explicacin de los conceptos a tratarse dentro de este proyecto. Iniciando por la
significacin de una base de datos; en su concepto ms simple, se refiere a un
conjunto de datos relacionados entre s con un objetivo comn, de acuerdo con C. J.
Date en su libro Introduccin a la bases de datos: Una base de datos es una
coleccin de datos integrados, con redundancia controlada y con una estructura que
refleje las interrelaciones y restricciones existentes en el mundo real; los datos que
han de ser compartidos por diferentes usuarios y aplicaciones, deben mantenerse
independientes de stas, y su definicin y descripcin, nicas para cada tipo de dato,
han de estar almacenadas junto con los mismos. Los procedimientos de
actualizacin y recuperacin, comunes, y bien determinados habrn de ser capaces
de conservar la integridad y confidencialidad del conjunto de datos.

19

Qu es una migracin?
Una transformacin o migracin de datos es un proceso que se realiza para mover o
trasladar los datos almacenados de un origen de datos a otro, para lo cual es
indispensable que antes de empezar cualquier proceso de esta naturaleza, se tenga
clara y documentada la razn por la cual se est migrando, adems de elaborarse la
planeacin detallada de las actividades contempladas.

Objetivo del Proyecto


Dicha transformacin en este caso lo realizaremos con el objetivo especfico de
subsanar el degradado en la inconsistencia de los datos en la base. El primordial
escenario tiene como propsito de mejora: Descartar el alto gasto operativo
generado por la mala gestin del sistema y llamados de atencin por parte de los
entes de control, optimar el desempeo de la base de datos, cumplir con polticas de
seguridad o control de informacin, mayor compatibilidad con otras aplicaciones,
estandarizacin de la tecnologa de informacin y facilitar el intercambio de datos
entre procesos. En este estudio se identificarn los elementos o aspectos que resultan
esenciales para que se alcancen los mejores resultados del proyecto. A estos
elementos se les denomina comnmente Factores Crticos de xito (FCE), cuyos
resultados satisfactorios aseguraran un diseo exitoso de transformacin de datos.
En el grfico N. 1 se muestran las etapas consideradas hacia un propsito de
transformacin de datos. Algunas de las etapas y actividades pueden realizarse en
forma paralela o llevarse a cabo en varios ciclos.

20

GRFICO N.
ETAPAS DEL ESTUDIO DE TRANSFORMACIN DE BASE DE DATOS

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales
Es importante hacer distinguir que en la planeacin del diseo de migracin, se
deben implantar los objetivos, colindar el alcance, puntualizar la estrategia a seguir,
identificar en forma completa los requerimientos, crear mtodos de contingencia
para los riesgos de mayor impacto y probabilidad, as como analizar las condiciones
actuales y finales. En esta fase se estipula la viabilidad tcnica y la factibilidad
econmica de la solucin que plantearemos.
A fin de contribuir al diseo de transformacin de datos, uno de los temas obligados
de discusin en todos los crculos empresariales es la Reingeniera de Procesos. Si
bien el tema no es nuevo, el trmino acuado por M. Hammer y J. Champy en 1993,
se ha convertido en un fenmeno de xito mercadotcnico.
Durante doscientos aos se fundaron y se construyeron empresas sobre la base del
brillante descubrimiento de Adam Smith, de que el trabajo mecnica deba dividirse
en tareas ms simples y bsicas. La reingeniera de negocios significa volver a
empezar, arrancando de cero. Lo que importa en la reingeniera es como queremos
organizar hoy el trabajo, dadas las exigencias de los mercados actuales y el potencial
de las nuevas tecnologas.
21

Hammer define la reingeniera de negocios como 'replanteo fundamental y rediseo


radical de los procesos de negocios para alcanzar mejoras en orden de magnitud en
el rendimiento de costos, calidad, servicios y rapidez'. Hammer y Champy, a
diferencia de otros autores, sitan a la Informtica en el centro de la reingeniera de
negocios. Presentan un planteamiento muy claro y radical ya que para ellos, la
tecnologa no debe verse como sinnimo de automatizacin. No se trata de utilizar
la nueva tecnologa para resolver mejor problemas antiguos, sino de aprovechar los
conmovedores avances de las tecnologas modernas de la informacin para resolver
los nuevos problemas.
Una transformacin o migracin de datos puede llegar a ser muy costosa para la
empresa, incluso consumiendo varias horas de tiempo en la realizacin del proceso.
En el ao 2001, el belga Matt Casters empez el desarrollo de una herramienta para
uso personal, consciente de las dificultades que haba tenido durante su experiencia
laboral como constructor de Data Warehouse (coleccin de datos orientada a un
determinado mbito, integrado, no voltil y variable en el tiempo) para la
integracin de sistemas. Entretanto los siguientes aos, fue desarrollando la
herramienta, primero utilizando Java y su librera grfica AWT (Abstract Window
Toolkit), para finalmente pasar a SWT (Standard Widget Toolkit). La herramienta
fue aadiendo funcionalidades, acceso a bases de datos, tratamiento de ficheros y
componentes hasta llegar a 2004 con la versin 1.2. En la versin 2.0 se incluy un
sistema de plugins para permitir el desarrollo de conectores de Kettle con otros
sistemas como SAP (Sistemas, Aplicaciones y Productos en Procesamiento de
datos) y en 2005 fue liberado el cdigo y puesto a disposicin de la web. El
proyecto creci con rapidez y la comunidad se involucr en su desarrollo con mucha
actividad, hasta estar dentro de la rbita de Pentaho, que lo incluyo como

22

herramienta ETL (extraccin, transformacin y carga) en su gama de productos.


Matt Caster ha estado desde entonces trabajando en Pentaho y desarrollando su
arquitectura como parte del equipo de Pentaho, interviniendo en las diferentes
versiones hasta llegar a la 3.
Pentaho se define a s mismo como una plataforma de BI (Business Intelligence)
que contiene todos los principales componentes requeridos para implementar
soluciones basadas en procesos. Las soluciones que Pentaho ofrece se componen
fundamentalmente de una infraestructura de herramientas de anlisis e informes
integrados con un motor de workflow o flujo de trabajo de procesos de negocio. La
plataforma ser capaz de ejecutar las reglas de negocio necesarias, expresadas en
forma de procesos y actividades y de presentar y entregar la informacin adecuada
en el momento adecuado.
El primordial escenario tiene como propsito de mejora: Descartar llamados de
atencin o multas por parte de los entes de control, optimar el desempeo de la base
de datos, cumplir con polticas de seguridad o control de informacin, mayor
compatibilidad con otras aplicaciones, estandarizacin de la tecnologa de
informacin y facilitar el intercambio de datos entre procesos. En este estudio se
identificarn los elementos o aspectos que resultan esenciales para que se alcancen
los mejores resultados del proyecto. A estos elementos se les denomina comnmente
Factores Crticos de xito (FCE), cuyos resultados satisfactorios aseguraran un
diseo exitoso de transformacin de datos. En el grfico N. 2 se muestran las
etapas consideradas como propsito de transformacin de datos. Algunas de las
etapas y actividades pueden realizarse en forma paralela o llevarse a cabo en varios
ciclos.

23

El alcance de la migracin de datos contempla el anlisis, diseo, implementacin y


pruebas de la herramienta Spoon de Pentaho para la extraccin, transformacin y
carga de la informacin de la base de datos actual hacia la nueva PostgreSql.

Desigualdades entre transformaciones de datos


Un diseo de transformacin de datos es la grafa de una dificultad en el mundo
real, basado en esto el estudio est obligado a encontrar la tcnica ms beneficiosa
para desvanecer todas las inconsistencias de la base que representan el problema en
cuestin, en los prrafos anteriores se resume la importancia que posee una
transformacin de datos en una empresa. Los beneficios de la herramienta con la
que realizaremos nuestra demostracin y es costo beneficio de la misma.

FUNDAMENTACIN TERICA
Transformacin por inconsistencia de los datos
Una transformacin o migracin de datos es una excelente alternativa para corregir
la data mal almacenada a nivel de base de datos. La transferencia de informacin
entre un repositorio u otro permitir cifrar y estructurar los datos en forma ptima.
Podemos tener el mejor sistema, la base de datos ms robusta o aplicable al negocio
pero si no tenemos una buena arquitectura del negocio o una estructura de base de
datos con polticas de seguridad, restricciones, parches o con tipos de datos
controlados tiende a almacenar informacin inconsistente.
La migracin de los datos consiste en convertir los datos desde un sistema de base
de datos a otro. Esta migracin conlleva la creacin de tablas o modificacin de las
existentes, cambios en algunos tipos de datos que existen en una base de datos pero
no en otras, etc.

24

Este estudio tiene como producto principal la herramienta Spoon de Pentaho, para el
desarrollo del proyecto.

Ventajas
Aprovechar el uso de nuevas tecnologas de cdigo abierto.
Erradicar costos altos en licenciamiento de software especializado.
Excluir costos operativos por pagos de horas extras al personal y llamados de
atencin por el ente de control por el atraso en la entrega del balance.
El alcance de la migracin es pequeo y controlable.
La informacin histrica preserva su estructura original.
Los usuarios consultaran la informacin histrica en del sistema anterior (ventaja
para los usuarios).
Menor capacitacin.

Desventajas
Se debe modificar o cambiar el aplicativo actual.
Durante los primeros meses existirn dos fuentes vlidas de informacin, la
histrica y la vigente.
Molestia con los usuarios por adaptacin al nuevo repositorio.

Existen diferentes tipos de migraciones?


A continuacin mencionaremos los diferentes tipos de migracin que existen en el
mercado como resea percepcin de lo que se puede realizar:

Migracin en sitio
Actualiza automticamente el Portal completo y todos los sitios. La migracin sobre
escribe las Bases de Datos originales, y convierte todos los datos a los formatos
25

nuevos, incluyendo todos los documentos almacenados. Los sitios y el Portal no


podrn ser utilizados durante el proceso.
GRFICO N.
PROCESO DE MIGRACIN EN SITIO

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales
Recomendado para instancias de pequea dimensin o instalaciones contenidas en
un solo servidor.

Migracin gradual
Los servidores contendrn varias versiones al mismo tiempo, y la migracin se
puede realizar por cada recopilacin de sitio. El contenido de la recopilacin que se
est migrando en el momento es guardado primero en una Base de Datos temporal y
luego migrado a las nuevas Bases de Datos. Los cambios se pueden revertir a la
versin anterior porque las Bases de Datos no se alteran. Requiere ms espacio
fsico en los servidores (porque hay que tener todo doble).

26

GRFICO N.
PROCESO DE MIGRACIN GRADUAL

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales
CASTRO (2003) Expresa: La habilidad de las sociedades para controlar la
tecnologa y en particular las tecnologas estratgicamente decisivas en cada
poca histrica tienen una gran influencia en su destino. (pag. 12)
Permite ms control sobre la migracin y es recomendable cuando se han hecho
personalizaciones avanzadas en el sistema. La migracin es mucho ms lenta que
una en sitio.

Base de Datos
Se realiza poniendo las Bases de Datos fuera de conexin, copindolas al nuevo
servidor, conectndolas al nuevo sistema y realizando una migracin en sitio por el
resto.

27

GRFICO N.
PROCESO DE MIGRACIN DE BASE DE DATOS

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales
Solamente se pueden migrar Bases de Datos completas pero es la forma ms rpida
para migrar.

Factores de Riesgo en la transformacin


Factor crtico para el xito de la migracin de la base de datos, es la realizacin de
pruebas, las cuales inicialmente, pueden ser a pequea escala para validar o
modificar la arquitectura final y el plan de migracin, as como para comprobar que
las aplicaciones que harn uso de la base de datos funcionan correctamente y
optimizar los tiempos y recursos necesarios. Es recomendable hacer pruebas
generales para comprobar que el proceso completo funciona correctamente, medir
los tiempos para tener una planeacin integral y minimizar los riesgos como:
28

Sistemas con muchas identificaciones pueden ser entre muy difcil a imposible de
ser migrados; la nica forma de saberlo con certeza es hacer una migracin de
prueba.
Procedimientos que no son migrados y hay que compilarlos y aplicarlos
manualmente de nuevo, pero luego de ser migrados manualmente continuaran
funcionando sin problemas. Modificaciones hechas en las plantillas originales no
son migradas.
Consideraciones que se tomaron para seleccionar la herramienta
Un aspecto crtico para el xito del estudio del diseo de transformacin es la
seleccin de la herramienta que ser utilizada para ejecutar el proceso de migracin,
es importante hacer un anlisis de las diferentes alternativas existentes, buscando la
mejor opcin considerando la relacin costo/beneficio de cada una de ellas hacia la
empresa.
BENEFICIOS DE LA HERRAMIENTA SPOON
Spoon, nos permite realizar el diseo de las transformaciones y trabajos de forma
grfica. Inclusive admite previsualizar y testear los elementos desarrollados. Pan, es
otra herramienta de Pentaho que asiente la ejecucin de las transformaciones
diseadas en Spoon, puede ser de un fichero o del repositorio. Desde la lnea de
comandos nos permite preparar la ejecucin mediante scripts.

29

GRFICO N.
PROCESO DE MIGRACIN

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Cmo se miden los resultados de la transformacin?


Una vez terminado el proceso se deben medir los resultados y entregar un reporte
global del trabajo realizado, mencionando cual es el producto que se entrega,
cuantas tablas u otros objetos fueron migrados, cuantos registros se migraron
exitosamente, cuantos no fueron migrados y cul fue la causa de aquello.
Otro documento relevante para el cliente es la memoria tcnica que contenga la
configuracin de los parmetros de la base de datos migrada, su estructura fsica y
espacio disponible, entre otros datos relevantes.
RUIZ (2003) Expresa: Hoy, la tecnologa puede definirse como la aplicacin del
conocimiento cientfico a la solucin de problemas prcticos y la obtencin de
metas humanas; un cuerpo de conocimientos desarrollados por una cultura que
provee mtodos o medios para controlar el entorno, extraer las fuentes,
producir bienes y servicios, as como mejorar las condiciones de vida. (pag 24)

Consideraciones antes de la transformacin


Una actividad central es realizar un anlisis del diseo de datos actual y del nuevo,
para estipular cules son los campos y tablas crticas; posteriormente, se analizar y
30

documentar la correspondencia campo por campo del nuevo modelo con el modelo
actual, especificando las dependencias funcionales de cada una de ellas.
Adicionalmente se debe vislumbrar la verificacin de la integridad referencial entre
las tablas de acuerdo con los requerimientos del modelo en el nuevo ambiente y
determinar las limitaciones existentes, sin destruir los datos almacenados ni las
relaciones que existen entre ellas. De igual modo, es necesario considerar los
diferentes tipos de datos entre el modelo actual y el nuevo, certificar que la
informacin pueda ser almacenada en los campos bajo la nueva definicin,
contrastar el tamao de los objetos y de la base de datos, considerar el tipo de
ndices que soporta la base de datos final y el manejo de sus transacciones.

Funcionamiento de Pentaho
La solucin de Pentaho tiene un contexto de implementacin basado en el lenguaje
de programacin Java. Eso hace que sea una solucin muy flexible para cubrir una
amplia gama de necesidades empresariales, tambin abre, limpia e integra toda la
informacin valiosa de la empresa para que la misma pueda ser entregada al usuario
de manera ntegra. Provee una estabilidad, una sola versin de todos los recursos de
informacin, que es uno de los ms grandes desafos para las organizaciones de
Tecnologas de la Informacin (TI). Pentaho Data Integration permite una poderosa
ETL (Extraccin, Transformacin y Carga).
Pentaho Data Integration facilita una solucin completa de ETL, incluyendo:
Delineante grfico enriquecido para permitir a los desarrolladores ETL una amplia
conectividad a cualquier tipo de datos (integer, char, etc).
Escalabilidad y rendimiento, incluyendo el almacenamiento en cach de la memoria.
Anlisis y presentacin de informes, incluyendo Hadoop, NoSQL, tradicionales y
bases de datos OLTP de anlisis
31

Moderno, abierto y posee una arquitectura basada en estndares.


Interfaz grfica para la programacin y seguimiento de Hadoop, NoSQL, y el
procesamiento de datos relacional y el empleo de ETL.
Pentaho Data Integration tiene un diseador grfico automtico que permite hacer
exactamente lo que los desarrolladores de cdigo ms hbiles pueden lograr en una
fraccin de tiempo, y sin necesidad de cdigo en forma manual. Integra en un nico
entorno de desarrollo la posibilidad de elaborar las ETL, el modelar los metadatos y
la visualizarlos, ya sea a travs del navegador OLAP o por reportes.
Esta herramienta puede de manera muy simple tomar datos de una fuente (archivos
locales y remotos, bases de datos, repositorios), aplicar un procesamiento a dichos
datos (filtros, condiciones, clculos, consultas), y almacenar los resultados en un
destino (archivos, base de datos, repositorio).

Ventajas de la herramienta
Logra facilitara la comunicacin entre las partes interesadas y los desarrolladores.
Estos ltimos obtienen de forma ms rpida prototipos funcionales (incluso en
minutos) de cubos OLAP, reportes, etc. y a su vez, las partes interesadas pueden
entregar su feedback a los desarrolladores en base a un prototipo que se ve
exactamente como sera en un ambiente productivo.
Permite llegar a un resultado final de forma ms efectiva.
Reduce riesgos y costos de implementacin.
Admite probar de forma emprica y temprana la arquitectura de la aplicacin BI
(que los datos necesarios sean los correctos, que el tiempo de ejecucin sea
aceptable, que los reportes muestren la informacin que los usuarios necesiten, que

32

el diseo del cubo OLAP satisface las necesidades de informacin de los analistas,
etc.).
Permite a los desarrolladores enfocarse en funcionalidad de las diferentes soluciones
informticas.
GRFICO N.
PROCESO DE INTEGRACIN DE DATOS - PENTAHO

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Cuales con las caractersticas de Spoon de Pentaho?


Entorno grfico de desarrollo
Uso de tecnologas estndar: Java, XML, JavaScript
Fcil de instalar y configurar
Multiplataforma: windows, macintosh, linux
Basado en dos tipos de objetos: Transformaciones (coleccin de pasos en un proceso
ETL) y trabajos (coleccin de transformaciones)
Incluye herramientas como:
Spoon: para disear transformaciones ETTL usando el entorno grfico
PAN: para ejecutar transformaciones diseadas con Spoon
33

Que consideraciones debemos tener con Spoon?


Esta herramienta puede manipular y transformar informacin en todos aquellos
proyectos dnde sea necesario trabajar con datos errneos. Las diferentes soluciones
para cubrir las necesidades de extraccin, manipulacin, validacin y carga de datos
desde mltiples fuentes de origen y en diferentes entornos esta puede resolverlos,
permite implementar los procesos de extraccin, transformacin y carga de datos
(ETL), la misma es de cdigo abierto compuesta por cuatro componentes
fundamentales: SPOON para el diseo grfico de las transformaciones, PAN para la
ejecucin de los trabajos y las transformaciones, CHEF para el diseo de la carga de
datos y KITCHEN para la ejecucin de los trabajos Batch diseados con CHEF.
El uso de kettle permite evitar grandes cargas de trabajo manual frecuentemente
difcil de mantener y de desplegar.
Los siguientes scripts permiten iniciar Spoon en diferentes plataformas:
spoon.bat: inicia Spoon en la plataforma Window$.
En esta plataforma basta con ejecutar el archivo .bat para iniciar Spoon.
spoon.sh: inicia Spoon en una plataforma tipo Unix, tal como GNU/Linux, Apple
OSX, y Solaris. En este caso debemos ejecutar la siguiente sentencia:
cd /home/datos/programas/data-integration
sh spoon.sh

DELARBRE (2009) Expresa en donde segn el ciudadano requiere de


destrezas especficas para su supervivencia en este nuevo entorno: La
capacitacin, no slo para encontrar informacin y saber discriminar entre
ella, sino tambin para colocar contenidos en las redes informticas, se ha
convertido en requisito indispensable en la formacin cultural, la
competitividad laboral y las opciones sociales de las personas. (pag. 12)

34

Qu plataformas soporta Spoon?


La gua de Spoon es soportada en las siguientes plataformas:
Windows: todas las plataformas desde Windows 95, incluyendo Vista.
GNU/Linux: en procesadores i386 y x86_64, trabaja mejor en Gnome.
OSX de Apple: trabaja en ambas mquinas, PowerPC e Intel.
Solaris: utilizando una interface Motif (GTK opcional).
AIX: utilizando una interface Motif.
HP-UX: utilizando una interface Motif (GTK opcional).
FreeBSD: soporte preliminar i386, pero an no en x86_64.

Cules son los problemas frecuentes que puede presentar Spoon?


Los problemas ms conocidos asociados con Spoon son:
GNU/Linux
Bloqueo ocasional de la JVM corriendo SuSE Linux y KDE. Corriendo bajo Gnome
no presenta problemas (detectado en SUSE Linux 10.1 pero versiones anteriores
tambin tienen el mismo problema).
FreeBSD
Problemas con arrastrar y soltar. Utilizar el men contextual del clic derecho sobre
el

lienzo

como

solucin.

Consultar las listas de seguimiento en http://jira.pentaho.com para encontrar


informacin actualizada sobre los problemas recientemente descubiertos.

Definicin del problema y recoleccin de datos


Dado a que las bases de datos entre agencias con relacin a la matriz, no estrecha
una estructura relacional y al momento de realizar la centralizacin de la
35

informacin y consolidarla para todas las entidades implicadas, esta no mantiene un


estndar. Al surgir este efecto, se obtiene como resultado la inconsistencia de los
registros almacenados, segn lo demuestra en el siguiente grfico de ejemplo:

GRFICO N.
PROCESO DE INTEGRACIN DE DATOS PENTAHO

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales
Como nos muestra el grfico, el esquema con que se dan las tablas de las diferentes
bases de datos, sealan que en un mismo campo, tienen distintos tipos o formas de
ser pobladas. Durante la traslado de los datos a la base de la matriz, se produce una
variabilidad de los registros, ya que al momento de realizar consultas y/o reportes,
estos traern datos que no sern completos.
La principal actividad que perjudica a la empresa se debe al alto gasto que posee por
el mal ingreso de la informacin en su base de datos, as como tambin se quiere
erradicar llamados de atencin por parte de los entes de control ya que esto tambin
perjudica a la empresa. Notoriamente el rea de cobranzas denot que la
informacin existente se encontraba errada para su gestin, ya que le era imposible
36

ubicar a los clientes, otra rea que se ve involucrada en esta afectacin es el rea
comercial ya que se les imposibilita permitir enviar invitaciones para los eventos
que realiza la empresa. Este proceso de concretar el problema es muy significativo
ya que afectar en forma reveladora las conclusiones en el estudio, lo cual hace
imposible extraer una respuesta correcta de un problema equivocado. Lo primero
que hay que reconocer es que un grupo de desarrolladores expertos, por lo general
trabajan en un alto nivel de asesora. A los miembros del grupo no se les presenta un
problema y se les dice que lo resuelvan, ya que por medio de este retroalimentacin
asesoran a la gerencia (casi siempre un tomador de decisiones). El grupo realiza un
anlisis tcnico y despus presentan un informe a los administradores de base de
datos. Con frecuencia, el informe a la gerencia identifica cierto nmero de opciones
atractivas y particular bajo diferentes suposiciones. El gerente evala, da sus
recomendaciones y toma una decisin final basndose en su mejor juicio.
Una vez determinado el inconveniente el siguiente paso consiste en reformularlo
para su anlisis, mediante la arquitectura de un diseo que represente la esencia del
inconveniente. El diseo es una representacin idealizada de la situacin de la
empresa.

Formulacin del Diseo


El diseo posee muchas ventajas sobre una descripcin verbal del inconveniente,
una ventaja obvia es que el diseo puntualiza un problema en forma mucho ms
concisa. Al desplegar el esquema, se recomienda empezar con una versin muy
sencilla y moverse, en forma evolutiva, hacia diseos ms elaborados que reflejen
mejor la complejidad del inconveniente real. El diseo debe ser menos confuso que
el sistema real, de otra manera, no tiene sentido trabajar con diseos si se puede
trabajar con el sistema real en s.
37

Como puntos clave en el diseo podemos destacar:


Documento del diseo
Detalle de las reglas de transformacin y carga
Mapeos fuentes-destino a nivel global y detallado.

Elaboracin de una solucin a partir del diseo


Una vez expuesto el diseo para suplir el inconveniente, la consecuente etapa
consiste en desarrollar un procedimiento para proceder a una solucin al problema a
partir de este diseo. Puede pensarse que esta debe ser la parte primordial del
estudio, pero por lo general no lo es, hallar la solucin es la parte entretenida del
estudio, mientras que el autntico trabajo se encuentra en las etapas anteriores y
posteriores del estudio. Un argumento comn es la bsqueda de una solucin
ptima, es decir, la mejor, es necesario reconocer que estas soluciones son ptimas
slo respecto al modelo que se est manejando. Como el diseo necesariamente es
una abstraccin y no una representacin del inconveniente real, no puede existir una
garanta de que la solucin ptima del diseo resulte ser la mejor solucin viable
que pueda llevarse a la prctica para el inconveniente real. Esto es de esperarse si se
toma en cuenta los muchos inestimables e inseguridad asociados a casi todos los
problemas existentes, pero si el diseo est bien expresado la solucin debe tener
una buena aproximacin de curso de accin ideal para el problema real.
Entre las ejecuciones que podemos mencionar tenemos:
Datos vlidos cargados en la herramienta Spoon
Documento tcnico de migracin
Documento de resultado de la migracin de datos
Inconsistencias cargadas en el repositorio.
38

El distinguido desarrollador de software estadounidense, autor y empresario Jeff


Atwood, menciona que tenemos que dejar de optimizar para programadores y
comenzar a optimizar para usuarios. Al ver este tema como una optimizacin hacia
los usuarios finales el cual ayuda al crecimiento de la empresa, se contempla
satisfacer y mejorar las necesidades del negocio. La distincin entre mejorar y
satisfacer refleja la diferencia entre la teora y la realidad.
Por lo tanto, la meta de un estudio debe ser llevarlo a cabo de una manera ptima,
independientemente de si implica o no encontrar una solucin recomendable para el
diseo. Al reconocer este concepto, en ocasiones se utilizan solo procedimientos de
diseo intuitivo para encontrar una buena solucin sub-ptima.
Un procedimiento ptimo para el diseo original puede ser menos ideal para el
inconveniente real, de manera que es obligatorio hacer un estudio adicional. El
estudio pos-ptimo, establece una parte muy caracterstica, ste determina qu
medidas del diseo son los ms crticos, las medidas crticas, del diseo son aquellos
cuyos valores no se pueden modificar sin que la solucin ptima se modifique.

Criterios de aceptacin
El criterio de aceptacin de la migracin se determina a travs del indicador de
carga de informacin, que se define a continuacin, de acuerdo con la estrategia
escogida para la migracin y los supuestos y restricciones del estudio.
Indicador de carga de informacin.- La herramienta Spoon pudo ser cargada con la
informacin vlida y se calcula con la siguiente frmula:

ESTEBAN (2009) Expresa: El conocimiento es ms complejo, surge de la


observacin, el anlisis y la experimentacin; busca suministrar conjuntos de
39

conceptos cada vez ms abarcadores y, a su vez, en la medida de lo posible, ms


sencillos en relacin a los fenmenos y sus vnculos, incluidas sus variaciones,
as como las causas y las consecuencias de estos. (pag. 18)
# de datos cargados
Indicador de carga de informacin = __________________ * 100
# de datos vlidos

La aceptacin de la migracin se da cuando:


El indicador de carga de informacin >= 98%

Ensayo del estudio


Sin vacilacin podemos decir que la inicial versin de un diseo tenga fallas, por lo
tanto previamente a usar el diseo realizado debe experimentarse para identificar y
corregir todas las fallas que se puedan encontrar, este proceso de ensayo y
mejoramiento se conoce como aprobacin del diseo. Un diseo es legtimo si,
libremente de sus inexactitudes, puede dar un pronstico confiable del
funcionamiento del sistema. Un procedimiento comn para probar la eficacia de un
diseo es confrontar su funcionamiento con algunos datos transitados disponibles en
la base de datos existente (llamado comnmente ensayo retrospectivo). Debe notarse
que tal procedimiento de validacin no es adecuado para informacin que no existe
en la base de datos, ya que no habr datos utilizables para poder confrontar. Otro
procedimiento podra ser contener una informacin que no haya sido evaluada como
existente en la formulacin del diseo, para poder encontrar errores que la
herramienta no haya encontrado.

Elaboracin para la aplicacin del diseo

40

El siguiente paso es colocar un procedimiento bien documentado para aplicar el


diseo a implementar. Este estudio contendr el diseo, procedimiento de solucin y
las tcticas operativas para su implantacin (normalmente el diseo se lo realiza en
un computador). El segmento de este arranque incluye el proceso de un
mantenimiento durante su uso posterior, por lo tanto si las condiciones cambian con
el tiempo, este proceso debe modificar la transformacin del modelo.
Se definen las siguientes fases bsicas dentro de un proceso de migracin:
Anlisis de las fuentes de datos.
Extraccin y Transformacin de los datos en el formato destino.
Validacin de datos en un repositorio de preparacin
Carga de datos en el sistema destino.
Sin embargo, con el fin de atacar los retos que implica el movimiento de datos hacia
el nuevo repositorio, se define un proceso de migracin cclico en el cual se repite el
mismo proceso de fases hasta que la migracin se completa exitosamente.
Este acercamiento permite realizar anlisis orientado al sistema destino, establecer
premisas de validacin, refinar los diseos y aplicar las mejores prcticas a medida
que el proyecto progresa. Esta metodologa usa las mismas 4 fases bsicas (anlisis,
extraccin / transformacin, validacin y carga) pero las fases no solamente iteran
sino que se interconectan una con otra.

Establecimiento del diseo


Una vez terminado el perodo de desarrollado para aplicar el diseo, la ltima fase
consiste en la implantacin de las consecuencias probadas del diseo. Esto
esencialmente implicara la transcripcin de estos resultados en instrucciones de
operacin particularizada, emitidas de forma evidente a los usuarios que

41

administrarn y operarn la base de datos. A la culminacin del estudio, es


conveniente que al realizar la transformacin se documente la metodologa
manejada con bastante claridad para que el trabajo sea reproducible.
Objetivo: Realizar un examen completo y establecer una lista de chequeo de los
elementos de datos que sern migrados. Del mismo modo se realiza el mapeo de los
elementos de datos de la fuente al destino.
Actividades: En el esquema iterativo, las actividades de anlisis estn dirigidas a
suplir los requerimientos del sistema destino. Se deben hacer tres consideraciones.
Descubrimiento inicial.- Proceso que permite entender el valor de todos los
elementos de datos, rangos, etc. y poner en evidencia las relaciones entre ellos.
Mapeo.- Permite entender cuales bases de datos, entidades y atributos satisfacen los
requerimientos de informacin del sistema destino. Se debe evaluar qu relacin
origen-destino satisface el requerimiento de manera ptima y determinar los
cambios requeridos (transformacin) en los esquemas de datos incluyendo cules
elementos no existen, y son necesarios, en la nueva aplicacin.
El resultado de la fase de anlisis y diseo es la especificacin del mapeo entre
los sistemas fuente y el sistema destino.- Entre mejor sea la especificacin inicial
menos iteraciones se tendrn que realizar.
Realizar el anlisis de la topologa y obtener estimados de desempeo.- Es
necesario precisar la duracin de la migracin una vez se ejecuten las iteraciones
previas a la migracin final

Diseo de Transformacin de Datos


Uso de la herramienta Spoon de Pentaho Business Intelligence

42

Una vez definido el diseo de la estructura a implementar en nuestro estudio,


debemos considerar algunas instrucciones posteriores que harn triunfante nuestro
proyecto. Se consider que como mejor alternativa hacia la empresa Servicios
Nacionales segn la demanda de sus operaciones y el costo beneficio, la mejor
alternativa como motor de base de datos es PostgreSql, esta alternativa se instalar
en un servidor Suse Linux 12.1 ya que tambin posee el beneficio de ser libre en
licenciamiento. Una vez creada la base de datos procedemos a configurar la
herramienta Spoon, creando las conexiones a la base de datos, para este escenario
estableceremos conexiones ODBC en el servidor, las conexiones que se representan
sern hacia Access y PostgreSql.
Posteriormente se deben crear scripts que servirn para el traspaso de la
informacin, de acuerdo al anlisis de la estructura planteada debemos considerar a
realizar el filtro de migracin de la data, reflexionando en crear log (registros) de los
posibles errores que se puedan generar. Estos log sern validados una vez que
termine el proceso para considerar si debemos crear un script adicional
considerando otras alternativas.
Se disear de manera grfica modelos de flujos de transformacin insertando
bloques de cdigos en forma de script, los cuales van a realizar como filtro para el
traspaso de la data. A continuacin se mostrar un grfico donde se demostrarn los
iconos de la factibilidad y lo amigable de la herramienta.
Se busca generar el mapeo de los correspondientes flujos de datos a una tabla de
salida:

43

GRFICO N.
INTERFACE MODO GRFICO - SPOON PENTAHO

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales
Es recomendable utilizar el "Modo seguro" cuando se mezclan filas de muchas
fuentes para asegurarse de que todas las filas tengan el mismo diseo en todas las
condiciones.
Cuando se ejecuta en modo seguro, la transformacin verifica cada fila que pasa y
asegura que todos los diseos sean idnticos. Si una fila no tiene el mismo diseo
que la que la primera fila, se genera e informa un error.

Saltos de Transformacin
Existe una opcin donde se debe configurar los saldos de la transformacin de
forma habilitada ya que si no se lo realiza los pasos siguientes al mismo estn
aislados de cualquier flujo de datos previo al salto deshabilitado. Esto puede
conducir a resultados inesperados al editar los pasos del flujo posterior.
Saltos de Trabajo
Adems del orden de ejecucin, un salto igualmente especifica la condicin en que
ser ejecutada la siguiente entrada de trabajo:
Incondicional: especifica que la siguiente entrada de trabajo ser ejecutada a pesar
del resultado de la entrada de Trabajo de origen.
Seguir este camino cuando el resultado sea verdadero: especifica que la siguiente
entrada de Trabajo ser ejecutada solamente cuando el resultado de la entrada de
44

Trabajo de origen sea verdadero, que significa ejecucin exitosa, archivo


encontrado, tabla encontrada, sin error, que la evaluacin sea verdadera, etc.
Seguir este camino cuando el resultado sea falso: especifica que la siguiente
entrada de Trabajo ser ejecutada solamente cuando el resultado de la entrada de
Trabajo de origen sea falso, que significa fracaso de la ejecucin, archivo no
encontrado, tabla no encontrada, ocurrencia de error(es), que la evaluacin sea falsa.

Crear un Salto
Para crear un nuevo salto entre 2 pasos, se puede utilizar alguna de las siguientes
opciones:
Clic con el botn del medio en el paso origen, mantener presionado el botn y
arrastrar el puntero hacia el paso destino.
Mantener presionada la tecla "SHIFT", hacer clic con el botn izquierdo en el paso
origen, mantener presionado el botn izquierdo y arrastrar el puntero hacia el paso
destino.
Ir a la opcin "rbol Principal" en el panel izquierdo y hacer clic derecho sobre el
nodo "Saltos", esto abrir una nueva ventana en donde debemos especificar cul
ser el paso de origen y cul ser el destino.
Seleccionar los dos pasos que se desean unir utilizando "CTRL" + clic izquierdo
sobre los mismos, luego hacer clic derecho en alguno de los dos pasos y seleccionar
"Nuevo Salto". Esta caracterstica trabaja solamente con pasos que an no se han
conectado a otro paso.
Regularmente el proceso se vera de la siguiente manera, y cada diseo o dibujo
representa una accin o un paso a seguir. Dentro de cada uno de estos grficos
poseen script que realizan por debajo la transformacin de los datos.

45

CASTRO (2003) Expresa: El conocimiento tecnolgico, a diferencia del


cientfico, se conforma por nuevos procedimientos para alcanzar ciertos fines
prcticos; pueden considerarse como el conocimiento de procedimientos
probados por los que se logran objetivos predeterminados. (pag. 21)

GRFICO N.
PROCESO DE EXTRACCIN DE LOS DATOS SPOON PENTAHO

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales
Se consigue asegurar que la transformacin de datos se encargue de convertir las
inconsistencias de los datos y la codificacin, que pueden existir dentro de una base
de datos nica y que casi siempre existen cuando mltiples bases de datos la
contribuyen.
Una funcin lineal de las variables independientes que permita clasificar a las
estructuras en uno de los dos niveles o grupos establecidos por los dos valores de la
variable dependiente. (Ferrn: 2001, 32)
La transformacin de datos es un modelo que, a partir del diseo estimado para cada
Para este proceso se crearon aproximadamente 11 pasos que abarcan la
preparacin.ktr que incluye la creacin de las tablas, secuencias, creacin de
tablas que almacenarn los errores (log) y alterar la estructura de los campos
46

antecediendo a un posible error. beginning_step0.ktr el cual realiza la insercin de


los datos en las tablas padres filtrando campos reconocidos como inconsistentes,
logrando realizar el traspaso optimizado. Posteriormente cliente_step1.ktr y
cliente_step2.ktr inserta los registros de todos los clientes y realiza el filtrado de la
data de acuerdo a las condicionantes del script. Subsiguientemente se ejecutan los
pasos

afiliacion_step1.ktr,

afiliacion_step2.ktr,

afiliacion_step3.ktr

afiliacion_step4.ktr que realizan el barrido de los afiliados y de toda la


informacin correspondiente a direcciones, cedulas, fechas de nacimientos, nmeros
celulares, etc.
Finalmente se ejecutan los scripts cobros_step1.ktr y cobros_step2.ktr que
reprocesan todos los pagos por agencias asignndole secuenciales, ndices y la
depuracin de la data. Adicionalmente para cada proceso se cre una taba donde se
almacenarn los registros errados o inconsistentes sin consideraciones de migracin.
Estos registros deben ser verificados uno a uno manualmente con la ayuda de algn
colaborador de la empresa que nos guie como podemos mejorarla a nivel de
servicio. Una de las variables independientes y producto de la probabilidad de los
cambios que se den en la variable dependiente, va a permitir asignar los mismos a
una u otra categora y opcin de respuesta. (Visauta: 1998, 52).
La transformacin de datos estima de forma muy parecida al traspaso de
informacin de un computador a otro en la que se aprecia primero un estudio base
para suministrar una referencia en la comparacin. En la transformacin mltiple, la
media que emplea para establecer el estudio base y diagnosticar el espacio que
ocupar el nuevo diseo. Sin embargo en la transformacin logstica, se utiliza el
mismo proceso, con la media utilizada en el diseo estimado, pero no para
diagnosticar el espacio que ocupar el nuevo diseo, sino la versatilidad y

47

operatividad de mejora que se obtendr con este proceso. (Hair, Anderson, Tatham y
Black: 1999, 318).
A continuidad se definirn las dos opciones de refutacin para los usuarios en la
variable dependiente como respuesta base de datos Access y respuesta control y, por
tanto, cuando se haga referencia en lo continuo a estos trminos de probabilidad se
hablar del pre (base actual) y pro (diseo de transformacin) para la otra.
Perdida de datos en la transformacin (razn de suceso) = M/1-p
Dnde:
M = probabilidad de que ocurra un suceso
1-p= probabilidad de que no ocurra un suceso
A partir de esta prdida de datos en la transformacin se puede deducir la
probabilidad de un suceso:
Pro (base actual) = 1/1+Co+1Y
Dnde:
Co y C1, son los factores estimados.
Y, es la variable independiente
En este caso al describir ms de una variable independiente los diseos que se han
estimado quedaran de la siguiente forma:
Dnde: R es la composicin lineal:
R = Ti+ H1X1+H2X2++
Ti, es la constante o intercepto y expresa el valor de la probabilidad de R cuando las
variables independientes son cero.
H1, H2, son los coeficientes dependientes e informan cuanto varia la probabilidad
de ocurrencia de R ante un cambio de mecanismo de la variable independiente
correspondiente, mantenindose las dems variables aclaratorias invariables.

48

X1, X2, valores que consiguen adoptar las variables independientes.


, Representa el termino de error de estimacin.
Finalmente se deducen los valores y se estima el o los diseos.

Requisitos y etapas de la regresin logstica


Re catalogar las variables independientes ordinales en variables simuladas o
supuestas y de la variable dependientes.
Analizar el tiempo, diseo, procedimientos y costo de los coeficientes, sus factores y
estadsticas de xito.

Diseo
Este bosquejo fue concebido en base al anlisis que se realiz despus del
levantamiento de informacin, normalmente las estructuras de bases de datos deben
ser realizadas por un arquitecto de sistemas que en este caso existe. Una vez
bosquejada la solucin estimada pas por un proceso de aprobacin por parte de la
empresa a nivel Gerencial. La Economista Mariana Jcome, gerente de la empresa
Servicios Nacionales fue el personaje cntrico que sustent la nueva estructura
entidad relacin que se implementara dentro de la empresa en dificultad.
El estudio del diseo de transformacin de datos analiza la estructura funcional de la
empresa que es hacia donde se quiere llegar con el diseador grfico. Hoy en da las
empresas manejan una gran cantidad de datos por lo tanto es muy valioso que una
base de datos posea una buena estructura relacional capaz de manejar bien sus
transacciones.
No concierne si nuestra base de datos posea slo 20 registros, o algunos cuantos
miles, es importante asegurar que nuestra base de datos est correctamente diseada
para que tenga eficiencia y que se pueda seguir utilizando por largo tiempo.
49

Adicionalmente no se puede descartar las consideraciones a tomar en cuenta al


hacer el diseo de la base de datos:
La velocidad de acceso,
El tamao de la informacin,
El tipo de la informacin,
Facilidad de acceso a la informacin,
Facilidad para extraer la informacin requerida,
El comportamiento del manejador de bases de datos con cada tipo de informacin.
Para la realizacin de este proyecto hemos considerado todas las falencias que posee
la base de datos actual de la empresa en la que se realiz el estudio, el cual posee
varias bases de datos almacenadas de forma aislada de acuerdo a la agencias que
posee la empresa, por lo tanto existen distintos formatos en el guardado de la
informacin, claves primarias o forneas inexistentes permitiendo la existencia de
forma repetida incluso entre agencias.
EXTRACCIN Y TRANSFORMACIN
Objetivo: Desarrollar los procedimientos y scripts de transformacin y validacin
Actividades: Un anlisis preciso permitir un trabajo eficiente en las siguientes
fases. Despus de que se conoce que datos migrar, donde conseguirlos y como se
mapean en el destino, el siguiente paso es construir los procedimientos necesarios
para extraer los datos y transformarlos hacia el formato adecuado.
Durante la fase de desarrollo adems de construir los scripts y el cdigo especfico
de la migracin utilizando la herramienta de migracin seleccionada se deben
enfrentar dos situaciones:

50

Manejo de irregularidades de datos y excepciones durante la transformacin, tales


como incompatibilidad de los tipos de datos. Idealmente la herramienta debe
generar un reporte de violaciones de integridad e irregularidades, ya que los datos de
la fuente debern ser corregidos por los usuarios finales o el jefe de sistemas de la
empresa.
Maximizar la eficiencia del cdigo incrementando el grado de paralelismo y alto
desempeo.
GRFICO N.
DISEO DE TRANSFORMACIN DE DATOS

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales
Una vez definido el diseo actual en beneficio de la empresa, mediante la
herramienta Spoon realizaremos pasos o steps, que se enlazarn entre s a travs de
los saltos o hops. Dentro de cada salto fluye la informacin entre los diferentes
pasos, existirn pasos donde se recupere registros de las tablas de la base de datos
antigua, y los registros recuperados van a ser transmitidos a los siguientes pasos que
incluirn scripts con condicionantes que irn filtrando la data de acuerdo al nuevo
diseo requerido como se muestra en la figura a continuacin:

51

GRFICO N.
TRANSFORMACIN DE DATOS - SPOON

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales
En este proceso se llevarn a cabo varios pasos que estarn agrupados por categoras
y cada uno de ellos est diseado para cumplir una funcin especfica.

Descripcin de la Interfaz de Usuario


Una vez descargada la herramienta (Spoon) es bastante amigable la concordancia
con el usuario, existen configuraciones que debe realizarse, como crear la conexin
a las bases de datos relacionadas, para esto contiene distintos conos en los cuales
facilita la configuracin y creacin de scripts para el proceso de la transformacin,
que entre las opciones ms destacadas tenemos:
La pestaa "rbol Principal" permite ver las conexiones asociadas con los trabajos y
transformaciones abiertas.

GRFICO N.
LOGO DE BSQUEDA DE CONEXIONES

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

52

Dentro de la pestaa "Objetos Principales" contiene los pasos disponibles para


construir la transformacin (entrada, salida, bsqueda, transformar, uniones,
scripting, etc) o el trabajo (general, mail, scripting, etc), dependiendo el caso.

GRFICO N.
MUESTRA LOS PASOS DE CONSTRUCCIN

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Opciones de la Lnea de Comandos


Las opciones que se pueden utilizar al iniciar la aplicacin son las siguientes:
file = nombreArchivo
La eleccin anterior ejecuta la transformacin.
Logfile = nombreArchivoAcceso
La opcin anterior permite especificar la ubicacin del archivo de log que por
defecto es la salida estndar.
Level = nivelAcceso
La eleccin anterior establece el nivel de log para la transformacin que se est
ejecutando. Los valores posibles son:

Nothing.Error.Minimal.Basic.Detailed.Debug.Rowlevel.-

CUADRO N.
MENSAJES QUE ARROJA LA HERRAMIENTA
No muestra ninguna salida
Solamente muestra los errores
Usa logging mnimo
Este es el nivel de logging bsico por defecto
Da una salida detallada del logging
Muestra una salida detallada para propsitos de depuracin
Logging detallado a nivel de fila. Advertencia: esto genera una
prdida de datos.
53

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales
Rep = nombreCatalogo
La opcin anterior permite conectar a un catlogo.
User = nombreUsuario
En el prrafo se establece el nombre de usuario con el cual se desea conectar al
catlogo:
Pass = password
La eleccin anterior establece la contrasea utilizada para conectar al catlogo.
Trans = nombreTransformacion
Aqu se establece la transformacin del catlogo que se desea ejecutar.
Job = nombreTrabajo
La opcin anterior establece el trabajo del catlogo que se desea ejecutar.
Es significativo tomar en consideracin las siguientes especificaciones:
Los campos en itlica (en cursiva) representan los valores que utilizan las opciones.
Utilizar comillas simples o comillas dobles si hay espacios en los valores de las
opciones; las comillas aseguran que los valores de las opciones permanecen juntos.

Catlogo
Spoon permite almacenar los archivos de las Transformaciones y Trabajos en el
sistema de archivos local o en un catlogo de Kettle, que puede ser alojado en
cualquier base de datos relacional. Para cargar una Transformacin o trabajo desde
un catlogo de base de datos, debe conectarse a ese catlogo.
La informacin asociada con el catlogo se almacena en "repositories.xml". Este
archivo est ubicado en el directorio oculto ".kettle" por defecto.

54

/home/<nombreUsuario>/.kettle/

or

C:\Documents

and

Settings\<nombreUsuario>\.kettle
La ruta completa y el nombre del archivo asociado con "repositories.xml" se
muestran en la consola de Spoon.

ESTEBAN (2009) Expresa: Pese a las limitaciones actuales, el pas dispone del
principal recurso para ello: el potencial humano, que unido a los grandes
centros de investigacin, integrados en polos cientficos posibilita el acceso a
este campo de la investigacin, as como la generacin de nuevas tecnologas
propias. (pag. 18)
GRFICO N.
TRANSFORMACIN DE DATOS ENTREDA/SALIDA SPOON

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Historia de Licenciamiento
Desde la versin 2.2.0, Spoon fue liberado al dominio pblico bajo la licencia
LGPL.
Spoon es software libre; se puede redistribuir y/o modificar bajo los trminos de la
GNU Lesser General Public License publicada por la Free Software Foundation; ya
sea la versin 2.1 de la Licencia, o (a eleccin) cualquier versin posterior.

55

Spoon se distribuye con la esperanza de que ser til, pero sin ninguna garanta;
incluso sin la garanta implcita de comercializacin o idoneidad para un propsito
particular.

Iconos de la Barra de Herramientas


A continuacin se detallar un diccionario de los conos que facultan la herramienta
en la barra de tareas de la pantalla principal.

FARREL GE, EGANA E, FERNNDEZ F. (2003) Expresa: La conformacin


de un nuevo escenario socio-econmico, basado principalmente en el cambio y
en el uso de recursos intangibles como la informacin, la investigacin, los
conocimientos y el aprendizaje configura una nueva forma para la gestin de
los servicios en aras de un desarrollo sostenible de los pueblos. Cita larga. (pag.
14)

Icono

CUADRO N.
BARRAS DE HERRAMIENTAS SPOON
Descripcin
Transformacin
Crea un nuevo Trabajo o
Transformacin
Abre una
Transformacin/Trabajo desde
un archivo si no est conectado
a un Catlogo o desde el
Catlogo si se est conectado a
uno.
Guarda la
Transformacin/Trabajo en un
archivo o en el Catlogo.
Guarda la
Transformacin/Trabajo con un
nombre diferente y/o en
diferente lugar.
Ejecuta la
Transformacin/Trabajo actual
desde el archivo XML o
Catlogo.
Pone en pausa la ejecucin de la
actual Transformacin.
Detiene la ejecucin de la actual

Trabajo

SI

SI

SI

SI

SI

SI

SI

SI

SI

SI

SI

NO

SI

SI
56

Transformacin/Trabajo.
Vista previa de la
Transformacin: ejecuta la
Transformacin actual desde la
memoria. Puede obtener una
SI
vista previa de las filas
generadas por los pasos
seleccionados.
Ejecuta la Transformacin en el
modo de depuracin, lo cual
SI
permite detectar problemas y/o
errores en la ejecucin.
Repite el procesamiento de una
Transformacin para una
determinada fecha y hora. Esto
har que algunos pasos (entrada
archivo de texto y entrada
SI
Excel) slo procesen las filas
que no fueron interpretadas
correctamente durante la
ejecucin en una fecha y hora en
particular.
Verifica la Transformacin:
Spoon ejecuta varias pruebas
SI
para cada paso para ver si todo
va a funcionar como debera.
Ejecuta un anlisis de impacto:
analiza qu impacto tendr la
SI
Transformacin sobre las bases
de datos utilizadas.
Genera el SQL necesario para
ejecutar la actual
SI
Transformacin/Trabajo.
Abre el explorador de bases de
datos y permite realizar una
vista previa de los datos,
SI
ejecutar las consultas SQL,
generar DDL (Lenguaje de
Definicin de Datos), etc.
Muestra u oculta el panel de
resultados de la ejecucin de la
SI
Transformacin/Trabajo.
Representa el tamao de
visualizacin (en porcentaje) del
SI
rea de trabajo.
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

NO

NO

NO

NO

NO

SI

SI

SI

SI

Configurar Variables de Entorno


57

Para configurar las variables de entorno que se utilizarn, se debe seleccionar en la


barra de men: Editar -> Establecer Variables de Entorno.
GRFICO N.
CONFIGURACIN VARIABLES DE ENTORNO

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales
En este caso se crearon dos variables de entorno, con sus respectivos valores, que
sern utilizados en un paso de envo de mail.
Los valores asociados a las variables de entorno deben definirse a travs de "Editar
-> Establecer Variables de Entorno" se perdern al reiniciar Spoon. Para que esto no
suceda y por cuestiones de integridad, es buena prctica configurar las variables de
entorno en el archivo kettle.properties, que se encuentra en:
GNU/Linux: home/<nombreUsuario>/.kettle/
Window$: C:\Documents and Settings\<nombreUsuario>\ .kettle\
Para crear las variables en este archivo, debe realizarse de la siguiente manera:
nombreVariable = valor
En este caso sera simplemente aadir al final del archivo las siguientes lneas
mail.puerto.gmail = 465
mail.server.gmail = smtp.gmail.com
En todo momento se pueden ver los valores que poseen las variables de entorno, a
travs de la siguiente opcin: Editar -> Mostrar Variables de Entorno.
58

Tal y como puede observarse estas variables son utilizadas en la sesin del usuario
actual.
Si se configura un Trabajo o Transformacin para guardar la informacin de log en
una tabla de una base de datos, se puede ver la informacin de log de ejecuciones
previas al hacer clic derecho en el Trabajo o Transformacin en el rbol Principal.
La caracterstica repetir permite volver a ejecutar una Transformacin que ha
fallado. Repetir se implementa funcionalmente para "Entrada Archivo de Texto" y
"Salida Excel".
Permite enviar los archivos que contenan errores de nuevo a la fuente y que se
corrijan los datos. En casos donde se tiene una tabla destino fija, se puede mapear
los campos del flujo de datos actual a los correspondientes campos de la tabla
destino.
Esto puede hacerse desde una Transformacin seleccionando en el paso
"Selecciona/Renombra Valores" la opcin "Editar Mapeo":

59

GRFICO N.
MAPEO DE FLOJOS EN DATOS ACTUALES

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Bases de Datos no soportadas


Unos pocos tipos de bases de datos no estn soportados en esta versin debido a la
falta

de

una

muestra

de

la

base

de

datos

y/o

el

software.

En general, se puede leer desde bases de datos no soportadas utilizando el


controlador de base de datos Generic a travs de una conexin ODBC o JDBC.

Limitaciones
El "Editor SQL simple" no reconoce los dialectos de todas las bases de datos
soportadas. Esto significa que crear procedimientos almacenados, disparadores, y
otros objetos especficos de base de datos pueden plantear problemas. En estos casos
se debe considerar el uso de las herramientas que vienen con la base de datos.
60

Validacin
Objetivo: Validacin de datos en un repositorio de preparacin.
Actividades: Una vez se tiene listo el mapeo el siguiente paso es chequear si los
datos cumplen las validaciones del sistema destino, incluyendo reglas de negocio,
restricciones de semntica o sintcticas. Estas actividades se la pueden realizar con
la misma herramienta Spoon de tal manera que el resultado de esta fase es un
conjunto de procedimientos o scripts a travs de los cuales se realizarn las
validaciones mencionadas. En este punto hay que considerar que el repositorio al
que se aplica las validaciones de negocio, puede ser un repositorio temporal donde
se almacenan los datos recibidos de la fuente con el fin de pasarlos luego de estas
validaciones al esquema definitivo

Pruebas y cargue
Objetivo: Ejecutar los scripts o el cdigo generados en la fase de desarrollo de la
migracin, enmarcndolos en un contexto de semntica del negocio que permita
resolver los problemas lgicos as como los errores fsicos.
Actividades: En la fase de pruebas del usuario se identifican y resuelven los errores
lgicos. El primer paso es ejecutar los mapas. As los mapas se ejecuten
correctamente hay que identificar:
El nmero de registros que se espera que el script cree.
Si efectivamente ese nmero de registros se crearon, si no verificar el por qu no fue
as.
Si los datos fueron cargados en los campos correctos.
Si el formato de los datos fue el adecuado.
Si el sistema destino permite limpiar los datos cargados si la carga no fue
satisfactoria y existe el procedimiento para hacerlo, mediante el uso de la capa
61

intermedia de transformacin. El objeto es asegurar que la migracin est correcta


antes de poblar el sistema destino.

Pruebas del usuario


En estas pruebas los aspectos a tener en cuenta son:
Verificar que la informacin fue convertida en el formato correcto y transferida al
campo especificado mediante el uso de cifras de control sobre los campos
significativos entre el anterior y el nuevo, estableciendo una muestra estadstica
sobre el universo de datos convertidos y transferidos.
Los datos convertidos de forma automtica deben ser formalmente verificados por
los usuarios y el jefe de sistemas.

FUNDAMENTACIN LEGAL
En la Estrategia para la Implantacin de Software Libre en la Administracin
Pblica Central, el Presidente Constitucional de la Repblica del Ecuador,
Economista Rafael Correa Delgado emiti el Decreto Presidencial No. 1014 con
fecha 10 de Abril del 2008, en el cual establece el uso del Software Libre.
De esta manera, en el Ecuador el Software Libre se convierte en una poltica
tecnolgica, en dnde el cdigo abierto, las licencias de uso libre, el uso de
estndares abiertos y el trabajo comunitario, facilitan la inclusin digital, la
soberana tecnolgica y la innovacin local, optimizando el gasto estatal,
favoreciendo el desarrollo local y promoviendo la integracin regional. La
Subsecretara de Informtica de la Presidencia de la Repblica, creada mediante el
Acuerdo No. 119 el 1 de agosto del 2007, tiene entre sus atribuciones y
responsabilidades elaborar y ejecutar planes, programas, proyectos, estrategias,

62

polticas y reglamentos para el uso de Software Libre en las dependencias del


gobierno central.
Como secundario en la REGLAMENTACIN DEL CURSO DE GRADUACIN
la cual en su artculo 31 cita que La ley de sustentacin consistir en la defensa del
proyecto, atendiendo a las preguntas que realicen los miembros del Tribunal. Las
preguntas versarn sobre temas especficos del mismo.
Art. 1.- Los objetivos de la investigacin en la Universidad de Guayaquil estn
concebidos como parte de un proceso de enseanza nico, de carcter docenteinvestigativo, orientado segn norma el Estatuto Orgnico, para permitir el
conocimiento de la realidad nacional y la creacin de ciencia solucin a los
problemas del y tecnologa, capaces de dar pas. Las investigaciones dirigidas a la
comunidad tienen por finalidad estimular las manifestaciones de la cultura popular,
mejorar las condiciones intelectuales de los sectores que no han tenido acceso a la
educacin superior; la orientacin del pueblo frente a los problemas que lo afectan;
y la prestacin de servicios, asesora tcnica y colaboracin en los planes y
proyectos destinados a mejorar las condiciones de vida de la comunidad.
Art. 2.- En tanto la actividad de investigacin es una funcin de alta prioridad,
consustancial a la misin de la universidad, sobre ella ejercen direccin, control, y
responsabilidad decisoria, los mximos rganos de gobierno, y sus estrategias y
planes debern ser aprobados por la Comisin Acadmica y el Consejo
Universitario.
Art. 3.- La actividad de investigacin cientfica y tecnolgica es un rea de
responsabilidad del Vicerrectorado Acadmico de la Universidad de Guayaquil,
cuyo rgano operativo es la Investigacin y Desarrollo de dicha

Unidad de

Posgrado, y se conforma de: una comisin asesora del Vicerrectorado Acadmico:

63

la Comisin de Investigacin y, una unidad de gerencia de ciencia, subordinada a la


unidad de Posgrado, Investigacin y Desarrollo: La Direccin de Investigacin y
Proyectos Acadmicos.
Art. 11.- La Direccin de Investigacin y Proyectos Acadmicos, en tanto instancia
de direccin operativa de la Unidad de Posgrado, Investigacin y Desarrollo, es
responsable de coordinar, sistematizar y administrar el investigacin cientfica en la
proceso de desarrollo de la Universidad de Guayaquil, la participacin en redes
nacionales e internacionales de bibliotecas virtuales y consorcios o redes
internacionales de universidades. Estar a cargo del director (a) y contar con una
coordinacin acadmica y un equipo de documentacin e informtica.
Art. 12.- Sus atribuciones y funciones son las siguientes:
a)

Representar al Vicerrectorado Acadmico, a la Unidad de Posgrado,

Investigacin y Desarrollo, y a la comunidad acadmica y cientfica de la


Universidad de Guayaquil, a los efectos de coordinacin y relacionamiento con la
Secretara Nacional de Ciencia y Tcnica, la Comisin para la Investigacin
Cientfica y Tecnolgica y otras agencias e instituciones pblicas y privadas que
trabajan en la esfera de la competencia de esta Direccin.
b) Coordinar junto a la Comisin de Investigacin, el trabajo de conformacin del
Plan Estratgico de Ciencia y Tecnologa de la Universidad de Guayaquil, y
someterlo a la aprobacin de la Comisin Acadmica y del Consejo Universitario.
c) Coordinar y realizar el seguimiento del Plan Estratgico de la Universidad de
Guayaquil.
d) Elaborar el Plan Operativo Anual de Investigacin de la Universidad y las
correspondientes evaluaciones trimestrales.

64

e) Coordinar la aprobacin por la Comisin de Investigacin, de los Planes


Estratgicos de Ciencia y Tecnologa de cada una de las facultades e institutos.
f) Formular y someter a aprobacin de la Comisin Acadmica los reglamentos para
la actividad cientfica.
g) Evaluar el cumplimiento de los Planes Operativos de Ciencia y Tecnologa de
cada una de las facultades y unidades acadmicas.
h) Desarrollar acciones de promocin, financiamiento, capacitacin y marketing, en
apoyo a la ejecucin de los planes, polticas y lneas de investigacin aprobadas por
las autoridades y rganos de competencia.
i) Convocar el Fondo Competitivo de Investigaciones, previa autorizacin de la
Comisin de Investigacin y la Comisin Acadmica, administrar los fondos y
evaluar los proyectos asociados al FCI.
j) Convocar las comisiones temporales integradas por la Comisin de Investigacin
y la Comisin Acadmica, para la revisin, evaluacin, seleccin y aprobacin de
proyectos presentados al FCI.
k) Implementar programas continuos de capacitacin, para elevar el nivel
profesional de los especialistas y coordinadores de la actividad cientfico
investigativa en el perfil de gerencia de ciencia, y en la evaluacin y monitoreo de
proyectos de ciencia y tecnologa.
l) Promover programas continuos de capacitacin para elevar el nivel profesional de
los Profesores (as) e Investigadores (as).
m) Organizar concursos y proponer a la Comisin Acadmica el otorgamiento de
reconocimientos a los Profesores (as) e Investigadores (as), y autores de Tesis de
grado, maestra y doctorado, con destacados resultados en la investigacin e
introduccin de sus obras en bien de la comunidad universitaria, la regin y el pas.

65

n) Establecer nexos de colaboracin mutua con otros organismos de investigacin y


desarrollo., nacional e internacional.
p) Gestionar y divulgar oportunidades de colaboracin nacional e internacional, de
Financiamiento y capacitacin en el campo de la ciencia y tecnologa.
q) Proteger la produccin de los investigadores con la gestin del derecho de autor
y la propiedad intelectual, y la difusin oportuna de la legislacin vigente.
r) Coordinar con el Centro de Transferencia y Desarrollo de Tecnologas de la
Universidad de Guayaquil (CTT-UG), la labor de estmulo a la investigacin
cientfica y tecnolgica que debe realizar esta institucin, as como su planes de
canalizacin de las demandas de investigacin, introduccin de resultados
cientficos, promocin y Capacitacin para lograr multiplicar las fortalezas de la
universidad, evitar duplicidad de acciones y alcanzar una ms profunda insercin en
la solucin de los problemas concretos que demanda el desarrollo de la regin y el
pas.
s) Racionalizar el uso de los recursos destinados a la investigacin y obtener fuentes
de financiamiento externo
t) Informar peridicamente de las acciones realizadas a la Direccin de la Unidad
de Postgrado, Investigacin y Desarrollo, Vicerrectorado Acadmico y Rectorado.
u) Desarrollar el talento cientfico y la formacin de investigadores en la educacin
de pregrado a travs de becarios en preparacin de tesis de grado.
Art. 18.- La Investigacin en la Universidad de Guayaquil, estar orientada por el
Plan Estratgico de Ciencia y Tecnologa a elaborarse cada cinco aos en
concordancia con la Poltica Nacional de Ciencia, Tecnologa e Innovacin de la
Secretara Nacional de Ciencia y Tcnica, y las Polticas de Ciencia y Tecnologa

66

del CONESUP, en el marco de una propuesta de la Universidad para el desarrollo


local, regional y nacional.

HIPTESIS O PREGUNTAS A OBJETAR.


Cmo un Diseo de Transformacin de Datos utilizando la Herramienta Spoon de
Pentaho puede migrar varias bases de datos subsanando la data inconsistente?
CUADRO N.
VARIABLES DEL ESTUDIO
HIPTESIS
Variables Independientes
Cmo un diseo de
Transformacin de Datos
utilizando la herramienta
- Inconsistencia de los datos
Spoon de Pentaho puede
migrar varias bases de datos
subsanando la data
inconsistente?
Variable Dependiente.
- Multas por retrasos en la entrega de la
Informacin.

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales
Variable Dependiente.
Gastos operativos de la empresa y observaciones por retrasos de Balance hacia
los entes de control: El objetivo del actual diseo de transformacin es prescindir
de los gastos operativos que se han ido presentando y de observaciones o llamados
de atencin por incumplimiento en los tiempos de entrega de balances hacia los
entes de control, esto favorecera a la empresa tanto el su utilidad como en su
crecimiento. Beneficindonos de la herramienta Spoon que es de cdigo abierto, til
para trasladar informacin desde un repositorio a otro y para tal objeto la
67

transformacin de datos nos permite demostrar que no es necesario desgastarse en


horas de trabajo, costos altos para la empresa, riesgos de data perdida, funcionalidad
ptima en los procesos que destacan a la herramienta Spoon como la mejor
alternativa.

Variables independientes.
Inconsistencia de los datos: Desde el punto de vista de la administracin podemos
resumir que el 60% de la data a nivel nacional se encuentra inconsistente y esto
repercute a gran escala a la empresa, ya sea al momento de reportar la informacin
detallada as como tambin al rea de cobranzas para realizar su trabajo de forma
exitosa y recuperar la cartera vencida.
Falta de capacitacin a los empleados: Para obtener una idea ms clara del estudio
que se va a realizar se analizaron varios motivos por el cual la data estaba mal
ingresada., esto se debe a la falta de capacitacin a los empleados, adicionalmente al
repositorio decadente que poseen.

RUIZ (2003) Expresa: La formacin de recursos humanos con capacidades de


aprendizaje, investigacin, creatividad y una slida formacin socio humanista
que les permita elegir con sencillez y sensibilidad la tecnologa en beneficio del
hombre y la naturaleza. (pag. 8)

CAPTULO III
METODOLOGA
CAPITULO III - METODOLOGIA

68

DISEO DEL ESTUDIO


MODALIDAD DEL DISEO DE TRANSFORMACIN
La modalidad a la que mejor se adeca nuestro estudio de diseo es a la de
propsito realizable por qu es factible la utilizacin de la herramienta ya que est
libre de licenciamiento y es aplicable a cualquier migracin de base de datos.
10%: Bibliografa.
10%: Campo Entrevistas y Encuestas.
30%: Creatividad Tcnica Instauracin de scripts como filtros para el traspaso.
50%: Software Open Source Transformacin de Datos.

TIPO DE ESTUDIO
Por los objetivos.- Estudio bsico, creacin de la nueva estructura de datos
relacional diseado bajo el anlisis de la transformacin requerida por la empresa
que nos permitan representar el inconveniente.
Por el Territorio.- De campo, el estudio debe originar conocimientos y
enriquecerse mediante entrevistas a personas especializadas en el campo de la
administracin de base de datos.
Por el ambiente.- Para la toma de decisiones, el estudio debe comparar y plantear
alternativas de solucin para demostrar la hiptesis.
Por la trayectoria.- Emprico, predice lo que ocurre, el dselo de transformacin de
datos que se aplica para el estudio debe catalogar segn el tamao de la base de
datos, la medicin de las transacciones y la falta de personal a las agencias.
Por la factibilidad.- Proyecto realizable, se propondr un diseo de transformacin
de datos prctico que tendr la capacidad de migrar la informacin desde un

69

repositorio a otro sin tener riesgos de perdida de data y como resultado nos arrojara
la probabilidad que tiene la herramienta al realizar la transformacin con xito.

POBLACIN Y MUESTRA
Poblacin:
El anlisis elaborado para este estudio se lo realiz en la empresa Servicios
Nacionales que tiene como sede principal Guayaquil, con sucursales en:
Manab
El Oro
Azuay
Tulcn y
Esmeraldas
Cabe mencionar que en todas las sucursales incluyendo matriz se tienen errores, los
cuales provocan problemas de diferente ndole, que afectan la productividad y
eficiencia de la institucin.

Muestra:
Para el anlisis de la problemtica existente en la empresa Servicios Nacionales,
hemos considerado calcularlo mediante dos mtodos matemticos: Uno en el que
calcularemos el tamao de la muestra considerando el Error de Estimacin, de la
misma manera utilizaremos el segundo mecanismo para la validacin del calculado
de la muestra del primer mecanismo, el cual describimos a continuacin:

CUADRO N. .
Datos Obtenidos de la Empresa
70

POBLACIN

Manab

180

Otras agencias

320

TOTAL
500
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales
Se aplica la frmula:

n: Tamao de muestra
n

PQ: Varianza =0.25

P.Q. * N
N: Poblacin
2
2
( N 1) E / K P.Q

E: Margen de error
K: Constante de correccin del error =2

EL TAMAO DE LA MUESTRA

P. Q. N
( N 1) E 2 / K 2 P. Q

PRIMER MTODO

P = Probabilidad de xito (0.50)


Q = Probabilidad de fracaso (0.50)
N= Tamao de la poblacin (500)
E= error de estimacin
(6%)
K= # de desviac.
Z (1:
0.50 xTpicas
0.50 x500
n
2 99.7%)
68%,
2: 95,5%,
(500
1)0.063:
/ 2 2 0.50 x0.50
n = Tamao de125
la muestra (180)

m
e ( m 1) 1
2

SEGUNDO MTODO

m= Tamao de la poblacin (500)


E= error de estimacin
(6%)
n = Tamao de la muestra (180)

500
(0.06) (500 1) 1
500

(0.0036)(499) 1
500

1.7964 1
500

2.7964
178.80

n
n
n

( 499)(0.0036) / 4 0.25
125

( 499)(0.0009) 0.25
125

0.4491 0.25
125

0.6991
178.80

n
n
n

71

Clculo de
muestral:
f

la

fraccin

n 178.80

0.3576
N
500

Dado a que la muestra seleccionada representa un 35,76% en relacin a la


poblacin, se realiz un segundo anlisis que se fundament al mayor nmero de
incidencias a nivel de la base de datos, cuya referencia nos servir para realizar las
encuestas.
CUADRO N.
Estimacin de Porcentaje
Agencias
Manab
Matriz
Otras Agencias

Poblacin
180
120
190

Porcentaje
0.36 %
0.24 %
0.38 %

TOTAL

500
100 %
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

DELARBRE (2009) Expresa: En la sociedad de la informacin (SI) ya no se


aprende para la vida; se aprende toda la vida. (pag. 10)

72

Luego de tener el porcentaje de la muestra de cada agencia se consider validar la


data de esa muestra para certificar su contenido, en todas las agencias se
encontraron los mismos tipos de errores pero con mayor afluencia en la sucursal
Manab, ya que es la nica agencia que posee servicio de puerta a puerta. Por tanto
se decidi tomar la sucursal Manab para nuestro estudio.
OPERACIONALIZACIN DE LAS VARIABLES
CUADRO DE VARIABLES
CUADRO N.
MATRIZ DE OPERACIONALIZACIN DE VARIABLES
Variables
Dimensiones
Indicadores
Tcnicas y/o
Instrumentos
Independientes.
Variables
Dicotmicas
(Inconsistencia
de los Datos).

Evaluacin:
Empresa
Servicios
Nacionales.

Comprensin
formulario
en un 60%

Manual Bsico SPSS


( cil.utalca.cl/docs/
estudios/Manual
Basico SPSS.pdf)

Inters del
entrevistado
50%
Registro de
Usuarios
matutino
100%

Variables
Categricas
(Falta de
Capacitacin a
los empleados)

Unidad de
Informacin
de la Carrera.

Dependientes

Diseo

Metodologa

Variables de
Control (Gastos
operativos de la
empresa y
observaciones
por retrasos de
Balance hacia los
entes de
Control).

Calidad de la
investigacin

Se usaron
entrevistas y
encuestas
para
englobar el
problema.

Synapsis Ltda.
Diseo, desarrollo e
implantacin del
sistema de
informacin
misional de la
Procuradura
General de la
Nacin. Plan de
Pruebas. Propuestas
Consulta a expertos.
Cuestionarios,
entrevistas, test,
conversatorios.

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales
73

TIPOS DE INVESTIGACION
Se realiz un piloto de recaudacin de datos basado principalmente en entrevistas y
encuestas en el cual se puntualizan las etapas que se llevaron a cabo para organizar
los datos en estudio. Al instante de recopilar datos se aplic el software SPSS, para
el mejor proceso de los datos. Se discurre que la tcnica establecida que se utiliz es
de campo.
CUADRO N.
DIAGRAMA DE LA TCNICA UTILIZADA

Disear Estructura Requerida por el Negocio


Especificar estructura de BDD a ser migrada y formato
de presentacin.

Diseo de Recaudacin de Datos. (Objetivos,


medios, formatos y tamaos de muestra)
Elaboracin de Encuestas

Procreacin de sucesos crticos


Evaluacin de Incidentes Crticos
Redistribucin de sucesos crticos
Grupos de Disputa Crtica.
Composicin Final de script de Migracin
Anlisis de estabilidad
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

74

EN EL ESTUDIO
La tcnica principal del estudio que se est realizando es la entrevista y basado en
los datos que se obtengan se realizarn las encuestas, como se lo explica a
continuacin, los datos sern analizados por el software SPSS (Paquete estadstico
potente y fiable) que servir para el anlisis estadstico y nos ayudar a exponer el
estudio del diseo de transformacin de datos.
LOS UTENSILIOS
Tcnica

Instrumento

Entrevista

Guion de Entrevista

Encuesta

Cuestionario

INSTRUMENTOS DE RECOLECCIN DE DATOS


Se utilizaran entrevistas y encuestas.
Entrevistas.- Se consult a varios expertos en administracin e base de datos sobre
el problema que causa la inconsistencia de los datos en los repositorios de las
empresas para recolectar informacin.
Encuestas.- Se realiz un cuestionario fcil de entender y sobre todo que represente
el problema.
Los resultados de las entrevistas fueron comparados con artculos de internet y sobre
todo las respuestas fueron validadas por expertos.
Se efectu el tipo de observacin simple y participante.
Entrevistas; Cuestionarios y Encuestas.
Los Instrumentos de investigacin fueron:
Libros e Internet.

75

PROCESAMIENTO DE LA INFORMACIN
EN EL PROYECTO
Se efectuaran la mayor cantidad de entrevistas y encuestas posibles con el objetivo
de medir el problema y dar la solucin ptima para la solucin del problema.
Se indagara encontrar posibles formas o circunstancias en las cuales se filtre la
informacin inconsistente en la base de datos de forma directa y se medir el
porcentaje de efecto que tienen los perifricos al no funcionar de la manera ptima
en el mundo real.
RECOLECCIN DE LA INFORMACIN
ENTREVISTA A DBAS
Preguntas claves sobre la importancia de los datos confiables en la base
1.- La falta de Capacitacin es indicativo del mal ingreso de datos por parte de
los usuarios?
Si, ya que el ingreso de la informacin en los distintos sistemas no siempre son las
mismas y los usuarios suelen ingresar los datos a su eleccin
2.- Qu indicios son muestras de que una base de datos se encuentre
inconsistente?
Por lo general los sntomas ms comunes se presentan cuando se repiten
innecesariamente los datos en los archivos que conforman la base de datos y esto se
debe a un grupo de factores que en su mayora van asociados al ingreso de los datos
desde algn aplicativo mal diseado, al tipo de dato que le creemos a los campos de
la base, a las longitudes, columnas, etc. Muchas veces este tipo de errores no causan
molestia en el performance de la base, pero si al usuario final o a la gestin del
servicio dependiendo del giro del negocio.
76

3.- La carencia de un Manual de Usuario provoca un alto porcentaje de


inconsistencia de los datos?
Si, en varias empresas no se camacita al personal por falta de tiempo y solo recibe
una induccin sencilla que suele darse por la persona que renuncia, pero esta
capacitacin no siempre es entendida por tanto un empleado debe ser dotado por un
Manual de Usuario con el que pueda acudir en casos de tener duda.
4.- Cul es la causa principal de tener datos errados en la base?
La causa principal se da por el mal ingreso de la informacin por parte del usuario
y por la mala arquitectura que posee el software al permitir ese mal ingreso.
5.- Qu bases de datos estn ms propensas a tener inconsistencias?
Por lo general los sistemas que poseen vulnerabilidades a nivel de estructuras, tipos
de datos, ingresos sin validaciones son las ms propensas a tener inconsistencias,
dado que estas falencias permiten el ingreso de la informacin de forma desigual por
tanto el usuario puede ingresarla descomunalmente sin que el sistema no se le
permita.
6.- Existe algn mtodo para detectar con anticipacin las falencias que pueda
poseer un sistema en cuanto al ingreso de los datos?
De hecho se la puede detectar en el ambiente de TEST o prueba, una vez que el
proveedor entrega el software a ser implementado debe probarse todo el manual
tanto tcnico como de usuario con el fin de detectar problemas mucho antes de
ponerlo en Produccin y esto por lo general toma de una a dos semanas
dependiendo de la complejidad del sistema.
7.- Qu tipo de base de datos es recomendable para una mediana empresa?
Lo primero que debemos analizar es la transaccionalidad de la empresa, la cantidad
de datos que va almacenar, el presupuesto asignado a gastar y el nivel de seguridad

77

que necesitemos poseer. Para este proyecto se recomend PostgreSql, ya que es una
base de datos segura, confiable y sin costo de licenciamiento.

LA ENCUESTA
CONTENIDOS.
Servicios Nacionales (Fue dirigida hacia los servicios funerales que ofrece esta
institucin).
Estudio del Diseo de Transformacin de Datos utilizando la Herramienta Spoon de
Pentaho Open Source Business Intelligence sobre Plataforma Linux.

ENCUESTA SOBRE EL TIPO DE RECLAMOS DE LOS CLIENTES


1. Marque los tipos de reclamos que ha percibido, en caso de tenerlos.
___ Datos errados

___ Pagos inexistentes en el

Sistema
___ Informacin duplicada

___ Inventario desactualizado

___ Lentitud del Sistema

___ Mala Cobranza

2. Datos Relevantes.
Edad _________

Hermanos _________

3. Realiza pagos en las agencias?

Hijos ___________

Si ___ No ___

Con qu frecuencia?
___ Una vez a la semana

___ Dos veces por semana

___Una vez al mes

___ Nunca

4. Empleados de la empresa van a cobrar a su casa?

Si___ No___

Con qu frecuencia?
___ Una vez a la semana

___ Dos veces por semana

___Una vez al mes

___ Nunca
78

5. Cuando realiza sus pagos, le solicitan actualizar sus datos? Si ___

No___

Con qu frecuencia?
___ Mensualmente

___ Raras veces

___ Casi siempre

___ Siempre

6. Ha realizado algn tipo de reclamo por mal ingreso de sus pagos?


___ Siempre

___ A veces

___ Casi siempre

___ Nunca

7. Sabe usted de algn caso de fraude por pagos realizados en agencias?


Si ___ No ___
8. Detalle el tipo de fraude
___________________________________________________________________
9.- Sexo:
Masculino: ____

Femenino: ____
VALIDACIN

El trabajo fue revisado por expertos en el rea de base de datos, como tambin en el
campo de la arquitectura en diseo de software.
El

diseo de la transformacin de los datos fue validado probando que los

resultados guarden coherencia con los datos de la muestra.


PROCEDIMIENTOS DE LA INVESTIGACIN
Demostrar que la herramienta Open Source Spoon de Pentaho sirve para
transformar los datos desde una base de datos a otra y lo hace de forma fcil, rpida
y segura, ahorrando costos hacia la empresa.
Elaboracin del modelo entidad relacin de los datos.
Entrevista a expertos, en el campo de la informtica para aterrizar el estudio de la
transformacin de los datos.
79

Realizar el formulario de preguntas.


Realizar el formulario a la muestra.
Realizar scripts que permitan el filtrado de los datos como tcnica para representar
la transformacin de manera ntegra.
Formulacin del diseo de transformacin.
Validacin del diseo de transformacin.
Representacin del diseo que modele el problema.
Recoleccin de la informacin.
Los datos alcanzados para este estudio florecieron mediante la observacin directa,
ya que valieron para la correccin y mejora de los procesos actuales que posea la
empresa Servicios Nacionales tanto con los clientes como para control interno de los
mismos y as tomar los correctivos necesarios para una mejora organizacional.
Formalmente este tema de investigacin se lo realiz en la empresa privada
Servicios Nacionales, se solicit la autorizacin de los responsables departamentales
para realizar las encuestas y las entrevistas.
1.- Se elabor un modelo de recoleccin de datos.
2.- Para recolectar los datos se realizaran entrevistas y encuestas.
3.- Para las cuales usamos un modelo de regresin logstica, y gracias a este modelo
le pudimos dar un tratamiento adecuado a los datos.
PROCESAMIENTO Y ANLISIS
Se cre una base de datos para pruebas en un servidor virtual Suse Linux 12.1, para
simular la migracin y se efectu el procesamiento de la informacin por medio de
modelos determinsticos

para su

anlisis hemos considerado mtodos

estadsticos.

80

Una vez realizado el levantamiento de informacin a travs de los cuestionarios


descritos, comienza una fase esencial para nuestra investigacin, me refiero a la
clasificacin o agrupacin de los datos referentes a cada variable objetivo de estudio
y su presentacin conjunta. Hemos seguido cuatro pasos para el anlisis de los
datos.
Validacin y Edicin
Codificacin
Introduccin de datos
Tabulacin y anlisis estadsticos.
VALIDACIN
Es el proceso de verificar que las entrevistas se hayan hecho de acuerdo a lo
establecido.
La meta de la validacin es exclusivamente detectar un fraude o una falla del
entrevistador en seguir las instrucciones claves.
En nuestra entrevista, se explot todos los conocimientos del jefe de sistemas de esa
institucin y tratamos de aclarar todas las dudas acerca de la mala arquitectura del
sistema anterior, para poder darle el tratamiento ms ptimo a los datos.
EDICIN
Implica verificar los errores del entrevistado. El proceso de edicin para las
encuestas por escrito implica una verificacin manual de varios problemas,
incluyendo los siguientes:
Si el entrevistado no registro las respuestas a ciertas preguntas.
Si el entrevistado comprendi de qu se trataba la encuesta.

81

CODIFICACIN
Se refiere al proceso de agrupar o asignar los cdigos numricos a las varias
respuestas, la mayora de las preguntas de las entrevistas son cerradas y estn precodificadas.
PROCESO DE CODIFICACIN
Luego de haber realizado la recoleccin de la informacin, la tabulacin de estos
datos es un factor importante que permitir reflejar a travs de porcentajes la
situacin actual del entorno en donde se desenvuelve nuestra poblacin.
La tabulacin se desarroll a travs de un conteo manual de cada una de las
preguntas contestadas por los clientes. Donde se obtuvo como resultado los datos y
grficos estadsticos que se detallan a continuacin:

ANLISIS DE RESULTADOS
Para la tabulacin de los datos se utiliz un cuadro haciendo un anlisis individual
por cada pregunta y una representacin grfica de los mismos, su cuantificacin se
realiz con el estadstico porcentaje cuya frmula es:

% = Tanto por ciento que se encuentra en el total del estudio.


F = Nmero de veces que se repite el dato.
100 = Constante de la muestra
N = Total de Datos.

RUIZ (2003) Expresa: La formacin de recursos humanos con capacidades de


aprendizaje, investigacin, creatividad y una slida formacin socio humanista
que les permita elegir con sencillez y sensibilidad la tecnologa en beneficio del
hombre y la naturaleza. (pag. 8)
82

EL CUESTIONARIO
Pregunta 1:
1.- Han recibido algn curso donde se los capacite en cuanto al manejo de
Access?
CUADRO N.
HA RECIBIDO CURSOS DE CAPACITACIN
DATOS
Si
No

UNIDADES

PORCENTAJE

72

3,8

108

96,2

Total

180
100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales
GRFICO N.
Tabla de Cuestionario Capacitacin

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales
Interpretacin de Resultados: El 96% de usuarios encuestados no han recibido
curso de capacitacin de la herramientas Access.
Se debe invertir en el recurso humano para qu? Son preguntas latentes e
invalorables todava de parte de la poblacin y de algn sector empresarial, porque
piensan en la utilidad y no en la productividad, por ello es bueno recordar que la
educacin no es otra cosa que una inversin.
83

2.- Usted deseara que las ventas y pagos de las diferentes agencias se puedan
verificar o validar con datos actuales desde el sistema?

CUADRO N.
DESEA QUE LAS TRANSACCIONES SE VALIDEN DESDE EL SISTEMA
DATOS
UNIDADES
PORCENTAJE
No
10.8
6
Si
169.20
94
Total

180
100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

GRFICO N.
Tabla de Cuestionario Ventas y Pagos
Deseara que las ventas y pagos de las diferentes agencias
Se puedan validar desde el sistema
No

Si

6%

94%

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales
Interpretacin de Resultados: El 94% de los informantes desean que las ventas y
pagos de las diferentes agencias puedan ser verificadas desde el sistema.
Normalmente los aplicativos trabajan en lnea ya sea en las diferentes agencias
conectados a un servidor principal donde se configura en envo de paquetes en un
determinado tiempo de diferencia en al cual se va actualizando la informacin, y as
disminuir el riesgo de inseguridad o incongruencia de los datos almacenados.

84

3.- Deseara poder revisar el inventario actual de las diferentes agencias?


CUADRO N.
INVENTARIO ACTUAL DE LAS DIFERENTES AGENCIAS
DATOS
No
Si
Total

UNIDADES

PORCENTAJE

5.4
3
174.6
97
180
100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

GRFICO N.
Tabla de Cuestionario Inventario
Poder ver el inventario Actual de las diferentes agencias
No

Si

3%

97%

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Interpretacin de Resultados: EL 97% de los encuestados desean poder revisar y


tener actualizado el inventario de las diferentes agencias.
Las conexiones entre agencias hacia un servidor principal logran que aquello de ir
actualizando el inventario de todas las agencias, ya que por medio de paquetes
desarrollados en la base, logren mantener actualizada la informacin.

85

4.- Cree usted que al registrar un pago o una venta, el sistema debe tener
ciertas seguridades adicionales como el ingreso de la clave de un Supervisor?

CUADRO N.
SEGURIDADES EN REGISTRO DE TRANSACCIONES
DATOS
UNIDADES
PORCENTAJE
Si
7.2
4
No
172.80
96
Total
180
100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales
GRFICO N.
Tabla de Cuestionario Seguridades
Seguridades adicionales al registrar un pago o una venta en el sistema

4%

No

Si

96%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales
Interpretacin de Resultados: EL 96% de los informantes no estn de acuerdo que
sea necesaria la clave o la autorizacin del supervisor en el caso de realizar una
venta o un pago desde el sistema.
Es importante tener en cuenta que la idea de realizar este tipo de seguridades
adicionales es con el fin de minimizar posibles estafas o riesgos de perdida de
dinero.

86

5.- Cree usted necesario que Servicios Nacionales adquiera tecnologa de


punta en donde se pueda garantizar las transacciones e informacin de los
clientes?
CUADRO N.
GARANTIZAR LA INVIOLABILIDAD DE SUS DATOS
DATOS
FRECUENCIA
PORCENTAJE
No
7.20
4
Si
172.80
96
Total
180
100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales
GRFICO N.
Tabla de Cuestionario Garantizar transacciones
Garantizar las transacciones e informacin de Clientes

4%

No

Si

96%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales
Interpretacin de Resultados: EL 96% de los informantes estn de acuerdo que
Servicios Nacionales adquieran tecnologa de punta para garantizar las transacciones
e informacin de sus clientes.
Es importante tener en cuenta que la idea de tecnologa de punta refiere a lo ms
avanzado que existe en un determinado momento. Con el avance del tiempo, los
productos dejan de ser innovadores y se vuelven obsoletos, siendo reemplazados
por otros. Estos nuevos productos son los que contarn, por un tiempo, con la
denominacin de tecnologa de punta.
87

6.- Est usted de acuerdo que Servicios Nacionales al adquirir tecnologa de


punta usted sea capacitado en las mismas?

CUADRO N.
TECNOLOGA DE PUNTA PARA SER CAPACITADO
DATOS
FRECUENCIA
PORCENTAJE
No
9
5
Si
171
95,2
Total
180
100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

GRFICO N.
Tabla de Cuestionario Tecnologa
Servicios Nacionales adquiera tecnologa de punta y que sea
Capacitado en esta.

5%
No
Si

95%

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales
Interpretacin de Resultados: EL 95% estn de acuerdo estar capacitados con la
nueva tecnologa adquirida por Servicios Nacionales para poder agilitar el proceso
de venta, registro y pagos a realizar por cada agencia.
Norma establecida en la Ley Federal del Trabajo que obliga a toda entidad o
empresa a proporcionar capacitacin y adiestramiento a sus trabajadores, para elevar
la produccin y productividad y contribuir al logro de objetivos institucionales o
empresariales, para lo cual es necesario que todo el personal participe activamente.

88

7.- Le gustara a usted poseer un sistema eficiente, relacional y seguro para


ahorrar tiempo y dinero en todas las agencias que posee la empresa?
CUADRO N.
AHORRAR TIEMPO Y DINERO EN TODAS LAS AGENCIAS
DATOS
FRECUENCIA
PORCENTAJE
No
9
5
Si
171
95
Total
180
100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales
GRFICO N.
Tabla de Cuestionario Ahorrar tiempo y dinero
Ahorrar tiempo y dinero en todas
las agencias
No Si
5%

95%

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales
Interpretacin de Resultados: EL 95% le gustara firmar tener un sistema
relacional, seguro y eficiente para poder agilitar sus trmites y por ende ahorra
tiempo y dinero que a la larga le representa ganancias en sus respectivas
transacciones.
Valor del dinero en el tiempo: Recompensa de sacrificar consumo presente para
poder consumir en el futuro. La medida econmica de este sacrificio es la tasa de
inters. El dinero disponible hoy, vale ms que la expectativa de la misma cantidad
que se recibir en el futuro.
89

LAS HIPTESIS
Hiptesis N 1 Seguridad de la Informacin
1.- Crecidamente el 97% de los usuarios aseguran requerir que la informacin de todas
las agencias se encuentre centralizadas y actualizada.
CUADRO N. 5
SEGURIDAD DE LA INFORMACIN
DATOS
FRECUENCIA
PORCENTAJE
No
5.4
3
Si
174.6
97
Total
180
100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales
GRFICO N.
Hiptesis Seguridad de la Informacin

Seguridad de la Informacin
No Si

3%

97%

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales
Esta hiptesis queda confirmada de acuerdo a la pregunta nmero tres que en su
enunciado dice Deseara

poder revisar el inventario actual de las diferentes

agencias?, donde el 97% de los encuestados estn de acuerdo.

90

Hiptesis N 2 - Inviolabilidad
2.- De 20 usuarios de la empresa Servicios Nacionales 18 de ellos aseguran que al
tener la facilidad de registrar los pagos desde cualquier agencia a nivel nacional
debera la funeraria poner seguridades en las diferentes transacciones.
CUADRO N. 16
INVIOLABILIDAD
DATOS
FRECUENCIA
PORCENTAJE
No
7.2
4
Si
172.80
96
Total
180
100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

GRFICO N.
Hiptesis Inviolabilidad
Garantizar la inviolabilidad de sus pagos en cualquier agencia.

4%

No

Si

96%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

Esta hiptesis queda contestada de acuerdo a la pregunta nmero cinco que en su


enunciado dice Cree usted necesario que Servicios Nacionales adquiera tecnologa
de punta en donde se pueda garantizar las transacciones e informacin de los
clientes?, donde el 96% de los encuestados estn de acuerdo.

91

Hiptesis N 3 - Garantizar transferencias


3.- Los usuarios del rea de ventas necesitan emplear seguridades tecnolgicas para
realizar los diferentes trmites en lnea.
CUADRO N. 17
GARANTIZAR TRANSFERENCIAS
DATOS
FRECUENCIA
PORCENTAJE
No
19.8
11
Si
160,2
89
Total
180
100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

GRFICO N.
Hiptesis Garantizar transferencias
Seguridades tecnolgicas para garantizar las transferencias
En lnea
Muy bajas

4%

3%
4%

Bajas
Altas

89%
Muy altas

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales
Esta hiptesis queda confrontada de acuerdo a la pregunta nmero cuatro que en su
enunciado dice Cree usted que al registrar un pago o una venta, el sistema debe
tener

ciertas seguridades adicionales como el ingreso de la clave de un

Supervisor?, estn de acuerdo con el 89 %.

92

Hiptesis N 4 - Cursos y Capacitacin


4.- El personal tcnico de la empresa plantea que la capacitacin apropiada recibida
les servir para la correcta utilizacin de la herramienta tecnolgica, ya que as
podrn brindar algn soporte tcnico al usuario.
CUADRO N. 18
CURSOS Y CAPACITACION
DATOS
FRECUENCIA
PORCENTAJE
No
7.2
4
Si
172.8
96
Total
180
100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

GRFICO N.
Hiptesis Cursos de Capacitacin

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales
Esta hiptesis queda verificada de acuerdo a la pregunta nmero uno Ha recibido
un curso de capacitacin en los sistemas que utiliza actualmente?, el 96% de los
empleados de la compaa Servicios Nacionales no han recibido dicha capacitacin
o actualizacin.

93

Hiptesis N 5 - Ahorrar tiempo y dinero


5.- Los usuarios de la funeraria Servicios Nacionales consideran que se ahorrara
dinero al efectuar sus transacciones en un sistema centralizado.

CUADRO N. 19
AHORRAR TIEMPO Y DINERO
DATOS
FRECUENCIA
PORCENTAJE
No
9
5
Si
171
95
Total
180
100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

GRFICO N.
Hiptesis Ahorrar tiempo y dinero
Ahorrar tiempo y dinero en su lugar de trabajo
No

Si

5%

95%

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Esta hiptesis queda verificada de acuerdo a

la pregunta nmero uno Han

recibido algn curso donde se los capacite en cuanto al manejo de Access? con
el 95%.

94

CRITERIOS PARA LA ELABORACIN DE LA PROPUESTA


Los inconsistencias encontradas en las data de la empresa Servicios Nacionales y
razonamientos que se utilizaron para la proposicin fueron por cumplir con las
metas de cumplimiento reducir costos para la empresa, reducir gastos y velar por la
seguridad, confiabilidad, garanta y el uso de las normas comerciales internacionales
que rigen en el mercado actualmente. El Spoon que es la propuesta para la solucin
del problema a investigar, fue creado con criterios de seguridad informtica basados
en la enseanza y amaestramiento continuo para la seguridad e integridad de la
informacin de Servicios Nacionales.
Las herramientas a utilizar fueron:
PostgreSql
Spoon de Pentaho
Suse Linux 12.1
Access 2003
Las tipologas fundamentales que tendr esta base de datos son las siguientes:
Inviolabilidad de la informacin.
Portabilidad.
Seguridad.
Adecuada distribucin y almacenamiento de los datos.
Ahorro de tiempo y dinero.

HERNNDEZ (2010) Expresa: Las tecnologas informticas son una parte


importante del desarrollo de las compaas, ellas conforman actualmente el
tronco tecnolgico del avance a nivel mundial. (pag. 7).

95

96

CAPTULO IV
MARCO ADMINISTRATIVO
CAPITULO IV MARCO ADMINISTRATIVO

CRONOGRAMA
El cronograma de la migracin se muestra a continuacin. Los ajustes sobre el
cronograma se darn por lineamientos del estudio por modificaciones realizadas a
travs de requerimientos formales por parte del jefe de sistema de la empresa.

GRFICO N.
CRONOGRAMA DE TRABAJO

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Descripcin de los procesos


De acuerdo con el anlisis inicial de la informacin de los sistemas actuales y la
planeacin estimada se plantea ejecutar las siguientes iteraciones dentro del proceso
de migracin de datos:

94

La iteracin 1 corresponde a la migracin de catlogos e inicio de la migracin


histrica. El proceso crtico es la homologacin de datos para consolidar en las
estructuras de referencia y debe ser adelantado en la fase de anlisis y diseo.
La iteracin 2 incluye la migracin de casos activos y algunos otros datos histricos.
En esta iteracin la labor ms importante es la definicin de equivalencias entre
etapas y actividades del proceso entre los sistemas actuales y Spoon.
La iteracin 3 abarca los procesos de migracin de relatora y continuacin de casos
activos e histricos. Es importante resaltar en esta iteracin la complejidad en la
transformacin de este tipo de objetos a la base de datos (datos de muy grande
longitud).
En la iteracin 4 se desarrollarn los procesos de migracin de los histricos y
activos pendientes.
El detalle de la migracin ser el resultado de la etapa de anlisis y diseo de cada
iteracin y tendr que estar sincronizado con las generaciones en los pasos del
diseo.

CUADRO N.
PLANIFICACIN DETALLADO DEL TRABAJO REALIZADO
Nombre

Das

Inicio

Fin

Levantamiento de Informacin

24,875

Anlisis de documentacin de los procesos

14,375

Diseo de mapa de procesos

2,75

Identificacin de procesos crticos

6,562

Diseo de indicadores de procesos

6,562

Diseo del espacio fsico

4,312

Anlisis- implementacin de Servidores


Linux

14/05/2012
9:00
18/06/2012
8:00
06/07/2012
12:00
11/07/2012
11:30
20/07/2012
8:00
30/07/2012
14:30
06/08/2012
8:00

15/06/2012
17:00
06/07/2012
11:00
11/07/2012
10:00
19/07/2012
17:00
30/07/2012
13:30
03/08/2012
17:00
13/08/2012
17:00
95

Creacin Base de Datos PostgreSql

Diseo de modelamiento de Bases de


Datos
Seguridades lgicas

21

Anlisis de alternativas HARDWARE

8,75

Anlisis de alternativas de seguridad


lgicas
Instalacin del Aplicativo en las diferentes
agencias
Definiciones de acceso- usuariosadministradores
Implementacin de contingencia

13

13
5
28

Diseo de respaldo

13

Verificacin - afinamientos

27

14/08/2012
8:00
20/08/2012
8:00
03/09/2012
8:00
19/09/2012
10:00
03/10/2012
8:00
15/10/2012
8:00
25/10/2012
8:00
01/11/2012
8:00
11/12/2012
8:00
28/12/2012
8:00

17/08/2012
17:00
17/09/2012
17:00
19/09/2012
17:00
01/10/2012
17:00
12/10/2012
17:00
31/10/2012
17:00
31/10/2012
17:00
10/12/2012
17:00
27/12/2012
17:00
04/02/2013
17:00

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales
Manejo de inconsistencias
Los datos que no puedan ser ingresados en el modelo de datos, porque no cumplen
con su estructura sern llevados a un repositorio de inconsistencias, a travs del un
procedimiento que abarca el registro y la correccin de la inconsistencia, que se
describe a continuacin:

Registro de inconsistencias
Los datos que no puedan ser cargados, por ser invlidos sern enviados a un
repositorio

de inconsistencias.

Este repositorio

contendr

una

tabla

de

inconsistencias por cada tabla fuente de informacin. La tabla de inconsistencias


contendr los mismos campos de la tabla origen y un identificador de la
inconsistencia. El registro origen ser insertado en la tabla de inconsistencias, y el
proceso generar un consecutivo que se convertir en la llave de la tabla.
96

Existir una estructura en la cual se registrarn todas las inconsistencias,


referenciadas por el nmero de llave de la inconsistencia.
Correccin de inconsistencias
El jefe de sistemas en conjunto con los usuarios definidos para el proceso de
correccin de la data, tendrn acceso al repositorio de inconsistencias y tomar la
informacin para realizar la depuracin correspondiente. Posteriormente deber
cargarse la informacin depurada al repositorio de fuentes de informacin y
ejecutar nuevamente el proceso de migracin, en un proceso cclico, hasta que la
totalidad de los datos sean cargados.
Pruebas
Un factor crtico para el xito de la migracin de datos es la realizacin de pruebas.
Es recomendable hacer pruebas generales para comprobar que el proceso completo
funciona correctamente, medir los tiempos para tener una planeacin integral y
minimizar los riesgos. Las pruebas generales corresponden a las pruebas del usuario
que se ejecutan en cada iteracin. Tambin es indispensable la ejecucin de
transacciones de prueba con datos reales y con casos especiales (que no se presentan
comnmente pero generan inconvenientes), en el nuevo sistema para verificar que la
informacin se est procesando como se espera. La ejecucin en paralelo identifica
errores en la conversin y transferencia de datos pues los resultados de una misma
transaccin, utilizando los mismos datos de entrada, pueden no generan los mismos
resultados. Estas pruebas corresponden a pruebas funcionales. Se debe tener en
cuenta que para la ejecucin de estas pruebas, el proceso de migracin debe
ejecutarse en el ambiente de pruebas, con la realizacin previa de las pruebas de
migracin del usuario

97

PRESUPUESTO
Nuestro presupuesto comprende los diferentes gastos que se llevaran a efecto, para
el cumplimiento del objetivo del proceso de la investigacin.

CUADRO N.
REFERENCIA DE EGRESOS DEL PROYECTO
EGRESOS
DLARES
Suministros de oficina
$
90.00
Fotocopias

40.00

Libros y documentos

0.00

Computadora y servicios de Internet

400.00

Transporte

30.00

Refrigerio

41.00

Empastado, anillado de tesis de grado

50.00

TOTAL
$
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

651.00

Ingresos.- La tesis fue solventada con mi trabajo de la empresa MACROSIGMA


S.A., donde labor como analista desarrollador junior, logrando solventar los
$651,00 que invert en mi tesis de grado.
Egresos (Detalle Egresos)

Entrevistas (Gasto en Transporte)


Realizacin de Encuestas (Gasto en Transporte)
Servicio de Internet y computadoras
Copias para Realizacin de Encuestas
Biblioteca (Transporte)
Impresoras
Empastado, anillado de tesis de grado
Refrigerio
REFERENCIAS BIBLIOGRFICAS

$
$
$
$
$
$
$
$

48.00
65.00
410.00
56.00
25.00
97.50
50.00
42.00

Castro Daz Balart F., Ciencia, Tecnologa y Sociedad.- La Habana.


98

Diseo, desarrollo e implantacin del sistema de informacin misional de la


Procuradura General de la Nacin. Plan de gestin del proyecto. Dic. 2006.
Visauta B.(1998), desarrollo e implantacin del sistema de informacin misional de
la Procuradura General de la Nacin. Plan de Pruebas. Propuesta.
Oracle. Oracle Warehouse Builder 10g Release 2 for Windows and Unix,
Installation and Configuration Guide, Junio de 2006, p 1-3
Editorial Cientfico-Tcnica, 450 Pginas. 2003 - Pag. 12, 21,
Esteban Mart Jos Ramn, Criptografa. - Buenos Aires, Argentina
350 pginas. - 2009. Pag. 18
Farrel GE, Egana E, Fernndez F., Investigacin cientfica y nuevas tecnologas.
La Habana., Editorial Cientfico-Tcnica. 150 Paginas. 2003. Pag. 14
Addison Wesley, Fundamentos de Sistemas de Bases de Datos
ELMASRI & NAVATHE, Captulo 1,2,3,4,5,6,7,8,9,10,11.
Nez Jover J., La ciencia y la tecnologa como procesos sociales. En: Grupo de
Estudios Sociales de la Tecnologa. Tecnologa y Sociedad.
La Habana: Editorial Flix Varela.- 80 Paginas 1999, Pag. 5
Sistemas de Bases de Datos, Ramez Elmasri & Shamkant B. Navathe
2da Edicin 885 Pginas, Espaol
Pearson Prentice Hall , Introduccin a los Sistemas de Base de Datos
Da Edicdin , 733 Pginas Espaol
Trejo Delarbre. La ciencia y la tecnologa
Caracas, Venezuela. - Editorial Rial. 150 Paginas, 2009. Pag.8, 10, 12.
NETGRAFA

99

Date, C.J. (2001) "Introduction a los sistemas de Bases de datos", Prentice Hall,
Mexico, 925 pp.
Miguel, A; Piattini, M; (2006) "Diseno de Bases de Datos Relacionales",
Alfaomenga Ra-Ma, Mexico, 289-293 p.
Martin,J (1994) "Organization de las Base de Datos" Prentice Hall, Mxico 33 p.
Castro Daz Balart F., Ciencia, Tecnologa y Sociedad.
La Habana. Editorial Cientfico-Tcnica, 450 Pginas.2003 - Pag. 12, 21
Esteban Mart Jos Ramn, Criptografa.
Buenos Aires, Argentina, 350 pginas. 2009. Pag. 18
Farrel GE, Egana E, Fernndez F., Investigacin cientfica y nuevas tecnologas.
La Habana. Editorial Cientfico-Tcnica. 150 Paginas. 2003. Pag. 14
Addison Wesley, Fundamentos de Sistemas de Bases de Datos
ELMASRI & NAVATHE, Captulo 1,2,3,4,5,6,7,8,9,10,11., Nez Jover J.
La ciencia y la tecnologa como procesos sociales. En: Grupo de Estudios Sociales
de la Tecnologa. Tecnologa y Sociedad., La Habana:
Editorial Flix Varela., 80 Paginas, 1999, Pag. 5
Sistemas de Bases de Datos, Ramez Elmasri & Shamkant B. Navathe
2da Edicin, 885 Pginas, Espaol.
Pearson Prentice Hall, Introduccin a los Sistemas de Base de Datos
Da Edicdin, 733 Pginas, Espaol, Trejo Delarbre, La ciencia y la tecnologa
Caracas, Venezuela, Editorial Rial, 150 Paginas, 2009, Pag.8, 10, 12.
Prez Lpez, C. (2004) "Tcnicas de Anlisis de Datos. Aplicaciones de
Parches". Pearson Prentice Hall, Madrid.

100

REFERENCIAS WEB

http://wikinvestigacion.wikispaces.com , Universidad de Sevilla, Espaa Sevilla,


2012

http://www.firmadigital.go.cr/gestionCA.html

Harley

Villalobos,

Caracas

Venezuela, 2008
http://www.java.com/en/download/manual.jsp , Java Runtime Environment, JRE 1.4

Prof. Yaakov Benenson en el ao 2004, Universidad Politcnica de Madrid, Extrado


el

21

de

Octubre

de

2010.

(http://www.upm.es/portal/site/institucional/menuitem.fa77d63875fa4490b99bfa04d
ffb46a8/?vgnextoid=b713c85fb34c1210VgnVCM10000009c7648aRCRD).

Pentaho Data Integration Big Data and More: The Power to Access, Prepare
and Deliver Data Faster

http://www.pentaho.com/explore/pentaho-data-integration/

101

CONCLUSIONES Y RECOMENDACIONES
CAPITULO V CONCLUSIONES Y RECOMENDACIONES
CONCLUSIONES
El 97% de los usuarios indican que desean realizar sus transacciones en lnea y con las
agencias interrelacionada, sobre todo evitar errores por duplicidad de pago y mal control
de inventarios.
Como hemos estado hablando durante todo el documento, hoy en da, la informacin que
se almacena en la base de datos que poseen las empresas es primordial, es considerado en
mucho de los casos, como uno de los bienes ms preciados de las distintas entidades. As
mismo, la desinformacin, puede ser una de las armas con las que se puede atacar a
alguien o alguna otra empresa.
En esta sociedad en la que vivimos se hace muy necesario la seguridad en las bases de
datos, y como principal exponente en Internet ya que este mtodo es cada vez ms
utilizado, no solo por estudiantes y comunidad universitaria, sino por empresas,
particulares, etc.
El tema tratado ser uno de los claros exponentes a tener muy en cuenta en el futuro de
la informtica, sobre todo a la velocidad que se implementan nuevas tecnologas.
El 89% de los empleados del rea de ventas indican que al realizar sus ingresos de
contratos o pagos ellos necesitan seguridades informticas para que no sean modificadas
ni eliminadas.
El traspaso de informacin de una base a otra cada vez es ms valioso y que puede
comprometer mucho a los sistemas en caso de que haya ms de un sistema.
El tema tratado es un mundo muy amplio y fascinante, de la misma manera, tiene muchas
posibilidades de investigacin. Este efecto puede generar mltiples posibles estrategias a
la hora de poder dar una solucin en la mejora del traspaso de informacin. Hoy en da,
103

existes muchas herramientas informticas (software), las cuales nos ayudan en estos
procesos de migracin, sin embargo, el cmo se las emplee y se las configure para efectos
de mitigar los tiempos en que esta procesa para tales fines, es lo que durante la redaccin
e investigacin del presente documento, se logra evidenciar. Adems de ello, obtener una
alta disponibilidad con datos lo ms reales y actualizados posible.

Conclusiones Del Ing. Cesar Cuenca


Pienso que las variables que se han incluido dentro de esta investigacin son las ms
adecuadas para determinar el problema, ya que esta base de datos se la encontr
totalmente aislada, con varios problemas de almacenamiento, sin condiciones de ingresos
ni tipos de datos correctamente desarrollados dentro del aplicativo, afectando no solo la
operatividad de la empresa sino tambin la seguridad de los datos de los clientes, los
cuales deben ser guardado con mucho cuidado para mantener la confianza y continuidad
del negocio.

104

RECOMENDACIONES
Se debe realizar los cambios tecnolgicos respecto al rea de sistemas, en especial la
parte del hardware. Los cambios tecnolgicos realizados deben estar de acuerdo a la
tecnologa aplicada en la metodologa internacional de seguridad.
A los usuarios de las distintas agencias se los debe de capacitar acerca de las nuevas
tecnologas, nuevos sistemas informticos implementados para que tengan un buen
manejo y control del mismo. Entre las conclusiones que podemos nombrar son:

Rapidez. Seguridad y optimizacin en el traslado de los datos

Seguridad y Confiabilidad de la informacin de clientes

Ahorro en contratacin de soporte especializado

Siempre se debe realizar un anlisis de las diferentes transacciones que realizan los
clientes de la funeraria, para evitar fraudes que afecten al sistema.
Los empleados de la funeraria del rea tcnica deben estar siempre actualizados en los
diferentes usos de la tecnologa aplicada a la seguridad va internet.
As mismo, para futuros estudiantes que se interesen por la metodologa implementada en
esta investigacin bajo la herramienta tecnolgica sugerida, puedan de alguna forma
optimizar los procesos mostrados y detallados, as como tambin, hacer uso de la misma,
en combinacin con otras aplicaciones para fine especficos.

Recomendaciones del Ing. Cesar Cuenca.


La migracin de datos debe ser correctamente evaluada antes de ejecutarla, ya que esto tiene
muchos tipos de riesgo en cuanto a la perdida de informacin. Por tanto para prevenir
dichos riesgos debe tomarse consideraciones de respaldo de la data antes de iniciar el
proceso.

105

Vous aimerez peut-être aussi