Vous êtes sur la page 1sur 128

UNIVERSIDAD DE GUAYAQUIL

FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS


CARRERA DE INGENIERIA EN SISTEMAS
COMPUTACIONALES

ESTUDIO DEL DISEO DE TRANSFORMACIN DE DATOS UTILIZANDO LA


HERRAMIENTA SPOON DE PENTAHO OPEN SOURCE BUSINESS INTELLIGENCE
SOBRE PLATAFORMA LINUX

TESIS DE GRADO

Previa a la obtencin del Ttulo de:

INGENIERO EN SISTEMAS COMPUTACIONALES

AUTOR:

JOHANNA ALEXANDRA HERNANDEZ VELASCO

GUAYAQUIL ECUADOR

2013
UNIVERSIDAD DE GUAYAQUIL

FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS


CARRERA DE INGENIERIA EN SISTEMAS
COMPUTACIONALES

ESTUDIO DEL DISEO DE TRANSFORMACIN DE DATOS UTILIZANDO LA


HERRAMIENTA SPOON DE PENTAHO OPEN SOURCE BUSINESS INTELLIGENCE
SOBRE PLATAFORMA LINUX

TESIS DE GRADO

Previa a la obtencin del Ttulo de:

INGENIERO EN SISTEMAS COMPUTACIONALES

JOHANNA ALEXANDRA HERNANDEZ VELASCO


TUTOR: ING. FRANCISCO PALACIOS

GUAYAQUIL ECUADOR
2013

I
REPOSITORIO NACIONAL EN CIENCIAS Y TECNOLOGA

FICHA DE REGISTRO DE TESIS

TTULO ESTUDIO DEL DISEO DE TRANSFORMACIN DE DATOS UTILIZANDO LA


HERRAMIENTA SPOON DE PENTAHO OPEN SOURCE BUSINESS INTELLIGENCE SOBRE
PLATAFORMA LINUX
REVISORES:

INSTITUCIN: Universidad de Guayaquil FACULTAD: Ciencias Matemticas y


Fsicas
CARRERA: INGENIERA EN SISTEMAS COMPUTACIONALES

FECHA DE PUBLICACIN: 11/11/2013 N DE PGS.: 125

REA TEMTICA: BASE DE DATOS

PALABRAS CLAVES:

RESUMEN: En aos recientes, se ha producido un incremento continuo en la cantidad de datos


manipulados por los sistemas manejadores de bases de datos (DBMS); no resulta extrao para un
DBMS manipular base de datos con tamaos que van desde los cientos de gigabytes hasta terabytes. La
migracin de bases de datos es generalmente una tarea compleja que no slo supone transferir datos
entre tipos de almacenaje y formatos de un servidor de base de datos a otro; sino que tambin supone
reescribir sentencias SQL o incluso procedimientos (SPL) de lgica de negocio. Aparte de la dificultad
de transferir la informacin entre los dos sistemas gestores de base de datos, tambin influir en la
complejidad el tipo de los datos de las tablas que estamos utilizando. Por ejemplo, las fechas, los
campos numricos con decimales o los boleanos pueden dar problemas al pasar de un sistema a otro
porque pueden almacenarse de maneras distintas o, en el caso de los nmeros, con una precisin
distinta. El objetivo del estudio en el diseo de la transformacin es demostrar cmo esta interesante y
til herramienta Open Source llamada SPOON puede transponer la informacin de manera sencilla
mediante parmetros y configuraciones del usuario de manera ntegra y confiable.

N DE REGISTRO(en base de datos): N DE CLASIFICACIN:

DIRECCIN URL (tesis en la web):

ADJUNTO PDF SI NO

CONTACTO CON AUTOR: Telfono: E-mail:


JOHANNA ALEXANDRA HERNANDEZ VELASCO 0996697285 johy_0110@hotmail.com
CONTACTO DE LA INSTITUCIN Nombre:
Telfono:

I
Guayaquil, Noviembre de 2013

ARTA DE ACEPTACIN DEL TUTOR

APROBACION DEL TUTOR

En mi calidad de Tutor del trabajo de investigacin, ESTUDIO DEL DISEO DE

TRANSFORMACIN DE DATOS UTILIZANDO LA HERRAMIENTA SPOON

DE PENTAHO OPEN SOURCE BUSINESS INTELLIGENCE SOBRE

PLATAFORMA LINUX elaborado por la Srta. JOHANNA ALEXANDRA

HERNANDEZ VELASCO, egresado de la Carrera de Ingeniera en Sistemas

Computacionales, Facultad de Ciencias Matemticas y Fsicas de la Universidad de

Guayaquil, previo a la obtencin del Ttulo de Ingeniero en Sistemas, me permito

declarar que luego de haber orientado, estudiado y revisado, la Apruebo en todas sus

partes.

Atentamente,

Ing. Francisco Palacios

TUTOR

II
DEDICATORIA

El logro de esta etapa en mi vida


quiero dedicrselo a mis padres, a
mi hijo y a todos quienes en algn
momento colaboraron directa o
indirectamente en este maravilloso
resultado. Gracias a Dios por
haberme dado fortaleza para salir
avante en mi carrera.

III
AGRADECIMIENTO

Gracias Pap y Mam por sus valores


e mpetu de superacin que nos
inculcaron desde pequeos a sus hijos
para que seamos personas de bien. Lo
lograron.

Por toda la entrega, cuidado y amor


mientras mi compaa estaba ausente
en horas de estudio para con mi hijo,
gracias Sra. Pilar Flores Lucn.

Gracias a mis hermanos y a toda mi


familia por su apoyo absoluto en cada
momento de mi vida, los quiero
mucho.

Por su puesto no pueden faltar los


amigos y amigas, que siempre
estuvieron ah para animarme,
alentarme y con todo esto lograr
crecer como persona cada da ms.

IV
TRIBUNAL DE GRADO

Ing. Fernando Abad Montero, M. Sc Ing. Julio Csar Castro Rosado


DECANO DE LA FACULTAD DIRECTOR
CIENCIAS MATEMATICAS Y CISC, CIN
FISICAS

Nombres y Apellidos Nombres y Apellidos


DIRECTOR DE TESIS PROFESOR DEL REA
TRIBUNAL

Ab. Juan Chvez Atocha


SECRETARIO

V
DECLARACIN EXPRESA

La responsabilidad del contenido de esta Tesis de


Grado, me corresponden exclusivamente; y el
patrimonio intelectual de la misma a la
UNIVERSIDAD DE GUAYAQUIL

Johanna Alexandra Hernndez Velasco

VI
.

UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMTICAS Y FSICAS

CARRERA DE INGENIERIA EN SISTEMAS


COMPUTACIONALES

ESTUDIO DEL DISEO DE TRANSFORMACIN DE DATOS UTILIZANDO LA


HERRAMIENTA SPOON DE PENTAHO OPEN SOURCE BUSINESS
INTELLIGENCE SOBRE PLATAFORMA LINUX

Tesis de Grado que se presenta como requisito para optar por el ttulo de INGENIERO

en SISTEMAS COMPUTACIONALES

Auto/a: JOHANNA HERNNDEZ VELASCO

C.I. 0919227801

Tutor: ING. FRANCISCO PALACIOS

Guayaquil, Noviembre de 2013

VII
CERTIFICADO DE ACEPTACIN DEL TUTOR

En mi calidad de Tutor de Tesis de Grado, nombrado por el Consejo Directivo de la


Facultad de Ciencias Matemticas y Fsicas de la Universidad de Guayaquil.

CERTIFICO:

Que he analizado el Proyecto de Grado presentado por el/la estudiante


JOHANNA ALEXANDRA HERNNDEZ VELASCO, como requisito previo para optar
por el ttulo de Ingeniero en Sistemas Computacionales cuyo problema es:

ESTUDIO DEL DISEO DE TRANSFORMACIN DE DATOS UTILIZANDO LA


HERRAMIENTA SPOON DE PENTAHO OPEN SOURCE BUSINESS
INTELLIGENCE SOBRE PLATAFORMA LINUX.

Considero aprobado el trabajo en su totalidad.

Presentado por:

HERNNDEZ VELASCO JOHANNA ALEXANDRA 091922780-1

Tutor: ING. FRANCISCO PALACIOS

Guayaquil, Noviembre de 2013

VIII
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMTICAS Y FSICAS
CARRERA DE INGENIERIA EN SISTEMAS
COMPUTACIONALES

Autorizacin para Publicacin de Tesis en Formato Digital

1. Identificacin de la Tesis

Nombre Alumno: Johanna Alexandra Hernndez Velasco


Direccin: 7 lagos mz 41 villa 6
Telfono: 0996697285 E-mail: johy_0110@hotmail.com

Facultad: Matemticas y Fsicas


Carrera: Ingeniera en Sistemas Computacionales
Ttulo al que opta: Ingeniero en Sistemas Computacionales
Profesor gua: Ing. Francisco Palacios

Ttulo de la Tesis: ESTUDIO DEL DISEO DE TRANSFORMACIN DE DATOS


UTILIZANDO LA HERRAMIENTA SPOON DE PENTAHO OPEN SOURCE
BUSINESS INTELLIGENCE SOBRE PLATAFORMA LINUX

Temas Tesis: SPOON, PENTAHO, OPEN SOURCE, PLATAFORMA, LINUX

2. Autorizacin de Publicacin de Versin Electrnica de la Tesis

A travs de este medio autorizo a la Biblioteca de la Universidad de Guayaquil y a la Facultad


de Ciencias Matemticas y Fsicas a publicar la versin electrnica de esta tesis.

Publicacin electrnica:

Inmediata X Despus de 1 ao

Firma Alumno:

3. Forma de envo:

El texto de la Tesis debe ser enviado en formato Word, como archivo .Doc. O .RTF y .Puf para
PC. Las imgenes que la acompaen pueden ser: .gif, .jpg o .TIFF.

DVDROM CDROM X

IX
NDICE GENERAL

CARTA DE ACEPTACIN DEL TUTOR.......................................................................Ii


DEDICATORIA..............................................................................................................IIi
AGRADECIMIENTO....................................................................................................IIIi
NDICE GENERAL........................................................................................................XI
NDICE DE CUADROS................................................................................................XII
NDICE DE GRAFICOS..............................................................................................XIII
RESUMEN..................................................................................................................XIVi
ABSTRACT.................................................................................................................XVi
INTRODUCCIN 1
CAPITULO I El PROBLEMA 3
UBICACIN DEL PROBLEMA EN UN CONTEXTO..................................................3
SITUACIN CONFLICTO NUDOS CRTICOS............................................................7
CAUSAS Y CONSECUENCIAS DEL PROBLEMA......................................................8
DELIMITACIN DEL PROBLEMA.............................................................................10
PLANTEAMIENTO........................................................................................................11
EVALUACIN DEL PROBLEMA................................................................................11
OBJETIVO DE LA INVESTIGACION.........................................................................12
JUSTIFICACION E IMPORTANCIA DE LA INVESTIGACIN...............................58
BENEFICIOS..................................................................................................................59
CAPITULO II MARCO TERICO 60
ANTECEDENTES DEL ESTUDIO 60
FUNDAMENTACIN TERICA.................................................................................63
BENEFICIOS DE LA HERRAMIENTA SPOON..........................................................68
EXTRACCIN Y TRANSFORMACIN......................................................................85
FUNDAMENTACIN LEGAL......................................................................................98
HIPTESIS O PREGUNTAS A OBJETAR.................................................................101
DEFINICIONES CONCEPTUALES...........................................................................102
CAPITULO III - METODOLOGIA 103
DISEO DEL ESTUDIO 103
MODALIDAD DEL DISEO DE TRANSFORMACIN..........................................103
TIPO DE ESTUDIO......................................................................................................103

X
POBLACIN Y MUESTRA........................................................................................104
OPERACIONALIZACIN DE LAS VARIABLES.....................................................106
INSTRUMENTOS DE RECOLECCIN DE DATOS.................................................109
PROCESAMIENTO DE LA INFORMACIN............................................................109
RECOLECCIN DE LA INFORMACIN..................................................................110
PROCESAMIENTO Y ANLISIS...............................................................................113
CRITERIOS PARA LA ELABORACIN DE LA PROPUESTA................................128
CAPITULO IV MARCO ADMINISTRATIVO 82
CRONOGRAMA............................................................................................................82
PRESUPUESTO..............................................................................................................85
CAPITULO V CONCLUSIONES Y RECOMENDACIONES 90
CONCLUSIONES...........................................................................................................90
RECOMENDACIONES.................................................................................................91

XI
XII
NDICE DE CUADROS

Pg.IL
CUADRO N. 1
MENSAJES QUE ARROJA LA HERRAMIENTA .52
CUADRO N. 2
BARRAS DE HERRAMIENTAS SPOON..................................................................55
CUADRO N. 3
VARIABLES DEL ESTUDIO........................................................................................ 65
CUADRO N. 4
Datos Obtenidos de la Empresa.......................................................................................68
CUADRO N. 5
Estimacin de Porcentaje................................................................................................ 70
CUADRO N. 6
MATRIZ DE OPERACIONALIZACIN DE VARIABLES.........................................71
CUADRO N. 7
DIAGRAMA DE LA TCNICA UTILIZADA.............................................................. 72
CUADRO N. 8
HA RECIBIDO CURSOS DE CAPACITACIN...........................................................81
CUADRO N. 9
DESEA QUE LAS TRANSACCIONES SE VALIDEN DESDE EL SISTEMA...........82
CUADRO N. 10
INVENTARIO ACTUAL DE LAS DIFERENTES AGENCIAS...................................83
CUADRO N. 11
SEGURIDADES EN REGISTRO DE TRANSACCIONES..........................................84
CUADRO N. 12
GARANTIZAR LA INVIOLABILIDAD DE SUS DATOS......................................... 85
CUADRO N. 13
TECNOLOGA DE PUNTA PARA SER CAPACITADO..............................................86
CUADRO N. 14
AHORRAR TIEMPO Y DINERO EN TODAS LAS AGENCIAS.................................. 87
CUADRO N. 15
PLANIFICACIN DETALLADO DEL TRABAJO REALIZADO............................. 95
CUADRO N. 16
REFERENCIA DE EGRESOS DEL PROYECTO.........................................................98
XIII
NDICE DE GRAFICOS

Pg.
GRFICO N. 1
ETAPAS DEL ESTUDIO DE TRANSFORMACIN DE BASE DE DATOS..............61
GRFICO N. 3
PROCESO DE MIGRACIN EN SITIO.......................................................................65
GRFICO N. 4
PROCESO DE MIGRACIN GRADUAL....................................................................66
GRFICO N. 5
PROCESO DE MIGRACIN DE BASE DE DATOS...................................................67
GRFICO N. 6
PROCESO DE MIGRACIN.........................................................................................68
GRFICO N. 7
PROCESO DE INTEGRACIN DE DATOS - PENTAHO...........................................71
GRFICO N. 8
PROCESO DE INTEGRACIN DE DATOS PENTAHO..........................................73
GRFICO N. 9
INTERFACE MODO GRFICO - SPOON PENTAHO................................................79
GRFICO N. 10
PROCESO DE EXTRACCIN DE LOS DATOS SPOON PENTAHO.....................81
GRFICO N. 11
DISEO DE TRANSFORMACIN DE DATOS..........................................................85
GRFICO N. 12
TRANSFORMACIN DE DATOS - SPOON...............................................................86
GRFICO N. 13
LOGO DE BSQUEDA DE CONEXIONES................................................................86
GRFICO N. 14
MUESTRA LOS PASOS DE CONSTRUCCIN..........................................................87
GRFICO N. 15
TRANSFORMACIN DE DATOS ENTREDA/SALIDA SPOON...........................89
GRFICO N. 16
CONFIGURACIN VARIABLES DE ENTORNO.......................................................93

XIV
GRFICO N. 17
MAPEO DE FLOJOS EN DATOS ACTUALES............................................................94
GRFICO N. 18
Tabla de Cuestionario Capacitacin..............................................................................115
GRFICO N. 19
Tabla de Cuestionario Ventas y Pagos.............................................................................82
GRFICO N. 20
Tabla de Cuestionario Inventario.....................................................................................83
GRFICO N. 21
Tabla de Cuestionario Seguridades.................................................................................84
GRFICO N. 22
Tabla de Cuestionario Garantizar transacciones..............................................................85
GRFICO N. 23
Tabla de Cuestionario Tecnologa...................................................................................86
GRFICO N. 24
Tabla de Cuestionario Ahorrar tiempo y dinero..............................................................87
GRFICO N. 25
Hiptesis Seguridad de la Informacin...........................................................................88
GRFICO N. 26
Hiptesis Inviolabilidad...................................................................................................89
GRFICO N. 27
Hiptesis Garantizar transferencias.................................................................................90
GRFICO N. 28
Hiptesis Cursos de Capacitacin.................................................................................125
GRFICO N. 29
Hiptesis Ahorrar tiempo y dinero..................................................................................92
GRFICO N. 30
CRONOGRAMA DE TRABAJO...................................................................................82

XV
ABREVIATURAS

DBMS Es un sistema de gestin de bases de datos.


SQL Se trata del lenguaje de consulta estructurado, para realizar
consultas a nivel de base de datos.
ETL Estas siglas corresponden a Extraer, transformar y cargar.
FCE Dichas iniciales significan: Factores Crticos de xito.
AWT Referencia al Kit de herramientas de ventana abstracta.
SWT Es un componentes para construir interfaces grficas.
SAP Se trata de un sistema de aplicaciones y productos en
procesamiento de datos.
BI Las siglas significan Inteligencia de negocios.
FCE Las iniciales se refieren a los Factores crticos de xito.
TI Las siglas corresponde a la Tecnologa de la informacin.
OLTP Se refiere al procesamiento de transacciones en lnea.
OLAP Trata sobre el procesamiento analtico en lnea.
XML Es un lenguaje de marcas extensible.
ETTL Dichas iniciales se refieren a la extraccin, transformacin,
transporte y carga de datos.
OSX Estas abreviaturas describen los sistemas operativos basados en
Unix.
GTK Es una biblioteca para crear la interfaz grfica de usuario.
HP-UX Es la versin de Unix desarrollada y mantenida.
MOTIF Se trata de una biblioteca para la creacin de entornos grficos.
FreeBSD Es un sistema operativo para arquitecturas x86 compatibles.
JVM Dichas iniciales referencian a la mquina virtual Java.
KDE Es la comunidad internacional que desarrolla software libre.
ODBC Se refiere a la comunicacin estndar de acceso a las bases de
datos.
LGPL Es la licencia pblica general reducida de GNU.
GNU Se trata de un sistema operativo similar a Unix que es de software
libre.
JDBC Es usado para enviar comandos sql hacia una base de datos
relacional.
FCI Se refiere al fondo competitivo de investigaciones
CTT-UG Significa que se debe coordinar con el centro de transferencia y
desarrollo de tecnologas de la universidad de Guayaquil.
CONESUP Dichas iniciales son referidas al consejo de educacin superior del
ecuador.
SPSS Se refiere al software y soluciones de anlisis predictivos.
BDD Siglas que referencias a la base de datos de un sistema.

XV
SIMBOLOGA

Pro base actual


Co y C1 son los factores estimados.
Y es la variable independiente
R composicin lineal:
H1, H2, coeficientes dependientes
X1, X2 valores que consiguen adoptar las variables
independientes.
Representa el trmino de error de estimacin.
PQ Varianza =0.25
N Poblacin
E Margen de error
K Constante de correccin del error =2
F Nmero de veces que se repite el dato.

XVI
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS
CARRERA DE INGENIERIA EN SISTEMAS COMPUTACIONALES

ESTUDIO DEL DISEO DE TRANSFORMACIN DE DATOS UTILIZANDO LA


HERRAMIENTA SPOON DE PENTAHO OPEN SOURCE BUSINESS
INTELLIGENCE SOBRE PLATAFORMA LINUX
Autor: Johanna Hernndez Velasco
Tutor: Ing. Francisco Palacios

RESUMEN

En aos recientes, se ha producido un incremento continuo en la cantidad de datos


manipulados por los sistemas manejadores de bases de datos (DBMS); no resulta
extrao para un DBMS manipular base de datos con tamaos que van desde los cientos
de gigabytes hasta terabytes. La migracin de bases de datos es generalmente una tarea
compleja que no slo supone transferir datos entre tipos de almacenaje y formatos de un
servidor de base de datos a otro; sino que tambin supone reescribir sentencias SQL o
incluso procedimientos (SQL) de lgica de negocio. Aparte de la dificultad de transferir
la informacin entre los dos sistemas gestores de base de datos, tambin influir en la
complejidad el tipo de los datos de las tablas que estamos utilizando. Por ejemplo, las
fechas, los campos numricos con decimales o los boleanos pueden dar problemas al
pasar de un sistema a otro porque pueden almacenarse de maneras distintas o, en el caso
de los nmeros, con una precisin distinta. El objetivo del estudio en el diseo de la
transformacin es demostrar cmo esta interesante y til herramienta Open Source
llamada SPOON puede transponer la informacin de manera sencilla mediante
parmetros y configuraciones del usuario de manera ntegra y confiable.

XVII
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS
CARRERA DE INGENIERIA EN SISTEMAS COMPUTACIONALES

ESTUDIO DEL DISEO DE TRANSFORMACIN DE DATOS UTILIZANDO LA


HERRAMIENTA SPOON DE PENTAHO OPEN SOURCE BUSINESS
INTELLIGENCE SOBRE PLATAFORMA LINUX

ABSTRACT

The goal of this migration is to centralize and data structures that are hosted locally
on 4 Access database, fully and safely into a relational database on an open
source platform.
The process of this migration is complex, in addition to the normal difficulty of the
process of moving data stored in a data source to another, there is also an influence on
the complexity of the problem the type of data tables that are using that can be
stored differently in each of the management systems, origin and destination. For
example, dates are subject to change format, while in Access appear in Castilian (dd /
mm / yyyy) in PostgreSQL appear in the format yyyy-mm-dd format, numeric
fields with decimals or boolean can also give us problems because can be stored in
different ways.
PostgreSQL is a database manager object oriented, open source, stable, secure,
flexible and high performance. The tool with which to filter data from one platform to
another is of Java Scipt Pentaho.

XVIII
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS
CARRERA DE INGENIERIA EN SISTEMAS COMPUTACIONALES

ESTUDIO DEL DISEO DE TRANSFORMACIN DE DATOS UTILIZANDO LA


HERRAMIENTA SPOON DE PENTAHO OPEN SOURCE BUSINESS
INTELLIGENCE SOBRE PLATAFORMA LINUX

Autor: Johanna Hernndez Velasco


Tutor: Ing. Francisco Palacios

Proyecto de trabajo de grado que se presenta como requisito para optar por el ttulo de

INGENIERO en SISTEMAS COMPUTACIONALES.

Auto/a: Johanna Hernndez Velasco

C.I.0919227801

Tutor: Ing. Francisco Palacios

XIX
Guayaquil, Noviembre de 2013

CERTIFICADO DE ACEPTACIN DEL TUTOR

En mi calidad de Tutor del Primer Curso de Fin de Carrera, nombrado por el


Departamento de Graduacin y la Direccin de la Carrera de Ingeniera en Sistemas
Computacionales de la Universidad de Guayaquil,

CERTIFICO:

Que he analizado el Proyecto de Grado presentado por el egresado (a)


Johanna Alexandra Hernndez Velasco, como requisito previo para optar por el ttulo de
Ingeniero cuyo problema es:

ESTUDIO DEL DISEO DE TRANSFORMACIN DE DATOS UTILIZANDO LA


HERRAMIENTA SPOON DE PENTAHO OPEN SOURCE BUSINESS
INTELLIGENCE SOBRE PLATAFORMA LINUX

Considero aprobado el trabajo en su totalidad.

Presentado por:

Johanna Alexandra Hernndez Velasco 0919227801

Tutor: Ing. Francisco Palacios

Guayaquil, Noviembre de 2013

XX
INTRODUCCIN

Tradicionalmente cuando pensamos en un modelo de base de datos, se nos vienen

muchas ideas a la mente, en este estudio tomaremos un diseo como aquel que

puede representar la solucin a un problema del mundo real, para lo cual se usar

una herramienta de cdigo abierto, manteniendo una estructura segura y confiable

para la demostracin ms ptima a la interrogante planteada.

Uno de los paradigmas que a travs de los aos se ha mantenido en el mundo, es la

seguridad y confidencialidad que deben poseer las bases de datos, ya que representa

un pilar fundamental para la continuidad de todo negocio.

En sus inicios la empresa Servicios Nacionales explot sus actividades promoviendo

servicios exequiales con formas de pago muy cmodas y econmicas para el sector

de clase media baja, en referencia a este mecanismo la institucin pudo mantenerse

progresivamente en sus dos primeros aos con su agencia matriz. La solucin

tecnolgica con la que operaba la institucin, cumpla con las actividades diarias

que necesitaba la empresa en referencia al registro de sus transacciones, es decir,

ingreso de clientes, afiliaciones y recepcin de pagos.

En virtud a la operatividad de la institucin tuvieron la oportunidad de abrir otras

sucursales a nivel nacional, en este punto iniciaron sus actividades realizando el

almacenado de la informacin de los clientes de forma aislada, es decir, se realizaba

toda la gestin del negocio guardando la data en repositorios de base de datos no

relacionales, aislando la informacin del resto de agencias, causando de a poco

diferentes molestias para el personal de ventas.

Con el pasar del tiempo la informacin segua creciendo, causando disgustos al

departamento de cobranzas en su gestin en la recuperacin de la cartera, pues los

1
datos de los clientes no se encontraban del todo claros, adicionalmente existan

transacciones que se registraban de manera manual, es decir, que se recaudaban de

puerta a puerta, estas transacciones eran ingresadas al final del da en la agencia ms

cercana al vendedor, existiendo un alto riesgo en la perdida de informacin y de

dinero por parte del empleado.

En virtud de las observaciones planteadas era notable la necesidad de una

implementacin de migracin de datos, asegurando la informacin de los clientes,

mejorando el rendimiento de las transacciones, optimizando los recursos existentes

y brindando confianza a la operatividad del negocio.

En este estudio pudimos notar que durante los dos ltimos aos la institucin se ha

visto afectada por las quejas y molestias que causan la inconsistencia de los datos

almacenados, reclamos por transacciones inexistentes, entre otros.

El objetivo fundamental de este estudio del diseo es demostrar que es

posible realizar una transformacin o migracin de una base de datos

no relacional hacia otra de una manera sencilla, sin herramientas

costosas ni excesivo personal, optimizando costos y tiempo de

respuesta.

Uno de los prototipos que a travs de los aos ha permanecido es de

pensar que las organizaciones o empresas emplean sistemas basados en

ordenadores no slo para el tratamiento administrativo de sus datos

operacionales (como son la contabilidad, gestin de nminas, etc.), sino

tambin para tareas relativas a funcin de almacenamiento de los datos

dando soporte a la toma decisiones.

2
Cabe exaltar la importancia de migrar o cambiar los sistemas actuales de

informacin de una empresa, por otros productos o versiones que se adapten mejor a

las necesidades actuales y/o futuras de dicha empresa. Dentro de los objetivos

principales de esta demostracin es disminuir los siguientes aspectos:

REDUNDANCIA E INCONSISTENCIA DE DATOS

Es decir diversas copias de un mismo dato no concuerdan entre s, por ejemplo: que

se actualiza la direccin de un cliente en una agencia y que en otra permanezca la

anterior.

DIFICULTAD PARA TENER ACCESO A LOS DATOS

Debe contemplar un entorno de datos que facilite al usuario el manejo de los

mismos.

AISLAMIENTO DE LOS DATOS

Es difcil escribir nuevos programas de aplicacin para obtener los datos apropiados.

ANOMALAS DE ACCESOS CONCURRENTES

Optimizar el funcionamiento global del sistema y obtener un tiempo de respuesta

ptimo.

PROBLEMAS DE SEGURIDAD

Se debe considerar el control de acceso a los datos, por tal motivo debe ser

confiable, manteniendo un grado de seguridad que garantice la autentificacin y

proteccin de los datos.

PROBLEMAS DE INTEGRIDAD

Una vez terminado el proceso de la migracin se deben medir los resultados y

entregar un reporte global del trabajo, mencionando los puntos ms relevantes del

proceso.

3
CAPTULO I

EL PROBLEMA

CAPITULO I El PROBLEMA

PLANTEAMIENTO DEL PROBLEMA

UBICACIN DEL PROBLEMA EN UN CONTEXTO

Dentro de nuestra investigacin daremos a notar la facilidad, seguridad y confianza

que posee una herramienta de cdigo abierto, para lo cual se promovi nuestro

proyecto de tesis hacia una compaa en especial.

Con fecha 11 de Enero del 2010, la empresa Servicios Nacionales Guayas

Servinacional Cia. Ltda., tuvo un crecimiento de sus agencias a nivel nacional,

logrando abrir tres agencias adicionales en provincias como Manab, Esmeraldas y

El Oro. Con este incremento empiezan aumentar las operaciones en la empresa y a

superar sus ventas. Siendo una institucin controlada por la Superintendencia de

Compaas, deben reportar balances o estados de situacin anuales, en sustento a la

instrumentacin de Ventas de Cofres y Servicios de Cremacin, Velacin, Capillas

entre otros productos que ofrece la institucin al pblico. Adicionalmente posee

vendedores en sitio o de puerta en puerta ofreciendo los productos y servicios

generando contratos de forma manual que posteriormente sern ingresados al

sistema.

El sistema que posean era un aplicativo realizado en Power Builder con una base de

datos Access 2003, este tipo de repositorio cubra las necesidades de la empresa

desde que se inici hasta unos meses antes de que se ampliaran sus agencias.

Con el pasar de los meses el departamento de cobranzas pudo notar que la

informacin que se estaba ingresando en su base de datos se encontraba errada o

inconsistente ya que les era imposible ubicar a muchos clientes, adicionalmente

4
existan pagos duplicados afectando la empresa, todas estas anomalas aumentaban

conforme iban creciendo las operaciones.

Anualmente las instituciones que estn controladas por la Superintendencia de

Compaas estn en la obligacin de entregar estados de situacin o balances que

sustenten la continuidad del negocio, estos reportes tienen un tiempo mximo de

entrega, el cual consta de 5 das laborables. A principios del ao 2011, Servicios

Nacionales fue observada por la Superintendencia de Compaas debido atrasos en

la entrega del balance anual, despus de esta molestia la empresa decidi auditar los

costos generados en todo el ao debido a gastos que se haban generado debido al

consumo de horas extras al personal.

La empresa Servicios Nacionales estaba consciente de que posea un problema con

la informacin que era ingresada en el sistema, por este motivo utilizaban como

mecanismo de escape corregir la data en la base de datos, con el objetivo de

solventar la inconvenientes mensuales y posteriormente anuales con los entes de

control. A pesar de las molestias o trabajos extras para los empleados no se tomaba

una solucin definitiva para corregir el problema de raz ya que al tener varias

agencias a nivel nacional era complicado tener un control sobre todas de forma

eficiente. Como medida de correccin para futuros malos ingresos de la data se

realizaron campaas de concientizacin en el ingreso de la informacin en el

sistema, capacitando as a una persona por agencia con el objeto que se imparta o se

difunda el mensaje.

El mecanismo de capacitacin fue satisfactorio, sin embargo los problemas no se

solucionaron del todo ya que no solo poseen empleados atendiendo en las agencias

sino tambin empleados de campo. El purgado de los datos se segua realizando de

5
forma mensual, ya que se deba seguir cumpliendo con los tiempos de entrega y

erradicar las molestias de los clientes.

El contador interno de la compaa realiz un anlisis profundo del gasto que estaba

teniendo Servicios Nacionales, considerando un semestre de las agencias con mayor

movimiento. El 5 de Julio del 2011 el contador notific formalmente que la empresa

en un lapso de seis meses pierde 2 das de labores al 50% y esto representa una

prdida aproximada de $38.160,00 (treinta y ocho mil ciento sesenta dlares)

semestrales por motivos de pagos de horas extras en virtud de gestiones de campo y

modificaciones realizadas manualmente de forma emergente en la base de datos

para subsanar la informacin de los clientes, esto incurre de forma alarmante para

una empresa mediana. La deteccin y clausura de anomalas son realizadas por una

secuencia de operaciones sobre los datos sabidos como el flujo de trabajo. Para

alcanzar un correcto flujo de trabajo, se ha identificado las causas de las anomalas y

errores. Estas inconsistencias se dan como resultado por errores de mquina en

etapas de entrada de datos, poca claridad sobre el formato de ingreso al sistema,

error humano, falta de retroalimentacin en el ingreso de informacin, avera con el

teclado, etc.

La transformacin de los datos es una necesidad que surge debido al costo

representativo de la prdida utilitaria hacia la empresa, ya que esto adicional

aportara con mejoras en la seguridad o el control de la informacin entre otras

agencias o escenarios posibles ya sean estos de lentitud en sus procesos, perdida de

los datos por falta de espacio, poco rendimiento, entre otros.

A finales del ao 2011 el comit de la compaa acuerda considerar en el

presupuesto 2012 una mejora en cuanto a la infraestructura que requieren adquirir

para solventar sus gastos, desde ah la construccin del estudio de la transformacin

6
de datos fue diseada en base a las necesidades de esta empresa, ya que constituye

un gran problema a nivel nacional. En los actuales momentos existe el paradigma en

las empresas pequeas de poseer bases de datos no relacionales, lo cual esto con el

tiempo se ve afectado debido a su continuo crecimiento causndoles inconsistencia,

desgaste de tiempo al realizar un mantenimiento, sistemas no interrumpidos y baja

disponibilidad.

Necesidades del negocio

Para el desarrollo e implantacin de este estudio de diseo fue forzosa una

evaluacin de las insuficiencias que existen dentro de la institucin y del manejo del

ejercicio. Para esto es inevitable entender el ciclo del negocio y los requerimientos

que posee:

Cuando el ciclo de suscripcin de un servicio se logra, se le ingresan los datos del

cliente al sistema ya sea esta de forma automtica es decir, el funcionario ingresa la

informacin del cliente en su presencia en el computador o manual es decir, se le

llena al cliente un documento a pulso donde firma la suscripcin y posteriormente

esos documentos son trasladados a una agencia donde sern ingresados al sistema

por el vendedor.

Cuando el ciclo de afiliacin de un servicio llega a su fin, el cliente proceder con la

firma del contrato, el cual contiene como elemento principal la tabla de

amortizacin de sus pagos mensuales. Estas tablas son creadas por el sistema y

mantenidas en su base de datos Microsoft Access 2003 y que contienen todas las

alcuotas de cada mes entre otros rubros que se pudieran haber contratado. En el

transcurso del tiempo cuando el cliente empieza a cancelar sus alcuotas, la

recaudacin de los valores se realiza mediante la emisin de planillas de cobro que

son atesoradas en cualquier agencia, siendo este cobro guardado en la base de datos

7
de forma aislada ya que si el cliente vuelve a realizar el mismo pago en otra agencia

se le cobra con el mismo nmero de cuota siendo sta a pagar la cuota siguiente. Sin

embargo, existen numerosas causales por las cuales estos valores no pueden ser

recaudados, lo que ocasionan que las tablas de amortizacin no estn actualizadas en

virtud a lo contabilizado por el cliente. Como se puede observar este es un lazo

continuo entre las agencias y la matriz.

La parvedad de la empresa se origina en el instante que empieza a crecer debido al

aumento de agencias a nivel nacional, acrecentando as la cartera de clientes y la

transaccionalidad, en virtud de todos los sucesos empiezan a surgir novedades que

en primera instancia es detectado por el rea de Cobranzas, ya que al momento de

ubicar al cliente para recordarle sus pagos, encontraban informacin errada

accionando un problema en la recuperacin de la cartera y como ltima coaccin el

llamado de atencin por los entes de control.

La situacin se tornaba crtica especialmente durante el cierre anual en consecuencia

a cuadre de balance, por lo que frecuentemente el departamento de Operaciones

solicita a Sistemas que se realicen cambios manuales a fin de contar con la data

actualizada. Es importante indicar que la informacin requerida para el cierre

contable es la relacionada con la recaudacin de los dividendos mensuales y ventas

realizadas en las agencias.

Para este estudio del diseo se realiz un anlisis del porcentaje de inconsistencia

que exista por agencia, lo que pudimos observar que en las agencias nuevas se

presentaba con mayor frecuencia la inconsistencia de los datos, por lo tanto se

evalu mediante un mtodo matemtico el porcentaje de la muestra a ser tomada.

Para nuestro estudio la muestra represent el 36.7% en referencia a la poblacin, lo

cual constituye como tamao muestral solo la agencia Manab.

8
Dentro de esta muestra se realiz un segundo anlisis en base a la data existente,

validando el porcentaje de error de los siguientes puntos: campos, columnas, tipos

de datos, cantidad de registros de las tablas, claves primarias y forneas. En el

anlisis univariado todos los factores constituyeron riesgo para el traspaso de la

data, mientras que el anlisis multivariado, mostr que el factor con independencia

ms importante es la inconsistencia de la data. Se concluye que con la metamorfosis

de los datos todas estas falencias se corrijan y mejore su rendimiento a un 100%.

En este estudio, para exponer la utilidad de la transformacin de los datos, se

propone realizar una demostracin con un ejemplar estimado de 30GB, que

representa una muestra de nuestro universo, la misma que servir para resolver el

problema. La herramienta que usaremos para demostrar el estudio de la

transformacin de los datos se llama Spoon de Pentaho, es un diseador grfico de

transformaciones y trabajos del sistema de ETTLs, una solucin en curso de la

comunidad open source que provee a las organizaciones para sus necesidades de

inteligencia de negocios.

SITUACIN CONFLICTO NUDOS CRTICOS

A partir de esta inconsistencia resulta indispensable considerar de forma inmediata

una solucin permanente que aplaque el malestar y desgaste econmico que posee la

empresa. Todas estas variantes crearon la necesidad de realizar un estudio de diseo

con el objetivo de trasladar toda la informacin a una base de datos relacional. Cabe

mencionar las desventajas que tiene la base de datos que posee la empresa, como

son:

No es Multiplataforma.

Su uso es inadecuado para grandes proyectos.

Su centralizacin hace que sea vulnerable ante fallos.

9
No puede ser accedida simultneamente.

Posee un mximo de capacidad por archivos.

No es una base de datos relacional.

Limitaciones en el procesamiento de bsqueda.

Una migracin o transformacin de datos no es ms que un problema del mundo

real, por lo que se conllev a utilizar diversas alternativas, hasta concluir que la

mejor opcin para esta empresa era realizarlo con una herramienta de cdigo

abierto, aportando as con la utilidad financiera de la institucin. Dado que el

objetivo principal de realizar una transformacin de datos es descartar toda la data

inconsistente, crear una estructura de base de datos uniforme y amigable para el

usuario final, mantener un ambiente seguro y confiable de sus datos incluso para el

registro de pistas de auditoras.

En el levantamiento de informacin pudimos evaluar que posean un procesamiento

de informacin no acorde al crecimiento de la empresa, la cual provena por varios

factores no considerados dentro de su arquitectura de su sistema, entre los que

podemos destacar, su base de datos (Access) y el sistema de recoleccin de datos.

Constan varias opciones para estimar un estudio del diseo de trasformacin de

datos, entre los que podemos mencionar: su optimizacin de recursos y

estandarizacin de estructuras, transformacin lineal y transformacin logstica.

Teniendo en cuenta el tipo de variable que deseemos agregar al estudio (variable

dependiente o respuesta) aplicaremos un estudio u otro.

Al momento de plasmar el estudio se pudo constatar que adicional a la

transformacin de los datos se deba redisear arquitectnicamente la estructura de

la base de datos de acuerdo al giro del negocio, ya que al realizar el anlisis de la

data nos dimos cuenta que la inconsistencia de la informacin debi ser prevista en

10
las parametrizaciones que se programaban dentro del sistema antes de ser puesto en

Produccin o antes de ser entregado a la empresa para su uso (tipos de datos en

nmeros de cdula, telfonos, direcciones, genero, etc.), por lo que se lleg a la

conclusin que se clasificara en trabajos de campo y trabajos de oficina.

CAUSAS Y CONSECUENCIAS DEL PROBLEMA

CAUSAS:

Al realizar las investigaciones del problema pudimos constatar los orgenes tales

como:

Falta de capacitacin sobre el uso o ingreso de informacin en el sistema

No hubo una arquitectura del sistema

Manual de usuario inexistente hacia los colaboradores

Desconocimiento de los estndares o formatos comunes

Falla en las herramientas de trabajo ya sea teclado, configuracin regional o teclas

direccionales.

Descuido de los usuarios al realizar el ingreso de los datos.

CONSECUENCIAS:

En resultado a la inconsistencia de la muestra analizada podemos definir que las

consecuencias para este estudio son:

El desgaste de los empleados en las correcciones de la informacin.

La afectacin de forma indirecta hacia los clientes.

Falta de control y seguridad en los procesos, esto produce que su riesgo se eleve y

aumente la inconsistencia de los datos.

Las configuraciones que se realicen al transformar la data deben ser cuidadosamente

realizadas para no perder informacin.

Mala imagen hacia los clientes o competencias.

11
Aborrecimiento al sistema por parte de los usuarios.

La herramienta que se analiz para la realizacin del estudio, puede incluir

interacciones creadas en el diseo de la herramienta que impliquen una excesiva

estratificacin para la muestra disponible. En el anlisis univariado, al realizar

efectivamente las configuraciones y scripts en el diseo de transformacin se

observa que su tiempo de procesamiento de la data es bastante optimo, validando los

resultados y analizando los datos, incluso puede decidirse disear una nueva

alternativa que pueda afinar con mayor eficiencia los datos (esto depender mucho

del porcentaje de inconsistencia de la data), e incluirlo como tal en el modelo.

La probabilidad en la transformacin correcta es elevada en los diseos realizados

con muestras de tamaos pequeos, sobre todo cuando poseen poca demanda de

informacin.

Cabe sealar que al igual que en los temas anteriores, los estudios con

multicolinealidad entre las variables introducidas llamarn la atencin por la

presencia de grandes errores estndares, y frecuentementes estimaciones de registros

inconsistentes elevados. Sin embargo la multicolinealidad no afecta al sentido de las

estimaciones (la multicolinealidad no har que surja significacin donde no la hay, e

inversamente).

En aquellos escenarios del mundo real en las que no es viable experimentar con la

realidad, ofrecen un marco terico para evaluar la toma de decisiones as como sus

resultados. Los diseos pueden ser estticos o dinmicos, en un diseo esttico, la

variable tiempo no desempea un papel relevante, por el contrario en un diseo

dinmico si, ya que alguno(s) de los elementos que intervienen en este estudio no

permanecen constantes, en este caso tenemos un estudio dinmico por que usamos

la variable tiempo.

12
Habitualmente todos los estudios deterministas derivan diseos disparejos ya sean

ordinarias o parciales, stas se pueden resolver con tcnicas ordenadas y/o

numerarias.

DELIMITACIN DEL PROBLEMA

Despus de haber realizado el anlisis del diseo, se debe establecer una nueva

estructura de base de datos a fin de modelar el diseo a implementar. Esta

transformacin filtrar todos los datos inconsistente con el objetivo de minimizar

gastos innecesarios a la empresa y descartar llamados de atencin por retrasos en la

entrega de la informacin anual a los entes de control. Colindaremos el

inconveniente haciendo referencia al gasto excesivo que tiene la empresa. Para

dicho proceso hemos considerado una de las mejores herramientas de cdigo abierto

el cual posee como beneficio principal descartar el costo en licenciamiento, excluir

el desgaste de tiempo en modificaciones de la data, cumplimiento ante los entes de

control y credibilidad a nivel nacional de todos sus empleados, costo de servicio por

mantenimiento de la data y mejorar su competitividad.

Para exponer que el estudio del diseo de transformacin funciona, se elabor una

gua de recoleccin de datos basados en el diseo de transformacin realizada en

una agencia en particular, creando scripts de filtrado dentro de cada modelador que

incluye la herramienta.

Considerando como base la transformacin efectuada en una de las agencias se

desarroll un formulario para validar la migracin de los datos, el mismo que fue

validado por un experto en el rea de base de datos (Ing. Cesar Cuenca, DBA).

En base a la necesidad de la transformacin se crea un diseo relacional, que nos

permitir estar preparados hacia un alto crecimiento en la empresa.

13
La transformacin de datos pretende medir los beneficios que posee esta

herramienta de software libre migrando una base de datos de forma ntegra, rpida y

segura, beneficiando a la empresa no solo en una baja estimacin de tiempo sino en

el ahorro que representa al eximirse de contrataciones externas y probable fuga de

informacin.

PLANTEAMIENTO

FORMULACIN DEL PROBLEMA

Cmo realizar una migracin que permita trasladar el 100% de la data que se

encuentra almacenada de forma aislada, transformando estructuras sin perder

informacin importante para la institucin?

EVALUACIN DEL PROBLEMA

Evidente: Existen muchas formas de detectar que una base de datos posee

almacenado sus datos de forma inconsistente, que puede ser, monitoreando el

proceso de ingreso al sistema en forma de consulta directamente, o al actualizar

informacin bajo demanda del cliente. Este estudio demostrar la necesidad de

transformar los datos de forma ntegra hacia otra estructura relacional mediante el

uso de la herramienta Spoon de Pentaho sobre plataforma Linux.

Relevante: El riesgo de que la empresa pueda generar ms gastos operativos y

posibles llamados de atencin por los entes de control, pudiendo llegar a ser

verdaderamente alarmante, esto pasa por varios factores principalmente el factor

volumen, cabe sealar que la empresa posee 5 agencias a nivel nacional y posee una

trayectoria de 8 aos en el mercado, es por eso la necesidad de realizar una

transformacin eficiente que cubra a tiempo las necesidades de la empresa.

14
Original: Este es un campo bastante interesante, ya que en nuestro pas ha sido

poco explorado por el temor de fallas al momento de implementarse en cualquier

empresa, debido a lo poco frecuente de poseer una data inconsistente.

Factible: La migracin de los datos perfectamente realizable dado que no se trata de

un estudio extenso sin ejecucin real.

Identifica los productos esperados: Por medio de este estudio podramos no solo

demostrar la transformacin de los datos en una base de datos no relacional sino

tambin en muchas otras bases de datos soportadas por la herramienta.

OBJETIVO DE LA INVESTIGACION

Objetivo General:

Demostrar la habilidad, seguridad y rapidez que posee la herramienta Spoon de

Pentaho, en la transformacin de datos de un repositorio a otro. Ahorrando de esta

manera contratacin de personal especializado, soporte en sitio y minimizando

largas horas de ejecucin en el proceso de migracin.

Objetivos Especficos:

Utilizar la herramienta Spoon de Pentaho como un instrumento de diseo,

desarrollo, ejecucin y seguimiento para todo el proceso de migracin.

Analizar y disear los procesos de extraccin, transformacin y carga.

Transportar la data de forma ntegra y segura, validando posibles errores.

Promover la explotacin del software libre en nuestro pas.

Proveer disponibilidad en el repositorio de datos.

Estandarizacin de estructuras y tipos de datos, garantizando de esta manera la data

almacenada.

15
JUSTIFICACION E IMPORTANCIA DE LA INVESTIGACIN

Este estudio ayudar a mantener un estndar en la estructura de la base, un

rendimiento ptimo y una alta disponibilidad, adicionalmente servir para darle

mayor apertura a los software libres que en nuestro pas que prcticamente es

inexplorado.

Tambin servir para la correcta toma de decisiones en la arquitectura de algn

diseo nuevo con respecto a otros aplicativos que se pueden llegar a implementar.

Con esta investigacin ayudaremos a introducir en el Ecuador el estudio de nuevos

diseos para mejorar procesos en las bases de datos, siendo mitigada la

inconsistencia de los datos que es el eje central de toda empresa en crecimiento. En

este estudio se demostrar que las herramientas de software libre, son los ms tiles

al momento de hacer diseos o manipulacin de informacin de forma segura. La

importancia de este estudio radica, en el logro, de un grupo de datos sospechosos

que perjudican al crecimiento de la empresa. En virtud de los posibles llamados de

atencin por los entes de control, desgaste de utilidad para la compaa y prdida de

credibilidad de los clientes, se vio afectado el servicio que se ofrece.

Adicionalmente existan pagos que se receptaban de forma manual y automtica, lo

que generaba duplicidad de pagos entre agencias o hurto por parte de los empleados,

a partir de este punto se realiza un anlisis de las transacciones efectuadas

mensuales, donde se descubren varios reclamos de los clientes que no han sido

reportados. A travs del departamento de cobranzas se realizaron las indagaciones

de campo.

Este estudio, ayudar a disminuir los casos de reclamos por afectacin no solo al

cliente sino a la empresa ya que al momento de realizar una cobranza se realiza una

validacin de los datos. Secundariamente en la nueva estructura se prev generar

16
pistas de auditoria en las cuales ponga sobre aviso al administrador del sistema.

Adems por la frecuencia cada vez ms alta de las empresas en crecimiento.

Como ejemplo podemos resaltar el estudio de la Metodologa para la conversin del

Modelo Entidad Relacin al Modelo realizado por la Universidad Tcnica de

Ambato en el ao 2001, que lo trata de introducir como una nueva rea de

investigacin. En este estudio los campos de lenguajes de programacin,

inteligencia artificial e ingeniera de software han contribuido con el uso de la

tecnologa orientada a objetos en el rea de las Bases de Datos. El desafo del rea

de Bases de Datos es integrarlos en un diseo de sistema simple que mantenga el

equipo deseado para cada campo. El resultado de realizar la Conversin es la

caracterstica central de este trabajo para obtener una mejor idea y comprensin de

Bases de Datos Orientas a Objetos (http://repo.uta.edu.ec/handle/123456789/372?

show=full), en nuestro caso es lgico que sea de gran inters ya que al prescindir de

multas y de informacin consistente para la validacin de los reportes es un costo

beneficio muy considerable hacia la empresa involucrada, como valor agregado se

puede tambin mencionar que se descartarn gastos por licenciamiento del software

a utilizar al tratarse de una herramienta de software libre. Precisamente uno de los

factores de riesgo que se asocian es la probabilidad de prdida de datos, teniendo en

cuenta que una transformacin mal realizada podra dar por terminada una

estructura de informacin completa. Resulta evidente que en muchos procesos dicha

probabilidad de fallo en la transformacin o migracin de datos depende del tiempo

en el procesamiento de la data.

La diferencia del estudio de Metodologa para la Conversin del Modelo Entidad

Relacin al Modelo Orientado a Objetos con el estudio en el que he tenido la

oportunidad de trabajar es que nosotros no necesitamos herramientas de alto tiempo

17
de procesamiento ni se costosa inversin para la empresa, dado que nuestro estudio

del diseo no intenta enriquecerse ni llevarle a un alto tiempo de recuperacin,

nuestro estudio de diseo de transformacin de datos nicamente pretende

demostrar que las herramientas de cdigo abierto poseen muy buenas caractersticas

que podemos explotar con un ptimo resultado.

BENEFICIOS

Entre los beneficios que se obtendra al resolver esta situacin, podemos mencionar:

Agilidad en las consultas y trmites para los clientes

Optimizacin de gastos operativos por desgaste al personal

Fin de llamados de atencin por los entes de control

Mejorado en el procesamiento de los datos

Inventarios, ventas y pagos actualizados a nivel nacional

Ahorro de costos en software y contratacin de personal especializado para la

solucin del problema en la empresa.

Control total en el ingreso de la data, de acuerdo a los tipos de datos descritos

Competitividad y seguridad en la data existente de la institucin.

REYES (2006) Expresa: La tecnologa naci asociada con la actividad prctica


del hombre. Miles de aos despus, se separaron como ocurri con la ciencia.
Ella es una fuerza poderosa en el desarrollo de la civilizacin, sobre todo, a
partir del momento en que fragu su vnculo con la ciencia. Ella -al igual que el
lenguaje, los valores, el comercio y las artes- es una parte intrnseca de un
sistema cultural, que forma y refleja los valores de un sistema.(pag. 12)

CAPTULO II

18
MARCO TERICO
CAPITULO II MARCO TERICO

ANTECEDENTES DEL ESTUDIO

Antes de empezar a describir los factores de xito del estudio haremos una breve

explicacin de los conceptos a tratarse dentro de este proyecto. Iniciando por la

significacin de una base de datos; en su concepto ms simple, se refiere a un

conjunto de datos relacionados entre s con un objetivo comn, de acuerdo con C. J.

Date en su libro Introduccin a la bases de datos: Una base de datos es una

coleccin de datos integrados, con redundancia controlada y con una estructura que

refleje las interrelaciones y restricciones existentes en el mundo real; los datos que

han de ser compartidos por diferentes usuarios y aplicaciones, deben mantenerse

independientes de stas, y su definicin y descripcin, nicas para cada tipo de dato,

han de estar almacenadas junto con los mismos. Los procedimientos de

actualizacin y recuperacin, comunes, y bien determinados habrn de ser capaces

de conservar la integridad y confidencialidad del conjunto de datos.

Qu es una migracin?

Una transformacin o migracin de datos es un proceso que se realiza para mover o

trasladar los datos almacenados de un origen de datos a otro, para lo cual es

indispensable que antes de empezar cualquier proceso de esta naturaleza, se tenga

clara y documentada la razn por la cual se est migrando, adems de elaborarse la

planeacin detallada de las actividades contempladas.

19
Objetivo del Proyecto

Dicha transformacin en este caso lo realizaremos con el objetivo especfico de

subsanar el degradado en la inconsistencia de los datos en la base. El primordial

escenario tiene como propsito de mejora: Descartar el alto gasto operativo

generado por la mala gestin del sistema y llamados de atencin por parte de los

entes de control, optimar el desempeo de la base de datos, cumplir con polticas de

seguridad o control de informacin, mayor compatibilidad con otras aplicaciones,

estandarizacin de la tecnologa de informacin y facilitar el intercambio de datos

entre procesos. En este estudio se identificarn los elementos o aspectos que resultan

esenciales para que se alcancen los mejores resultados del proyecto. A estos

elementos se les denomina comnmente Factores Crticos de xito (FCE), cuyos

resultados satisfactorios aseguraran un diseo exitoso de transformacin de datos.

En el grfico N. 1 se muestran las etapas consideradas hacia un propsito de

transformacin de datos. Algunas de las etapas y actividades pueden realizarse en

forma paralela o llevarse a cabo en varios ciclos.

GRFICO N.
ETAPAS DEL ESTUDIO DE TRANSFORMACIN DE BASE DE DATOS

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

20
Es importante hacer distinguir que en la planeacin del diseo de migracin, se

deben implantar los objetivos, colindar el alcance, puntualizar la estrategia a seguir,

identificar en forma completa los requerimientos, crear mtodos de contingencia

para los riesgos de mayor impacto y probabilidad, as como analizar las condiciones

actuales y finales. En esta fase se estipula la viabilidad tcnica y la factibilidad

econmica de la solucin que plantearemos.

A fin de contribuir al diseo de transformacin de datos, uno de los temas obligados

de discusin en todos los crculos empresariales es la Reingeniera de Procesos. Si

bien el tema no es nuevo, el trmino acuado por M. Hammer y J. Champy en 1993,

se ha convertido en un fenmeno de xito mercadotcnico.

Durante doscientos aos se fundaron y se construyeron empresas sobre la base del

brillante descubrimiento de Adam Smith, de que el trabajo mecnica deba dividirse

en tareas ms simples y bsicas. La reingeniera de negocios significa volver a

empezar, arrancando de cero. Lo que importa en la reingeniera es como queremos

organizar hoy el trabajo, dadas las exigencias de los mercados actuales y el potencial

de las nuevas tecnologas.

Hammer define la reingeniera de negocios como 'replanteo fundamental y rediseo

radical de los procesos de negocios para alcanzar mejoras en orden de magnitud en

el rendimiento de costos, calidad, servicios y rapidez'. Hammer y Champy, a

diferencia de otros autores, sitan a la Informtica en el centro de la reingeniera de

negocios. Presentan un planteamiento muy claro y radical ya que para ellos, la

tecnologa no debe verse como sinnimo de automatizacin. No se trata de utilizar

la nueva tecnologa para resolver mejor problemas antiguos, sino de aprovechar los

conmovedores avances de las tecnologas modernas de la informacin para resolver

los nuevos problemas.

21
Una transformacin o migracin de datos puede llegar a ser muy costosa para la

empresa, incluso consumiendo varias horas de tiempo en la realizacin del proceso.

En el ao 2001, el belga Matt Casters empez el desarrollo de una herramienta para

uso personal, consciente de las dificultades que haba tenido durante su experiencia

laboral como constructor de Data Warehouse (coleccin de datos orientada a un

determinado mbito, integrado, no voltil y variable en el tiempo) para la

integracin de sistemas. Entretanto los siguientes aos, fue desarrollando la

herramienta, primero utilizando Java y su librera grfica AWT (Abstract Window

Toolkit), para finalmente pasar a SWT (Standard Widget Toolkit). La herramienta

fue aadiendo funcionalidades, acceso a bases de datos, tratamiento de ficheros y

componentes hasta llegar a 2004 con la versin 1.2. En la versin 2.0 se incluy un

sistema de plugins para permitir el desarrollo de conectores de Kettle con otros

sistemas como SAP (Sistemas, Aplicaciones y Productos en Procesamiento de

datos) y en 2005 fue liberado el cdigo y puesto a disposicin de la web. El

proyecto creci con rapidez y la comunidad se involucr en su desarrollo con mucha

actividad, hasta estar dentro de la rbita de Pentaho, que lo incluyo como

herramienta ETL (extraccin, transformacin y carga) en su gama de productos.

Matt Caster ha estado desde entonces trabajando en Pentaho y desarrollando su

arquitectura como parte del equipo de Pentaho, interviniendo en las diferentes

versiones hasta llegar a la 3.

Pentaho se define a s mismo como una plataforma de BI (Business Intelligence)

que contiene todos los principales componentes requeridos para implementar

soluciones basadas en procesos. Las soluciones que Pentaho ofrece se componen

fundamentalmente de una infraestructura de herramientas de anlisis e informes

integrados con un motor de workflow o flujo de trabajo de procesos de negocio. La

22
plataforma ser capaz de ejecutar las reglas de negocio necesarias, expresadas en

forma de procesos y actividades y de presentar y entregar la informacin adecuada

en el momento adecuado.

El primordial escenario tiene como propsito de mejora: Descartar llamados de

atencin o multas por parte de los entes de control, optimar el desempeo de la base

de datos, cumplir con polticas de seguridad o control de informacin, mayor

compatibilidad con otras aplicaciones, estandarizacin de la tecnologa de

informacin y facilitar el intercambio de datos entre procesos. En este estudio se

identificarn los elementos o aspectos que resultan esenciales para que se alcancen

los mejores resultados del proyecto. A estos elementos se les denomina comnmente

Factores Crticos de xito (FCE), cuyos resultados satisfactorios aseguraran un

diseo exitoso de transformacin de datos. En el grfico N. 2 se muestran las

etapas consideradas como propsito de transformacin de datos. Algunas de las

etapas y actividades pueden realizarse en forma paralela o llevarse a cabo en varios

ciclos.

El alcance de la migracin de datos contempla el anlisis, diseo, implementacin y

pruebas de la herramienta Spoon de Pentaho para la extraccin, transformacin y

carga de la informacin de la base de datos actual hacia la nueva PostgreSql.

Desigualdades entre transformaciones de datos

Un diseo de transformacin de datos es la grafa de una dificultad en el mundo

real, basado en esto el estudio est obligado a encontrar la tcnica ms beneficiosa

para desvanecer todas las inconsistencias de la base que representan el problema en

cuestin, en los prrafos anteriores se resume la importancia que posee una

transformacin de datos en una empresa. Los beneficios de la herramienta con la

que realizaremos nuestra demostracin y es costo beneficio de la misma.

23
FUNDAMENTACIN TERICA

Transformacin por inconsistencia de los datos

Una transformacin o migracin de datos es una excelente alternativa para corregir

la data mal almacenada a nivel de base de datos. La transferencia de informacin

entre un repositorio u otro permitir cifrar y estructurar los datos en forma ptima.

Podemos tener el mejor sistema, la base de datos ms robusta o aplicable al negocio

pero si no tenemos una buena arquitectura del negocio o una estructura de base de

datos con polticas de seguridad, restricciones, parches o con tipos de datos

controlados tiende a almacenar informacin inconsistente.

La migracin de los datos consiste en convertir los datos desde un sistema de base

de datos a otro. Esta migracin conlleva la creacin de tablas o modificacin de las

existentes, cambios en algunos tipos de datos que existen en una base de datos pero

no en otras, etc.

Este estudio tiene como producto principal la herramienta Spoon de Pentaho, para el

desarrollo del proyecto.

Ventajas

Aprovechar el uso de nuevas tecnologas de cdigo abierto.

Erradicar costos altos en licenciamiento de software especializado.

Excluir costos operativos por pagos de horas extras al personal y llamados de

atencin por el ente de control por el atraso en la entrega del balance.

El alcance de la migracin es pequeo y controlable.

La informacin histrica preserva su estructura original.

Los usuarios consultaran la informacin histrica en del sistema anterior (ventaja

para los usuarios).

Menor capacitacin.

24
Desventajas

Se debe modificar o cambiar el aplicativo actual.

Durante los primeros meses existirn dos fuentes vlidas de informacin, la

histrica y la vigente.

Molestia con los usuarios por adaptacin al nuevo repositorio.

Existen diferentes tipos de migraciones?

A continuacin mencionaremos los diferentes tipos de migracin que existen en el

mercado como resea percepcin de lo que se puede realizar:

Migracin en sitio

Actualiza automticamente el Portal completo y todos los sitios. La migracin sobre

escribe las Bases de Datos originales, y convierte todos los datos a los formatos

nuevos, incluyendo todos los documentos almacenados. Los sitios y el Portal no

podrn ser utilizados durante el proceso.

GRFICO N.
PROCESO DE MIGRACIN EN SITIO

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

25
Recomendado para instancias de pequea dimensin o instalaciones contenidas en

un solo servidor.

Migracin gradual

Los servidores contendrn varias versiones al mismo tiempo, y la migracin se

puede realizar por cada recopilacin de sitio. El contenido de la recopilacin que se

est migrando en el momento es guardado primero en una Base de Datos temporal y

luego migrado a las nuevas Bases de Datos. Los cambios se pueden revertir a la

versin anterior porque las Bases de Datos no se alteran. Requiere ms espacio

fsico en los servidores (porque hay que tener todo doble).

GRFICO N.
PROCESO DE MIGRACIN GRADUAL

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

CASTRO (2003) Expresa: La habilidad de las sociedades para controlar la


tecnologa y en particular las tecnologas estratgicamente decisivas en cada
poca histrica tienen una gran influencia en su destino. (pag. 12)

26
Permite ms control sobre la migracin y es recomendable cuando se han hecho

personalizaciones avanzadas en el sistema. La migracin es mucho ms lenta que

una en sitio.

Base de Datos

Se realiza poniendo las Bases de Datos fuera de conexin, copindolas al nuevo

servidor, conectndolas al nuevo sistema y realizando una migracin en sitio por el

resto.

GRFICO N.
PROCESO DE MIGRACIN DE BASE DE DATOS

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Solamente se pueden migrar Bases de Datos completas pero es la forma ms rpida

para migrar.

27
Factores de Riesgo en la transformacin

Factor crtico para el xito de la migracin de la base de datos, es la realizacin de

pruebas, las cuales inicialmente, pueden ser a pequea escala para validar o

modificar la arquitectura final y el plan de migracin, as como para comprobar que

las aplicaciones que harn uso de la base de datos funcionan correctamente y

optimizar los tiempos y recursos necesarios. Es recomendable hacer pruebas

generales para comprobar que el proceso completo funciona correctamente, medir

los tiempos para tener una planeacin integral y minimizar los riesgos como:

Sistemas con muchas identificaciones pueden ser entre muy difcil a imposible de

ser migrados; la nica forma de saberlo con certeza es hacer una migracin de

prueba.

Procedimientos que no son migrados y hay que compilarlos y aplicarlos

manualmente de nuevo, pero luego de ser migrados manualmente continuaran

funcionando sin problemas. Modificaciones hechas en las plantillas originales no

son migradas.

Consideraciones que se tomaron para seleccionar la herramienta

Un aspecto crtico para el xito del estudio del diseo de transformacin es la

seleccin de la herramienta que ser utilizada para ejecutar el proceso de migracin,

es importante hacer un anlisis de las diferentes alternativas existentes, buscando la

mejor opcin considerando la relacin costo/beneficio de cada una de ellas hacia la

empresa.

BENEFICIOS DE LA HERRAMIENTA SPOON

Spoon, nos permite realizar el diseo de las transformaciones y trabajos de forma

grfica. Inclusive admite previsualizar y testear los elementos desarrollados. Pan, es

otra herramienta de Pentaho que asiente la ejecucin de las transformaciones

28
diseadas en Spoon, puede ser de un fichero o del repositorio. Desde la lnea de

comandos nos permite preparar la ejecucin mediante scripts.

GRFICO N.
PROCESO DE MIGRACIN

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Cmo se miden los resultados de la transformacin?

Una vez terminado el proceso se deben medir los resultados y entregar un reporte

global del trabajo realizado, mencionando cual es el producto que se entrega,

cuantas tablas u otros objetos fueron migrados, cuantos registros se migraron

exitosamente, cuantos no fueron migrados y cul fue la causa de aquello.

Otro documento relevante para el cliente es la memoria tcnica que contenga la

configuracin de los parmetros de la base de datos migrada, su estructura fsica y

espacio disponible, entre otros datos relevantes.

RUIZ (2003) Expresa: Hoy, la tecnologa puede definirse como la aplicacin del
conocimiento cientfico a la solucin de problemas prcticos y la obtencin de
metas humanas; un cuerpo de conocimientos desarrollados por una cultura que
provee mtodos o medios para controlar el entorno, extraer las fuentes,
producir bienes y servicios, as como mejorar las condiciones de vida. (pag 24)

Consideraciones antes de la transformacin

29
Una actividad central es realizar un anlisis del diseo de datos actual y del nuevo,

para estipular cules son los campos y tablas crticas; posteriormente, se analizar y

documentar la correspondencia campo por campo del nuevo modelo con el modelo

actual, especificando las dependencias funcionales de cada una de ellas.

Adicionalmente se debe vislumbrar la verificacin de la integridad referencial entre

las tablas de acuerdo con los requerimientos del modelo en el nuevo ambiente y

determinar las limitaciones existentes, sin destruir los datos almacenados ni las

relaciones que existen entre ellas. De igual modo, es necesario considerar los

diferentes tipos de datos entre el modelo actual y el nuevo, certificar que la

informacin pueda ser almacenada en los campos bajo la nueva definicin,

contrastar el tamao de los objetos y de la base de datos, considerar el tipo de

ndices que soporta la base de datos final y el manejo de sus transacciones.

Funcionamiento de Pentaho

La solucin de Pentaho tiene un contexto de implementacin basado en el lenguaje

de programacin Java. Eso hace que sea una solucin muy flexible para cubrir una

amplia gama de necesidades empresariales, tambin abre, limpia e integra toda la

informacin valiosa de la empresa para que la misma pueda ser entregada al usuario

de manera ntegra. Provee una estabilidad, una sola versin de todos los recursos de

informacin, que es uno de los ms grandes desafos para las organizaciones de

Tecnologas de la Informacin (TI). Pentaho Data Integration permite una poderosa

ETL (Extraccin, Transformacin y Carga).

Pentaho Data Integration facilita una solucin completa de ETL, incluyendo:

Delineante grfico enriquecido para permitir a los desarrolladores ETL una amplia

conectividad a cualquier tipo de datos (integer, char, etc).

Escalabilidad y rendimiento, incluyendo el almacenamiento en cach de la memoria.

30
Anlisis y presentacin de informes, incluyendo Hadoop, NoSQL, tradicionales y

bases de datos OLTP de anlisis

Moderno, abierto y posee una arquitectura basada en estndares.

Interfaz grfica para la programacin y seguimiento de Hadoop, NoSQL, y el

procesamiento de datos relacional y el empleo de ETL.

Pentaho Data Integration tiene un diseador grfico automtico que permite hacer

exactamente lo que los desarrolladores de cdigo ms hbiles pueden lograr en una

fraccin de tiempo, y sin necesidad de cdigo en forma manual. Integra en un nico

entorno de desarrollo la posibilidad de elaborar las ETL, el modelar los metadatos y

la visualizarlos, ya sea a travs del navegador OLAP o por reportes.

Esta herramienta puede de manera muy simple tomar datos de una fuente (archivos

locales y remotos, bases de datos, repositorios), aplicar un procesamiento a dichos

datos (filtros, condiciones, clculos, consultas), y almacenar los resultados en un

destino (archivos, base de datos, repositorio).

Ventajas de la herramienta

Logra facilitara la comunicacin entre las partes interesadas y los desarrolladores.

Estos ltimos obtienen de forma ms rpida prototipos funcionales (incluso en

minutos) de cubos OLAP, reportes, etc. y a su vez, las partes interesadas pueden

entregar su feedback a los desarrolladores en base a un prototipo que se ve

exactamente como sera en un ambiente productivo.

Permite llegar a un resultado final de forma ms efectiva.

Reduce riesgos y costos de implementacin.

Admite probar de forma emprica y temprana la arquitectura de la aplicacin BI

(que los datos necesarios sean los correctos, que el tiempo de ejecucin sea

aceptable, que los reportes muestren la informacin que los usuarios necesiten, que

31
el diseo del cubo OLAP satisface las necesidades de informacin de los analistas,

etc.).

Permite a los desarrolladores enfocarse en funcionalidad de las diferentes soluciones

informticas.

GRFICO N.
PROCESO DE INTEGRACIN DE DATOS - PENTAHO

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Cuales con las caractersticas de Spoon de Pentaho?

Entorno grfico de desarrollo

Uso de tecnologas estndar: Java, XML, JavaScript

Fcil de instalar y configurar

Multiplataforma: windows, macintosh, linux

Basado en dos tipos de objetos: Transformaciones (coleccin de pasos en un proceso

ETL) y trabajos (coleccin de transformaciones)

Incluye herramientas como:

Spoon: para disear transformaciones ETTL usando el entorno grfico

PAN: para ejecutar transformaciones diseadas con Spoon

32
Que consideraciones debemos tener con Spoon?

Esta herramienta puede manipular y transformar informacin en todos aquellos

proyectos dnde sea necesario trabajar con datos errneos. Las diferentes soluciones

para cubrir las necesidades de extraccin, manipulacin, validacin y carga de datos

desde mltiples fuentes de origen y en diferentes entornos esta puede resolverlos,

permite implementar los procesos de extraccin, transformacin y carga de datos

(ETL), la misma es de cdigo abierto compuesta por cuatro componentes

fundamentales: SPOON para el diseo grfico de las transformaciones, PAN para la

ejecucin de los trabajos y las transformaciones, CHEF para el diseo de la carga de

datos y KITCHEN para la ejecucin de los trabajos Batch diseados con CHEF.

El uso de kettle permite evitar grandes cargas de trabajo manual frecuentemente

difcil de mantener y de desplegar.

Los siguientes scripts permiten iniciar Spoon en diferentes plataformas:

spoon.bat: inicia Spoon en la plataforma Window$.

En esta plataforma basta con ejecutar el archivo .bat para iniciar Spoon.

spoon.sh: inicia Spoon en una plataforma tipo Unix, tal como GNU/Linux, Apple

OSX, y Solaris. En este caso debemos ejecutar la siguiente sentencia:

cd /home/datos/programas/data-integration

sh spoon.sh

DELARBRE (2009) Expresa en donde segn el ciudadano requiere de


destrezas especficas para su supervivencia en este nuevo entorno: La
capacitacin, no slo para encontrar informacin y saber discriminar entre
ella, sino tambin para colocar contenidos en las redes informticas, se ha
convertido en requisito indispensable en la formacin cultural, la
competitividad laboral y las opciones sociales de las personas. (pag. 12)

33
Qu plataformas soporta Spoon?

La gua de Spoon es soportada en las siguientes plataformas:

Windows: todas las plataformas desde Windows 95, incluyendo Vista.

GNU/Linux: en procesadores i386 y x86_64, trabaja mejor en Gnome.

OSX de Apple: trabaja en ambas mquinas, PowerPC e Intel.

Solaris: utilizando una interface Motif (GTK opcional).

AIX: utilizando una interface Motif.

HP-UX: utilizando una interface Motif (GTK opcional).

FreeBSD: soporte preliminar i386, pero an no en x86_64.

Cules son los problemas frecuentes que puede presentar Spoon?

Los problemas ms conocidos asociados con Spoon son:

GNU/Linux

Bloqueo ocasional de la JVM corriendo SuSE Linux y KDE. Corriendo bajo Gnome

no presenta problemas (detectado en SUSE Linux 10.1 pero versiones anteriores

tambin tienen el mismo problema).

FreeBSD

Problemas con arrastrar y soltar. Utilizar el men contextual del clic derecho sobre

el lienzo como solucin.

Consultar las listas de seguimiento en http://jira.pentaho.com para encontrar

informacin actualizada sobre los problemas recientemente descubiertos.

Definicin del problema y recoleccin de datos

Dado a que las bases de datos entre agencias con relacin a la matriz, no estrecha

una estructura relacional y al momento de realizar la centralizacin de la

informacin y consolidarla para todas las entidades implicadas, esta no mantiene un

34
estndar. Al surgir este efecto, se obtiene como resultado la inconsistencia de los

registros almacenados, segn lo demuestra en el siguiente grfico de ejemplo:

GRFICO N.
PROCESO DE INTEGRACIN DE DATOS PENTAHO

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Como nos muestra el grfico, el esquema con que se dan las tablas de las diferentes

bases de datos, sealan que en un mismo campo, tienen distintos tipos o formas de

ser pobladas. Durante la traslado de los datos a la base de la matriz, se produce una

variabilidad de los registros, ya que al momento de realizar consultas y/o reportes,

estos traern datos que no sern completos.

La principal actividad que perjudica a la empresa se debe al alto gasto que posee por

el mal ingreso de la informacin en su base de datos, as como tambin se quiere

erradicar llamados de atencin por parte de los entes de control ya que esto tambin

perjudica a la empresa. Notoriamente el rea de cobranzas denot que la

informacin existente se encontraba errada para su gestin, ya que le era imposible

ubicar a los clientes, otra rea que se ve involucrada en esta afectacin es el rea

35
comercial ya que se les imposibilita permitir enviar invitaciones para los eventos

que realiza la empresa. Este proceso de concretar el problema es muy significativo

ya que afectar en forma reveladora las conclusiones en el estudio, lo cual hace

imposible extraer una respuesta correcta de un problema equivocado. Lo primero

que hay que reconocer es que un grupo de desarrolladores expertos, por lo general

trabajan en un alto nivel de asesora. A los miembros del grupo no se les presenta un

problema y se les dice que lo resuelvan, ya que por medio de este retroalimentacin

asesoran a la gerencia (casi siempre un tomador de decisiones). El grupo realiza un

anlisis tcnico y despus presentan un informe a los administradores de base de

datos. Con frecuencia, el informe a la gerencia identifica cierto nmero de opciones

atractivas y particular bajo diferentes suposiciones. El gerente evala, da sus

recomendaciones y toma una decisin final basndose en su mejor juicio.

Una vez determinado el inconveniente el siguiente paso consiste en reformularlo

para su anlisis, mediante la arquitectura de un diseo que represente la esencia del

inconveniente. El diseo es una representacin idealizada de la situacin de la

empresa.

Formulacin del Diseo

El diseo posee muchas ventajas sobre una descripcin verbal del inconveniente,

una ventaja obvia es que el diseo puntualiza un problema en forma mucho ms

concisa. Al desplegar el esquema, se recomienda empezar con una versin muy

sencilla y moverse, en forma evolutiva, hacia diseos ms elaborados que reflejen

mejor la complejidad del inconveniente real. El diseo debe ser menos confuso que

el sistema real, de otra manera, no tiene sentido trabajar con diseos si se puede

trabajar con el sistema real en s.

Como puntos clave en el diseo podemos destacar:

36
Documento del diseo

Detalle de las reglas de transformacin y carga

Mapeos fuentes-destino a nivel global y detallado.

Elaboracin de una solucin a partir del diseo

Una vez expuesto el diseo para suplir el inconveniente, la consecuente etapa

consiste en desarrollar un procedimiento para proceder a una solucin al problema a

partir de este diseo. Puede pensarse que esta debe ser la parte primordial del

estudio, pero por lo general no lo es, hallar la solucin es la parte entretenida del

estudio, mientras que el autntico trabajo se encuentra en las etapas anteriores y

posteriores del estudio. Un argumento comn es la bsqueda de una solucin

ptima, es decir, la mejor, es necesario reconocer que estas soluciones son ptimas

slo respecto al modelo que se est manejando. Como el diseo necesariamente es

una abstraccin y no una representacin del inconveniente real, no puede existir una

garanta de que la solucin ptima del diseo resulte ser la mejor solucin viable

que pueda llevarse a la prctica para el inconveniente real. Esto es de esperarse si se

toma en cuenta los muchos inestimables e inseguridad asociados a casi todos los

problemas existentes, pero si el diseo est bien expresado la solucin debe tener

una buena aproximacin de curso de accin ideal para el problema real.

Entre las ejecuciones que podemos mencionar tenemos:

Datos vlidos cargados en la herramienta Spoon

Documento tcnico de migracin

Documento de resultado de la migracin de datos

Inconsistencias cargadas en el repositorio.

37
El distinguido desarrollador de software estadounidense, autor y empresario Jeff

Atwood, menciona que tenemos que dejar de optimizar para programadores y

comenzar a optimizar para usuarios. Al ver este tema como una optimizacin hacia

los usuarios finales el cual ayuda al crecimiento de la empresa, se contempla

satisfacer y mejorar las necesidades del negocio. La distincin entre mejorar y

satisfacer refleja la diferencia entre la teora y la realidad.

Por lo tanto, la meta de un estudio debe ser llevarlo a cabo de una manera ptima,

independientemente de si implica o no encontrar una solucin recomendable para el

diseo. Al reconocer este concepto, en ocasiones se utilizan solo procedimientos de

diseo intuitivo para encontrar una buena solucin sub-ptima.

Un procedimiento ptimo para el diseo original puede ser menos ideal para el

inconveniente real, de manera que es obligatorio hacer un estudio adicional. El

estudio pos-ptimo, establece una parte muy caracterstica, ste determina qu

medidas del diseo son los ms crticos, las medidas crticas, del diseo son aquellos

cuyos valores no se pueden modificar sin que la solucin ptima se modifique.

Criterios de aceptacin

El criterio de aceptacin de la migracin se determina a travs del indicador de

carga de informacin, que se define a continuacin, de acuerdo con la estrategia

escogida para la migracin y los supuestos y restricciones del estudio.

Indicador de carga de informacin.- La herramienta Spoon pudo ser cargada con la

informacin vlida y se calcula con la siguiente frmula:

ESTEBAN (2009) Expresa: El conocimiento es ms complejo, surge de la


observacin, el anlisis y la experimentacin; busca suministrar conjuntos de
conceptos cada vez ms abarcadores y, a su vez, en la medida de lo posible, ms
sencillos en relacin a los fenmenos y sus vnculos, incluidas sus variaciones,
as como las causas y las consecuencias de estos. (pag. 18)

38
# de datos cargados

Indicador de carga de informacin = __________________ * 100

# de datos vlidos

La aceptacin de la migracin se da cuando:

El indicador de carga de informacin >= 98%

Ensayo del estudio

Sin vacilacin podemos decir que la inicial versin de un diseo tenga fallas, por lo

tanto previamente a usar el diseo realizado debe experimentarse para identificar y

corregir todas las fallas que se puedan encontrar, este proceso de ensayo y

mejoramiento se conoce como aprobacin del diseo. Un diseo es legtimo si,

libremente de sus inexactitudes, puede dar un pronstico confiable del

funcionamiento del sistema. Un procedimiento comn para probar la eficacia de un

diseo es confrontar su funcionamiento con algunos datos transitados disponibles en

la base de datos existente (llamado comnmente ensayo retrospectivo). Debe notarse

que tal procedimiento de validacin no es adecuado para informacin que no existe

en la base de datos, ya que no habr datos utilizables para poder confrontar. Otro

procedimiento podra ser contener una informacin que no haya sido evaluada como

existente en la formulacin del diseo, para poder encontrar errores que la

herramienta no haya encontrado.

Elaboracin para la aplicacin del diseo

El siguiente paso es colocar un procedimiento bien documentado para aplicar el

diseo a implementar. Este estudio contendr el diseo, procedimiento de solucin y

las tcticas operativas para su implantacin (normalmente el diseo se lo realiza en

39
un computador). El segmento de este arranque incluye el proceso de un

mantenimiento durante su uso posterior, por lo tanto si las condiciones cambian con

el tiempo, este proceso debe modificar la transformacin del modelo.

Se definen las siguientes fases bsicas dentro de un proceso de migracin:

Anlisis de las fuentes de datos.

Extraccin y Transformacin de los datos en el formato destino.

Validacin de datos en un repositorio de preparacin

Carga de datos en el sistema destino.

Sin embargo, con el fin de atacar los retos que implica el movimiento de datos hacia

el nuevo repositorio, se define un proceso de migracin cclico en el cual se repite el

mismo proceso de fases hasta que la migracin se completa exitosamente.

Este acercamiento permite realizar anlisis orientado al sistema destino, establecer

premisas de validacin, refinar los diseos y aplicar las mejores prcticas a medida

que el proyecto progresa. Esta metodologa usa las mismas 4 fases bsicas (anlisis,

extraccin / transformacin, validacin y carga) pero las fases no solamente iteran

sino que se interconectan una con otra.

Establecimiento del diseo

Una vez terminado el perodo de desarrollado para aplicar el diseo, la ltima fase

consiste en la implantacin de las consecuencias probadas del diseo. Esto

esencialmente implicara la transcripcin de estos resultados en instrucciones de

operacin particularizada, emitidas de forma evidente a los usuarios que

administrarn y operarn la base de datos. A la culminacin del estudio, es

conveniente que al realizar la transformacin se documente la metodologa

manejada con bastante claridad para que el trabajo sea reproducible.

40
Objetivo: Realizar un examen completo y establecer una lista de chequeo de los

elementos de datos que sern migrados. Del mismo modo se realiza el mapeo de los

elementos de datos de la fuente al destino.

Actividades: En el esquema iterativo, las actividades de anlisis estn dirigidas a

suplir los requerimientos del sistema destino. Se deben hacer tres consideraciones.

Descubrimiento inicial.- Proceso que permite entender el valor de todos los

elementos de datos, rangos, etc. y poner en evidencia las relaciones entre ellos.

Mapeo.- Permite entender cuales bases de datos, entidades y atributos satisfacen los

requerimientos de informacin del sistema destino. Se debe evaluar qu relacin

origen-destino satisface el requerimiento de manera ptima y determinar los

cambios requeridos (transformacin) en los esquemas de datos incluyendo cules

elementos no existen, y son necesarios, en la nueva aplicacin.

El resultado de la fase de anlisis y diseo es la especificacin del mapeo entre

los sistemas fuente y el sistema destino.- Entre mejor sea la especificacin inicial

menos iteraciones se tendrn que realizar.

Realizar el anlisis de la topologa y obtener estimados de desempeo.- Es

necesario precisar la duracin de la migracin una vez se ejecuten las iteraciones

previas a la migracin final

Diseo de Transformacin de Datos

Uso de la herramienta Spoon de Pentaho Business Intelligence

Una vez definido el diseo de la estructura a implementar en nuestro estudio,

debemos considerar algunas instrucciones posteriores que harn triunfante nuestro

proyecto. Se consider que como mejor alternativa hacia la empresa Servicios

Nacionales segn la demanda de sus operaciones y el costo beneficio, la mejor

41
alternativa como motor de base de datos es PostgreSql, esta alternativa se instalar

en un servidor Suse Linux 12.1 ya que tambin posee el beneficio de ser libre en

licenciamiento. Una vez creada la base de datos procedemos a configurar la

herramienta Spoon, creando las conexiones a la base de datos, para este escenario

estableceremos conexiones ODBC en el servidor, las conexiones que se representan

sern hacia Access y PostgreSql.

Posteriormente se deben crear scripts que servirn para el traspaso de la

informacin, de acuerdo al anlisis de la estructura planteada debemos considerar a

realizar el filtro de migracin de la data, reflexionando en crear log (registros) de los

posibles errores que se puedan generar. Estos log sern validados una vez que

termine el proceso para considerar si debemos crear un script adicional

considerando otras alternativas.

Se disear de manera grfica modelos de flujos de transformacin insertando

bloques de cdigos en forma de script, los cuales van a realizar como filtro para el

traspaso de la data. A continuacin se mostrar un grfico donde se demostrarn los

iconos de la factibilidad y lo amigable de la herramienta.

Se busca generar el mapeo de los correspondientes flujos de datos a una tabla de

salida:

GRFICO N.
INTERFACE MODO GRFICO - SPOON PENTAHO

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

42
Es recomendable utilizar el "Modo seguro" cuando se mezclan filas de muchas

fuentes para asegurarse de que todas las filas tengan el mismo diseo en todas las

condiciones.

Cuando se ejecuta en modo seguro, la transformacin verifica cada fila que pasa y

asegura que todos los diseos sean idnticos. Si una fila no tiene el mismo diseo

que la que la primera fila, se genera e informa un error.

Saltos de Transformacin

Existe una opcin donde se debe configurar los saldos de la transformacin de

forma habilitada ya que si no se lo realiza los pasos siguientes al mismo estn

aislados de cualquier flujo de datos previo al salto deshabilitado. Esto puede

conducir a resultados inesperados al editar los pasos del flujo posterior.

Saltos de Trabajo

Adems del orden de ejecucin, un salto igualmente especifica la condicin en que

ser ejecutada la siguiente entrada de trabajo:

Incondicional: especifica que la siguiente entrada de trabajo ser ejecutada a pesar

del resultado de la entrada de Trabajo de origen.

Seguir este camino cuando el resultado sea verdadero: especifica que la siguiente

entrada de Trabajo ser ejecutada solamente cuando el resultado de la entrada de

Trabajo de origen sea verdadero, que significa ejecucin exitosa, archivo

encontrado, tabla encontrada, sin error, que la evaluacin sea verdadera, etc.

Seguir este camino cuando el resultado sea falso: especifica que la siguiente

entrada de Trabajo ser ejecutada solamente cuando el resultado de la entrada de

43
Trabajo de origen sea falso, que significa fracaso de la ejecucin, archivo no

encontrado, tabla no encontrada, ocurrencia de error(es), que la evaluacin sea falsa.

Crear un Salto

Para crear un nuevo salto entre 2 pasos, se puede utilizar alguna de las siguientes

opciones:

Clic con el botn del medio en el paso origen, mantener presionado el botn y

arrastrar el puntero hacia el paso destino.

Mantener presionada la tecla "SHIFT", hacer clic con el botn izquierdo en el paso

origen, mantener presionado el botn izquierdo y arrastrar el puntero hacia el paso

destino.

Ir a la opcin "rbol Principal" en el panel izquierdo y hacer clic derecho sobre el

nodo "Saltos", esto abrir una nueva ventana en donde debemos especificar cul

ser el paso de origen y cul ser el destino.

Seleccionar los dos pasos que se desean unir utilizando "CTRL" + clic izquierdo

sobre los mismos, luego hacer clic derecho en alguno de los dos pasos y seleccionar

"Nuevo Salto". Esta caracterstica trabaja solamente con pasos que an no se han

conectado a otro paso.

Regularmente el proceso se vera de la siguiente manera, y cada diseo o dibujo

representa una accin o un paso a seguir. Dentro de cada uno de estos grficos

poseen script que realizan por debajo la transformacin de los datos.

CASTRO (2003) Expresa: El conocimiento tecnolgico, a diferencia del


cientfico, se conforma por nuevos procedimientos para alcanzar ciertos fines
prcticos; pueden considerarse como el conocimiento de procedimientos
probados por los que se logran objetivos predeterminados. (pag. 21)

44
GRFICO N.
PROCESO DE EXTRACCIN DE LOS DATOS SPOON PENTAHO

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Se consigue asegurar que la transformacin de datos se encargue de convertir las

inconsistencias de los datos y la codificacin, que pueden existir dentro de una base

de datos nica y que casi siempre existen cuando mltiples bases de datos la

contribuyen.

Una funcin lineal de las variables independientes que permita clasificar a las

estructuras en uno de los dos niveles o grupos establecidos por los dos valores de la

variable dependiente. (Ferrn: 2001, 32)

La transformacin de datos es un modelo que, a partir del diseo estimado para cada

Para este proceso se crearon aproximadamente 11 pasos que abarcan la

preparacin.ktr que incluye la creacin de las tablas, secuencias, creacin de

tablas que almacenarn los errores (log) y alterar la estructura de los campos

antecediendo a un posible error. beginning_step0.ktr el cual realiza la insercin de

los datos en las tablas padres filtrando campos reconocidos como inconsistentes,

logrando realizar el traspaso optimizado. Posteriormente cliente_step1.ktr y

cliente_step2.ktr inserta los registros de todos los clientes y realiza el filtrado de la

45
data de acuerdo a las condicionantes del script. Subsiguientemente se ejecutan los

pasos afiliacion_step1.ktr, afiliacion_step2.ktr, afiliacion_step3.ktr y

afiliacion_step4.ktr que realizan el barrido de los afiliados y de toda la

informacin correspondiente a direcciones, cedulas, fechas de nacimientos, nmeros

celulares, etc.

Finalmente se ejecutan los scripts cobros_step1.ktr y cobros_step2.ktr que

reprocesan todos los pagos por agencias asignndole secuenciales, ndices y la

depuracin de la data. Adicionalmente para cada proceso se cre una taba donde se

almacenarn los registros errados o inconsistentes sin consideraciones de migracin.

Estos registros deben ser verificados uno a uno manualmente con la ayuda de algn

colaborador de la empresa que nos guie como podemos mejorarla a nivel de

servicio. Una de las variables independientes y producto de la probabilidad de los

cambios que se den en la variable dependiente, va a permitir asignar los mismos a

una u otra categora y opcin de respuesta. (Visauta: 1998, 52).

La transformacin de datos estima de forma muy parecida al traspaso de

informacin de un computador a otro en la que se aprecia primero un estudio base

para suministrar una referencia en la comparacin. En la transformacin mltiple, la

media que emplea para establecer el estudio base y diagnosticar el espacio que

ocupar el nuevo diseo. Sin embargo en la transformacin logstica, se utiliza el

mismo proceso, con la media utilizada en el diseo estimado, pero no para

diagnosticar el espacio que ocupar el nuevo diseo, sino la versatilidad y

operatividad de mejora que se obtendr con este proceso. (Hair, Anderson, Tatham y

Black: 1999, 318).

A continuidad se definirn las dos opciones de refutacin para los usuarios en la

variable dependiente como respuesta base de datos Access y respuesta control y, por

46
tanto, cuando se haga referencia en lo continuo a estos trminos de probabilidad se

hablar del pre (base actual) y pro (diseo de transformacin) para la otra.

Perdida de datos en la transformacin (razn de suceso) = M/1-p

Dnde:

M = probabilidad de que ocurra un suceso

1-p= probabilidad de que no ocurra un suceso

A partir de esta prdida de datos en la transformacin se puede deducir la

probabilidad de un suceso:

Pro (base actual) = 1/1+Co+1Y

Dnde:

Co y C1, son los factores estimados.

Y, es la variable independiente

En este caso al describir ms de una variable independiente los diseos que se han

estimado quedaran de la siguiente forma:

Dnde: R es la composicin lineal:

R = Ti+ H1X1+H2X2++

Ti, es la constante o intercepto y expresa el valor de la probabilidad de R cuando las

variables independientes son cero.

H1, H2, son los coeficientes dependientes e informan cuanto varia la probabilidad

de ocurrencia de R ante un cambio de mecanismo de la variable independiente

correspondiente, mantenindose las dems variables aclaratorias invariables.

X1, X2, valores que consiguen adoptar las variables independientes.

, Representa el termino de error de estimacin.

Finalmente se deducen los valores y se estima el o los diseos.

Requisitos y etapas de la regresin logstica

47
Re catalogar las variables independientes ordinales en variables simuladas o

supuestas y de la variable dependientes.

Analizar el tiempo, diseo, procedimientos y costo de los coeficientes, sus factores y

estadsticas de xito.

Diseo

Este bosquejo fue concebido en base al anlisis que se realiz despus del

levantamiento de informacin, normalmente las estructuras de bases de datos deben

ser realizadas por un arquitecto de sistemas que en este caso existe. Una vez

bosquejada la solucin estimada pas por un proceso de aprobacin por parte de la

empresa a nivel Gerencial. La Economista Mariana Jcome, gerente de la empresa

Servicios Nacionales fue el personaje cntrico que sustent la nueva estructura

entidad relacin que se implementara dentro de la empresa en dificultad.

El estudio del diseo de transformacin de datos analiza la estructura funcional de la

empresa que es hacia donde se quiere llegar con el diseador grfico. Hoy en da las

empresas manejan una gran cantidad de datos por lo tanto es muy valioso que una

base de datos posea una buena estructura relacional capaz de manejar bien sus

transacciones.

No concierne si nuestra base de datos posea slo 20 registros, o algunos cuantos

miles, es importante asegurar que nuestra base de datos est correctamente diseada

para que tenga eficiencia y que se pueda seguir utilizando por largo tiempo.

Adicionalmente no se puede descartar las consideraciones a tomar en cuenta al

hacer el diseo de la base de datos:

La velocidad de acceso,

El tamao de la informacin,

El tipo de la informacin,

48
Facilidad de acceso a la informacin,

Facilidad para extraer la informacin requerida,

El comportamiento del manejador de bases de datos con cada tipo de informacin.

Para la realizacin de este proyecto hemos considerado todas las falencias que posee

la base de datos actual de la empresa en la que se realiz el estudio, el cual posee

varias bases de datos almacenadas de forma aislada de acuerdo a la agencias que

posee la empresa, por lo tanto existen distintos formatos en el guardado de la

informacin, claves primarias o forneas inexistentes permitiendo la existencia de

forma repetida incluso entre agencias.

EXTRACCIN Y TRANSFORMACIN

Objetivo: Desarrollar los procedimientos y scripts de transformacin y validacin

Actividades: Un anlisis preciso permitir un trabajo eficiente en las siguientes

fases. Despus de que se conoce que datos migrar, donde conseguirlos y como se

mapean en el destino, el siguiente paso es construir los procedimientos necesarios

para extraer los datos y transformarlos hacia el formato adecuado.

Durante la fase de desarrollo adems de construir los scripts y el cdigo especfico

de la migracin utilizando la herramienta de migracin seleccionada se deben

enfrentar dos situaciones:

Manejo de irregularidades de datos y excepciones durante la transformacin, tales

como incompatibilidad de los tipos de datos. Idealmente la herramienta debe

generar un reporte de violaciones de integridad e irregularidades, ya que los datos de

la fuente debern ser corregidos por los usuarios finales o el jefe de sistemas de la

empresa.

Maximizar la eficiencia del cdigo incrementando el grado de paralelismo y alto

desempeo.

49
GRFICO N.
DISEO DE TRANSFORMACIN DE DATOS

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Una vez definido el diseo actual en beneficio de la empresa, mediante la

herramienta Spoon realizaremos pasos o steps, que se enlazarn entre s a travs de

los saltos o hops. Dentro de cada salto fluye la informacin entre los diferentes

pasos, existirn pasos donde se recupere registros de las tablas de la base de datos

antigua, y los registros recuperados van a ser transmitidos a los siguientes pasos que

incluirn scripts con condicionantes que irn filtrando la data de acuerdo al nuevo

diseo requerido como se muestra en la figura a continuacin:

GRFICO N.
TRANSFORMACIN DE DATOS - SPOON

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

50
En este proceso se llevarn a cabo varios pasos que estarn agrupados por categoras

y cada uno de ellos est diseado para cumplir una funcin especfica.

Descripcin de la Interfaz de Usuario

Una vez descargada la herramienta (Spoon) es bastante amigable la concordancia

con el usuario, existen configuraciones que debe realizarse, como crear la conexin

a las bases de datos relacionadas, para esto contiene distintos conos en los cuales

facilita la configuracin y creacin de scripts para el proceso de la transformacin,

que entre las opciones ms destacadas tenemos:

La pestaa "rbol Principal" permite ver las conexiones asociadas con los trabajos y

transformaciones abiertas.

GRFICO N.
LOGO DE BSQUEDA DE CONEXIONES

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Dentro de la pestaa "Objetos Principales" contiene los pasos disponibles para

construir la transformacin (entrada, salida, bsqueda, transformar, uniones,

scripting, etc) o el trabajo (general, mail, scripting, etc), dependiendo el caso.

GRFICO N.
MUESTRA LOS PASOS DE CONSTRUCCIN

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

51
Opciones de la Lnea de Comandos

Las opciones que se pueden utilizar al iniciar la aplicacin son las siguientes:

file = nombreArchivo

La eleccin anterior ejecuta la transformacin.

Logfile = nombreArchivoAcceso

La opcin anterior permite especificar la ubicacin del archivo de log que por

defecto es la salida estndar.

Level = nivelAcceso

La eleccin anterior establece el nivel de log para la transformacin que se est

ejecutando. Los valores posibles son:

CUADRO N.
MENSAJES QUE ARROJA LA HERRAMIENTA
Nothing.- No muestra ninguna salida
Error.- Solamente muestra los errores
Minimal.- Usa logging mnimo
Basic.- Este es el nivel de logging bsico por defecto
Detailed.- Da una salida detallada del logging
Debug.- Muestra una salida detallada para propsitos de depuracin
Logging detallado a nivel de fila. Advertencia: esto genera una
Rowlevel.-
prdida de datos.
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

Rep = nombreCatalogo

La opcin anterior permite conectar a un catlogo.

User = nombreUsuario

En el prrafo se establece el nombre de usuario con el cual se desea conectar al

catlogo:

Pass = password

La eleccin anterior establece la contrasea utilizada para conectar al catlogo.

Trans = nombreTransformacion

52
Aqu se establece la transformacin del catlogo que se desea ejecutar.

Job = nombreTrabajo

La opcin anterior establece el trabajo del catlogo que se desea ejecutar.

Es significativo tomar en consideracin las siguientes especificaciones:

Los campos en itlica (en cursiva) representan los valores que utilizan las opciones.

Utilizar comillas simples o comillas dobles si hay espacios en los valores de las

opciones; las comillas aseguran que los valores de las opciones permanecen juntos.

Catlogo

Spoon permite almacenar los archivos de las Transformaciones y Trabajos en el

sistema de archivos local o en un catlogo de Kettle, que puede ser alojado en

cualquier base de datos relacional. Para cargar una Transformacin o trabajo desde

un catlogo de base de datos, debe conectarse a ese catlogo.

La informacin asociada con el catlogo se almacena en "repositories.xml". Este

archivo est ubicado en el directorio oculto ".kettle" por defecto.

/home/<nombreUsuario>/.kettle/ or C:\Documents and

Settings\<nombreUsuario>\.kettle

La ruta completa y el nombre del archivo asociado con "repositories.xml" se

muestran en la consola de Spoon.

ESTEBAN (2009) Expresa: Pese a las limitaciones actuales, el pas dispone del
principal recurso para ello: el potencial humano, que unido a los grandes
centros de investigacin, integrados en polos cientficos posibilita el acceso a
este campo de la investigacin, as como la generacin de nuevas tecnologas
propias. (pag. 18)

53
GRFICO N.
TRANSFORMACIN DE DATOS ENTREDA/SALIDA SPOON

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Historia de Licenciamiento

Desde la versin 2.2.0, Spoon fue liberado al dominio pblico bajo la licencia

LGPL.

Spoon es software libre; se puede redistribuir y/o modificar bajo los trminos de la

GNU Lesser General Public License publicada por la Free Software Foundation; ya

sea la versin 2.1 de la Licencia, o (a eleccin) cualquier versin posterior.

Spoon se distribuye con la esperanza de que ser til, pero sin ninguna garanta;

incluso sin la garanta implcita de comercializacin o idoneidad para un propsito

particular.

Iconos de la Barra de Herramientas

A continuacin se detallar un diccionario de los conos que facultan la herramienta

en la barra de tareas de la pantalla principal.

FARREL GE, EGANA E, FERNNDEZ F. (2003) Expresa: La conformacin


de un nuevo escenario socio-econmico, basado principalmente en el cambio y
en el uso de recursos intangibles como la informacin, la investigacin, los
conocimientos y el aprendizaje configura una nueva forma para la gestin de
los servicios en aras de un desarrollo sostenible de los pueblos. Cita larga. (pag.
14)

54
CUADRO N.
BARRAS DE HERRAMIENTAS SPOON
Icono Descripcin Transformacin Trabajo
Crea un nuevo Trabajo o
SI SI
Transformacin
Abre una
Transformacin/Trabajo desde
un archivo si no est conectado
SI SI
a un Catlogo o desde el
Catlogo si se est conectado a
uno.
Guarda la
Transformacin/Trabajo en un SI SI
archivo o en el Catlogo.
Guarda la
Transformacin/Trabajo con un
SI SI
nombre diferente y/o en
diferente lugar.
Ejecuta la
Transformacin/Trabajo actual
SI SI
desde el archivo XML o
Catlogo.
Pone en pausa la ejecucin de la
SI NO
actual Transformacin.
Detiene la ejecucin de la actual
SI SI
Transformacin/Trabajo.
Vista previa de la
Transformacin: ejecuta la
Transformacin actual desde la
memoria. Puede obtener una SI NO
vista previa de las filas
generadas por los pasos
seleccionados.
Ejecuta la Transformacin en el
modo de depuracin, lo cual
SI NO
permite detectar problemas y/o
errores en la ejecucin.
Repite el procesamiento de una
Transformacin para una
determinada fecha y hora. Esto
har que algunos pasos (entrada
archivo de texto y entrada
SI NO
Excel) slo procesen las filas
que no fueron interpretadas
correctamente durante la
ejecucin en una fecha y hora en
particular.
Verifica la Transformacin: SI NO

55
Spoon ejecuta varias pruebas
para cada paso para ver si todo
va a funcionar como debera.
Ejecuta un anlisis de impacto:
analiza qu impacto tendr la
SI NO
Transformacin sobre las bases
de datos utilizadas.
Genera el SQL necesario para
ejecutar la actual SI SI
Transformacin/Trabajo.
Abre el explorador de bases de
datos y permite realizar una
vista previa de los datos,
SI SI
ejecutar las consultas SQL,
generar DDL (Lenguaje de
Definicin de Datos), etc.
Muestra u oculta el panel de
/ resultados de la ejecucin de la SI SI
Transformacin/Trabajo.
Representa el tamao de
visualizacin (en porcentaje) del SI SI
rea de trabajo.
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

Configurar Variables de Entorno

Para configurar las variables de entorno que se utilizarn, se debe seleccionar en la

barra de men: Editar -> Establecer Variables de Entorno.

GRFICO N.
CONFIGURACIN VARIABLES DE ENTORNO

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

56
En este caso se crearon dos variables de entorno, con sus respectivos valores, que

sern utilizados en un paso de envo de mail.

Los valores asociados a las variables de entorno deben definirse a travs de "Editar

-> Establecer Variables de Entorno" se perdern al reiniciar Spoon. Para que esto no

suceda y por cuestiones de integridad, es buena prctica configurar las variables de

entorno en el archivo kettle.properties, que se encuentra en:

GNU/Linux: home/<nombreUsuario>/.kettle/

Window$: C:\Documents and Settings\<nombreUsuario>\ .kettle\

Para crear las variables en este archivo, debe realizarse de la siguiente manera:

nombreVariable = valor

En este caso sera simplemente aadir al final del archivo las siguientes lneas

mail.puerto.gmail = 465

mail.server.gmail = smtp.gmail.com

En todo momento se pueden ver los valores que poseen las variables de entorno, a

travs de la siguiente opcin: Editar -> Mostrar Variables de Entorno.

Tal y como puede observarse estas variables son utilizadas en la sesin del usuario

actual.

Si se configura un Trabajo o Transformacin para guardar la informacin de log en

una tabla de una base de datos, se puede ver la informacin de log de ejecuciones

previas al hacer clic derecho en el Trabajo o Transformacin en el rbol Principal.

La caracterstica repetir permite volver a ejecutar una Transformacin que ha

fallado. Repetir se implementa funcionalmente para "Entrada Archivo de Texto" y

"Salida Excel".

Permite enviar los archivos que contenan errores de nuevo a la fuente y que se

corrijan los datos. En casos donde se tiene una tabla destino fija, se puede mapear

57
los campos del flujo de datos actual a los correspondientes campos de la tabla

destino.

Esto puede hacerse desde una Transformacin seleccionando en el paso

"Selecciona/Renombra Valores" la opcin "Editar Mapeo":

GRFICO N.
MAPEO DE FLOJOS EN DATOS ACTUALES

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Bases de Datos no soportadas

Unos pocos tipos de bases de datos no estn soportados en esta versin debido a la

falta de una muestra de la base de datos y/o el software.

En general, se puede leer desde bases de datos no soportadas utilizando el

controlador de base de datos Generic a travs de una conexin ODBC o JDBC.

Limitaciones

58
El "Editor SQL simple" no reconoce los dialectos de todas las bases de datos

soportadas. Esto significa que crear procedimientos almacenados, disparadores, y

otros objetos especficos de base de datos pueden plantear problemas. En estos casos

se debe considerar el uso de las herramientas que vienen con la base de datos.

Validacin

Objetivo: Validacin de datos en un repositorio de preparacin.

Actividades: Una vez se tiene listo el mapeo el siguiente paso es chequear si los

datos cumplen las validaciones del sistema destino, incluyendo reglas de negocio,

restricciones de semntica o sintcticas. Estas actividades se la pueden realizar con

la misma herramienta Spoon de tal manera que el resultado de esta fase es un

conjunto de procedimientos o scripts a travs de los cuales se realizarn las

validaciones mencionadas. En este punto hay que considerar que el repositorio al

que se aplica las validaciones de negocio, puede ser un repositorio temporal donde

se almacenan los datos recibidos de la fuente con el fin de pasarlos luego de estas

validaciones al esquema definitivo

Pruebas y cargue

Objetivo: Ejecutar los scripts o el cdigo generados en la fase de desarrollo de la

migracin, enmarcndolos en un contexto de semntica del negocio que permita

resolver los problemas lgicos as como los errores fsicos.

Actividades: En la fase de pruebas del usuario se identifican y resuelven los errores

lgicos. El primer paso es ejecutar los mapas. As los mapas se ejecuten

correctamente hay que identificar:

El nmero de registros que se espera que el script cree.

Si efectivamente ese nmero de registros se crearon, si no verificar el por qu no fue

as.

59
Si los datos fueron cargados en los campos correctos.

Si el formato de los datos fue el adecuado.

Si el sistema destino permite limpiar los datos cargados si la carga no fue

satisfactoria y existe el procedimiento para hacerlo, mediante el uso de la capa

intermedia de transformacin. El objeto es asegurar que la migracin est correcta

antes de poblar el sistema destino.

Pruebas del usuario

En estas pruebas los aspectos a tener en cuenta son:

Verificar que la informacin fue convertida en el formato correcto y transferida al

campo especificado mediante el uso de cifras de control sobre los campos

significativos entre el anterior y el nuevo, estableciendo una muestra estadstica

sobre el universo de datos convertidos y transferidos.

Los datos convertidos de forma automtica deben ser formalmente verificados por

los usuarios y el jefe de sistemas.

FUNDAMENTACIN LEGAL

En la Estrategia para la Implantacin de Software Libre en la Administracin

Pblica Central, el Presidente Constitucional de la Repblica del Ecuador,

Economista Rafael Correa Delgado emiti el Decreto Presidencial No. 1014 con

fecha 10 de Abril del 2008, en el cual establece el uso del Software Libre.

De esta manera, en el Ecuador el Software Libre se convierte en una poltica

tecnolgica, en dnde el cdigo abierto, las licencias de uso libre, el uso de

estndares abiertos y el trabajo comunitario, facilitan la inclusin digital, la

soberana tecnolgica y la innovacin local, optimizando el gasto estatal,

favoreciendo el desarrollo local y promoviendo la integracin regional. La

Subsecretara de Informtica de la Presidencia de la Repblica, creada mediante el


60
Acuerdo No. 119 el 1 de agosto del 2007, tiene entre sus atribuciones y

responsabilidades elaborar y ejecutar planes, programas, proyectos, estrategias,

polticas y reglamentos para el uso de Software Libre en las dependencias del

gobierno central.

Como secundario en la REGLAMENTACIN DEL CURSO DE GRADUACIN

la cual en su artculo 31 cita que La ley de sustentacin consistir en la defensa del

proyecto, atendiendo a las preguntas que realicen los miembros del Tribunal. Las

preguntas versarn sobre temas especficos del mismo.

Art. 1.- Los objetivos de la investigacin en la Universidad de Guayaquil estn

concebidos como parte de un proceso de enseanza nico, de carcter docente-

investigativo, orientado segn norma el Estatuto Orgnico, para permitir el

conocimiento de la realidad nacional y la creacin de ciencia solucin a los

problemas del y tecnologa, capaces de dar pas. Las investigaciones dirigidas a la

comunidad tienen por finalidad estimular las manifestaciones de la cultura popular,

mejorar las condiciones intelectuales de los sectores que no han tenido acceso a la

educacin superior; la orientacin del pueblo frente a los problemas que lo afectan;

y la prestacin de servicios, asesora tcnica y colaboracin en los planes y

proyectos destinados a mejorar las condiciones de vida de la comunidad.

Art. 2.- En tanto la actividad de investigacin es una funcin de alta prioridad,

consustancial a la misin de la universidad, sobre ella ejercen direccin, control, y

responsabilidad decisoria, los mximos rganos de gobierno, y sus estrategias y

planes debern ser aprobados por la Comisin Acadmica y el Consejo

Universitario.

Art. 3.- La actividad de investigacin cientfica y tecnolgica es un rea de

responsabilidad del Vicerrectorado Acadmico de la Universidad de Guayaquil,

61
cuyo rgano operativo es la Investigacin y Desarrollo de dicha Unidad de

Posgrado, y se conforma de: una comisin asesora del Vicerrectorado Acadmico:

la Comisin de Investigacin y, una unidad de gerencia de ciencia, subordinada a la

unidad de Posgrado, Investigacin y Desarrollo: La Direccin de Investigacin y

Proyectos Acadmicos.

Art. 11.- La Direccin de Investigacin y Proyectos Acadmicos, en tanto instancia

de direccin operativa de la Unidad de Posgrado, Investigacin y Desarrollo, es

responsable de coordinar, sistematizar y administrar el investigacin cientfica en la

proceso de desarrollo de la Universidad de Guayaquil, la participacin en redes

nacionales e internacionales de bibliotecas virtuales y consorcios o redes

internacionales de universidades. Estar a cargo del director (a) y contar con una

coordinacin acadmica y un equipo de documentacin e informtica.

Art. 12.- Sus atribuciones y funciones son las siguientes:

a) Representar al Vicerrectorado Acadmico, a la Unidad de Posgrado,

Investigacin y Desarrollo, y a la comunidad acadmica y cientfica de la

Universidad de Guayaquil, a los efectos de coordinacin y relacionamiento con la

Secretara Nacional de Ciencia y Tcnica, la Comisin para la Investigacin

Cientfica y Tecnolgica y otras agencias e instituciones pblicas y privadas que

trabajan en la esfera de la competencia de esta Direccin.

b) Coordinar junto a la Comisin de Investigacin, el trabajo de conformacin del

Plan Estratgico de Ciencia y Tecnologa de la Universidad de Guayaquil, y

someterlo a la aprobacin de la Comisin Acadmica y del Consejo Universitario.

c) Coordinar y realizar el seguimiento del Plan Estratgico de la Universidad de

Guayaquil.

62
d) Elaborar el Plan Operativo Anual de Investigacin de la Universidad y las

correspondientes evaluaciones trimestrales.

e) Coordinar la aprobacin por la Comisin de Investigacin, de los Planes

Estratgicos de Ciencia y Tecnologa de cada una de las facultades e institutos.

f) Formular y someter a aprobacin de la Comisin Acadmica los reglamentos para

la actividad cientfica.

g) Evaluar el cumplimiento de los Planes Operativos de Ciencia y Tecnologa de

cada una de las facultades y unidades acadmicas.

h) Desarrollar acciones de promocin, financiamiento, capacitacin y marketing, en

apoyo a la ejecucin de los planes, polticas y lneas de investigacin aprobadas por

las autoridades y rganos de competencia.

i) Convocar el Fondo Competitivo de Investigaciones, previa autorizacin de la

Comisin de Investigacin y la Comisin Acadmica, administrar los fondos y

evaluar los proyectos asociados al FCI.

j) Convocar las comisiones temporales integradas por la Comisin de Investigacin

y la Comisin Acadmica, para la revisin, evaluacin, seleccin y aprobacin de

proyectos presentados al FCI.

k) Implementar programas continuos de capacitacin, para elevar el nivel

profesional de los especialistas y coordinadores de la actividad cientfico

investigativa en el perfil de gerencia de ciencia, y en la evaluacin y monitoreo de

proyectos de ciencia y tecnologa.

l) Promover programas continuos de capacitacin para elevar el nivel profesional de

los Profesores (as) e Investigadores (as).

m) Organizar concursos y proponer a la Comisin Acadmica el otorgamiento de

reconocimientos a los Profesores (as) e Investigadores (as), y autores de Tesis de

63
grado, maestra y doctorado, con destacados resultados en la investigacin e

introduccin de sus obras en bien de la comunidad universitaria, la regin y el pas.

n) Establecer nexos de colaboracin mutua con otros organismos de investigacin y

desarrollo., nacional e internacional.

p) Gestionar y divulgar oportunidades de colaboracin nacional e internacional, de

Financiamiento y capacitacin en el campo de la ciencia y tecnologa.

q) Proteger la produccin de los investigadores con la gestin del derecho de autor

y la propiedad intelectual, y la difusin oportuna de la legislacin vigente.

r) Coordinar con el Centro de Transferencia y Desarrollo de Tecnologas de la

Universidad de Guayaquil (CTT-UG), la labor de estmulo a la investigacin

cientfica y tecnolgica que debe realizar esta institucin, as como su planes de

canalizacin de las demandas de investigacin, introduccin de resultados

cientficos, promocin y Capacitacin para lograr multiplicar las fortalezas de la

universidad, evitar duplicidad de acciones y alcanzar una ms profunda insercin en

la solucin de los problemas concretos que demanda el desarrollo de la regin y el

pas.

s) Racionalizar el uso de los recursos destinados a la investigacin y obtener fuentes

de financiamiento externo

t) Informar peridicamente de las acciones realizadas a la Direccin de la Unidad

de Postgrado, Investigacin y Desarrollo, Vicerrectorado Acadmico y Rectorado.

u) Desarrollar el talento cientfico y la formacin de investigadores en la educacin

de pregrado a travs de becarios en preparacin de tesis de grado.

Art. 18.- La Investigacin en la Universidad de Guayaquil, estar orientada por el

Plan Estratgico de Ciencia y Tecnologa a elaborarse cada cinco aos en

concordancia con la Poltica Nacional de Ciencia, Tecnologa e Innovacin de la

64
Secretara Nacional de Ciencia y Tcnica, y las Polticas de Ciencia y Tecnologa

del CONESUP, en el marco de una propuesta de la Universidad para el desarrollo

local, regional y nacional.

HIPTESIS O PREGUNTAS A OBJETAR.

Cmo un Diseo de Transformacin de Datos utilizando la Herramienta Spoon de

Pentaho puede migrar varias bases de datos subsanando la data inconsistente?

CUADRO N.
VARIABLES DEL ESTUDIO
HIPTESIS Variables Independientes
Cmo un diseo de
Transformacin de Datos
utilizando la herramienta - Inconsistencia de los datos
Spoon de Pentaho puede
migrar varias bases de datos
subsanando la data
inconsistente?

Variable Dependiente.

- Multas por retrasos en la entrega de la


Informacin.

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Variable Dependiente.

Gastos operativos de la empresa y observaciones por retrasos de Balance hacia

los entes de control: El objetivo del actual diseo de transformacin es prescindir

de los gastos operativos que se han ido presentando y de observaciones o llamados

de atencin por incumplimiento en los tiempos de entrega de balances hacia los

entes de control, esto favorecera a la empresa tanto el su utilidad como en su

crecimiento. Beneficindonos de la herramienta Spoon que es de cdigo abierto, til

65
para trasladar informacin desde un repositorio a otro y para tal objeto la

transformacin de datos nos permite demostrar que no es necesario desgastarse en

horas de trabajo, costos altos para la empresa, riesgos de data perdida, funcionalidad

ptima en los procesos que destacan a la herramienta Spoon como la mejor

alternativa.

Variables independientes.

Inconsistencia de los datos: Desde el punto de vista de la administracin podemos

resumir que el 60% de la data a nivel nacional se encuentra inconsistente y esto

repercute a gran escala a la empresa, ya sea al momento de reportar la informacin

detallada as como tambin al rea de cobranzas para realizar su trabajo de forma

exitosa y recuperar la cartera vencida.

Falta de capacitacin a los empleados: Para obtener una idea ms clara del estudio

que se va a realizar se analizaron varios motivos por el cual la data estaba mal

ingresada., esto se debe a la falta de capacitacin a los empleados, adicionalmente al

repositorio decadente que poseen.

RUIZ (2003) Expresa: La formacin de recursos humanos con capacidades de


aprendizaje, investigacin, creatividad y una slida formacin socio humanista
que les permita elegir con sencillez y sensibilidad la tecnologa en beneficio del
hombre y la naturaleza. (pag. 8)

CAPTULO III
METODOLOGA

CAPITULO III - METODOLOGIA

66
DISEO DEL ESTUDIO

MODALIDAD DEL DISEO DE TRANSFORMACIN

La modalidad a la que mejor se adeca nuestro estudio de diseo es a la de

propsito realizable por qu es factible la utilizacin de la herramienta ya que est

libre de licenciamiento y es aplicable a cualquier migracin de base de datos.

10%: Bibliografa.

10%: Campo Entrevistas y Encuestas.

30%: Creatividad Tcnica Instauracin de scripts como filtros para el traspaso.

50%: Software Open Source Transformacin de Datos.

TIPO DE ESTUDIO

Por los objetivos.- Estudio bsico, creacin de la nueva estructura de datos

relacional diseado bajo el anlisis de la transformacin requerida por la empresa

que nos permitan representar el inconveniente.

Por el Territorio.- De campo, el estudio debe originar conocimientos y

enriquecerse mediante entrevistas a personas especializadas en el campo de la

administracin de base de datos.

Por el ambiente.- Para la toma de decisiones, el estudio debe comparar y plantear

alternativas de solucin para demostrar la hiptesis.

Por la trayectoria.- Emprico, predice lo que ocurre, el dselo de transformacin de

datos que se aplica para el estudio debe catalogar segn el tamao de la base de

datos, la medicin de las transacciones y la falta de personal a las agencias.

Por la factibilidad.- Proyecto realizable, se propondr un diseo de transformacin

de datos prctico que tendr la capacidad de migrar la informacin desde un

67
repositorio a otro sin tener riesgos de perdida de data y como resultado nos arrojara

la probabilidad que tiene la herramienta al realizar la transformacin con xito.

POBLACIN Y MUESTRA

Poblacin:

El anlisis elaborado para este estudio se lo realiz en la empresa Servicios

Nacionales que tiene como sede principal Guayaquil, con sucursales en:

Manab

El Oro

Azuay

Tulcn y

Esmeraldas

Cabe mencionar que en todas las sucursales incluyendo matriz se tienen errores, los

cuales provocan problemas de diferente ndole, que afectan la productividad y

eficiencia de la institucin.

Muestra:

Para el anlisis de la problemtica existente en la empresa Servicios Nacionales,

hemos considerado calcularlo mediante dos mtodos matemticos: Uno en el que

calcularemos el tamao de la muestra considerando el Error de Estimacin, de la

misma manera utilizaremos el segundo mecanismo para la validacin del calculado

de la muestra del primer mecanismo, el cual describimos a continuacin:

CUADRO N. .
Datos Obtenidos de la Empresa

68
POBLACIN N

Manab 180

Otras agencias 320

TOTAL 500
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

Se aplica la frmula:

n: Tamao de muestra PQ: Varianza =0.25


P.Q. * N N: Poblacin
n
( N 1) E 2 / K 2 P.Q
E: Margen de error
K: Constante de correccin del error =2

EL TAMAO DE LA MUESTRA

P. Q. N m
n n
( N 1) E 2 / K 2 P. Q 2
e ( m 1) 1

PRIMER MTODO SEGUNDO MTODO

P = Probabilidad de xito (0.50)


Q = Probabilidad de fracaso (0.50) m= Tamao de la poblacin (500)
N= Tamao de la poblacin (500) E= error de estimacin (6%)
E= error de estimacin (6%) n = Tamao de la muestra (180)
K= # de desviac.
0.50 xTpicas Z (1:
0.50 x500
2: 95,5%, 3:
n68%, 2 99.7%)
(500 1)0.06 / 2 0.50 x0.50
2

n = Tamao de la muestra (180)


125 500
n n
( 499)(0.0036) / 4 0.25 (0.06) (500 1) 1
2

125 500
n n
( 499)(0.0009) 0.25 (0.0036)(499) 1
125 500
n n
0.4491 0.25 1.7964 1 69
125 500
n n
0.6991 2.7964
n 178.80 n 178.80
Clculo de la fraccin
muestral:

n 178.80
f 0.3576
N 500

Dado a que la muestra seleccionada representa un 35,76% en relacin a la

poblacin, se realiz un segundo anlisis que se fundament al mayor nmero de

incidencias a nivel de la base de datos, cuya referencia nos servir para realizar las

encuestas.

CUADRO N.
Estimacin de Porcentaje

Agencias Poblacin Porcentaje

Manab 180 0.36 %


Matriz 120 0.24 %
Otras Agencias 190 0.38 %

TOTAL 500 100 %

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

DELARBRE (2009) Expresa: En la sociedad de la informacin (SI) ya no se


aprende para la vida; se aprende toda la vida. (pag. 10)

70
Luego de tener el porcentaje de la muestra de cada agencia se consider validar la

data de esa muestra para certificar su contenido, en todas las agencias se

encontraron los mismos tipos de errores pero con mayor afluencia en la sucursal

Manab, ya que es la nica agencia que posee servicio de puerta a puerta. Por tanto

se decidi tomar la sucursal Manab para nuestro estudio.

OPERACIONALIZACIN DE LAS VARIABLES

CUADRO DE VARIABLES

CUADRO N.
MATRIZ DE OPERACIONALIZACIN DE VARIABLES
Variables Dimensiones Indicadores Tcnicas y/o
Instrumentos

Independientes. Evaluacin: Comprensin Manual Bsico SPSS


Variables Empresa formulario ( cil.utalca.cl/docs/
Dicotmicas Servicios en un 60% estudios/Manual
(Inconsistencia Nacionales. Basico SPSS.pdf)
de los Datos). Inters del
entrevistado
Variables 50%
Categricas Unidad de Registro de Synapsis Ltda.
(Falta de Informacin Usuarios Diseo, desarrollo e
Capacitacin a de la Carrera. matutino implantacin del
los empleados) 100% sistema de
informacin
misional de la
Procuradura
General de la
Nacin. Plan de
Pruebas. Propuestas
Dependientes Diseo Metodologa Consulta a expertos.

Variables de Calidad de la Se usaron Cuestionarios,


Control (Gastos investigacin entrevistas y entrevistas, test,
operativos de la encuestas conversatorios.
empresa y para
observaciones englobar el
por retrasos de problema.
Balance hacia los
entes de
Control).
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

71
TIPOS DE INVESTIGACION

Se realiz un piloto de recaudacin de datos basado principalmente en entrevistas y

encuestas en el cual se puntualizan las etapas que se llevaron a cabo para organizar

los datos en estudio. Al instante de recopilar datos se aplic el software SPSS, para

el mejor proceso de los datos. Se discurre que la tcnica establecida que se utiliz es

de campo.

CUADRO N.
DIAGRAMA DE LA TCNICA UTILIZADA

Disear Estructura Requerida por el Negocio


Especificar estructura de BDD a ser migrada y formato
de presentacin.

Diseo de Recaudacin de Datos. (Objetivos,


medios, formatos y tamaos de muestra)

Elaboracin de Encuestas

Procreacin de sucesos crticos

Evaluacin de Incidentes Crticos

Redistribucin de sucesos crticos

Grupos de Disputa Crtica.

Composicin Final de script de Migracin

Anlisis de estabilidad
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

72
EN EL ESTUDIO

La tcnica principal del estudio que se est realizando es la entrevista y basado en

los datos que se obtengan se realizarn las encuestas, como se lo explica a

continuacin, los datos sern analizados por el software SPSS (Paquete estadstico

potente y fiable) que servir para el anlisis estadstico y nos ayudar a exponer el

estudio del diseo de transformacin de datos.

LOS UTENSILIOS

Tcnica Instrumento

Entrevista Guion de Entrevista

Encuesta Cuestionario

INSTRUMENTOS DE RECOLECCIN DE DATOS

Se utilizaran entrevistas y encuestas.

Entrevistas.- Se consult a varios expertos en administracin e base de datos sobre

el problema que causa la inconsistencia de los datos en los repositorios de las

empresas para recolectar informacin.

Encuestas.- Se realiz un cuestionario fcil de entender y sobre todo que represente

el problema.

Los resultados de las entrevistas fueron comparados con artculos de internet y sobre

todo las respuestas fueron validadas por expertos.

Se efectu el tipo de observacin simple y participante.

Entrevistas; Cuestionarios y Encuestas.

Los Instrumentos de investigacin fueron:

Libros e Internet.

73
PROCESAMIENTO DE LA INFORMACIN

EN EL PROYECTO

Se efectuaran la mayor cantidad de entrevistas y encuestas posibles con el objetivo

de medir el problema y dar la solucin ptima para la solucin del problema.

Se indagara encontrar posibles formas o circunstancias en las cuales se filtre la

informacin inconsistente en la base de datos de forma directa y se medir el

porcentaje de efecto que tienen los perifricos al no funcionar de la manera ptima

en el mundo real.

RECOLECCIN DE LA INFORMACIN

ENTREVISTA A DBAS

Preguntas claves sobre la importancia de los datos confiables en la base

1.- La falta de Capacitacin es indicativo del mal ingreso de datos por parte de

los usuarios?

Si, ya que el ingreso de la informacin en los distintos sistemas no siempre son las

mismas y los usuarios suelen ingresar los datos a su eleccin

2.- Qu indicios son muestras de que una base de datos se encuentre

inconsistente?

Por lo general los sntomas ms comunes se presentan cuando se repiten

innecesariamente los datos en los archivos que conforman la base de datos y esto se

debe a un grupo de factores que en su mayora van asociados al ingreso de los datos

desde algn aplicativo mal diseado, al tipo de dato que le creemos a los campos de

la base, a las longitudes, columnas, etc. Muchas veces este tipo de errores no causan

molestia en el performance de la base, pero si al usuario final o a la gestin del

servicio dependiendo del giro del negocio.

74
3.- La carencia de un Manual de Usuario provoca un alto porcentaje de

inconsistencia de los datos?

Si, en varias empresas no se camacita al personal por falta de tiempo y solo recibe

una induccin sencilla que suele darse por la persona que renuncia, pero esta

capacitacin no siempre es entendida por tanto un empleado debe ser dotado por un

Manual de Usuario con el que pueda acudir en casos de tener duda.

4.- Cul es la causa principal de tener datos errados en la base?

La causa principal se da por el mal ingreso de la informacin por parte del usuario

y por la mala arquitectura que posee el software al permitir ese mal ingreso.

5.- Qu bases de datos estn ms propensas a tener inconsistencias?

Por lo general los sistemas que poseen vulnerabilidades a nivel de estructuras, tipos

de datos, ingresos sin validaciones son las ms propensas a tener inconsistencias,

dado que estas falencias permiten el ingreso de la informacin de forma desigual por

tanto el usuario puede ingresarla descomunalmente sin que el sistema no se le

permita.

6.- Existe algn mtodo para detectar con anticipacin las falencias que pueda

poseer un sistema en cuanto al ingreso de los datos?

De hecho se la puede detectar en el ambiente de TEST o prueba, una vez que el

proveedor entrega el software a ser implementado debe probarse todo el manual

tanto tcnico como de usuario con el fin de detectar problemas mucho antes de

ponerlo en Produccin y esto por lo general toma de una a dos semanas

dependiendo de la complejidad del sistema.

7.- Qu tipo de base de datos es recomendable para una mediana empresa?

Lo primero que debemos analizar es la transaccionalidad de la empresa, la cantidad

de datos que va almacenar, el presupuesto asignado a gastar y el nivel de seguridad

75
que necesitemos poseer. Para este proyecto se recomend PostgreSql, ya que es una

base de datos segura, confiable y sin costo de licenciamiento.

LA ENCUESTA

CONTENIDOS.

Servicios Nacionales (Fue dirigida hacia los servicios funerales que ofrece esta

institucin).

Estudio del Diseo de Transformacin de Datos utilizando la Herramienta Spoon de

Pentaho Open Source Business Intelligence sobre Plataforma Linux.

ENCUESTA SOBRE EL TIPO DE RECLAMOS DE LOS CLIENTES

1. Marque los tipos de reclamos que ha percibido, en caso de tenerlos.

___ Datos errados ___ Pagos inexistentes en el

Sistema

___ Informacin duplicada ___ Inventario desactualizado

___ Lentitud del Sistema ___ Mala Cobranza

2. Datos Relevantes.

Edad _________ Hermanos _________ Hijos ___________

3. Realiza pagos en las agencias? Si ___ No ___

Con qu frecuencia?

___ Una vez a la semana ___ Dos veces por semana

___Una vez al mes ___ Nunca

4. Empleados de la empresa van a cobrar a su casa? Si___ No___

Con qu frecuencia?

___ Una vez a la semana ___ Dos veces por semana

___Una vez al mes ___ Nunca

76
5. Cuando realiza sus pagos, le solicitan actualizar sus datos? Si ___ No___

Con qu frecuencia?

___ Mensualmente ___ Raras veces

___ Casi siempre ___ Siempre

6. Ha realizado algn tipo de reclamo por mal ingreso de sus pagos?

___ Siempre ___ A veces

___ Casi siempre ___ Nunca

7. Sabe usted de algn caso de fraude por pagos realizados en agencias?

Si ___ No ___

8. Detalle el tipo de fraude

___________________________________________________________________

9.- Sexo:

Masculino: ____ Femenino: ____

VALIDACIN

El trabajo fue revisado por expertos en el rea de base de datos, como tambin en el

campo de la arquitectura en diseo de software.

El diseo de la transformacin de los datos fue validado probando que los

resultados guarden coherencia con los datos de la muestra.

PROCEDIMIENTOS DE LA INVESTIGACIN

Demostrar que la herramienta Open Source Spoon de Pentaho sirve para

transformar los datos desde una base de datos a otra y lo hace de forma fcil, rpida

y segura, ahorrando costos hacia la empresa.

Elaboracin del modelo entidad relacin de los datos.

Entrevista a expertos, en el campo de la informtica para aterrizar el estudio de la

transformacin de los datos.

77
Realizar el formulario de preguntas.

Realizar el formulario a la muestra.

Realizar scripts que permitan el filtrado de los datos como tcnica para representar

la transformacin de manera ntegra.

Formulacin del diseo de transformacin.

Validacin del diseo de transformacin.

Representacin del diseo que modele el problema.

Recoleccin de la informacin.

Los datos alcanzados para este estudio florecieron mediante la observacin directa,

ya que valieron para la correccin y mejora de los procesos actuales que posea la

empresa Servicios Nacionales tanto con los clientes como para control interno de los

mismos y as tomar los correctivos necesarios para una mejora organizacional.

Formalmente este tema de investigacin se lo realiz en la empresa privada

Servicios Nacionales, se solicit la autorizacin de los responsables departamentales

para realizar las encuestas y las entrevistas.

1.- Se elabor un modelo de recoleccin de datos.

2.- Para recolectar los datos se realizaran entrevistas y encuestas.

3.- Para las cuales usamos un modelo de regresin logstica, y gracias a este modelo

le pudimos dar un tratamiento adecuado a los datos.

PROCESAMIENTO Y ANLISIS

Se cre una base de datos para pruebas en un servidor virtual Suse Linux 12.1, para

simular la migracin y se efectu el procesamiento de la informacin por medio de

modelos determinsticos y para su anlisis hemos considerado mtodos

estadsticos.

78
Una vez realizado el levantamiento de informacin a travs de los cuestionarios

descritos, comienza una fase esencial para nuestra investigacin, me refiero a la

clasificacin o agrupacin de los datos referentes a cada variable objetivo de estudio

y su presentacin conjunta. Hemos seguido cuatro pasos para el anlisis de los

datos.

Validacin y Edicin

Codificacin

Introduccin de datos

Tabulacin y anlisis estadsticos.

VALIDACIN

Es el proceso de verificar que las entrevistas se hayan hecho de acuerdo a lo

establecido.

La meta de la validacin es exclusivamente detectar un fraude o una falla del

entrevistador en seguir las instrucciones claves.

En nuestra entrevista, se explot todos los conocimientos del jefe de sistemas de esa

institucin y tratamos de aclarar todas las dudas acerca de la mala arquitectura del

sistema anterior, para poder darle el tratamiento ms ptimo a los datos.

EDICIN

Implica verificar los errores del entrevistado. El proceso de edicin para las

encuestas por escrito implica una verificacin manual de varios problemas,

incluyendo los siguientes:

Si el entrevistado no registro las respuestas a ciertas preguntas.

Si el entrevistado comprendi de qu se trataba la encuesta.

79
CODIFICACIN

Se refiere al proceso de agrupar o asignar los cdigos numricos a las varias

respuestas, la mayora de las preguntas de las entrevistas son cerradas y estn pre-

codificadas.

PROCESO DE CODIFICACIN

Luego de haber realizado la recoleccin de la informacin, la tabulacin de estos

datos es un factor importante que permitir reflejar a travs de porcentajes la

situacin actual del entorno en donde se desenvuelve nuestra poblacin.

La tabulacin se desarroll a travs de un conteo manual de cada una de las

preguntas contestadas por los clientes. Donde se obtuvo como resultado los datos y

grficos estadsticos que se detallan a continuacin:

ANLISIS DE RESULTADOS

Para la tabulacin de los datos se utiliz un cuadro haciendo un anlisis individual

por cada pregunta y una representacin grfica de los mismos, su cuantificacin se

realiz con el estadstico porcentaje cuya frmula es:

% = Tanto por ciento que se encuentra en el total del estudio.

F = Nmero de veces que se repite el dato.

100 = Constante de la muestra

N = Total de Datos.

RUIZ (2003) Expresa: La formacin de recursos humanos con capacidades de


aprendizaje, investigacin, creatividad y una slida formacin socio humanista
que les permita elegir con sencillez y sensibilidad la tecnologa en beneficio del
hombre y la naturaleza. (pag. 8)

80
EL CUESTIONARIO

Pregunta 1:

1.- Han recibido algn curso donde se los capacite en cuanto al manejo de

Access?

CUADRO N.
HA RECIBIDO CURSOS DE CAPACITACIN

DATOS UNIDADES PORCENTAJE


Si 72 3,8
No 108 96,2
Total 180 100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

GRFICO N.
Tabla de Cuestionario Capacitacin

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Interpretacin de Resultados: El 96% de usuarios encuestados no han recibido

curso de capacitacin de la herramientas Access.

Se debe invertir en el recurso humano para qu? Son preguntas latentes e

invalorables todava de parte de la poblacin y de algn sector empresarial, porque

piensan en la utilidad y no en la productividad, por ello es bueno recordar que la

educacin no es otra cosa que una inversin.

81
2.- Usted deseara que las ventas y pagos de las diferentes agencias se puedan

verificar o validar con datos actuales desde el sistema?

CUADRO N.
DESEA QUE LAS TRANSACCIONES SE VALIDEN DESDE EL SISTEMA
DATOS UNIDADES PORCENTAJE
No 10.8 6
Si 169.20 94
Total 180 100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

GRFICO N.
Tabla de Cuestionario Ventas y Pagos
Deseara que las ventas y pagos de las diferentes agencias
Se puedan validar desde el sistema

No Si

6%

94%

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Interpretacin de Resultados: El 94% de los informantes desean que las ventas y

pagos de las diferentes agencias puedan ser verificadas desde el sistema.

Normalmente los aplicativos trabajan en lnea ya sea en las diferentes agencias

conectados a un servidor principal donde se configura en envo de paquetes en un

determinado tiempo de diferencia en al cual se va actualizando la informacin, y as

disminuir el riesgo de inseguridad o incongruencia de los datos almacenados.

82
3.- Deseara poder revisar el inventario actual de las diferentes agencias?

CUADRO N.
INVENTARIO ACTUAL DE LAS DIFERENTES AGENCIAS
DATOS UNIDADES PORCENTAJE
No 5.4 3
Si 174.6 97
Total 180 100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

GRFICO N.
Tabla de Cuestionario Inventario
Poder ver el inventario Actual de las diferentes agencias

No Si
3%

97%

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Interpretacin de Resultados: EL 97% de los encuestados desean poder revisar y

tener actualizado el inventario de las diferentes agencias.

Las conexiones entre agencias hacia un servidor principal logran que aquello de ir

actualizando el inventario de todas las agencias, ya que por medio de paquetes

desarrollados en la base, logren mantener actualizada la informacin.

4.- Cree usted que al registrar un pago o una venta, el sistema debe tener

ciertas seguridades adicionales como el ingreso de la clave de un Supervisor?


83
CUADRO N.
SEGURIDADES EN REGISTRO DE TRANSACCIONES
DATOS UNIDADES PORCENTAJE
Si 7.2 4
No 172.80 96
Total 180 100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

GRFICO N.
Tabla de Cuestionario Seguridades
Seguridades adicionales al registrar un pago o una venta en el sistema

4%

No Si

96%

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Interpretacin de Resultados: EL 96% de los informantes no estn de acuerdo que

sea necesaria la clave o la autorizacin del supervisor en el caso de realizar una

venta o un pago desde el sistema.

Es importante tener en cuenta que la idea de realizar este tipo de seguridades

adicionales es con el fin de minimizar posibles estafas o riesgos de perdida de

dinero.

84
5.- Cree usted necesario que Servicios Nacionales adquiera tecnologa de

punta en donde se pueda garantizar las transacciones e informacin de los

clientes?

CUADRO N.
GARANTIZAR LA INVIOLABILIDAD DE SUS DATOS
DATOS FRECUENCIA PORCENTAJE
No 7.20 4
Si 172.80 96
Total 180 100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales
GRFICO N.
Tabla de Cuestionario Garantizar transacciones
Garantizar las transacciones e informacin de Clientes

4%

No Si

96%

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Interpretacin de Resultados: EL 96% de los informantes estn de acuerdo que

Servicios Nacionales adquieran tecnologa de punta para garantizar las transacciones

e informacin de sus clientes.

Es importante tener en cuenta que la idea de tecnologa de punta refiere a lo ms

avanzado que existe en un determinado momento. Con el avance del tiempo, los

productos dejan de ser innovadores y se vuelven obsoletos, siendo reemplazados

por otros. Estos nuevos productos son los que contarn, por un tiempo, con la

denominacin de tecnologa de punta.

85
6.- Est usted de acuerdo que Servicios Nacionales al adquirir tecnologa de

punta usted sea capacitado en las mismas?

CUADRO N.
TECNOLOGA DE PUNTA PARA SER CAPACITADO
DATOS FRECUENCIA PORCENTAJE
No 9 5
Si 171 95,2
Total 180 100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

GRFICO N.
Tabla de Cuestionario Tecnologa
Servicios Nacionales adquiera tecnologa de punta y que sea
Capacitado en esta.

5%
No

Si
95%

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Interpretacin de Resultados: EL 95% estn de acuerdo estar capacitados con la

nueva tecnologa adquirida por Servicios Nacionales para poder agilitar el proceso

de venta, registro y pagos a realizar por cada agencia.

Norma establecida en la Ley Federal del Trabajo que obliga a toda entidad o

empresa a proporcionar capacitacin y adiestramiento a sus trabajadores, para elevar

la produccin y productividad y contribuir al logro de objetivos institucionales o

empresariales, para lo cual es necesario que todo el personal participe activamente.

86
7.- Le gustara a usted poseer un sistema eficiente, relacional y seguro para

ahorrar tiempo y dinero en todas las agencias que posee la empresa?

CUADRO N.
AHORRAR TIEMPO Y DINERO EN TODAS LAS AGENCIAS
DATOS FRECUENCIA PORCENTAJE
No 9 5
Si 171 95
Total 180 100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

GRFICO N.
Tabla de Cuestionario Ahorrar tiempo y dinero
Ahorrar tiempo y dinero en todas las agencias

No Si

5%

95%

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Interpretacin de Resultados: EL 95% le gustara firmar tener un sistema

relacional, seguro y eficiente para poder agilitar sus trmites y por ende ahorra

tiempo y dinero que a la larga le representa ganancias en sus respectivas

transacciones.

Valor del dinero en el tiempo: Recompensa de sacrificar consumo presente para

poder consumir en el futuro. La medida econmica de este sacrificio es la tasa de

inters. El dinero disponible hoy, vale ms que la expectativa de la misma cantidad

que se recibir en el futuro.

87
LAS HIPTESIS

Hiptesis N 1 Seguridad de la Informacin

1.- Crecidamente el 97% de los usuarios aseguran requerir que la informacin de todas

las agencias se encuentre centralizadas y actualizada.

CUADRO N. 5
SEGURIDAD DE LA INFORMACIN
DATOS FRECUENCIA PORCENTAJE
No 5.4 3
Si 174.6 97
Total 180 100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

GRFICO N.
Hiptesis Seguridad de la Informacin

Seguridad de la Informacin

No Si
3%

97%

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Esta hiptesis queda confirmada de acuerdo a la pregunta nmero tres que en su

enunciado dice Deseara poder revisar el inventario actual de las diferentes

agencias?, donde el 97% de los encuestados estn de acuerdo.

88
Hiptesis N 2 - Inviolabilidad

2.- De 20 usuarios de la empresa Servicios Nacionales 18 de ellos aseguran que al

tener la facilidad de registrar los pagos desde cualquier agencia a nivel nacional

debera la funeraria poner seguridades en las diferentes transacciones.

CUADRO N. 16
INVIOLABILIDAD
DATOS FRECUENCIA PORCENTAJE
No 7.2 4
Si 172.80 96
Total 180 100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

GRFICO N.
Hiptesis Inviolabilidad
Garantizar la inviolabilidad de sus pagos en cualquier agencia.

4%

No Si

96%

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Esta hiptesis queda contestada de acuerdo a la pregunta nmero cinco que en su

enunciado dice Cree usted necesario que Servicios Nacionales adquiera tecnologa

de punta en donde se pueda garantizar las transacciones e informacin de los

clientes?, donde el 96% de los encuestados estn de acuerdo.

89
Hiptesis N 3 - Garantizar transferencias

3.- Los usuarios del rea de ventas necesitan emplear seguridades tecnolgicas para

realizar los diferentes trmites en lnea.

CUADRO N. 17
GARANTIZAR TRANSFERENCIAS
DATOS FRECUENCIA PORCENTAJE
No 19.8 11
Si 160,2 89
Total 180 100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

GRFICO N.
Hiptesis Garantizar transferencias
Seguridades tecnolgicas para garantizar las transferencias
En lnea

Muy bajas 3%
4% 4%

Bajas

Altas
89%
Muy altas

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Esta hiptesis queda confrontada de acuerdo a la pregunta nmero cuatro que en su

enunciado dice Cree usted que al registrar un pago o una venta, el sistema debe

tener ciertas seguridades adicionales como el ingreso de la clave de un

Supervisor?, estn de acuerdo con el 89 %.

90
Hiptesis N 4 - Cursos y Capacitacin

4.- El personal tcnico de la empresa plantea que la capacitacin apropiada recibida

les servir para la correcta utilizacin de la herramienta tecnolgica, ya que as

podrn brindar algn soporte tcnico al usuario.

CUADRO N. 18
CURSOS Y CAPACITACION
DATOS FRECUENCIA PORCENTAJE
No 7.2 4
Si 172.8 96
Total 180 100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

GRFICO N.
Hiptesis Cursos de Capacitacin

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Esta hiptesis queda verificada de acuerdo a la pregunta nmero uno Ha recibido

un curso de capacitacin en los sistemas que utiliza actualmente?, el 96% de los

empleados de la compaa Servicios Nacionales no han recibido dicha capacitacin

o actualizacin.

91
Hiptesis N 5 - Ahorrar tiempo y dinero

5.- Los usuarios de la funeraria Servicios Nacionales consideran que se ahorrara

dinero al efectuar sus transacciones en un sistema centralizado.

CUADRO N. 19
AHORRAR TIEMPO Y DINERO
DATOS FRECUENCIA PORCENTAJE
No 9 5
Si 171 95
Total 180 100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

GRFICO N.
Hiptesis Ahorrar tiempo y dinero
Ahorrar tiempo y dinero en su lugar de trabajo
No Si

5%

95%

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Esta hiptesis queda verificada de acuerdo a la pregunta nmero uno Han

recibido algn curso donde se los capacite en cuanto al manejo de Access? con

el 95%.

92
CRITERIOS PARA LA ELABORACIN DE LA PROPUESTA

Los inconsistencias encontradas en las data de la empresa Servicios Nacionales y

razonamientos que se utilizaron para la proposicin fueron por cumplir con las

metas de cumplimiento reducir costos para la empresa, reducir gastos y velar por la

seguridad, confiabilidad, garanta y el uso de las normas comerciales internacionales

que rigen en el mercado actualmente. El Spoon que es la propuesta para la solucin

del problema a investigar, fue creado con criterios de seguridad informtica basados

en la enseanza y amaestramiento continuo para la seguridad e integridad de la

informacin de Servicios Nacionales.

Las herramientas a utilizar fueron:

PostgreSql

Spoon de Pentaho

Suse Linux 12.1

Access 2003

Las tipologas fundamentales que tendr esta base de datos son las siguientes:

Inviolabilidad de la informacin.

Portabilidad.

Seguridad.

Adecuada distribucin y almacenamiento de los datos.

Ahorro de tiempo y dinero.

HERNNDEZ (2010) Expresa: Las tecnologas informticas son una parte


importante del desarrollo de las compaas, ellas conforman actualmente el
tronco tecnolgico del avance a nivel mundial. (pag. 7).

93
CAPTULO IV

MARCO ADMINISTRATIVO

CAPITULO IV MARCO ADMINISTRATIVO

CRONOGRAMA

El cronograma de la migracin se muestra a continuacin. Los ajustes sobre el

cronograma se darn por lineamientos del estudio por modificaciones realizadas a

travs de requerimientos formales por parte del jefe de sistema de la empresa.

GRFICO N.
CRONOGRAMA DE TRABAJO

Elaboracin: Johanna Hernndez Velasco


Fuente: Servicios Nacionales

Descripcin de los procesos

De acuerdo con el anlisis inicial de la informacin de los sistemas actuales y la

planeacin estimada se plantea ejecutar las siguientes iteraciones dentro del proceso

de migracin de datos:

94
La iteracin 1 corresponde a la migracin de catlogos e inicio de la migracin

histrica. El proceso crtico es la homologacin de datos para consolidar en las

estructuras de referencia y debe ser adelantado en la fase de anlisis y diseo.

La iteracin 2 incluye la migracin de casos activos y algunos otros datos histricos.

En esta iteracin la labor ms importante es la definicin de equivalencias entre

etapas y actividades del proceso entre los sistemas actuales y Spoon.

La iteracin 3 abarca los procesos de migracin de relatora y continuacin de casos

activos e histricos. Es importante resaltar en esta iteracin la complejidad en la

transformacin de este tipo de objetos a la base de datos (datos de muy grande

longitud).

En la iteracin 4 se desarrollarn los procesos de migracin de los histricos y

activos pendientes.

El detalle de la migracin ser el resultado de la etapa de anlisis y diseo de cada

iteracin y tendr que estar sincronizado con las generaciones en los pasos del

diseo.

CUADRO N.
PLANIFICACIN DETALLADO DEL TRABAJO REALIZADO

Nombre Das Inicio Fin


Levantamiento de Informacin 24,875 14/05/2012 15/06/2012
9:00 17:00
Anlisis de documentacin de los procesos 14,375 18/06/2012 06/07/2012
8:00 11:00
Diseo de mapa de procesos 2,75 06/07/2012 11/07/2012
12:00 10:00
Identificacin de procesos crticos 6,562 11/07/2012 19/07/2012
11:30 17:00
Diseo de indicadores de procesos 6,562 20/07/2012 30/07/2012
8:00 13:30
Diseo del espacio fsico 4,312 30/07/2012 03/08/2012
14:30 17:00
Anlisis- implementacin de Servidores 6 06/08/2012 13/08/2012
Linux 8:00 17:00

95
Creacin Base de Datos PostgreSql 4 14/08/2012 17/08/2012
8:00 17:00
Diseo de modelamiento de Bases de 21 20/08/2012 17/09/2012
Datos 8:00 17:00
Seguridades lgicas 13 03/09/2012 19/09/2012
8:00 17:00
Anlisis de alternativas HARDWARE 8,75 19/09/2012 01/10/2012
10:00 17:00
Anlisis de alternativas de seguridad 8 03/10/2012 12/10/2012
lgicas 8:00 17:00
Instalacin del Aplicativo en las diferentes 13 15/10/2012 31/10/2012
agencias 8:00 17:00
Definiciones de acceso- usuarios- 5 25/10/2012 31/10/2012
administradores 8:00 17:00
Implementacin de contingencia 28 01/11/2012 10/12/2012
8:00 17:00
Diseo de respaldo 13 11/12/2012 27/12/2012
8:00 17:00
Verificacin - afinamientos 27 28/12/2012 04/02/2013
8:00 17:00
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

Manejo de inconsistencias

Los datos que no puedan ser ingresados en el modelo de datos, porque no cumplen

con su estructura sern llevados a un repositorio de inconsistencias, a travs del un

procedimiento que abarca el registro y la correccin de la inconsistencia, que se

describe a continuacin:

Registro de inconsistencias

Los datos que no puedan ser cargados, por ser invlidos sern enviados a un

repositorio de inconsistencias. Este repositorio contendr una tabla de

inconsistencias por cada tabla fuente de informacin. La tabla de inconsistencias

contendr los mismos campos de la tabla origen y un identificador de la

inconsistencia. El registro origen ser insertado en la tabla de inconsistencias, y el

proceso generar un consecutivo que se convertir en la llave de la tabla.

96
Existir una estructura en la cual se registrarn todas las inconsistencias,

referenciadas por el nmero de llave de la inconsistencia.

Correccin de inconsistencias

El jefe de sistemas en conjunto con los usuarios definidos para el proceso de

correccin de la data, tendrn acceso al repositorio de inconsistencias y tomar la

informacin para realizar la depuracin correspondiente. Posteriormente deber

cargarse la informacin depurada al repositorio de fuentes de informacin y

ejecutar nuevamente el proceso de migracin, en un proceso cclico, hasta que la

totalidad de los datos sean cargados.

Pruebas

Un factor crtico para el xito de la migracin de datos es la realizacin de pruebas.

Es recomendable hacer pruebas generales para comprobar que el proceso completo

funciona correctamente, medir los tiempos para tener una planeacin integral y

minimizar los riesgos. Las pruebas generales corresponden a las pruebas del usuario

que se ejecutan en cada iteracin. Tambin es indispensable la ejecucin de

transacciones de prueba con datos reales y con casos especiales (que no se presentan

comnmente pero generan inconvenientes), en el nuevo sistema para verificar que la

informacin se est procesando como se espera. La ejecucin en paralelo identifica

errores en la conversin y transferencia de datos pues los resultados de una misma

transaccin, utilizando los mismos datos de entrada, pueden no generan los mismos

resultados. Estas pruebas corresponden a pruebas funcionales. Se debe tener en

cuenta que para la ejecucin de estas pruebas, el proceso de migracin debe

ejecutarse en el ambiente de pruebas, con la realizacin previa de las pruebas de

migracin del usuario

97
PRESUPUESTO

Nuestro presupuesto comprende los diferentes gastos que se llevaran a efecto, para

el cumplimiento del objetivo del proceso de la investigacin.

CUADRO N.
REFERENCIA DE EGRESOS DEL PROYECTO
EGRESOS DLARES
Suministros de oficina $ 90.00
Fotocopias 40.00
Libros y documentos 0.00
Computadora y servicios de Internet 400.00
Transporte 30.00
Refrigerio 41.00
Empastado, anillado de tesis de grado 50.00
TOTAL $ 651.00
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales

Ingresos.- La tesis fue solventada con mi trabajo de la empresa MACROSIGMA

S.A., donde labor como analista desarrollador junior, logrando solventar los

$651,00 que invert en mi tesis de grado.

Egresos (Detalle Egresos)

Entrevistas (Gasto en Transporte) $ 48.00


Realizacin de Encuestas (Gasto en Transporte) $ 65.00
Servicio de Internet y computadoras $ 410.00
Copias para Realizacin de Encuestas $ 56.00
Biblioteca (Transporte) $ 25.00
Impresoras $ 97.50
Empastado, anillado de tesis de grado $ 50.00
Refrigerio $ 42.00
REFERENCIAS BIBLIOGRFICAS

Castro Daz Balart F., Ciencia, Tecnologa y Sociedad.- La Habana.

98
Diseo, desarrollo e implantacin del sistema de informacin misional de la

Procuradura General de la Nacin. Plan de gestin del proyecto. Dic. 2006.

Visauta B.(1998), desarrollo e implantacin del sistema de informacin misional de

la Procuradura General de la Nacin. Plan de Pruebas. Propuesta.

Oracle. Oracle Warehouse Builder 10g Release 2 for Windows and Unix,

Installation and Configuration Guide, Junio de 2006, p 1-3

Editorial Cientfico-Tcnica, 450 Pginas. 2003 - Pag. 12, 21,

Esteban Mart Jos Ramn, Criptografa. - Buenos Aires, Argentina

350 pginas. - 2009. Pag. 18

Farrel GE, Egana E, Fernndez F., Investigacin cientfica y nuevas tecnologas.

La Habana., Editorial Cientfico-Tcnica. 150 Paginas. 2003. Pag. 14

Addison Wesley, Fundamentos de Sistemas de Bases de Datos

ELMASRI & NAVATHE, Captulo 1,2,3,4,5,6,7,8,9,10,11.

Nez Jover J., La ciencia y la tecnologa como procesos sociales. En: Grupo de

Estudios Sociales de la Tecnologa. Tecnologa y Sociedad.

La Habana: Editorial Flix Varela.- 80 Paginas 1999, Pag. 5

Sistemas de Bases de Datos, Ramez Elmasri & Shamkant B. Navathe

2da Edicin 885 Pginas, Espaol

Pearson Prentice Hall , Introduccin a los Sistemas de Base de Datos

Da Edicdin , 733 Pginas Espaol

Trejo Delarbre. La ciencia y la tecnologa

Caracas, Venezuela. - Editorial Rial. 150 Paginas, 2009. Pag.8, 10, 12.

NETGRAFA

Date, C.J. (2001) "Introduction a los sistemas de Bases de datos", Prentice Hall,

Mexico, 925 pp.

99
Miguel, A; Piattini, M; (2006) "Diseno de Bases de Datos Relacionales",

Alfaomenga Ra-Ma, Mexico, 289-293 p.

Martin,J (1994) "Organization de las Base de Datos" Prentice Hall, Mxico 33 p.

Castro Daz Balart F., Ciencia, Tecnologa y Sociedad.

La Habana. Editorial Cientfico-Tcnica, 450 Pginas.2003 - Pag. 12, 21

Esteban Mart Jos Ramn, Criptografa.

Buenos Aires, Argentina, 350 pginas. 2009. Pag. 18

Farrel GE, Egana E, Fernndez F., Investigacin cientfica y nuevas tecnologas.

La Habana. Editorial Cientfico-Tcnica. 150 Paginas. 2003. Pag. 14

Addison Wesley, Fundamentos de Sistemas de Bases de Datos

ELMASRI & NAVATHE, Captulo 1,2,3,4,5,6,7,8,9,10,11., Nez Jover J.

La ciencia y la tecnologa como procesos sociales. En: Grupo de Estudios Sociales

de la Tecnologa. Tecnologa y Sociedad., La Habana:

Editorial Flix Varela., 80 Paginas, 1999, Pag. 5

Sistemas de Bases de Datos, Ramez Elmasri & Shamkant B. Navathe

2da Edicin, 885 Pginas, Espaol.

Pearson Prentice Hall, Introduccin a los Sistemas de Base de Datos

Da Edicdin, 733 Pginas, Espaol, Trejo Delarbre, La ciencia y la tecnologa

Caracas, Venezuela, Editorial Rial, 150 Paginas, 2009, Pag.8, 10, 12.

Prez Lpez, C. (2004) "Tcnicas de Anlisis de Datos. Aplicaciones de

Parches". Pearson Prentice Hall, Madrid.

REFERENCIAS WEB

100
http://wikinvestigacion.wikispaces.com , Universidad de Sevilla, Espaa Sevilla,

2012

http://www.firmadigital.go.cr/gestionCA.html , Harley Villalobos, Caracas

Venezuela, 2008

http://www.java.com/en/download/manual.jsp , Java Runtime Environment, JRE 1.4

Prof. Yaakov Benenson en el ao 2004, Universidad Politcnica de Madrid, Extrado

el 21 de Octubre de 2010.

(http://www.upm.es/portal/site/institucional/menuitem.fa77d63875fa4490b99bfa04d

ffb46a8/?vgnextoid=b713c85fb34c1210VgnVCM10000009c7648aRCRD).

Pentaho Data Integration Big Data and More: The Power to Access, Prepare

and Deliver Data Faster

http://www.pentaho.com/explore/pentaho-data-integration/

101
CONCLUSIONES Y RECOMENDACIONES

CAPITULO V CONCLUSIONES Y RECOMENDACIONES

CONCLUSIONES

El 97% de los usuarios indican que desean realizar sus transacciones en lnea y con las

agencias interrelacionada, sobre todo evitar errores por duplicidad de pago y mal control

de inventarios.

Como hemos estado hablando durante todo el documento, hoy en da, la informacin que

se almacena en la base de datos que poseen las empresas es primordial, es considerado en

mucho de los casos, como uno de los bienes ms preciados de las distintas entidades. As

mismo, la desinformacin, puede ser una de las armas con las que se puede atacar a

alguien o alguna otra empresa.

En esta sociedad en la que vivimos se hace muy necesario la seguridad en las bases de

datos, y como principal exponente en Internet ya que este mtodo es cada vez ms

utilizado, no solo por estudiantes y comunidad universitaria, sino por empresas,

particulares, etc.

El tema tratado ser uno de los claros exponentes a tener muy en cuenta en el futuro de

la informtica, sobre todo a la velocidad que se implementan nuevas tecnologas.

El 89% de los empleados del rea de ventas indican que al realizar sus ingresos de

contratos o pagos ellos necesitan seguridades informticas para que no sean modificadas

ni eliminadas.

El traspaso de informacin de una base a otra cada vez es ms valioso y que puede

comprometer mucho a los sistemas en caso de que haya ms de un sistema.

El tema tratado es un mundo muy amplio y fascinante, de la misma manera, tiene muchas

posibilidades de investigacin. Este efecto puede generar mltiples posibles estrategias a

la hora de poder dar una solucin en la mejora del traspaso de informacin. Hoy en da,

103
existes muchas herramientas informticas (software), las cuales nos ayudan en estos

procesos de migracin, sin embargo, el cmo se las emplee y se las configure para efectos

de mitigar los tiempos en que esta procesa para tales fines, es lo que durante la redaccin

e investigacin del presente documento, se logra evidenciar. Adems de ello, obtener una

alta disponibilidad con datos lo ms reales y actualizados posible.

Conclusiones Del Ing. Cesar Cuenca

Pienso que las variables que se han incluido dentro de esta investigacin son las ms

adecuadas para determinar el problema, ya que esta base de datos se la encontr

totalmente aislada, con varios problemas de almacenamiento, sin condiciones de ingresos

ni tipos de datos correctamente desarrollados dentro del aplicativo, afectando no solo la

operatividad de la empresa sino tambin la seguridad de los datos de los clientes, los

cuales deben ser guardado con mucho cuidado para mantener la confianza y continuidad

del negocio.

104
RECOMENDACIONES

Se debe realizar los cambios tecnolgicos respecto al rea de sistemas, en especial la

parte del hardware. Los cambios tecnolgicos realizados deben estar de acuerdo a la

tecnologa aplicada en la metodologa internacional de seguridad.

A los usuarios de las distintas agencias se los debe de capacitar acerca de las nuevas

tecnologas, nuevos sistemas informticos implementados para que tengan un buen

manejo y control del mismo. Entre las conclusiones que podemos nombrar son:

Rapidez. Seguridad y optimizacin en el traslado de los datos

Seguridad y Confiabilidad de la informacin de clientes

Ahorro en contratacin de soporte especializado

Siempre se debe realizar un anlisis de las diferentes transacciones que realizan los

clientes de la funeraria, para evitar fraudes que afecten al sistema.

Los empleados de la funeraria del rea tcnica deben estar siempre actualizados en los

diferentes usos de la tecnologa aplicada a la seguridad va internet.

As mismo, para futuros estudiantes que se interesen por la metodologa implementada en

esta investigacin bajo la herramienta tecnolgica sugerida, puedan de alguna forma

optimizar los procesos mostrados y detallados, as como tambin, hacer uso de la misma,

en combinacin con otras aplicaciones para fine especficos.

Recomendaciones del Ing. Cesar Cuenca.

La migracin de datos debe ser correctamente evaluada antes de ejecutarla, ya que esto tiene

muchos tipos de riesgo en cuanto a la perdida de informacin. Por tanto para prevenir

dichos riesgos debe tomarse consideraciones de respaldo de la data antes de iniciar el

proceso.

105

Vous aimerez peut-être aussi