Académique Documents
Professionnel Documents
Culture Documents
TESIS DE GRADO
Previa a la obtencin del Ttulo de:
GUAYAQUIL ECUADOR
2013
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS
CARRERA DE INGENIERIA EN SISTEMAS
COMPUTACIONALES
TESIS DE GRADO
Previa a la obtencin del Ttulo de:
GUAYAQUIL ECUADOR
2013
REVISORES:
INSTITUCIN:
Universidad de Guayaquil
FACULTAD:
Ciencias Matemticas y
Fsicas
CARRERA: INGENIERA EN SISTEMAS COMPUTACIONALES
FECHA DE PUBLICACIN:
11/11/2013
N DE PGS.: 125
N DE CLASIFICACIN:
SI
Telfono:
0996697285
Nombre:
NO
E-mail:
johy_0110@hotmail.com
Telfono:
PENTAHO
OPEN
SOURCE
BUSINESS
INTELLIGENCE
SOBRE
Atentamente,
.
Ing. Francisco Palacios
TUTOR
II
DEDICATORIA
Gracias
Dios
por
III
AGRADECIMIENTO
IV
TRIBUNAL DE GRADO
Nombres y Apellidos
DIRECTOR DE TESIS
Nombres y Apellidos
PROFESOR DEL REA
TRIBUNAL
DECLARACIN EXPRESA
VI
.
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMTICAS Y FSICAS
CARRERA DE INGENIERIA EN SISTEMAS
COMPUTACIONALES
Tesis de Grado que se presenta como requisito para optar por el ttulo de INGENIERO
en SISTEMAS COMPUTACIONALES
VII
091922780-1
VIII
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMTICAS Y FSICAS
CARRERA DE INGENIERIA EN SISTEMAS
COMPUTACIONALES
Autorizacin para Publicacin de Tesis en Formato Digital
1. Identificacin de la Tesis
Nombre Alumno: Johanna Alexandra Hernndez Velasco
Direccin: 7 lagos mz 41 villa 6
Telfono: 0996697285
E-mail: johy_0110@hotmail.com
Facultad: Matemticas y Fsicas
Carrera: Ingeniera en Sistemas Computacionales
Ttulo al que opta: Ingeniero en Sistemas Computacionales
Profesor gua: Ing. Francisco Palacios
Ttulo de la Tesis: ESTUDIO DEL DISEO DE TRANSFORMACIN DE DATOS
Despus de 1 ao
Firma Alumno:
3. Forma de envo:
El texto de la Tesis debe ser enviado en formato Word, como archivo .Doc. O .RTF y .Puf para
PC. Las imgenes que la acompaen pueden ser: .gif, .jpg o .TIFF.
DVDROM
CDROM X
IX
NDICE GENERAL
CARTA DE ACEPTACIN DEL TUTOR.......................................................................Ii
DEDICATORIA..............................................................................................................IIi
AGRADECIMIENTO....................................................................................................IIIi
NDICE GENERAL........................................................................................................XI
NDICE DE CUADROS................................................................................................XII
NDICE DE GRAFICOS..............................................................................................XIII
RESUMEN..................................................................................................................XIVi
ABSTRACT.................................................................................................................XVi
INTRODUCCIN 1
CAPITULO I El PROBLEMA 3
UBICACIN DEL PROBLEMA EN UN CONTEXTO..................................................3
SITUACIN CONFLICTO NUDOS CRTICOS............................................................7
CAUSAS Y CONSECUENCIAS DEL PROBLEMA......................................................8
DELIMITACIN DEL PROBLEMA.............................................................................10
PLANTEAMIENTO........................................................................................................11
EVALUACIN DEL PROBLEMA................................................................................11
OBJETIVO DE LA INVESTIGACION.........................................................................12
JUSTIFICACION E IMPORTANCIA DE LA INVESTIGACIN...............................58
BENEFICIOS..................................................................................................................59
CAPITULO II MARCO TERICO
60
103
103
POBLACIN Y MUESTRA........................................................................................104
OPERACIONALIZACIN DE LAS VARIABLES.....................................................106
INSTRUMENTOS DE RECOLECCIN DE DATOS.................................................109
PROCESAMIENTO DE LA INFORMACIN............................................................109
RECOLECCIN DE LA INFORMACIN..................................................................110
PROCESAMIENTO Y ANLISIS...............................................................................113
CRITERIOS PARA LA ELABORACIN DE LA PROPUESTA................................128
CAPITULO IV MARCO ADMINISTRATIVO
82
CRONOGRAMA............................................................................................................82
PRESUPUESTO..............................................................................................................85
CAPITULO V CONCLUSIONES Y RECOMENDACIONES
90
CONCLUSIONES...........................................................................................................90
RECOMENDACIONES.................................................................................................91
XI
XII
NDICE DE CUADROS
Pg.IL
CUADRO N. 1
MENSAJES QUE ARROJA LA HERRAMIENTA .53
CUADRO N. 2
BARRAS DE HERRAMIENTAS SPOON..................................................................56
CUADRO N. 3
VARIABLES DEL ESTUDIO........................................................................................ 67
CUADRO N. 4
Datos Obtenidos de la Empresa.......................................................................................70
CUADRO N. 5
Estimacin de Porcentaje................................................................................................ 72
CUADRO N. 6
MATRIZ DE OPERACIONALIZACIN DE VARIABLES.........................................73
CUADRO N. 7
DIAGRAMA DE LA TCNICA UTILIZADA.............................................................. 74
CUADRO N. 8
HA RECIBIDO CURSOS DE CAPACITACIN...........................................................83
CUADRO N. 9
DESEA QUE LAS TRANSACCIONES SE VALIDEN DESDE EL SISTEMA...........84
CUADRO N. 10
INVENTARIO ACTUAL DE LAS DIFERENTES AGENCIAS...................................85
CUADRO N. 11
SEGURIDADES EN REGISTRO DE TRANSACCIONES..........................................86
CUADRO N. 12
GARANTIZAR LA INVIOLABILIDAD DE SUS DATOS......................................... 87
CUADRO N. 13
TECNOLOGA DE PUNTA PARA SER CAPACITADO..............................................88
CUADRO N. 14
AHORRAR TIEMPO Y DINERO EN TODAS LAS AGENCIAS.................................. 89
CUADRO N. 15
PLANIFICACIN DETALLADO DEL TRABAJO REALIZADO............................. 95
CUADRO N. 16
REFERENCIA DE EGRESOS DEL PROYECTO.........................................................98
XIII
NDICE DE GRAFICOS
Pg.
GRFICO N. 1
ETAPAS DEL ESTUDIO DE TRANSFORMACIN DE BASE DE DATOS..............61
GRFICO N. 3
PROCESO DE MIGRACIN EN SITIO.......................................................................65
GRFICO N. 4
PROCESO DE MIGRACIN GRADUAL....................................................................66
GRFICO N. 5
PROCESO DE MIGRACIN DE BASE DE DATOS...................................................67
GRFICO N. 6
PROCESO DE MIGRACIN.........................................................................................68
GRFICO N. 7
PROCESO DE INTEGRACIN DE DATOS - PENTAHO...........................................71
GRFICO N. 8
PROCESO DE INTEGRACIN DE DATOS PENTAHO..........................................73
GRFICO N. 9
INTERFACE MODO GRFICO - SPOON PENTAHO................................................79
GRFICO N. 10
PROCESO DE EXTRACCIN DE LOS DATOS SPOON PENTAHO.....................81
GRFICO N. 11
DISEO DE TRANSFORMACIN DE DATOS..........................................................85
GRFICO N. 12
TRANSFORMACIN DE DATOS - SPOON...............................................................86
GRFICO N. 13
LOGO DE BSQUEDA DE CONEXIONES................................................................86
GRFICO N. 14
MUESTRA LOS PASOS DE CONSTRUCCIN..........................................................87
GRFICO N. 15
TRANSFORMACIN DE DATOS ENTREDA/SALIDA SPOON...........................89
GRFICO N. 16
CONFIGURACIN VARIABLES DE ENTORNO.......................................................93
GRFICO N. 17
MAPEO DE FLOJOS EN DATOS ACTUALES............................................................94
XIV
GRFICO N. 18
Tabla de Cuestionario Capacitacin..............................................................................115
GRFICO N. 19
Tabla de Cuestionario Ventas y Pagos.............................................................................82
GRFICO N. 20
Tabla de Cuestionario Inventario.....................................................................................83
GRFICO N. 21
Tabla de Cuestionario Seguridades.................................................................................84
GRFICO N. 22
Tabla de Cuestionario Garantizar transacciones..............................................................85
GRFICO N. 23
Tabla de Cuestionario Tecnologa...................................................................................86
GRFICO N. 24
Tabla de Cuestionario Ahorrar tiempo y dinero..............................................................87
GRFICO N. 25
Hiptesis Seguridad de la Informacin...........................................................................88
GRFICO N. 26
Hiptesis Inviolabilidad...................................................................................................89
GRFICO N. 27
Hiptesis Garantizar transferencias.................................................................................90
GRFICO N. 28
Hiptesis Cursos de Capacitacin.................................................................................125
GRFICO N. 29
Hiptesis Ahorrar tiempo y dinero..................................................................................92
GRFICO N. 30
CRONOGRAMA DE TRABAJO...................................................................................82
XV
ABREVIATURAS
DBMS
SQL
ETL
FCE
AWT
SWT
SAP
BI
FCE
TI
OLTP
OLAP
XML
ETTL
OSX
GTK
HP-UX
MOTIF
FreeBSD
JVM
KDE
ODBC
LGPL
GNU
JDBC
FCI
CTT-UG
CONESUP
SPSS
BDD
XV
SIMBOLOGA
Pro
base actual
Co y C1
es la variable independiente
composicin lineal:
H1, H2,
coeficientes dependientes
X1, X2
PQ
Varianza =0.25
Poblacin
Margen de error
XVI
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS
CARRERA DE INGENIERIA EN SISTEMAS COMPUTACIONALES
ESTUDIO DEL DISEO DE TRANSFORMACIN DE DATOS UTILIZANDO LA
HERRAMIENTA SPOON DE PENTAHO OPEN SOURCE BUSINESS
INTELLIGENCE SOBRE PLATAFORMA LINUX
Autor: Johanna Hernndez Velasco
Tutor: Ing. Francisco Palacios
RESUMEN
En aos recientes, se ha producido un incremento continuo en la cantidad de datos
manipulados por los sistemas manejadores de bases de datos (DBMS); no resulta
extrao para un DBMS manipular base de datos con tamaos que van desde los cientos
de gigabytes hasta terabytes. La migracin de bases de datos es generalmente una tarea
compleja que no slo supone transferir datos entre tipos de almacenaje y formatos de un
servidor de base de datos a otro; sino que tambin supone reescribir sentencias SQL o
incluso procedimientos (SQL) de lgica de negocio. Aparte de la dificultad de transferir
la informacin entre los dos sistemas gestores de base de datos, tambin influir en la
complejidad el tipo de los datos de las tablas que estamos utilizando. Por ejemplo, las
fechas, los campos numricos con decimales o los boleanos pueden dar problemas al
pasar de un sistema a otro porque pueden almacenarse de maneras distintas o, en el caso
de los nmeros, con una precisin distinta. El objetivo del estudio en el diseo de la
transformacin es demostrar cmo esta interesante y til herramienta Open Source
llamada SPOON puede transponer la informacin de manera sencilla mediante
parmetros y configuraciones del usuario de manera ntegra y confiable.
XVII
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS
CARRERA DE INGENIERIA EN SISTEMAS COMPUTACIONALES
ABSTRACT
The goal of this migration is to centralize and data structures that are hosted locally
on 4 Access database, fully
a relational
database on
an open
source platform.
The process of this migration is complex, in addition to the normal difficulty of the
process of moving data stored in a data source to another, there is also an influence on
the complexity of the problem the type of data tables that are using that can be
stored differently in each of the management systems, origin and destination. For
example, dates are subject to change format, while in Access appear in Castilian (dd /
mm / yyyy) in PostgreSQL appear in the format yyyy-mm-dd format, numeric
fields with decimals or boolean can also give us problems because can be stored in
different ways.
PostgreSQL is a database manager object
oriented, open
source,
stable,
secure,
flexible and high performance. The tool with which to filter data from one platform to
another is of Java Scipt Pentaho.
XVIII
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS
CARRERA DE INGENIERIA EN SISTEMAS COMPUTACIONALES
Proyecto de trabajo de grado que se presenta como requisito para optar por el ttulo de
INGENIERO en SISTEMAS COMPUTACIONALES.
XIX
0919227801
XX
INTRODUCCIN
Tradicionalmente cuando pensamos en un modelo de base de datos, se nos vienen
muchas ideas a la mente, en este estudio tomaremos un diseo como aquel que
puede representar la solucin a un problema del mundo real, para lo cual se usar
una herramienta de cdigo abierto, manteniendo una estructura segura y confiable
para la demostracin ms ptima a la interrogante planteada.
Uno de los paradigmas que a travs de los aos se ha mantenido en el mundo, es la
seguridad y confidencialidad que deben poseer las bases de datos, ya que representa
un pilar fundamental para la continuidad de todo negocio.
En sus inicios la empresa Servicios Nacionales explot sus actividades promoviendo
servicios exequiales con formas de pago muy cmodas y econmicas para el sector
de clase media baja, en referencia a este mecanismo la institucin pudo mantenerse
progresivamente en sus dos primeros aos con su agencia matriz. La solucin
tecnolgica con la que operaba la institucin, cumpla con las actividades diarias
que necesitaba la empresa en referencia al registro de sus transacciones, es decir,
ingreso de clientes, afiliaciones y recepcin de pagos.
En virtud a la operatividad de la institucin tuvieron la oportunidad de abrir otras
sucursales a nivel nacional, en este punto iniciaron sus actividades realizando el
almacenado de la informacin de los clientes de forma aislada, es decir, se realizaba
toda la gestin del negocio guardando la data en repositorios de base de datos no
relacionales, aislando la informacin del resto de agencias, causando de a poco
diferentes molestias para el personal de ventas.
Con el pasar del tiempo la informacin segua creciendo, causando disgustos al
departamento de cobranzas en su gestin en la recuperacin de la cartera, pues los
1
CAPTULO I
EL PROBLEMA
CAPITULO I El PROBLEMA
forma mensual, ya que se deba seguir cumpliendo con los tiempos de entrega y
erradicar las molestias de los clientes.
El contador interno de la compaa realiz un anlisis profundo del gasto que estaba
teniendo Servicios Nacionales, considerando un semestre de las agencias con mayor
movimiento. El 5 de Julio del 2011 el contador notific formalmente que la empresa
en un lapso de seis meses pierde 2 das de labores al 50% y esto representa una
prdida aproximada de $38.160,00 (treinta y ocho mil ciento sesenta dlares)
semestrales por motivos de pagos de horas extras en virtud de gestiones de campo y
modificaciones realizadas manualmente de forma emergente en la base de datos
para subsanar la informacin de los clientes, esto incurre de forma alarmante para
una empresa mediana. La deteccin y clausura de anomalas son realizadas por una
secuencia de operaciones sobre los datos sabidos como el flujo de trabajo. Para
alcanzar un correcto flujo de trabajo, se ha identificado las causas de las anomalas y
errores. Estas inconsistencias se dan como resultado por errores de mquina en
etapas de entrada de datos, poca claridad sobre el formato de ingreso al sistema,
error humano, falta de retroalimentacin en el ingreso de informacin, avera con el
teclado, etc.
La transformacin de los datos es una necesidad que surge debido al costo
representativo de la prdida utilitaria hacia la empresa, ya que esto adicional
aportara con mejoras en la seguridad o el control de la informacin entre otras
agencias o escenarios posibles ya sean estos de lentitud en sus procesos, perdida de
los datos por falta de espacio, poco rendimiento, entre otros.
A finales del ao 2011 el comit de la compaa acuerda considerar en el
presupuesto 2012 una mejora en cuanto a la infraestructura que requieren adquirir
para solventar sus gastos, desde ah la construccin del estudio de la transformacin
de datos fue diseada en base a las necesidades de esta empresa, ya que constituye
un gran problema a nivel nacional. En los actuales momentos existe el paradigma en
las empresas pequeas de poseer bases de datos no relacionales, lo cual esto con el
tiempo se ve afectado debido a su continuo crecimiento causndoles inconsistencia,
desgaste de tiempo al realizar un mantenimiento, sistemas no interrumpidos y baja
disponibilidad.
Necesidades del negocio
Para el desarrollo e implantacin de este estudio de diseo fue forzosa una
evaluacin de las insuficiencias que existen dentro de la institucin y del manejo del
ejercicio. Para esto es inevitable entender el ciclo del negocio y los requerimientos
que posee:
Cuando el ciclo de suscripcin de un servicio se logra, se le ingresan los datos del
cliente al sistema ya sea esta de forma automtica es decir, el funcionario ingresa la
informacin del cliente en su presencia en el computador o manual es decir, se le
llena al cliente un documento a pulso donde firma la suscripcin y posteriormente
esos documentos son trasladados a una agencia donde sern ingresados al sistema
por el vendedor.
Cuando el ciclo de afiliacin de un servicio llega a su fin, el cliente proceder con la
firma del contrato, el cual contiene como elemento principal la tabla de
amortizacin de sus pagos mensuales. Estas tablas son creadas por el sistema y
mantenidas en su base de datos Microsoft Access 2003 y que contienen todas las
alcuotas de cada mes entre otros rubros que se pudieran haber contratado. En el
transcurso del tiempo cuando el cliente empieza a cancelar sus alcuotas, la
recaudacin de los valores se realiza mediante la emisin de planillas de cobro que
son atesoradas en cualquier agencia, siendo este cobro guardado en la base de datos
de forma aislada ya que si el cliente vuelve a realizar el mismo pago en otra agencia
se le cobra con el mismo nmero de cuota siendo sta a pagar la cuota siguiente. Sin
embargo, existen numerosas causales por las cuales estos valores no pueden ser
recaudados, lo que ocasionan que las tablas de amortizacin no estn actualizadas en
virtud a lo contabilizado por el cliente. Como se puede observar este es un lazo
continuo entre las agencias y la matriz.
La parvedad de la empresa se origina en el instante que empieza a crecer debido al
aumento de agencias a nivel nacional, acrecentando as la cartera de clientes y la
transaccionalidad, en virtud de todos los sucesos empiezan a surgir novedades que
en primera instancia es detectado por el rea de Cobranzas, ya que al momento de
ubicar al cliente para recordarle sus pagos, encontraban informacin errada
accionando un problema en la recuperacin de la cartera y como ltima coaccin el
llamado de atencin por los entes de control.
La situacin se tornaba crtica especialmente durante el cierre anual en consecuencia
a cuadre de balance, por lo que frecuentemente el departamento de Operaciones
solicita a Sistemas que se realicen cambios manuales a fin de contar con la data
actualizada. Es importante indicar que la informacin requerida para el cierre
contable es la relacionada con la recaudacin de los dividendos mensuales y ventas
realizadas en las agencias.
Para este estudio del diseo se realiz un anlisis del porcentaje de inconsistencia
que exista por agencia, lo que pudimos observar que en las agencias nuevas se
presentaba con mayor frecuencia la inconsistencia de los datos, por lo tanto se
evalu mediante un mtodo matemtico el porcentaje de la muestra a ser tomada.
Para nuestro estudio la muestra represent el 36.7% en referencia a la poblacin, lo
cual constituye como tamao muestral solo la agencia Manab.
las parametrizaciones que se programaban dentro del sistema antes de ser puesto en
Produccin o antes de ser entregado a la empresa para su uso (tipos de datos en
nmeros de cdula, telfonos, direcciones, genero, etc.), por lo que se lleg a la
conclusin que se clasificara en trabajos de campo y trabajos de oficina.
CAUSAS Y CONSECUENCIAS DEL PROBLEMA
CAUSAS:
Al realizar las investigaciones del problema pudimos constatar los orgenes tales
como:
Falta de capacitacin sobre el uso o ingreso de informacin en el sistema
No hubo una arquitectura del sistema
Manual de usuario inexistente hacia los colaboradores
Desconocimiento de los estndares o formatos comunes
Falla en las herramientas de trabajo ya sea teclado, configuracin regional o teclas
direccionales.
Descuido de los usuarios al realizar el ingreso de los datos.
CONSECUENCIAS:
En resultado a la inconsistencia de la muestra analizada podemos definir que las
consecuencias para este estudio son:
El desgaste de los empleados en las correcciones de la informacin.
La afectacin de forma indirecta hacia los clientes.
Falta de control y seguridad en los procesos, esto produce que su riesgo se eleve y
aumente la inconsistencia de los datos.
Las configuraciones que se realicen al transformar la data deben ser cuidadosamente
realizadas para no perder informacin.
11
12
permanecen constantes, en este caso tenemos un estudio dinmico por que usamos
la variable tiempo.
Habitualmente todos los estudios deterministas derivan diseos disparejos ya sean
ordinarias o parciales, stas se pueden resolver con tcnicas ordenadas y/o
numerarias.
DELIMITACIN DEL PROBLEMA
Despus de haber realizado el anlisis del diseo, se debe establecer una nueva
estructura de base de datos a fin de modelar el diseo a implementar. Esta
transformacin filtrar todos los datos inconsistente con el objetivo de minimizar
gastos innecesarios a la empresa y descartar llamados de atencin por retrasos en la
entrega de la informacin anual a los entes de control. Colindaremos el
inconveniente haciendo referencia al gasto excesivo que tiene la empresa. Para
dicho proceso hemos considerado una de las mejores herramientas de cdigo abierto
el cual posee como beneficio principal descartar el costo en licenciamiento, excluir
el desgaste de tiempo en modificaciones de la data, cumplimiento ante los entes de
control y credibilidad a nivel nacional de todos sus empleados, costo de servicio por
mantenimiento de la data y mejorar su competitividad.
Para exponer que el estudio del diseo de transformacin funciona, se elabor una
gua de recoleccin de datos basados en el diseo de transformacin realizada en
una agencia en particular, creando scripts de filtrado dentro de cada modelador que
incluye la herramienta.
Considerando como base la transformacin efectuada en una de las agencias se
desarroll un formulario para validar la migracin de los datos, el mismo que fue
validado por un experto en el rea de base de datos (Ing. Cesar Cuenca, DBA).
13
14
15
Este estudio, ayudar a disminuir los casos de reclamos por afectacin no solo al
cliente sino a la empresa ya que al momento de realizar una cobranza se realiza una
validacin de los datos. Secundariamente en la nueva estructura se prev generar
pistas de auditoria en las cuales ponga sobre aviso al administrador del sistema.
Adems por la frecuencia cada vez ms alta de las empresas en crecimiento.
Como ejemplo podemos resaltar el estudio de la Metodologa para la conversin del
Modelo Entidad Relacin al Modelo realizado por la Universidad Tcnica de
Ambato en el ao 2001, que lo trata de introducir como una nueva rea de
investigacin. En este estudio los campos de lenguajes de programacin,
inteligencia artificial e ingeniera de software han contribuido con el uso de la
tecnologa orientada a objetos en el rea de las Bases de Datos. El desafo del rea
de Bases de Datos es integrarlos en un diseo de sistema simple que mantenga el
equipo deseado para cada campo. El resultado de realizar la Conversin es la
caracterstica central de este trabajo para obtener una mejor idea y comprensin de
Bases de Datos Orientas a Objetos (http://repo.uta.edu.ec/handle/123456789/372?
show=full), en nuestro caso es lgico que sea de gran inters ya que al prescindir de
multas y de informacin consistente para la validacin de los reportes es un costo
beneficio muy considerable hacia la empresa involucrada, como valor agregado se
puede tambin mencionar que se descartarn gastos por licenciamiento del software
a utilizar al tratarse de una herramienta de software libre. Precisamente uno de los
factores de riesgo que se asocian es la probabilidad de prdida de datos, teniendo en
cuenta que una transformacin mal realizada podra dar por terminada una
estructura de informacin completa. Resulta evidente que en muchos procesos dicha
probabilidad de fallo en la transformacin o migracin de datos depende del tiempo
en el procesamiento de la data.
17
CAPTULO II
MARCO TERICO
CAPITULO II MARCO TERICO
19
Qu es una migracin?
Una transformacin o migracin de datos es un proceso que se realiza para mover o
trasladar los datos almacenados de un origen de datos a otro, para lo cual es
indispensable que antes de empezar cualquier proceso de esta naturaleza, se tenga
clara y documentada la razn por la cual se est migrando, adems de elaborarse la
planeacin detallada de las actividades contempladas.
20
GRFICO N.
ETAPAS DEL ESTUDIO DE TRANSFORMACIN DE BASE DE DATOS
22
23
FUNDAMENTACIN TERICA
Transformacin por inconsistencia de los datos
Una transformacin o migracin de datos es una excelente alternativa para corregir
la data mal almacenada a nivel de base de datos. La transferencia de informacin
entre un repositorio u otro permitir cifrar y estructurar los datos en forma ptima.
Podemos tener el mejor sistema, la base de datos ms robusta o aplicable al negocio
pero si no tenemos una buena arquitectura del negocio o una estructura de base de
datos con polticas de seguridad, restricciones, parches o con tipos de datos
controlados tiende a almacenar informacin inconsistente.
La migracin de los datos consiste en convertir los datos desde un sistema de base
de datos a otro. Esta migracin conlleva la creacin de tablas o modificacin de las
existentes, cambios en algunos tipos de datos que existen en una base de datos pero
no en otras, etc.
24
Este estudio tiene como producto principal la herramienta Spoon de Pentaho, para el
desarrollo del proyecto.
Ventajas
Aprovechar el uso de nuevas tecnologas de cdigo abierto.
Erradicar costos altos en licenciamiento de software especializado.
Excluir costos operativos por pagos de horas extras al personal y llamados de
atencin por el ente de control por el atraso en la entrega del balance.
El alcance de la migracin es pequeo y controlable.
La informacin histrica preserva su estructura original.
Los usuarios consultaran la informacin histrica en del sistema anterior (ventaja
para los usuarios).
Menor capacitacin.
Desventajas
Se debe modificar o cambiar el aplicativo actual.
Durante los primeros meses existirn dos fuentes vlidas de informacin, la
histrica y la vigente.
Molestia con los usuarios por adaptacin al nuevo repositorio.
Migracin en sitio
Actualiza automticamente el Portal completo y todos los sitios. La migracin sobre
escribe las Bases de Datos originales, y convierte todos los datos a los formatos
25
Migracin gradual
Los servidores contendrn varias versiones al mismo tiempo, y la migracin se
puede realizar por cada recopilacin de sitio. El contenido de la recopilacin que se
est migrando en el momento es guardado primero en una Base de Datos temporal y
luego migrado a las nuevas Bases de Datos. Los cambios se pueden revertir a la
versin anterior porque las Bases de Datos no se alteran. Requiere ms espacio
fsico en los servidores (porque hay que tener todo doble).
26
GRFICO N.
PROCESO DE MIGRACIN GRADUAL
Base de Datos
Se realiza poniendo las Bases de Datos fuera de conexin, copindolas al nuevo
servidor, conectndolas al nuevo sistema y realizando una migracin en sitio por el
resto.
27
GRFICO N.
PROCESO DE MIGRACIN DE BASE DE DATOS
Sistemas con muchas identificaciones pueden ser entre muy difcil a imposible de
ser migrados; la nica forma de saberlo con certeza es hacer una migracin de
prueba.
Procedimientos que no son migrados y hay que compilarlos y aplicarlos
manualmente de nuevo, pero luego de ser migrados manualmente continuaran
funcionando sin problemas. Modificaciones hechas en las plantillas originales no
son migradas.
Consideraciones que se tomaron para seleccionar la herramienta
Un aspecto crtico para el xito del estudio del diseo de transformacin es la
seleccin de la herramienta que ser utilizada para ejecutar el proceso de migracin,
es importante hacer un anlisis de las diferentes alternativas existentes, buscando la
mejor opcin considerando la relacin costo/beneficio de cada una de ellas hacia la
empresa.
BENEFICIOS DE LA HERRAMIENTA SPOON
Spoon, nos permite realizar el diseo de las transformaciones y trabajos de forma
grfica. Inclusive admite previsualizar y testear los elementos desarrollados. Pan, es
otra herramienta de Pentaho que asiente la ejecucin de las transformaciones
diseadas en Spoon, puede ser de un fichero o del repositorio. Desde la lnea de
comandos nos permite preparar la ejecucin mediante scripts.
29
GRFICO N.
PROCESO DE MIGRACIN
documentar la correspondencia campo por campo del nuevo modelo con el modelo
actual, especificando las dependencias funcionales de cada una de ellas.
Adicionalmente se debe vislumbrar la verificacin de la integridad referencial entre
las tablas de acuerdo con los requerimientos del modelo en el nuevo ambiente y
determinar las limitaciones existentes, sin destruir los datos almacenados ni las
relaciones que existen entre ellas. De igual modo, es necesario considerar los
diferentes tipos de datos entre el modelo actual y el nuevo, certificar que la
informacin pueda ser almacenada en los campos bajo la nueva definicin,
contrastar el tamao de los objetos y de la base de datos, considerar el tipo de
ndices que soporta la base de datos final y el manejo de sus transacciones.
Funcionamiento de Pentaho
La solucin de Pentaho tiene un contexto de implementacin basado en el lenguaje
de programacin Java. Eso hace que sea una solucin muy flexible para cubrir una
amplia gama de necesidades empresariales, tambin abre, limpia e integra toda la
informacin valiosa de la empresa para que la misma pueda ser entregada al usuario
de manera ntegra. Provee una estabilidad, una sola versin de todos los recursos de
informacin, que es uno de los ms grandes desafos para las organizaciones de
Tecnologas de la Informacin (TI). Pentaho Data Integration permite una poderosa
ETL (Extraccin, Transformacin y Carga).
Pentaho Data Integration facilita una solucin completa de ETL, incluyendo:
Delineante grfico enriquecido para permitir a los desarrolladores ETL una amplia
conectividad a cualquier tipo de datos (integer, char, etc).
Escalabilidad y rendimiento, incluyendo el almacenamiento en cach de la memoria.
Anlisis y presentacin de informes, incluyendo Hadoop, NoSQL, tradicionales y
bases de datos OLTP de anlisis
31
Ventajas de la herramienta
Logra facilitara la comunicacin entre las partes interesadas y los desarrolladores.
Estos ltimos obtienen de forma ms rpida prototipos funcionales (incluso en
minutos) de cubos OLAP, reportes, etc. y a su vez, las partes interesadas pueden
entregar su feedback a los desarrolladores en base a un prototipo que se ve
exactamente como sera en un ambiente productivo.
Permite llegar a un resultado final de forma ms efectiva.
Reduce riesgos y costos de implementacin.
Admite probar de forma emprica y temprana la arquitectura de la aplicacin BI
(que los datos necesarios sean los correctos, que el tiempo de ejecucin sea
aceptable, que los reportes muestren la informacin que los usuarios necesiten, que
32
el diseo del cubo OLAP satisface las necesidades de informacin de los analistas,
etc.).
Permite a los desarrolladores enfocarse en funcionalidad de las diferentes soluciones
informticas.
GRFICO N.
PROCESO DE INTEGRACIN DE DATOS - PENTAHO
34
lienzo
como
solucin.
GRFICO N.
PROCESO DE INTEGRACIN DE DATOS PENTAHO
ubicar a los clientes, otra rea que se ve involucrada en esta afectacin es el rea
comercial ya que se les imposibilita permitir enviar invitaciones para los eventos
que realiza la empresa. Este proceso de concretar el problema es muy significativo
ya que afectar en forma reveladora las conclusiones en el estudio, lo cual hace
imposible extraer una respuesta correcta de un problema equivocado. Lo primero
que hay que reconocer es que un grupo de desarrolladores expertos, por lo general
trabajan en un alto nivel de asesora. A los miembros del grupo no se les presenta un
problema y se les dice que lo resuelvan, ya que por medio de este retroalimentacin
asesoran a la gerencia (casi siempre un tomador de decisiones). El grupo realiza un
anlisis tcnico y despus presentan un informe a los administradores de base de
datos. Con frecuencia, el informe a la gerencia identifica cierto nmero de opciones
atractivas y particular bajo diferentes suposiciones. El gerente evala, da sus
recomendaciones y toma una decisin final basndose en su mejor juicio.
Una vez determinado el inconveniente el siguiente paso consiste en reformularlo
para su anlisis, mediante la arquitectura de un diseo que represente la esencia del
inconveniente. El diseo es una representacin idealizada de la situacin de la
empresa.
Criterios de aceptacin
El criterio de aceptacin de la migracin se determina a travs del indicador de
carga de informacin, que se define a continuacin, de acuerdo con la estrategia
escogida para la migracin y los supuestos y restricciones del estudio.
Indicador de carga de informacin.- La herramienta Spoon pudo ser cargada con la
informacin vlida y se calcula con la siguiente frmula:
40
41
42
43
GRFICO N.
INTERFACE MODO GRFICO - SPOON PENTAHO
Saltos de Transformacin
Existe una opcin donde se debe configurar los saldos de la transformacin de
forma habilitada ya que si no se lo realiza los pasos siguientes al mismo estn
aislados de cualquier flujo de datos previo al salto deshabilitado. Esto puede
conducir a resultados inesperados al editar los pasos del flujo posterior.
Saltos de Trabajo
Adems del orden de ejecucin, un salto igualmente especifica la condicin en que
ser ejecutada la siguiente entrada de trabajo:
Incondicional: especifica que la siguiente entrada de trabajo ser ejecutada a pesar
del resultado de la entrada de Trabajo de origen.
Seguir este camino cuando el resultado sea verdadero: especifica que la siguiente
entrada de Trabajo ser ejecutada solamente cuando el resultado de la entrada de
44
Crear un Salto
Para crear un nuevo salto entre 2 pasos, se puede utilizar alguna de las siguientes
opciones:
Clic con el botn del medio en el paso origen, mantener presionado el botn y
arrastrar el puntero hacia el paso destino.
Mantener presionada la tecla "SHIFT", hacer clic con el botn izquierdo en el paso
origen, mantener presionado el botn izquierdo y arrastrar el puntero hacia el paso
destino.
Ir a la opcin "rbol Principal" en el panel izquierdo y hacer clic derecho sobre el
nodo "Saltos", esto abrir una nueva ventana en donde debemos especificar cul
ser el paso de origen y cul ser el destino.
Seleccionar los dos pasos que se desean unir utilizando "CTRL" + clic izquierdo
sobre los mismos, luego hacer clic derecho en alguno de los dos pasos y seleccionar
"Nuevo Salto". Esta caracterstica trabaja solamente con pasos que an no se han
conectado a otro paso.
Regularmente el proceso se vera de la siguiente manera, y cada diseo o dibujo
representa una accin o un paso a seguir. Dentro de cada uno de estos grficos
poseen script que realizan por debajo la transformacin de los datos.
45
GRFICO N.
PROCESO DE EXTRACCIN DE LOS DATOS SPOON PENTAHO
afiliacion_step1.ktr,
afiliacion_step2.ktr,
afiliacion_step3.ktr
47
operatividad de mejora que se obtendr con este proceso. (Hair, Anderson, Tatham y
Black: 1999, 318).
A continuidad se definirn las dos opciones de refutacin para los usuarios en la
variable dependiente como respuesta base de datos Access y respuesta control y, por
tanto, cuando se haga referencia en lo continuo a estos trminos de probabilidad se
hablar del pre (base actual) y pro (diseo de transformacin) para la otra.
Perdida de datos en la transformacin (razn de suceso) = M/1-p
Dnde:
M = probabilidad de que ocurra un suceso
1-p= probabilidad de que no ocurra un suceso
A partir de esta prdida de datos en la transformacin se puede deducir la
probabilidad de un suceso:
Pro (base actual) = 1/1+Co+1Y
Dnde:
Co y C1, son los factores estimados.
Y, es la variable independiente
En este caso al describir ms de una variable independiente los diseos que se han
estimado quedaran de la siguiente forma:
Dnde: R es la composicin lineal:
R = Ti+ H1X1+H2X2++
Ti, es la constante o intercepto y expresa el valor de la probabilidad de R cuando las
variables independientes son cero.
H1, H2, son los coeficientes dependientes e informan cuanto varia la probabilidad
de ocurrencia de R ante un cambio de mecanismo de la variable independiente
correspondiente, mantenindose las dems variables aclaratorias invariables.
48
Diseo
Este bosquejo fue concebido en base al anlisis que se realiz despus del
levantamiento de informacin, normalmente las estructuras de bases de datos deben
ser realizadas por un arquitecto de sistemas que en este caso existe. Una vez
bosquejada la solucin estimada pas por un proceso de aprobacin por parte de la
empresa a nivel Gerencial. La Economista Mariana Jcome, gerente de la empresa
Servicios Nacionales fue el personaje cntrico que sustent la nueva estructura
entidad relacin que se implementara dentro de la empresa en dificultad.
El estudio del diseo de transformacin de datos analiza la estructura funcional de la
empresa que es hacia donde se quiere llegar con el diseador grfico. Hoy en da las
empresas manejan una gran cantidad de datos por lo tanto es muy valioso que una
base de datos posea una buena estructura relacional capaz de manejar bien sus
transacciones.
No concierne si nuestra base de datos posea slo 20 registros, o algunos cuantos
miles, es importante asegurar que nuestra base de datos est correctamente diseada
para que tenga eficiencia y que se pueda seguir utilizando por largo tiempo.
49
50
51
GRFICO N.
TRANSFORMACIN DE DATOS - SPOON
GRFICO N.
LOGO DE BSQUEDA DE CONEXIONES
52
GRFICO N.
MUESTRA LOS PASOS DE CONSTRUCCIN
Nothing.Error.Minimal.Basic.Detailed.Debug.Rowlevel.-
CUADRO N.
MENSAJES QUE ARROJA LA HERRAMIENTA
No muestra ninguna salida
Solamente muestra los errores
Usa logging mnimo
Este es el nivel de logging bsico por defecto
Da una salida detallada del logging
Muestra una salida detallada para propsitos de depuracin
Logging detallado a nivel de fila. Advertencia: esto genera una
prdida de datos.
53
Catlogo
Spoon permite almacenar los archivos de las Transformaciones y Trabajos en el
sistema de archivos local o en un catlogo de Kettle, que puede ser alojado en
cualquier base de datos relacional. Para cargar una Transformacin o trabajo desde
un catlogo de base de datos, debe conectarse a ese catlogo.
La informacin asociada con el catlogo se almacena en "repositories.xml". Este
archivo est ubicado en el directorio oculto ".kettle" por defecto.
54
/home/<nombreUsuario>/.kettle/
or
C:\Documents
and
Settings\<nombreUsuario>\.kettle
La ruta completa y el nombre del archivo asociado con "repositories.xml" se
muestran en la consola de Spoon.
ESTEBAN (2009) Expresa: Pese a las limitaciones actuales, el pas dispone del
principal recurso para ello: el potencial humano, que unido a los grandes
centros de investigacin, integrados en polos cientficos posibilita el acceso a
este campo de la investigacin, as como la generacin de nuevas tecnologas
propias. (pag. 18)
GRFICO N.
TRANSFORMACIN DE DATOS ENTREDA/SALIDA SPOON
Historia de Licenciamiento
Desde la versin 2.2.0, Spoon fue liberado al dominio pblico bajo la licencia
LGPL.
Spoon es software libre; se puede redistribuir y/o modificar bajo los trminos de la
GNU Lesser General Public License publicada por la Free Software Foundation; ya
sea la versin 2.1 de la Licencia, o (a eleccin) cualquier versin posterior.
55
Spoon se distribuye con la esperanza de que ser til, pero sin ninguna garanta;
incluso sin la garanta implcita de comercializacin o idoneidad para un propsito
particular.
Icono
CUADRO N.
BARRAS DE HERRAMIENTAS SPOON
Descripcin
Transformacin
Crea un nuevo Trabajo o
Transformacin
Abre una
Transformacin/Trabajo desde
un archivo si no est conectado
a un Catlogo o desde el
Catlogo si se est conectado a
uno.
Guarda la
Transformacin/Trabajo en un
archivo o en el Catlogo.
Guarda la
Transformacin/Trabajo con un
nombre diferente y/o en
diferente lugar.
Ejecuta la
Transformacin/Trabajo actual
desde el archivo XML o
Catlogo.
Pone en pausa la ejecucin de la
actual Transformacin.
Detiene la ejecucin de la actual
Trabajo
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
NO
SI
SI
56
Transformacin/Trabajo.
Vista previa de la
Transformacin: ejecuta la
Transformacin actual desde la
memoria. Puede obtener una
SI
vista previa de las filas
generadas por los pasos
seleccionados.
Ejecuta la Transformacin en el
modo de depuracin, lo cual
SI
permite detectar problemas y/o
errores en la ejecucin.
Repite el procesamiento de una
Transformacin para una
determinada fecha y hora. Esto
har que algunos pasos (entrada
archivo de texto y entrada
SI
Excel) slo procesen las filas
que no fueron interpretadas
correctamente durante la
ejecucin en una fecha y hora en
particular.
Verifica la Transformacin:
Spoon ejecuta varias pruebas
SI
para cada paso para ver si todo
va a funcionar como debera.
Ejecuta un anlisis de impacto:
analiza qu impacto tendr la
SI
Transformacin sobre las bases
de datos utilizadas.
Genera el SQL necesario para
ejecutar la actual
SI
Transformacin/Trabajo.
Abre el explorador de bases de
datos y permite realizar una
vista previa de los datos,
SI
ejecutar las consultas SQL,
generar DDL (Lenguaje de
Definicin de Datos), etc.
Muestra u oculta el panel de
resultados de la ejecucin de la
SI
Transformacin/Trabajo.
Representa el tamao de
visualizacin (en porcentaje) del
SI
rea de trabajo.
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales
NO
NO
NO
NO
NO
SI
SI
SI
SI
Tal y como puede observarse estas variables son utilizadas en la sesin del usuario
actual.
Si se configura un Trabajo o Transformacin para guardar la informacin de log en
una tabla de una base de datos, se puede ver la informacin de log de ejecuciones
previas al hacer clic derecho en el Trabajo o Transformacin en el rbol Principal.
La caracterstica repetir permite volver a ejecutar una Transformacin que ha
fallado. Repetir se implementa funcionalmente para "Entrada Archivo de Texto" y
"Salida Excel".
Permite enviar los archivos que contenan errores de nuevo a la fuente y que se
corrijan los datos. En casos donde se tiene una tabla destino fija, se puede mapear
los campos del flujo de datos actual a los correspondientes campos de la tabla
destino.
Esto puede hacerse desde una Transformacin seleccionando en el paso
"Selecciona/Renombra Valores" la opcin "Editar Mapeo":
59
GRFICO N.
MAPEO DE FLOJOS EN DATOS ACTUALES
de
una
muestra
de
la
base
de
datos
y/o
el
software.
Limitaciones
El "Editor SQL simple" no reconoce los dialectos de todas las bases de datos
soportadas. Esto significa que crear procedimientos almacenados, disparadores, y
otros objetos especficos de base de datos pueden plantear problemas. En estos casos
se debe considerar el uso de las herramientas que vienen con la base de datos.
60
Validacin
Objetivo: Validacin de datos en un repositorio de preparacin.
Actividades: Una vez se tiene listo el mapeo el siguiente paso es chequear si los
datos cumplen las validaciones del sistema destino, incluyendo reglas de negocio,
restricciones de semntica o sintcticas. Estas actividades se la pueden realizar con
la misma herramienta Spoon de tal manera que el resultado de esta fase es un
conjunto de procedimientos o scripts a travs de los cuales se realizarn las
validaciones mencionadas. En este punto hay que considerar que el repositorio al
que se aplica las validaciones de negocio, puede ser un repositorio temporal donde
se almacenan los datos recibidos de la fuente con el fin de pasarlos luego de estas
validaciones al esquema definitivo
Pruebas y cargue
Objetivo: Ejecutar los scripts o el cdigo generados en la fase de desarrollo de la
migracin, enmarcndolos en un contexto de semntica del negocio que permita
resolver los problemas lgicos as como los errores fsicos.
Actividades: En la fase de pruebas del usuario se identifican y resuelven los errores
lgicos. El primer paso es ejecutar los mapas. As los mapas se ejecuten
correctamente hay que identificar:
El nmero de registros que se espera que el script cree.
Si efectivamente ese nmero de registros se crearon, si no verificar el por qu no fue
as.
Si los datos fueron cargados en los campos correctos.
Si el formato de los datos fue el adecuado.
Si el sistema destino permite limpiar los datos cargados si la carga no fue
satisfactoria y existe el procedimiento para hacerlo, mediante el uso de la capa
61
FUNDAMENTACIN LEGAL
En la Estrategia para la Implantacin de Software Libre en la Administracin
Pblica Central, el Presidente Constitucional de la Repblica del Ecuador,
Economista Rafael Correa Delgado emiti el Decreto Presidencial No. 1014 con
fecha 10 de Abril del 2008, en el cual establece el uso del Software Libre.
De esta manera, en el Ecuador el Software Libre se convierte en una poltica
tecnolgica, en dnde el cdigo abierto, las licencias de uso libre, el uso de
estndares abiertos y el trabajo comunitario, facilitan la inclusin digital, la
soberana tecnolgica y la innovacin local, optimizando el gasto estatal,
favoreciendo el desarrollo local y promoviendo la integracin regional. La
Subsecretara de Informtica de la Presidencia de la Repblica, creada mediante el
Acuerdo No. 119 el 1 de agosto del 2007, tiene entre sus atribuciones y
responsabilidades elaborar y ejecutar planes, programas, proyectos, estrategias,
62
Unidad de
63
64
65
66
Variables independientes.
Inconsistencia de los datos: Desde el punto de vista de la administracin podemos
resumir que el 60% de la data a nivel nacional se encuentra inconsistente y esto
repercute a gran escala a la empresa, ya sea al momento de reportar la informacin
detallada as como tambin al rea de cobranzas para realizar su trabajo de forma
exitosa y recuperar la cartera vencida.
Falta de capacitacin a los empleados: Para obtener una idea ms clara del estudio
que se va a realizar se analizaron varios motivos por el cual la data estaba mal
ingresada., esto se debe a la falta de capacitacin a los empleados, adicionalmente al
repositorio decadente que poseen.
CAPTULO III
METODOLOGA
CAPITULO III - METODOLOGIA
68
TIPO DE ESTUDIO
Por los objetivos.- Estudio bsico, creacin de la nueva estructura de datos
relacional diseado bajo el anlisis de la transformacin requerida por la empresa
que nos permitan representar el inconveniente.
Por el Territorio.- De campo, el estudio debe originar conocimientos y
enriquecerse mediante entrevistas a personas especializadas en el campo de la
administracin de base de datos.
Por el ambiente.- Para la toma de decisiones, el estudio debe comparar y plantear
alternativas de solucin para demostrar la hiptesis.
Por la trayectoria.- Emprico, predice lo que ocurre, el dselo de transformacin de
datos que se aplica para el estudio debe catalogar segn el tamao de la base de
datos, la medicin de las transacciones y la falta de personal a las agencias.
Por la factibilidad.- Proyecto realizable, se propondr un diseo de transformacin
de datos prctico que tendr la capacidad de migrar la informacin desde un
69
repositorio a otro sin tener riesgos de perdida de data y como resultado nos arrojara
la probabilidad que tiene la herramienta al realizar la transformacin con xito.
POBLACIN Y MUESTRA
Poblacin:
El anlisis elaborado para este estudio se lo realiz en la empresa Servicios
Nacionales que tiene como sede principal Guayaquil, con sucursales en:
Manab
El Oro
Azuay
Tulcn y
Esmeraldas
Cabe mencionar que en todas las sucursales incluyendo matriz se tienen errores, los
cuales provocan problemas de diferente ndole, que afectan la productividad y
eficiencia de la institucin.
Muestra:
Para el anlisis de la problemtica existente en la empresa Servicios Nacionales,
hemos considerado calcularlo mediante dos mtodos matemticos: Uno en el que
calcularemos el tamao de la muestra considerando el Error de Estimacin, de la
misma manera utilizaremos el segundo mecanismo para la validacin del calculado
de la muestra del primer mecanismo, el cual describimos a continuacin:
CUADRO N. .
Datos Obtenidos de la Empresa
70
POBLACIN
Manab
180
Otras agencias
320
TOTAL
500
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales
Se aplica la frmula:
n: Tamao de muestra
n
P.Q. * N
N: Poblacin
2
2
( N 1) E / K P.Q
E: Margen de error
K: Constante de correccin del error =2
EL TAMAO DE LA MUESTRA
P. Q. N
( N 1) E 2 / K 2 P. Q
PRIMER MTODO
m
e ( m 1) 1
2
SEGUNDO MTODO
500
(0.06) (500 1) 1
500
(0.0036)(499) 1
500
1.7964 1
500
2.7964
178.80
n
n
n
( 499)(0.0036) / 4 0.25
125
( 499)(0.0009) 0.25
125
0.4491 0.25
125
0.6991
178.80
n
n
n
71
Clculo de
muestral:
f
la
fraccin
n 178.80
0.3576
N
500
Poblacin
180
120
190
Porcentaje
0.36 %
0.24 %
0.38 %
TOTAL
500
100 %
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales
72
Evaluacin:
Empresa
Servicios
Nacionales.
Comprensin
formulario
en un 60%
Inters del
entrevistado
50%
Registro de
Usuarios
matutino
100%
Variables
Categricas
(Falta de
Capacitacin a
los empleados)
Unidad de
Informacin
de la Carrera.
Dependientes
Diseo
Metodologa
Variables de
Control (Gastos
operativos de la
empresa y
observaciones
por retrasos de
Balance hacia los
entes de
Control).
Calidad de la
investigacin
Se usaron
entrevistas y
encuestas
para
englobar el
problema.
Synapsis Ltda.
Diseo, desarrollo e
implantacin del
sistema de
informacin
misional de la
Procuradura
General de la
Nacin. Plan de
Pruebas. Propuestas
Consulta a expertos.
Cuestionarios,
entrevistas, test,
conversatorios.
TIPOS DE INVESTIGACION
Se realiz un piloto de recaudacin de datos basado principalmente en entrevistas y
encuestas en el cual se puntualizan las etapas que se llevaron a cabo para organizar
los datos en estudio. Al instante de recopilar datos se aplic el software SPSS, para
el mejor proceso de los datos. Se discurre que la tcnica establecida que se utiliz es
de campo.
CUADRO N.
DIAGRAMA DE LA TCNICA UTILIZADA
74
EN EL ESTUDIO
La tcnica principal del estudio que se est realizando es la entrevista y basado en
los datos que se obtengan se realizarn las encuestas, como se lo explica a
continuacin, los datos sern analizados por el software SPSS (Paquete estadstico
potente y fiable) que servir para el anlisis estadstico y nos ayudar a exponer el
estudio del diseo de transformacin de datos.
LOS UTENSILIOS
Tcnica
Instrumento
Entrevista
Guion de Entrevista
Encuesta
Cuestionario
75
PROCESAMIENTO DE LA INFORMACIN
EN EL PROYECTO
Se efectuaran la mayor cantidad de entrevistas y encuestas posibles con el objetivo
de medir el problema y dar la solucin ptima para la solucin del problema.
Se indagara encontrar posibles formas o circunstancias en las cuales se filtre la
informacin inconsistente en la base de datos de forma directa y se medir el
porcentaje de efecto que tienen los perifricos al no funcionar de la manera ptima
en el mundo real.
RECOLECCIN DE LA INFORMACIN
ENTREVISTA A DBAS
Preguntas claves sobre la importancia de los datos confiables en la base
1.- La falta de Capacitacin es indicativo del mal ingreso de datos por parte de
los usuarios?
Si, ya que el ingreso de la informacin en los distintos sistemas no siempre son las
mismas y los usuarios suelen ingresar los datos a su eleccin
2.- Qu indicios son muestras de que una base de datos se encuentre
inconsistente?
Por lo general los sntomas ms comunes se presentan cuando se repiten
innecesariamente los datos en los archivos que conforman la base de datos y esto se
debe a un grupo de factores que en su mayora van asociados al ingreso de los datos
desde algn aplicativo mal diseado, al tipo de dato que le creemos a los campos de
la base, a las longitudes, columnas, etc. Muchas veces este tipo de errores no causan
molestia en el performance de la base, pero si al usuario final o a la gestin del
servicio dependiendo del giro del negocio.
76
77
que necesitemos poseer. Para este proyecto se recomend PostgreSql, ya que es una
base de datos segura, confiable y sin costo de licenciamiento.
LA ENCUESTA
CONTENIDOS.
Servicios Nacionales (Fue dirigida hacia los servicios funerales que ofrece esta
institucin).
Estudio del Diseo de Transformacin de Datos utilizando la Herramienta Spoon de
Pentaho Open Source Business Intelligence sobre Plataforma Linux.
Sistema
___ Informacin duplicada
2. Datos Relevantes.
Edad _________
Hermanos _________
Hijos ___________
Si ___ No ___
Con qu frecuencia?
___ Una vez a la semana
___ Nunca
Si___ No___
Con qu frecuencia?
___ Una vez a la semana
___ Nunca
78
No___
Con qu frecuencia?
___ Mensualmente
___ Siempre
___ A veces
___ Nunca
Femenino: ____
VALIDACIN
El trabajo fue revisado por expertos en el rea de base de datos, como tambin en el
campo de la arquitectura en diseo de software.
El
para su
estadsticos.
80
81
CODIFICACIN
Se refiere al proceso de agrupar o asignar los cdigos numricos a las varias
respuestas, la mayora de las preguntas de las entrevistas son cerradas y estn precodificadas.
PROCESO DE CODIFICACIN
Luego de haber realizado la recoleccin de la informacin, la tabulacin de estos
datos es un factor importante que permitir reflejar a travs de porcentajes la
situacin actual del entorno en donde se desenvuelve nuestra poblacin.
La tabulacin se desarroll a travs de un conteo manual de cada una de las
preguntas contestadas por los clientes. Donde se obtuvo como resultado los datos y
grficos estadsticos que se detallan a continuacin:
ANLISIS DE RESULTADOS
Para la tabulacin de los datos se utiliz un cuadro haciendo un anlisis individual
por cada pregunta y una representacin grfica de los mismos, su cuantificacin se
realiz con el estadstico porcentaje cuya frmula es:
EL CUESTIONARIO
Pregunta 1:
1.- Han recibido algn curso donde se los capacite en cuanto al manejo de
Access?
CUADRO N.
HA RECIBIDO CURSOS DE CAPACITACIN
DATOS
Si
No
UNIDADES
PORCENTAJE
72
3,8
108
96,2
Total
180
100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales
GRFICO N.
Tabla de Cuestionario Capacitacin
2.- Usted deseara que las ventas y pagos de las diferentes agencias se puedan
verificar o validar con datos actuales desde el sistema?
CUADRO N.
DESEA QUE LAS TRANSACCIONES SE VALIDEN DESDE EL SISTEMA
DATOS
UNIDADES
PORCENTAJE
No
10.8
6
Si
169.20
94
Total
180
100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales
GRFICO N.
Tabla de Cuestionario Ventas y Pagos
Deseara que las ventas y pagos de las diferentes agencias
Se puedan validar desde el sistema
No
Si
6%
94%
84
UNIDADES
PORCENTAJE
5.4
3
174.6
97
180
100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales
GRFICO N.
Tabla de Cuestionario Inventario
Poder ver el inventario Actual de las diferentes agencias
No
Si
3%
97%
85
4.- Cree usted que al registrar un pago o una venta, el sistema debe tener
ciertas seguridades adicionales como el ingreso de la clave de un Supervisor?
CUADRO N.
SEGURIDADES EN REGISTRO DE TRANSACCIONES
DATOS
UNIDADES
PORCENTAJE
Si
7.2
4
No
172.80
96
Total
180
100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales
GRFICO N.
Tabla de Cuestionario Seguridades
Seguridades adicionales al registrar un pago o una venta en el sistema
4%
No
Si
96%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales
Interpretacin de Resultados: EL 96% de los informantes no estn de acuerdo que
sea necesaria la clave o la autorizacin del supervisor en el caso de realizar una
venta o un pago desde el sistema.
Es importante tener en cuenta que la idea de realizar este tipo de seguridades
adicionales es con el fin de minimizar posibles estafas o riesgos de perdida de
dinero.
86
4%
No
Si
96%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales
Interpretacin de Resultados: EL 96% de los informantes estn de acuerdo que
Servicios Nacionales adquieran tecnologa de punta para garantizar las transacciones
e informacin de sus clientes.
Es importante tener en cuenta que la idea de tecnologa de punta refiere a lo ms
avanzado que existe en un determinado momento. Con el avance del tiempo, los
productos dejan de ser innovadores y se vuelven obsoletos, siendo reemplazados
por otros. Estos nuevos productos son los que contarn, por un tiempo, con la
denominacin de tecnologa de punta.
87
CUADRO N.
TECNOLOGA DE PUNTA PARA SER CAPACITADO
DATOS
FRECUENCIA
PORCENTAJE
No
9
5
Si
171
95,2
Total
180
100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales
GRFICO N.
Tabla de Cuestionario Tecnologa
Servicios Nacionales adquiera tecnologa de punta y que sea
Capacitado en esta.
5%
No
Si
95%
88
95%
LAS HIPTESIS
Hiptesis N 1 Seguridad de la Informacin
1.- Crecidamente el 97% de los usuarios aseguran requerir que la informacin de todas
las agencias se encuentre centralizadas y actualizada.
CUADRO N. 5
SEGURIDAD DE LA INFORMACIN
DATOS
FRECUENCIA
PORCENTAJE
No
5.4
3
Si
174.6
97
Total
180
100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales
GRFICO N.
Hiptesis Seguridad de la Informacin
Seguridad de la Informacin
No Si
3%
97%
90
Hiptesis N 2 - Inviolabilidad
2.- De 20 usuarios de la empresa Servicios Nacionales 18 de ellos aseguran que al
tener la facilidad de registrar los pagos desde cualquier agencia a nivel nacional
debera la funeraria poner seguridades en las diferentes transacciones.
CUADRO N. 16
INVIOLABILIDAD
DATOS
FRECUENCIA
PORCENTAJE
No
7.2
4
Si
172.80
96
Total
180
100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales
GRFICO N.
Hiptesis Inviolabilidad
Garantizar la inviolabilidad de sus pagos en cualquier agencia.
4%
No
Si
96%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales
91
GRFICO N.
Hiptesis Garantizar transferencias
Seguridades tecnolgicas para garantizar las transferencias
En lnea
Muy bajas
4%
3%
4%
Bajas
Altas
89%
Muy altas
92
GRFICO N.
Hiptesis Cursos de Capacitacin
93
CUADRO N. 19
AHORRAR TIEMPO Y DINERO
DATOS
FRECUENCIA
PORCENTAJE
No
9
5
Si
171
95
Total
180
100%
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales
GRFICO N.
Hiptesis Ahorrar tiempo y dinero
Ahorrar tiempo y dinero en su lugar de trabajo
No
Si
5%
95%
recibido algn curso donde se los capacite en cuanto al manejo de Access? con
el 95%.
94
95
96
CAPTULO IV
MARCO ADMINISTRATIVO
CAPITULO IV MARCO ADMINISTRATIVO
CRONOGRAMA
El cronograma de la migracin se muestra a continuacin. Los ajustes sobre el
cronograma se darn por lineamientos del estudio por modificaciones realizadas a
travs de requerimientos formales por parte del jefe de sistema de la empresa.
GRFICO N.
CRONOGRAMA DE TRABAJO
94
CUADRO N.
PLANIFICACIN DETALLADO DEL TRABAJO REALIZADO
Nombre
Das
Inicio
Fin
Levantamiento de Informacin
24,875
14,375
2,75
6,562
6,562
4,312
14/05/2012
9:00
18/06/2012
8:00
06/07/2012
12:00
11/07/2012
11:30
20/07/2012
8:00
30/07/2012
14:30
06/08/2012
8:00
15/06/2012
17:00
06/07/2012
11:00
11/07/2012
10:00
19/07/2012
17:00
30/07/2012
13:30
03/08/2012
17:00
13/08/2012
17:00
95
21
8,75
13
13
5
28
Diseo de respaldo
13
Verificacin - afinamientos
27
14/08/2012
8:00
20/08/2012
8:00
03/09/2012
8:00
19/09/2012
10:00
03/10/2012
8:00
15/10/2012
8:00
25/10/2012
8:00
01/11/2012
8:00
11/12/2012
8:00
28/12/2012
8:00
17/08/2012
17:00
17/09/2012
17:00
19/09/2012
17:00
01/10/2012
17:00
12/10/2012
17:00
31/10/2012
17:00
31/10/2012
17:00
10/12/2012
17:00
27/12/2012
17:00
04/02/2013
17:00
Registro de inconsistencias
Los datos que no puedan ser cargados, por ser invlidos sern enviados a un
repositorio
de inconsistencias.
Este repositorio
contendr
una
tabla
de
97
PRESUPUESTO
Nuestro presupuesto comprende los diferentes gastos que se llevaran a efecto, para
el cumplimiento del objetivo del proceso de la investigacin.
CUADRO N.
REFERENCIA DE EGRESOS DEL PROYECTO
EGRESOS
DLARES
Suministros de oficina
$
90.00
Fotocopias
40.00
Libros y documentos
0.00
400.00
Transporte
30.00
Refrigerio
41.00
50.00
TOTAL
$
Elaboracin: Johanna Hernndez Velasco
Fuente: Servicios Nacionales
651.00
$
$
$
$
$
$
$
$
48.00
65.00
410.00
56.00
25.00
97.50
50.00
42.00
99
Date, C.J. (2001) "Introduction a los sistemas de Bases de datos", Prentice Hall,
Mexico, 925 pp.
Miguel, A; Piattini, M; (2006) "Diseno de Bases de Datos Relacionales",
Alfaomenga Ra-Ma, Mexico, 289-293 p.
Martin,J (1994) "Organization de las Base de Datos" Prentice Hall, Mxico 33 p.
Castro Daz Balart F., Ciencia, Tecnologa y Sociedad.
La Habana. Editorial Cientfico-Tcnica, 450 Pginas.2003 - Pag. 12, 21
Esteban Mart Jos Ramn, Criptografa.
Buenos Aires, Argentina, 350 pginas. 2009. Pag. 18
Farrel GE, Egana E, Fernndez F., Investigacin cientfica y nuevas tecnologas.
La Habana. Editorial Cientfico-Tcnica. 150 Paginas. 2003. Pag. 14
Addison Wesley, Fundamentos de Sistemas de Bases de Datos
ELMASRI & NAVATHE, Captulo 1,2,3,4,5,6,7,8,9,10,11., Nez Jover J.
La ciencia y la tecnologa como procesos sociales. En: Grupo de Estudios Sociales
de la Tecnologa. Tecnologa y Sociedad., La Habana:
Editorial Flix Varela., 80 Paginas, 1999, Pag. 5
Sistemas de Bases de Datos, Ramez Elmasri & Shamkant B. Navathe
2da Edicin, 885 Pginas, Espaol.
Pearson Prentice Hall, Introduccin a los Sistemas de Base de Datos
Da Edicdin, 733 Pginas, Espaol, Trejo Delarbre, La ciencia y la tecnologa
Caracas, Venezuela, Editorial Rial, 150 Paginas, 2009, Pag.8, 10, 12.
Prez Lpez, C. (2004) "Tcnicas de Anlisis de Datos. Aplicaciones de
Parches". Pearson Prentice Hall, Madrid.
100
REFERENCIAS WEB
http://www.firmadigital.go.cr/gestionCA.html
Harley
Villalobos,
Caracas
Venezuela, 2008
http://www.java.com/en/download/manual.jsp , Java Runtime Environment, JRE 1.4
21
de
Octubre
de
2010.
(http://www.upm.es/portal/site/institucional/menuitem.fa77d63875fa4490b99bfa04d
ffb46a8/?vgnextoid=b713c85fb34c1210VgnVCM10000009c7648aRCRD).
Pentaho Data Integration Big Data and More: The Power to Access, Prepare
and Deliver Data Faster
http://www.pentaho.com/explore/pentaho-data-integration/
101
CONCLUSIONES Y RECOMENDACIONES
CAPITULO V CONCLUSIONES Y RECOMENDACIONES
CONCLUSIONES
El 97% de los usuarios indican que desean realizar sus transacciones en lnea y con las
agencias interrelacionada, sobre todo evitar errores por duplicidad de pago y mal control
de inventarios.
Como hemos estado hablando durante todo el documento, hoy en da, la informacin que
se almacena en la base de datos que poseen las empresas es primordial, es considerado en
mucho de los casos, como uno de los bienes ms preciados de las distintas entidades. As
mismo, la desinformacin, puede ser una de las armas con las que se puede atacar a
alguien o alguna otra empresa.
En esta sociedad en la que vivimos se hace muy necesario la seguridad en las bases de
datos, y como principal exponente en Internet ya que este mtodo es cada vez ms
utilizado, no solo por estudiantes y comunidad universitaria, sino por empresas,
particulares, etc.
El tema tratado ser uno de los claros exponentes a tener muy en cuenta en el futuro de
la informtica, sobre todo a la velocidad que se implementan nuevas tecnologas.
El 89% de los empleados del rea de ventas indican que al realizar sus ingresos de
contratos o pagos ellos necesitan seguridades informticas para que no sean modificadas
ni eliminadas.
El traspaso de informacin de una base a otra cada vez es ms valioso y que puede
comprometer mucho a los sistemas en caso de que haya ms de un sistema.
El tema tratado es un mundo muy amplio y fascinante, de la misma manera, tiene muchas
posibilidades de investigacin. Este efecto puede generar mltiples posibles estrategias a
la hora de poder dar una solucin en la mejora del traspaso de informacin. Hoy en da,
103
existes muchas herramientas informticas (software), las cuales nos ayudan en estos
procesos de migracin, sin embargo, el cmo se las emplee y se las configure para efectos
de mitigar los tiempos en que esta procesa para tales fines, es lo que durante la redaccin
e investigacin del presente documento, se logra evidenciar. Adems de ello, obtener una
alta disponibilidad con datos lo ms reales y actualizados posible.
104
RECOMENDACIONES
Se debe realizar los cambios tecnolgicos respecto al rea de sistemas, en especial la
parte del hardware. Los cambios tecnolgicos realizados deben estar de acuerdo a la
tecnologa aplicada en la metodologa internacional de seguridad.
A los usuarios de las distintas agencias se los debe de capacitar acerca de las nuevas
tecnologas, nuevos sistemas informticos implementados para que tengan un buen
manejo y control del mismo. Entre las conclusiones que podemos nombrar son:
Siempre se debe realizar un anlisis de las diferentes transacciones que realizan los
clientes de la funeraria, para evitar fraudes que afecten al sistema.
Los empleados de la funeraria del rea tcnica deben estar siempre actualizados en los
diferentes usos de la tecnologa aplicada a la seguridad va internet.
As mismo, para futuros estudiantes que se interesen por la metodologa implementada en
esta investigacin bajo la herramienta tecnolgica sugerida, puedan de alguna forma
optimizar los procesos mostrados y detallados, as como tambin, hacer uso de la misma,
en combinacin con otras aplicaciones para fine especficos.
105