Vous êtes sur la page 1sur 20

UNIVERSIDAD TECNOLOGICA

INDOAMRICA
Facultad de ingeniera en sistemas
PROYECTO FINAL

NOMBRE DE ESTUDIANTES
EVENTO
DATAWAREHOUSE
TUTOR
Ing. Franklin Castillo

AMBATO ECUADOR
Marzo, 2017

1
VISIN INSTITUCIONAL

Formar seres humanos integrales con capacidad emprendedora y de liderazgo, mediante


una educacin de calidad, impulsando la investigacin para contribuir al desarrollo de la
sociedad.

MISIN INSTITUCIONAL

La Universidad Tecnolgica Indoamrica ser lder y referente positivo de gestin


educativa de calidad por su contribucin efectiva a la sociedad.

INTRODUCCIN

2
Se ha investigado varios trabajos publicados en la web sobre los principales conceptos

de DATA WAREHOUSE, de los cuales el DR Eduardo castro manifiesta que la

inteligencia de negocios est basada en un almacn de datos que es generalmente un

componente de una solucin Business Intelligence.

Tambin se revis el trabajo del Ing. Ricardo Mendoza, en el cual menciona que un data

warehouse es una base de datos que contiene, datos empresariales, integra coleccin de

datos histricos, contiene datos estructurados para la distribucin y consultas.

Una solucin data warehousing (ETL) es un proceso que recupera desde un OLTP,

transforma datos y carga datos a un data WareHouse; en trminos generales lleva datos

desde un origen aun destino usando una herramienta para construir y manejar el data

warehouse.

Para la aplicacin prctica del presente proyecto se est trabajando con los datos del

distrito de educacin de la ciudad de Guaranda, con los estudiantes de los colegios que

ya culminaron el bachillerato.

3
Plan de Trabajo

Motivos de Desarrollo Del proyecto


Documentar de forma breve la aplicacin de DATA WAREHOUSE dentro de los
sistemas informticos, realizado en las semanas de duracin del evento.
Disponer de un material personal que permita recordar los conocimientos adquiridos en
caso de ser necesario, durante el ejercicio de la profesin.

TEMA DEL PROYECTO

Conocer de manera general la aplicacin de DATA WARE HOUSE dentro de los


sistemas informticos.

OBJETIVO DEL PROYECTO

Demostrar con ejemplos la aplicacin de DATA WARE HOUSE en los sistemas


informticos,

PROPOSITO DEL PROYECTO

El propsito principal del proyecto es la aplicacin y demostracin prctica de DATA


WARE HOUSE en los sistemas informticos.

4
Fundamentacin terica

1. DATA WAREHOUSE
Para el portal MUNDODB [1], data warehouse es el que se encarga de extraer
datos de las bases de datos operacionales o fuentes externa, transformar,
consolidar, integrar, chequear la integridad y centralizar los datos que la empresa
genera en su actividad diaria de negocios y/o informacin externa con la que
est relacionada. Una data warehouse permite el acceso y manipulacin de la
informacin, a travs de anlisis multivariables, con el objetivo final de dar
soporte al proceso de toma de decisiones.
Las particularidades de los data warehouse hacen, que los modelos de datos y las
estrategias de diseo utilizadas para bases de datos operacionales, generalmente
no sirvan para el diseo de un data warehouse. Esto implica, que se utilicen
nuevas tcnicas y estrategias de diseo.
Los data warehouse pueden crecer y surge la necesidad de dividir la
informacin, los datamarts. Suelen ser soluciones departamentales y almacenan
un area de negocio especfica. Tienen una estructura ptima, para analizar los
datos desde el punto de vista de un departamento.
2. OBJETIVOS DE UN DATA WARE HOUSE
Accesibilidad de informacin por parte de la organizacin
Consistencia de la informacin entre las distintas unidades de una
organizacin
Ayuda a toma de decisiones
Generacin de informacin de forma flexible
Controlar el acceso de la informacin

3. CARACTERISTICAS

Administra grandes cantidades de informacin


Guarda histrico de datos

5
Condesa y agrega informacin
Integra y asocia informacin de muchas fuentes

4. PASOS PARA LA CARGA DE UN DATA WAREHOUSE(ETL).


Usualmente un Data warehouse sigue una serie de pasos para la carga de datos:
Extraccin: usualmente de mltiples fuentes en procesos batch, para no influir
en los operacionales, interfaces con diferentes tecnologas
Transformacin: Manipula informacin compleja reunindola de diferentes
fuentes. Implementan reglas de negocio. Realiza una limpieza de los datos.
Optimizado, para el desempeo y para grandes volmenes
Carga: almacena los datos en modelos multidimensionales y crea histricos de
los datos.
5. PENTAHO
Pentaho es una herramienta de Business Intelligence desarrollada bajo la
filosofa del software libre para la gestin y toma de decisiones empresariales.
Es una plataforma compuesta de diferentes programas que satisfacen los
requisitos de BI. Ofreciendo soluciones para la gestin y anlisis de la
informacin, incluyendo el anlisis multidimensional OLAP, presentacin de
informes, minera de datos y creacin de cuadros de mando para el usuario.
La plataforma ha sido desarrollada bajo el lenguaje de programacin Java y tiene
un ambiente de implementacin tambin basado en Java, haciendo as que
Pentaho sea una solucin muy flexible al cubrir una alta gama de necesidades
empresariales.
6. CARACTERISTICA DE PENTAHO
Proporciona funcionalidad crtica para usuarios finales como:
Acceso va web.
Informes parametrizados.
Scheduling.
Suscripciones.
Distribucon (bursting).
Proporciona claras ventajas a especialistas en informes:
Acceso a fuentes de datos heterogeneos: relacional (va jdbc), OLAP, XML,
transformaciones de pentaho data integration.
Capacidad de integracin en aplicaciones o portales: jsp, portlet, web service.
Definicin modular de informes (distincin entre presentacin y consulta).
Diseo de informes flexible:

Entorno de diseo grfico.


Capacidad de uso de templates.
Acceso a datos relacionaes, OLAP y XML.
Desarrollado para:
Ser embebible.
Ser fcil de extender.

6
No consumir muchos recursos.
100% Java: portabilidad, escalabilidad e integracin.
Multiplataforma (tanto a nivel de cliente como servidor):
Mac.
Linux/unix.
Windows.
7. PENTAHO DATA INTEGRATION
Para el Portal web gravitar [2], menciona muchas organizaciones tienen
informacin disponible en aplicaciones y base de datos separados. Pentaho Data
Integration abre, limpia e integra esta valiosa informacin y la pone en manos
del usuario. Provee una consistencia, una sola versin de todos los recursos de
informacin, que es uno de los ms grandes desafos para las organizaciones TI
hoy en da. Pentaho Data Integration permite una poderosa ETL (Extraccin,
Transformacin y Carga).
El uso de kettle permite evitar grandes cargas de trabajo manual frecuentemente
difcil de mantener y de desplegar.
La arquitectura de Pentaho Data Integration viene representada por el
siguiente esquema:

Propiedades bsicas:
A parte de ser open source y sin costes de licencia, las caractersticas
bsicas de esta herramienta son:
Entorno grfico de desarrollo
Uso de tecnologas estndar: Java, XML, JavaScript
Fcil de instalar y configurar
Multiplataforma: windows, macintosh, linux
Basado en dos tipos de objetos: Transformaciones (coleccin de
pasos en un proceso ETL) y trabajos (coleccin de
transformaciones)
Incluye cuatro herramientas:
Spoon: para disear transformaciones ETTL usando el entorno
grfico.

7
PAN: para ejecutar transformaciones diseadas con spoon.
CHEF: para crear trabajos.
Kitchen: para ejecutar trabajos.

DESARROLLO DE APLICACIN PRCTICA

1. INSTALACION DE PENTAHO EN VMWARE

Para el desarrollo de la parte prctica se utilizar Pentaho sobre la mquina


virtual VMWare con Linux centos 7.3 x64.

Creamos la mquina virtual para el sistema operativo con las siguientes


caractersticas HARDWARE.

CPU 2 Cores.
RAM 4 GB
ALMACENAMIENTO 40 GB.

8
Procedemos con la instalacin de centos de forma normal.
Para continuar descargamos del sitio web oficial Pentaho.

9
Una vez descargado e instalado procedemos a generar nuestra data warehouse
basado en el siguiente grfico.

El distrito de educacin Guaranda, cuenta con la informacion en archivos xls formato


de Microsoft Excel.
La arquitectura de flujo de datos de Pentaho es la siguiente:

Pentaho data integration, permite obtener informacion de varias fuentes, para la


aplicacin prctica se usar archivos de Excel.
Para un proyecto completo de inteligencia de negocios se debe basar en la siguiente
tabla.

10
Para la construccin del data warehouse de todas las herramientas utilizamos Pentaho
data integration.
Creacin de las dimensiones.

11
Como se muestra en el grafico se utiliza el modelo en estrella para nuestra tabla de
hechos.
Antes del ETL, realizamos una limpieza de los datos con el data cleanner.

El objetivo es verificar el rendimiento de los estudiantes que se graduaron como


bachilleres en el periodo 2010 2014.
Procedemos a realizar el ETL.

12
Importamos de los archivos de Excel.

13
Obtenemos la vista previa de los datos.

Por ultimo hacia nuestra base de datos.

14
Ejecutamos la transformacin.

Posterior a eso cargamos nuestro DATA WAREHOUSE.

Query utilizado.

15
Cargamos la tabla de hechos.

Carga de las dimensiones.

16
Carga del data warehouse.

Por ltimo, la creacin de reportes.

17
Generacin de reportes a la medida.

18
19
Reflexiones y experiencias personales
El arte de vencer se aprende de las derrotas.
El coraje la valenta y el honor no hay que decirlo eso hay que demostrarlo.
La perseverancia es la clave del xito.

Experiencias
Como regresar en el tiempo, la mejor experiencia recordar nuevamente la universidad
luego de 5 aos de ser profesional.
Los servicios IP se aplica diariamente en los sistemas informticos.

Conclusiones

El data warehouse es muy importante dentro de sistemas para la toma de


decisiones.
El uso de herramientas open source (cdigo abierto) como Pentaho, permite un
ahorro significativo en el costo de licencia.

Bibliografa

[1 mundodb, mundodb.es, [En lnea]. Available:


] http://mundodb.es/introduccion-a-los-datawarehouse. [ltimo acceso: 05
03 2017].

[2 gravitar. [En lnea]. Available: http://gravitar.biz/pentaho/. [ltimo acceso:


] 05 03 2017].

Nota Final: . . . . . . . . . . . . . . . . . . . .

..

Jos Miguel Palacios Bayas


Estudiante

20

Vous aimerez peut-être aussi