Vous êtes sur la page 1sur 5

I-Definicin del problema

El presente tema de tesis propone la construccin de un Data Warehouse que servir de


apoyo en el proceso de toma de decisiones del directorio del hospital, el cual, decidir en
base a datos histricos y cuadros generados en lnea. Para la realizacin del actual tema de
tesis, se est optando por utilizar la suite de Inteligencia de Negocios proporcionada por
Pentaho, la cual es una herramienta libre y completa, la dificultad en implementar con esta
herramienta viene dada por su misma naturaleza libre (open source) y su poco tiempo en
produccin. Por esta razn, el presente proyecto dar pautas para la utilizacin e
instalacin de esta suite, lo cual servir de base para proyectos similares que deseen
implementar proyectos con ella. Para implementar este proyecto de tesis se realizarn
todos los pasos de un proyecto de Inteligencia de Negocios: diseo y construccin del
Data Warehouse y los Data Marts, creacin y programacin de los procesos ETL, creacin
de los cubos, creacin de los informes, y finalmente implementacin de la plataforma BI
(Web).
Los Sistemas de Soporte de Decisiones (DSS) proveen informacin adecuada para la toma
de decisiones, por esto, es necesario crear un repositorio central de datos, que integre todos
estos datos de las distintas reas del hospital. Con los DSS se puede utilizar los datos para
transformarlos en informacin, y as conseguir que el directorio pueda planificar sus metas
y cumplir mejor con su gestin administrativa.
En conclusin, el directorio del hospital ser capaz de: planificar sus metas, tomar
decisiones para prevenir eventos adversos, responder a situaciones imprevistas, cambios
en la demanda de servicios; mejorar la calidad de atencin a los pacientes.
Conceptos Relacionados
*Business Inteligence-el trmino de BI (Business Inteligence) es usado por diferentes
expertos y fabricantes de software para distinguir un amplio rango de tecnologas,
plataformas de software, aplicaciones especficas y procesos: Tomar
mejores decisiones rpidamente.
Convertir los datos en informacin.
Utilizar un mtodo razonable para la gestin empresarial.
* Data Warehouse, segn [IBM 1999] es un repositorio no voltil de datos,
transacciones, y eventos. Incluye data corporativa, operacional y externa. Segn
[VITT 2002], los datos en el Data Warehouse deben estar integrados, consolidados,
seguros, y limpios para que sea una fuente segura de soporte de decisiones y
aplicaciones de informacin.
*Data Mart, segn [IBM 1999], es un subconjunto del Data Warehouse, con un alcance
de contenido limitado. ste se usa para un solo departamento de una organizacin y/o
un problema particular de anlisis dentro de la organizacin.
*Sistema de Soporte de Decisiones (DSS- Decision Support System) contiene todos los
servicios y procesos, para seleccionar, manipular, y analizar informacin y presentar
resultados es la ventana del usuario a los datos almacenados en el ambiente del Data
Warehouse.
*OLAP (Online Analytical Processing). Segn [VITT 2002], OLAP
proporciona un modelo de datos intuitivo y conceptual, para que los usuarios que no
tengan experiencia como analistas puedan comprender y relacionar los datos mostrados.
Este modelo es llamado anlisis multidimensional, siendo habilitado
para ver los datos a travs de mltiples filtros, o dimensiones. Los sistemas OLAP
organizan los datos directamente como estructuras multidimensionales, incluyendo
herramientas fciles de usar por usuarios para conseguir la informacin en mltiples
y simultneas vistas dimensionales.
*MOLAP, ROLAP, HOLAPOLAP, no se recomienda para consultas complejas y que
recorran muchas tablas.
Una de estas variaciones es MOLAP (Multidimensional online analytical
processing), segn [VITT 2002], los datos son colocados en estructuras especiales
que se encuentran en un servidor central. MOLAP ofrece el mayor rendimiento de
recuperacin de informacin. Por otra parte, existe la solucin ROLAP (Relational
online analytical processing), segn [VITT 2002], permite tomar ventaja de uno de
sus ms grandes beneficios, el almacenamiento de inmensas cantidades de datos.
El rendimiento de recuperacin de la informacin para ROLAP frecuentemente no
es tan rpido como otras opciones de almacenamiento. ROLAP es recomendado
para consultas pesadas que no se usan muy a menudo. Finalmente existe HOLAP
(Hybrid online analytical processing), que es un hbrido entre MOLAP y ROLAP, y
segn [VITT 2002], HOLAP no es realmente un modo diferente de almacenamiento
de datos. Ms bien es la habilidad para diseminar los datos a travs de bases de
datos relacionales y multidimensionales con la finalidad de obtener lo mejor deambos
sistemas.

Otras definiciones
Dimensin: es un grupo de miembros consistentes categricamente
representados como una arista especfica de un cubo OLAP, por ejemplo,
el tiempo, clientes, productos.
Jerarqua: es la organizacin de niveles dentro de una dimensin que
refleje: cmo los datos aadidos estn agregados nivel a nivel, y el camino
que permita hace drill-down de arriba abajo dentro de la dimensin. Por
ejemplo: ao, trimeste y mes.
Miembro: es el nombre o etiqueta para cualquier miembro de cualquier nivel
en una jerarqua. Los miembros inferiores son llamados algunas veces
miembros hoja o miembros de nivel cero.
Generacin jerrquica: este trmino se utiliza para describir las relaciones
entre miembros de una jerarqua. Lo ms comn es usar nombres de
familia, como los siguientes:
-Hijo: es un miembro directamente subordinado o por debajo de otro
miembro en una jerarqua.
-Padre: es un miembro que est directamente encima de otro
miembro en una jerarqua.
-Hermano (Sibling): es un miembro que est al mismo nivel de uno o
ms miembros compartiendo el mismo padre.
-Descendiente: cualquier miembro en cualquier nivel en relacin a
otro miembro especfico.
-Ancestro: cualquier miembro de cualquier nivel superior en relacin a
otro miembro.
El sistema de soporte de decisiones tiene 5 componentes principales: la base de datos;
el modelo de la base de datos; el hardware y el software de la computadora; el
administrador (usuario) y la red de comunicacin.

II) Herramientas para la implementacin


1) Data Stage
DataStage [DAT 2007] es una herramienta que permite soportar la informacin que
necesita la compaa, y construir un Data Warehouse en tiempo real. El
DataStage es una herramienta ETL (Extract/Transform/Load - Extraccin,
Transformacin y Carga) que utiliza notacin grfica para construir integracin de
datos para dar soluciones, y est disponible en varias versiones, como Server
Edition y Enterprise Edition. Es una de las herramientas ETL ms rpidas y
potentes del mercado.
2) SSIS
El software SQL Server Integration Services (SSIS) [SQL 2007], permite la
integracin de los datos de cualquier fuente. SISS provee una plataforma escalable
y extendible que capacita al equipo desarrollador a construir, mantener, y desplegar
soluciones de integracin para alcanzar soluciones de integracin nicas de
acuerdo a las necesidades. Destacan sus herramientas de minera de datos y
administracin de objetos.
3)Sunopsis
Tambin existe en el mercado, Sunopsis [SUN 2007], que ofrece un alto
desempeo y una integracin efectiva, cubriendo las necesidades de integracin.
Esta herramienta permite el desarrollo y el mantenimiento simple, que permite que
los proyectos de integracin se realicen a tiempo y en presupuesto. Sinopsis trabaja
con una arquitectura ELT (Extraccin, Load, Transform) en lugar de la tradicional
ETL.
4) Microstrategy
Existen soluciones como MicroStrategy Business Intelligence Solutions [MIC 2007]
que permite mejorar y predecir el comportamiento del negocio, poniendo
informacin en las manos de toda persona de negocios en la empresa. Esta
tecnologa ofrece capacidades de monitoreo, de reportes y de anlisis, que
permiten tomar mejores decisiones cada da, y lograr las metas planteadas en cada
organizacin. Esta herramienta permite la generacin de scorecards y dashboards,
reportes, anlisis OLAP, anlisis avanzado y predictivo, alertas y notificaciones.
5) Cognos
Cognos 8 Business Intelligence [COG 2007] es una plataforma del grupo IBM que
permite la generacin y visualizacin de reportes, cubos, dashboards y Balance
scorecards, adems de la gestin de permisos y usuarios necesaria para la
implementacin de la plataforma.
A continuacin se presenta un cuadro comparativo, con las herramientas
mencionadas anteriormente, que muestra las caractersticas trascendentales para
un trabajo como el que se desarrollar en el presente proyecto de tesis.

II. Planeamiento
2.1.1.2 Evaluacin de la infraestructura de la organizacin
-Infraestructura tcnica: incluye hardware, software, sistemas de manejo de
base de datos, sistemas operativos, sistema de red, repositorios de
metadata, sistemas utilitarios.
- Infraestructura no tcnica: estndares de meta data, modelo lgico del
negocio, metodologas, procedimiento de pruebas, procesos del control de
cambio.
2.1.1.3 Planeamiento del proyecto

III. Anlisis del negocio


Desarrolla un anlisis detallado del problema o la oportunidad en la organizacin,
para entender en forma completa los requerimientos para una posible solucin.
2.1.1.4 Definicin de los Requerimientos del proyecto
2.1.1.5 Anlisis de los datos
2.1.1.6 Prototipo de aplicacin
2.1.1.7 Anlisis del repositorio de metadata

IV. Diseo
Concibe un producto que soluciona el problema de la organizacin.
2.1.1.8 Diseo de la base de datos
2.1.1.9 Diseo ETL (Extraccin, Transformacin y Carga)
2.1.1.10 Diseo del repositorio de Metadata.

V. Construccin
Construye el producto en un marco de tiempo pre-determinado.
2.1.1.11 Desarrollo ETL
2.1.1.12 Desarrollo de la aplicacin
2.1.1.13 Data Mining
2.1.1.14 Desarrollo del repositorio de metadata

VI. Instalacin
Implementa el producto final, y luego mide la efectividad para determinar si la
solucin alcanza, excede o falla en alcanzar los requerimientos.
2.1.1.15 Implementacin
2.2. Requerimientos Funcionales
2.4. Plan de Pruebas
Objetivos
Este plan de pruebas tiene como finalidad dictar los pasos a seguir para realizar un
conjunto de pruebas para verificar la consistencia del producto final desarrollado.
Las pruebas a realizar sern del tipo de caja negra. Esto es, se tendr un conjunto
de datos de entrada y se analizar si la salida es la correcta respecto a los datos de
entrada.
2.5. Software a Utilizar
Se especific, como uno de los requerimientos no funcionales, que las herramientas
a utilizar en el presente proyecto de tesis fueran de uso libre.

3. Diseo
En este captulo se brinda una descripcin del diseo a utilizar. Se describirn las
caractersticas, estndares y modelamiento que se usar.
3.1. Modelamiento de tablas
Como se mencion antes, se utilizar la herramienta de modelamiento Erwin para
la estructura del Data Warehouse y de los Data Marts.

3.2. Anlisis Dimensional


En esta seccin se presentarn las diversas vistas del modelo segn el modelador
de Base de Datos elegido para el proyecto
Esta vista contiene las tablas correspondientes al Data Mart de Admisin, el cual
ofrece datos sobre los pacientes del hospital, tales como nombre, fecha de
nacimiento, lugar de residencia, datos clnicos, categora del paciente e indicador
de fallecimiento.
3.4. Estndares de Reportes:
Configuracin del Reporte:
Formato: Web
Orientacin : Vertical u Horizontal (Dependiendo del tipo de reporte)
Mrgenes : Se ocupar toda la ventana, dejando un margen del 10% a
cada extremo.
Imgenes : PNG
Reporte tipo grfico: considere que habrn distintos tipos de grfico. A continuacin
slo se muestra un tipo de grfico para demostrar los estndares de una ventana
con un reporte grfico.

6. Bibliografa
[BEN 2005] Huynen MMTE, Vollebregt L, Martens P, Benavides BM. The
epidemiologic transition in Peru. Rev Panam Salud Publica. 2005. Pan
American Health Organization. http://journal.paho.org/index.php?a_ID=252
ltimo acceso: septiembre 2008
[IPE 2004] Per, Instituto Peruano de Economa. Lima: IPE; 2004.
www.ipe.org.pe/publicaciones. ltimo acceso: septiembre 2008.
[INEI 2006] Per, Instituto Nacional de Estadstica e Informtica. Lima: INEI;
2006. http://www.inei.gob.pe/ ltimo acceso: diciembre 2006

Vous aimerez peut-être aussi