OCTAVIO J. SALCEDO PARRA, RITA MILENA GALEANO, LUIS G. RODRIGUEZ B.
METODOLOGA CRISP PARA LA IMPLEMENTACIN DATA WAREHOUSE
Ternura, vol. 14, nm. 26, enero-junio, 2010, pp. 35-48, Universidad Distrital Francisco Jos de Caldas Colombia
Metodologa crisp para la implementacin Data Warehouse Methodology crisp for data warehouse implementation
Resumen
En la actualidad la generacin de informes claros, y ante todo veraces, con base en la informacin de las empresas, es un elemento fundamental en la toma de decisiones.Debido a esta necesidad Data warehouse como recurso esencial para sus procesos, cimentado primordialmente bajo la filosofa OLAP y el cual utiliza el concepto EIS y DSS para la realizacin de los informes . Definicin del data warehouse como un sistema integrado. La tendencia hacia la que apunta la inteligencia de negocios es la divulgacin de la informacin, tanto a nivel general como al que lo necesite desde diferentes dimensiones y niveles asociados, para lograr informes directamente detallados en la toma de decisiones como objetivo de los data warehouse . Para llevar a cabo los procesos es necesario disponer una metodologa adecuada los cuales constituyan los cimientos para obtencin de excelentes resultados.
1. Introduccin Uno de los principales fines de la computacin desde sus orgenes ha sido presentar una herramienta de apoyo al hombre de tal forma que su trabajo disminuya haciendo las cosas ms fciles de llevar, llevando consigo innovacin y evolucin tecnolgica. La tendencia futura del manejo de informacin est orientada y focalizada principalmente a la inteligencia de negocios, que anteriormente muy poco trataban de eso. Cabe rescatar que el xito de la inteligencia de negocios, especficamente en los Data warehouse como procesos y no como productos reside sobre la metodologa implementada y las tcnicas aplicadas para la realizacin del proyecto. 2. Generalidades. Hoy en da las organizaciones orientan sus mayores esfuerzos de sus ingresos, para lograr un mayor rendimiento se debe realizar una serie de procesos estratgicos que involucren las variables de la empresa y su entorno. Los Data warehouse pueden estar compuestos por Data Marts, son una particularizacin de las bodegas de datos, que heredan de las mismas caractersticas de los data warehouse cuyo enfoque es sobre las reas o mdulos especficos de la empresa, los Data Marts influye en el manejo de un control ms adecuado de los datos bajo la filosofa OLAP (On-Line Analitycal Processing) que a su vez usa estructuras multidimensionales.
3. Conceptos Asociados La importancia que ha adquirido la tenencia de la informacin como recurso potencial de las empresas .como herramientas claves para atacar problemas, brindar soluciones y realizar proyecciones para ofrecer una mejor gestin. Data warehouse nace como tentativa a la construccin de un nuevo concepto tecnolgico y herramienta competitiva para disear nuevas alternativas de negocio. W.H.Inmon, considerado el padre de la bodega de datos en el 92, define los data warehouse como: un sistema orientado al usuario final, integrado, con variaciones de tiempo y sobre todo una coleccin de datos como soporte al proceso de toma de decisiones Ralph Kimball, lo define como una copia de datos de la transaccin estructurados especficamente para preguntar y divulgar.
Con-ciencias Este proceso puede ser visto de dos formas, una global que aplicara a Data warehouse, y una parcial que vendra a estar representada por los Data Marts donde seria los ltimos que realizaran funciones especficas, coordinadas y correlacionadas para conformar el todo o el sistema data warehouse. Segn Ralph Kimball, una Data Mart es: un subconjunto lgico del Data warehouse completo. A esta definicin la global comunicacin agrega en enero de1999 es un almacn de datos diseado para dar soporte a un departamento o unidad de negocio. Para cumplir con los objetivos, la tecnologa Data warehouse es utilizada por la ventaja de tiempo de respuesta a la hora de realizar consultas utiliza una serie de mecanismos para proporcionar los beneficios ante mencionados. Est sustentada principalmente en dos grandes sistemas . Sistema tcnico operacional. Encargado de las tareas principales de la empresa. Sistema de soporte de decisiones. Su fin principal est orientado hacia un planeamiento, previsin y administracin de la organizacin donde se encuentra reflejado el proceso Data Warehouse. 3.1 Particularizacin de las necesidades del cliente Se enfoca directamente en los datos propios
3.2 unificacin Independiente de las diferentes formas en la que se encuentran almacenados los datos en la BD origen. Al ser llevado al DW por medio del proceso de transformacin. 3.3 De tiempo variable Pueden manejar una lnea de tiempo que oscila aproximadamente entre cinco y diez aos y dichos datos no pueden ser alterados una vez alojados en el DW 3.4 no voltil Estabilidad y persistencia de datos y la conservacin en el tiempo es lo que precisa la robustez del Data warehouse.
4. Metodologa CRISP-DM (Cross-Industry Standard Processfor Data Mining).la metodologa CRISP es una de las principales metodologas por seguir por los analistasen la inteligencia de negocios, donde se puede rescatarprimordialmente Data Warehousey Data Mining La metodologa CRISP est sustentada en estndares internacionales que reflejan la robustez de sus procesos y que facilitan la unificacin. Ademsde ello, esta tecnologa interrelaciona lasdiferentesfases del proceso entre s, de tal maneraquese consolida un proceso iterativo y recproco.Otroaspecto fundamental de esta tecnologa es queesplanteada como una metodologa imparcial oneutrarespecto a la herramienta que se utilice.
El ciclo de vida del proyecto segn la metodologa CRISP est basado en seis faces cambiantes entre s y nunca terminantes, lo cual lo postula como unciclo en constante movimiento.
4.1 Comprensin del negocio Esta fase subdivide las siguientes categoras: Definicin de los objetivos de negocio Evaluacin de la situacin Definicin de los objetivos del data warehouse Realizacin del plan del proyecto
4.2 Comprensin de los datos Recoleccin inicial de datos Descubrimiento de los datos Exploracin de los datos Verificacin de calidad de datos
4.3 Preparacin de datos Seleccin de datos Depuracin de los datos Estructuracin de los datos Integracin de los datos Formato de datos 4.4 Modelado Seleccin de la tcnica de modelado Generar el plan de pruebas Construccin del modelo Evaluacin del modelo 4.5 Evaluacin Evaluar resultados Proceso de revisin Determinacin de los pasos siguientes 4.6 Despliegue o divulgacin Plan de divulgacin o implementacin Plan de monitoreo y mantenimiento Presentacin del informe final Con-ciencias
5. Resultados 5.1 Lenguajes de consulta inductivos Son consultas que se proyectan hasta los lmites de bsqueda de patrones, los cuales ceden a los usuarios los privilegios de restringir la bsqueda inductiva.
Para alimentar el modelo es necesario utilizar la clusula INSERTITINTO, utilizada comnmente en base de datos.
Con-ciencias
5.2 Lgica Difusa Esclarecer el anlisis de los datos seguido de los modelos que la lgica borrosa incorpora. The Fuzzy Logic se agrega como una de las herramientas ms utilizadas, tanto en el campo de la inteligencia de negocios, como el reconocimiento de patrones, Data Mining, estadstica aplicada, segmentacin clientes y otros campos. 5.2.3 Modelo Matemtico Sea u el conjunto, posiblemente infinito, de todas las preposiciones. Sean p, q,r,s. sus elementos; es decir proposiciones atmicas En lgica clsica presuponemos una aplicacin v del conjunto U en el conjunto (0,1), de tal manera que v(p) =Ocupando p es falsa y v(p)=1 cuando p es verdadera . P=q si v(p)=v(q) En la teora axiomtica de la probabilidad definimos los espacios de probabilidades por tres factores: Conjunto no vacio de resultados (0) , conjunto de sucesos o eventos como parte de w(a) y una funcin (p) en el intervalo [0,1], que verifica:
(v) y falso (f) para cualquier predicado. Por ejemplo V = (Bx; x es B) F= (Bx; x no es B)
Conclusiones La bodega de datos es una herramienta muy necesaria y muy ventajosa para las empresas con respecto a la toma de decisiones, adems representan un instrumento para ayudar a optimizar el costo/beneficio y obtener la mayor productividad no solo en trminos econmicos si no financieros, humanos ,culturales y en general todo los que abarquen en el proceso empresarial.