Vous êtes sur la page 1sur 9

Maestra en Gestin de Sistemas de Informacin - Universidad Catolica Boliviana San Pablo - Abril 2011

Metodologa para el diseo de depsito de datos de fuentes XML en la web


Ing. Jorge Carlos Pabn, Ing. Fernando Carreo Siqueira Universidad Catlica Boliviana San Pablo
Abstrac: It is an undeniable fact that Internet has broug t a revolutionary change in the exchange and acces ot information. Information on the Web is important not only for individuals but also for commercial organizations, especially for decision support. Unfortunately it is not possble to exploit this contextual information using traditional OLAP tools directly due to the semi-structure, rich text docu ents containing such information. Currently you can find many of these documents in XML format. To solve the aboveroblem this paper proposes to study a web repository (web warehousing) XML data. Resumen: Es un hecho innegable que Internet ha supuesto un cambio revolucionario en cuanto al intercambio yacceso a la informacin. La informacin en la Web es importante no slo para usuarios individuales sino tambin para organizaciones comerciales, sobre todo para apoyotoma de decisiones. Infelizmente no es posible explotar asinformacin contextual utilizando directamente las herramientasOLAP tradicionales debido a la naturaleza semi-estruturda, rica en texto, de los documentos que contienen dicha infoa cin. Actualmente es posible encontrar muchos de estoscdumentos en formato XML. Para solucionar el problema anteriormente este trabajo propone estudiar un depsito de web e b warehousing) de datos XML. ndice de Trminos: Minera Web, XML, Depsito Web, Web Warehousing.

Analytical Processing) tradicionales. La Principal causa es la naturaleza semi-estructurada, rica en texto, de los documentos que recogen dicha informacin. Actualmente es posible encontrar muchos de estos documentos en formato XML. Por lo anterior expuesto el propsito tendra que tender a construir un depsito de web (web warehousing), que materialice y maneje la informacin til de la Web que facilite la utilizacin de la informacin generada en la misma. Un depsito de web es un depsito de pginas Web extradas de sitios Web remotos. As, cuando ms organizaciones ven la web como una parte integrante de su comunicacin y negocio, la importancia de integrar datos XML en ambientes de almacenamiento de datos es cada vez mayor. El incremental uso de XML como un formato preferido para el intercambio de datos impulsa a los arquitectos de datos y administradores a evaluar opciones para integrar datos XML comerciales y crticos en su infraestructura TI. La facilidad de indexacin, optimizacin, la compresin y el diseo de base de datos fsico, son algunas de estas cualidades que infieren en la optimizacin de tiempo de ejecucin a mayor escalabilidad. As mismo est claro que existen en la actualidad varias opciones de software complementarios que permiten tener acceso fcilmente a datos puros XML, constituyndose como un medio fcil de integrar XML en sus actuales infraestructuras TI. Como XML se ha hecho el nuevo estndar para el intercambio de datos semi estructurado sobre la Web, en el presente documento estudiaremos el depsito de web de

I. IINTRODUCCION Y MOTIVACION

s un hecho innegable que Internet ha supuesto un

cambio revolucionario en cuanto al intercambio y acceso a la informacin, la World Wide Web es un

datos XML, que sern llamados depsito web XML.


II. DATAWAREHOUSING Y LOS DATOS SEMI ESTRUCTURADOS

medio de emisin popular que contiene una cantidad enorme de informacin, la misma que en la Web es importante no slo para usuarios individuales sino tambin

para organizaciones comerciales, sobre todo para apoyo a toma de decisiones.

La informacin sobre el contexto de los datos registrados en el almacn es muy valiosa, ya que nos permite interpretar los resultados obtenidos en anlisis histricos. Por ejemplo: una crisis financiera relatada en una revista digital sobre economa podra explicar una cada de las ventas en una determinada regin geogrfica. Sin embargo, no es posible explotar esta informacin contextual utilizando directamente las herramientas OLAP (On-Line

La arquitectura datawarehouse para la nueva generacin de almacenamiento de datos reconoce que hay informacin valiosa en la informacin textual semi estructurada. En la figura 1 se muestra un ejemplo de cmo el texto viene de todas las clases y formas, ya sea como correos electrnicos, documentos, archivos mdicos, contratos, hojas de clculo, y transcripciones de voz.

Maestra en Gestin de Sistemas de Informacin - Universidad Catolica Boliviana San Pablo - Abril 2011

Figura 1 Documentos, hojas de clculo, correos electrnicos algunos de los tipos comunes de datos no estructurados.

El primer paso en el proceso de preparacin de datos semi estructurados para el procesamiento analtico debe leer el texto. El texto reside en una amplia variedad de formatos los cuales deberan ser ledos como las entradas como tratamos de esquematizar en la figura 2 que representa la lectura de textos de una fuente de datos no estructurados.

estructurado ha sido tratado, y una vez que es colocado dentro del ambiente estructurado, un mundo entero de oportunidades se abre dndonos la posibilidad de usar tecnologa analtica estndar. El presente documento propone utilizar metodologas y conocimientos para trabajar con los datos semi estructurados de fuente XML. Un rasgo comn de modelos de datos semi-estructurados es la carencia de esquema, de modo que los datos auto describan. Sin embargo, los documentos de XML pueden tener que ver con validacin contra una Definicin de Tipo de Documento (DTD - Document Type Definition) o contra un Esquema XML, ambos de los cuales permiten que la estructura de documentos XML sea descrita. Mediante los DTD definimos cmo ser nuestro dialecto de XML (tomemos en cuenta que que nosotros definimos qu etiquetas vamos a usar en nuestros documentos, qu significado les damos, etc.). El presente documento se encuentra estructurado como sigue. En los apartados A y B los fundamentos de modelado multidimensional y diseo son dados, mientras en las secciones C y D se exponen alternativas de diseo para modelar relaciones tanto en DTDs como en Esquemas XML. Consumando el presente documento en la seccin III y IV con las conclusiones y trabajos futuros respectivamente. A. XML DATAWAREHOUSING

Figura 2

La primera tarea lee los datos no estructurados.

Despus de que el texto de la fuente original ha sido ledo, el siguiente paso corresponde a la preparacin de esta informacin para convertirse en la entrada en una base de datos. Esta preparacin textual es un proceso complicado. Dos de las razones fundamentales para la preparacin y el tratamiento de los datos semi estructurados son: Los datos no estructurados tienen que ser base en un formato relacional. Los datos no estructurados deben ser "integrados" de modo que el procesamiento analtico pueda ser hecho en una manera significativa. Si el texto crudo es simplemente empujado en una base de datos, el resultado de los datos puede considerarse ineficiente o insignificantemente analizado. es el texto que no puede ser eficiente o hasta significativamente analizado. Se debe tomar la decisin de en qu momento se debe realizar el procesamiento analtico del texto, tenemos bsicamente dos alternativas, la primera es efectuar el procesamiento analtico en el lugar donde el texto semi estructurado reside (en el ambiente semi estructurado). La otra alternativa debe hacerlo en el ambiente estructurado, que para tal efecto es necesario que el texto no estructurado sea ledo, integrado, y tratado para que luego sea colocado en el ambiente estructurado. No cabe duda que, integrar, y tratar datos no estructurados textuales es una tarea dura. Pero una vez que el texto no

Varios estudios se dirigen a la cuestin de diseo y construccin de depsitos de datos de XML. Ellos proponen usar documentos XML para manejar o representar hechos y dimensiones. El objetivo principal de estos acercamientos es permitir un almacenaje puro del depsito y su integracin fcil con lenguajes de consulta de XML. Pokorn'y modela un esquema de XML-estrella en XML por jerarquas de dimensin definiendo como juegos de colecciones lgicamente relacionadas de datos XML, y hechos como elementos de datos de XML [1]. Hummer propone una familia de plantillas, denominada XCube, permitiendo a la descripcin de estructuras multidimensionales (dimensin y datos de hecho) integrar varios depsitos de datos en un depsito virtual o federado [2]. Rusuet propone una metodologa, basada en la tecnologa XQuery, para construir depsitos de datos XML. Esta metodologa cubre procesos como la limpieza de datos, sumarizacin, intermediar documentos de XML, actualizacin/unin de documentos existentes y creacin de tablas de hecho [3]. Los hechos y las dimensiones son representados por documentos XML construidos con XQueries. Finalmente, Boussad propone una metodologa XMLbased, llamada el X-warehousing para datos de complejo almacenamiento [4].

Maestra en Gestin de Sistemas de Informacin - Universidad Catolica Boliviana San Pablo - Abril 2011 Todos ellos usan el Esquema XML como una lengua que modela para representar necesidades de anlisis de usuario. El modelo propuesto presenta un depsito solo de documentos XML para hechos y depsitos mltiples de documentos XML para dimensiones (un depsito por dimensin). El XML-OLAP est basado en un depsito XML donde cada hecho y dimensin son almacenados como un documento XML. B. MODELOS MULTIDIMENSIONALES La idea bsica de los almacenes de datos es proveer la funcionalidad de generalizacin de datos, o sea, permitir abstraer enormes conjuntos de datos desde niveles conceptuales bajos a otros con mayor significacin semntica. En la Figura 3 se puede observar una representacin grafica de almacenes de datos con soporte para la generalizacin de datos, a travs de los llamados cubos multidimensionales. C. DATAWAREWOUSE PARA DATOS SEMIESTRUCTURADOS

(a) Anlisis de muestras de yacimientos arqueolgicos

(b) Ventas de una cadena de almacenes Figura 3. Ejemplos de modelos multidimensionales

Cada dimensin representa una entidad [5] a la que se le han asociado categoras lingusticas que describen vistas diferentes de la informacin. El cubo multidimensional colecciona hechos que se asocian a las dimensiones. Cada hecho relaciona los valores de ciertas medidas de anlisis a los valores de las dimensiones. En la figura 3a se presenta un ejemplo, de intereses en aplicaciones arqueolgicas, el cual nos permite analizar la relacin entre la riqueza de muestras encontradas pertenecientes a diferentes perodos y la localizacin donde stas fueron halladas. En la figura 3b el ejemplo, muestra una aplicacin para un analista econmico que revisa las ventas obtenidas considerando diferentes tipos de productos, sus precios y fechas de venta. Estos ejemplos que se presentan en la figura 3 se han limitado a tres dimensiones para permitir la visualizacin. Por supuesto, los sistemas de manipulacin de cubos multidimensionales, no imponen tal restriccin.

Con la aparicin de XML como la lengua pura de la Web, la informacin semi estructurada est extensamente disponible ahora, y varias soluciones han sido propuestas para construir depsitos para datos XML. Esta seccin primero introduce el trabajo orientado hacia la construccin de depsitos de datos de web XML, luego presenta la investigacin hecha en el diseo de bases de datos multidimensionales para datos XML, y finalmente se concentra en la extensin de tcnicas OLAP para analizar datos XML. 1) Depsitos de Datos de Web de XML El problema de utilizar y consultar datos de web no es trivial, principalmente porque las fuentes de datos son dinmicas y heterogneas. En este contexto, algunas investigaciones o documentos web [6] han sido enfocados en la construccin de depsitos para XML [7]. Las cuestiones principales de esta rea de investigacin incluyen el almacenaje eficiente, indexacin, procesamiento de pregunta, adquisicin de datos, control de cambio e integracin de esquemas de datos extrados de fuentes de web dinmicas y heterogneas. Esta seccin resume los resultados principales de dos proyectos importantes: Xyleme y Whoweda. Xyleme era un proyecto ambicioso dirigido a la construccin de un depsito para todos los datos XML disponibles en la Web. El sistema Xyleme corre en una red de ordenadores personales Linux distribuidos. A fin de almacenar una cantidad tan enorme de datos XML, se propone un acercamiento hbrido para guardar la estructura de rbol de documentos XML en DBMS tradicional hasta una cierta profundidad, y luego almacenar los pedazos de documentos bajo la profundidad seleccionada como corrientes de byte. As, la parte superior de la estructura de documentos XML est siempre disponible, pero las secciones inferiores requieren que el anlisis sintctico obtenga la estructura. El modo de procesamiento de consultas est basado en un operador de lgebra que devuelve el juego de documentos que satisfacen un modelo de rbol dado. Xyleme divide los documentos XML en racimos correspondiente a esferas diferentes del inters (p.ej, turismo, finanzas, etc.) que permiten poner ndice a cada racimo en una mquina diferente. Ya que los documentos en un racimo pueden seguir DTDs diferentes, un DTD abstracto para el racimo junto con las correlaciones a DTDs original es deducido. De esta manera, el usuario pregunta el racimo usando un DTD abstracto. La actualizacin de una copia es realizada segn la importancia del documento, su cambio de precio estimado, o en la peticin del dueo del documento (es decir, en una base de notificacin/suscripcin). Whoweda (el Depsito de Datos de Web Warehouse of Web Data), este proyecto tambin est inspirado en el almacenamiento datos relevantes extrados de la Web. Sus esfuerzos han sido principalmente enfocados en la definicin de un

Maestra en Gestin de Sistemas de Informacin - Universidad Catolica Boliviana San Pablo - Abril 2011 modelo de datos formal y un lgebra para representar y manejar documentos de la web [8], su almacenaje fsico [9] y descubrimiento de cambio [10]. En su modelo de datos, llamado Modelo de Objeto de Depsito [11], un depsito de web es concebido como una coleccin de tablas web. Las tuplas de estas tablas son grficos dirigidos donde cada nodo representa un documento, y los bordes representan hipervnculos entre documentos. A fin de manejar los datos almacenados en las tablas web, un grupo de operadores algebraicos es proporcionado (i.e., global web coupling, web join, web select, etc). Por ejemplo, la web global que conecta al operador recupera un conjunto de documentos entrelazados que puedan satisfacer consultas con condiciones en el metadata, contenido, estructura e hipervnculos de los documentos. El resultado de la operacin es una nueva tabla de web donde cada nueva tupla empareja una parte del WWW que satisface las condicionantes de la consulta. En el operador join de web, las tuplas de dos tablas de web que contienen nodos idnticos son "concadenados" en una tupla web. Dos nodos son considerados idnticos si ellos representan el mismo documento con mismo URL y fecha de modificacin. El cambio de datos de XML (actualizacin de contenido a demanda) es una cuestin importante que ha engendrado mucha investigacin. Xyleme permite que usuarios suscriban a cambios de un documento XML [12]. Cuando tal cambio ocurre, los suscriptores reciben slo los cambios hechos, llamados deltas [13, 14] y luego incrementalmente actualizan el viejo documento. Esta metodologa est basada en un algoritmo para calcular la diferencia entre dos versiones consecutivas de un documento XML. Whoweda proyecta el descubrimiento de cambio de direcciones sobre juegos de documentos entrelazados, en vez de documentos XML aislados. El operador de lgebra global puede ser usado para establecer un conjunto de documentos entrelazados para "mirar". Considerando dos versiones de este conjunto de documentos entrelazados materializados en dos tablas de web diferentes, las diferencias entre estas dos versiones son estimadas aplicando join de web y los operadores de lgebra de join externos de web. Los autores [15] consideraron un problema ms general estudiando como actualizar vistas materializadas de datos grafico-estructurados cuando las fuentes se cambian. 2) XML Diseo de Base de datos Multidimensional Esta seccin contempla la investigacin ms relevante sobre el diseo multidimensional para datos XML. Especficamente es estudiada sobre el trabajo de Golfarelli [16], Pokorn [17], y Jensen [18]. Los autores sostienen que los instrumentos comerciales existentes apoyan la extraccin de datos de fuentes XML para alimentar un depsito, pero tanto esquema de depsito como la correlacin lgica entre los esquemas de la fuente y objetivo debe ser definida por el diseador. Ellos muestran como el diseo de un mercado de datos puede ser realizado comenzando directamente de una fuente XML, y proponen un proceso semiautomtico a la construccin del esquema DW.

El problema principal en la construccin de un esquema DW es identificar de muchas relaciones a una entre las entidades implicadas, ellos primero estudian como estas relaciones son representadas en el DTD o el esquema XML de los documentos XML. Estas relaciones son modeladas por subelementos anidados en DTDs y las referencias key/key en el esquema XML. Los DTDs no son considerados desde IDREF (s) no son obligados para ser de un tipo de elemento particular. Por ejemplo, si los atributos de ID son definidos por los elementos carro y fabricante, y el atributo de IDREF es declarado para un elemento de dueo, el atributo de IDREF puede referirse al elemento carro o fabricante en un documento de XML. Slo concentrndose en DTDs, los autores proporcionan un algoritmo que representa la estructura modelada por el DTD como un grfico, y comenzando de un elemento seleccionado (el hecho de anlisis), semiautomticamente construye el esquema multidimensional mediante la inclusin de la dimensin y de los niveles de dimensin representados por las relaciones "muchos a uno" encontrado entre los elementos y los atributos del grfico. Para comprender por qu la participacin de diseador es necesaria, debemos considerar el siguiente ejemplo: En un DTD el dueo de la definicin (carro *) declara que un dueo puede tener muchos carros. Sin embargo, la cardinalidad de la relacin inversa no es declarada en el DTD. Es decir el mismo coche puede pertenecer a varios dueos. Ellos solucionan el problema preguntando los casos de documento y preguntando al usuario. Golfarelli asume que el esquema de la fuente de datos XML es proporcionado por un solo DTD o Esquema de XML. Pokorny sigue un acercamiento diferente, considera que los datos de la fuente XML que son obtenidos de fuentes diferentes, entonces cada fuente proporcionar su DTDs particular. As, las dimensiones son modeladas como secuencias de DTDs lgicamente relacionado, y el esquema de XML-estrella es definido considerando los hechos como elementos de XML (ver la Figura 4). A fin de construir las dimensiones de jerarquas, este acercamiento define un sub DTD como una parte de la fuente de DTD que caracteriza la estructura de un miembro de la dimensin. Entonces, los mecanismos de vista de XML son aplicados para seleccionar a los miembros de cada dimensin. El concepto de la integridad de referencia para datos XML es aplicado para establecer relaciones jerrquicas entre ellos.

Figura 4. Esquema en estrella [Pokorny]

Maestra en Gestin de Sistemas de Informacin - Universidad Catolica Boliviana San Pablo - Abril 2011 El trabajo de Jensen trata con el diseo conceptual de bases de datos multidimensionales en un ambiente distribuido de XML y fuentes de datos relacionales. Se puede hacer un uso de los diagramas UML [20] para describir la estructura de los documentos XML as como el esquema relacional. Para bases de datos relacionales, las herramientas de ingeniera comerciales pueden ser aplicadas para construir los diagramas de UML correspondientes. Para documentos XML, los autores anteriormente mencionados proponen un algoritmo [21] que construye los diagramas UML desde el DTDs de las fuentes XML. Ellos tambin proporcionan una metodologa para integrar la fuente del esquema en un diagrama copo de nieve en UML, tomando un cuidado especial asegurndose que los datos XML puedan ser sumariados. Por ejemplo, ellos estudian como los elementos XML con mltiples padres, las referencias de ID entre elementos o elemento anidados recursivamente pueden ser manejados. El esquema UML resultante puede ser aplicado para la integracin de fuentes en una base de datos multidimensional. 3) Ampliacin Tcnicas de OLAP a Datos XML En esta seccin estudiaremos principalmente el trabajo realizado por Pedersen en la extensin de tcnicas OLAP para analizar datos XML [22, 23]. Pedersen sostiene que el dinamismo de los ambientes comerciales de hoy no son manejados correctamente por sistemas OLAP comunes, desde la integracin fsica de los datos con las nuevas fuentes de datos son muy largas, El proceso del consumo de tiempo para la integracin lgica es la mejor opcin en muchas situaciones. Considerando el creciente uso de XML para publicar datos de web, apunta su trabajo a la unin lgica del OLAP y fuentes de datos XML. Nos permite la ejecucin de operaciones OLAP que contienen datos en fuentes XML externos. De esta manera, los datos de web de XML pueden ser usados como dimensiones [22] y/o medidas [23] de los cubos OLAP. La unin de OLAP-XML usa eslabones para relacionar valores de dimensin en un cubo a elementos en un documento XML (p.ej, uniendo los valores de una dimensin de Pas de la ciudad de la tienda a un documento de XML pblico con la informacin sobre ciudades, como estado y poblacin). As, una unin consiste en un cubo, una coleccin de documentos XML, y los eslabones entre el cubo y los documentos. El operador fundamental en uniones OLAP-XML es el operador de decoracin [57], que aade una nueva dimensin a un cubo basado en los valores de los elementos XML unidos. Este trabajo presenta un lenguaje de query multidimensional ampliado llamado SQLXM que apoya a las expresiones XPath y permite que datos XML unidos sean usados para decoracin, seleccionando y agrupando los datos de hecho. La figura 5 muestra la arquitectura del sistema propuesto por Pedersen [22] junto con el federation manager, esto incluye un componente OLAP (es decir, un servidor de OLAP comercial capaz de evaluar preguntas multidimensionales), y un componente XML (es decir, un sistema de base de datos XML con un interfaz XPath). El federation manager recibe preguntas de SQLXM y coordina su ejecucin en los dos depsitos. El meta data, los datos de eslabn y las bases de datos temporales (p.ej, bases de datos relacionales

tradicionales) tambin son manejados por el federation manager del componente.

Figura 5.: arquitectura de federacin de OLAP-XML

El proceso para tratar una pregunta de SQLXM es como sigue: Primero, cualesquiera dato XML referidos en la pregunta son trados y almacenados en una base de datos temporal como tablas relacionales. Segundo, una pregunta de OLAP pura es construida desde el SQLXM, resultando en una nueva tabla en la base de datos temporal. Finalmente, estas nuevas tablas temporales son unidas, y la parte XML-especfica de la pregunta de SQLXM es evaluada en la tabla que resulta junto con la agregacin final. Pedersen proporciona tanto estrategias de optimizacin basadas en la regla como basadas en el costo enfocadas en reducir la cantidad de datos movidos del OLAP y componentes XML a la base de datos temporal. El algoritmo de optimizacin basado en la regla divide un rbol de pregunta de SQLXM, significando que los operadores de lgebra son agrupados en una parte OLAP, una parte XML, y una parte relacional. Las estrategias de optimizacin de costo estn basadas en el modelo de coste descrito por Pedersen [25], y tcnicas que incluyen valores de datos literales XML en predicados OLAP. En un documento ms reciente [23], Pedersen muestra una implementacin de su XML-OLAP cuyo instrumento comercial de OLAP se efecta mediante la herramienta TARGIT. D. DWs e IR para Datos No estructurados Las aplicaciones web de almacenamiento de datos no estructurados con partes de texto grandes requieren tcnicas de IR (Recuperacin de Informacin - Information Retrieval) para ser indexadas, consultada, y recuperada. Esta seccin estudia como el OLAP y los acercamientos de ir pueden ser combinados para construir un depsito de documentos ricos de texto. La investigacin reciente persigue dos lneas principales: la aplicacin de bases de datos multidimensionales para poner en prctica un sistema IR, y la extensin de tcnicas OLAP para apoyar el anlisis de documentos ricos de texto. 1) Cubos para Anlisis de Documento y Recuperacin En una investigacin reciente [28] proporciona el mecanismo para realizar agregaciones de texto especiales en los

Maestra en Gestin de Sistemas de Informacin - Universidad Catolica Boliviana San Pablo - Abril 2011 contenidos de documentos XML, p.ej, consiguiendo las palabras ms frecuentes de una seccin de documento, sus palabras clave ms frecuentes, un resumen, etc. Aunque estas operaciones que extraen texto sean muy tiles para explorar una coleccin de documentos XML, ellos no pueden ser aplicados para evaluar operaciones OLAP sobre los hechos descritos por el documento contenido textuales. Este es el foco de la seccin siguiente. 2) Tcnicas de IR Aplicadas a OLAP Hoy en da, la mayor parte de informacin es publicada en la Web como documentos no estructurados. Estos documentos tpicamente tienen secciones de texto grandes y pueden contener informacin muy valiosa sobre el ambiente comercial de una compaa. La tendencia corriente debe encontrar estos documentos disponibles en formatos XML-parecidos [29]. Esta situacin abre una variedad nueva e interesante de posibilidades para DW y tecnologa OLAP: tentativa de incluir la informacin descrita por stos documentos XML en el anlisis OLAP. Podemos imaginar as un sistema DW capaz de obtener la informacin estratgica combinando todas las fuentes de compaa de datos estructurados y documentos. Los acercamientos hablados en la Seccin 2.4.1 para poner en prctica un sistema IR usando una base de datos multidimensional son muy tiles para explorar una coleccin de documentos XML. Sin embargo, estas tcnicas no pueden ser aplicadas para evaluar operaciones OLAP sobre los hechos descritos por documentos de contenidos textuales. La extensin de tcnicas OLAP para datos XML estudiados en la Seccin 2.3.3 no es conveniente para analizar documentos por el texto. Ellos slo tratan con datos XML muy estructurados (p.ej, listas de fijacin de precios de producto XML en lnea), de donde las medidas y las dimensiones pueden ser directamente seleccionadas usando expresiones de XPath. El objetivo de este trabajo es proporcionar un marco para explotar la informacin actual encontrada en los documentos XML con contenidos textuales. Para este fin es necesario una especie de procesamiento de documento para extraer medidas y valores de dimensin de sus contenidos textuales. En particular, proponemos contextualizar los hechos de DW corporativo tradicional con los documentos que describen sus circunstancias. Los valores de dimensin encontrados en los documentos sern usados para relacionar documentos y hechos. La tecnologa DW tradicional no considera la informacin contextual, principalmente debido a la naturaleza no estructurada de estas fuentes de informacin [30]. Es necesaria una nueva arquitectura para un depsito contextualizado. En esta arquitectura las fuentes de documento XML desempean un papel importante, y un hecho de contextualizacion es proporcionado. El usuario establece un contexto de anlisis suministrando un query de IR. Los documentos que satisfacen la condicin IR son recuperados, y luego relacionados con los hechos corporativos. Los hechos de los cubos OLAP que resultan sern clasificados por su importancia al query de IR. De esta manera, se requiere un nuevo modelo de IR para estimar la importancia de los hechos a una pregunta de IR. Adems, un modelo multidimensional extendido IR y el lgebra para manejar la

importancia y el contexto de los hechos en las operaciones OLAP tambin tiene que ser estudiados. Este documento propone anotar fuentes de informacin externas (p.ej, documentos, imgenes, etc.) por medio de una ontologa en el formato de RDFs que comprende todos los valores de las dimensiones del depsito de datos. De esta manera, los resultados de preguntas de OLAP pueden tener que ver con las fuentes externas anotadas con los mismos valores de dimensin. Sin embargo, a diferencia del trabajo propuesto en este documento no proporciona un marco formal para calcular hechos de relevancia con respecto a los querys del usuario.
III. CONCLUSIONES

El advenimiento de XML y tecnologas relacionadas desempea un papel importante en el futuro desarrollo de la Web. DW y los instrumentos OLAP participan en la revolucin de Web. Este captulo ha resumido la investigacin ms relevante en la combinacin tanto DW como tecnologas de Web XML-basadas. Por lo que sabemos{conocemos} all no existe ninguna revisin similar en la literatura. El captulo ha estudiado las ventajas de XML como un instrumento de integracin para sistemas DW heterogneos y distribuidos. En este sentido, esto ha descrito primero la investigacin enfocada en la definicin de lenguas XML para representar datos de depsitos y metadata, y luego habl de arquitecturas de integracin de depsito de datos XMLbasadas diferentes. Esto tambin se ha dirigido a la construccin de depsitos para datos de web XML semiestructurados. Expresamente, esto ha introducido un poco de trabajo orientado hacia la construccin de depsitos de datos de web XML, la investigacin hecha en el diseo de bases de datos multidimensionales para datos XML, y la extensin de tcnicas OLAP para analizar datos XML externos. Hoy da, la mayor parte de informacin es publicada en la Web como no estructurado (en el futuro prximo textrich XML) documentos. Este captulo ha mostrado como las tcnicas IR y las tecnologas OLAP pueden ser combinadas para explorar colecciones de documentos ricas por el texto, es decir, el uso de bases de datos multidimensionales para poner en prctica sistemas IR. Como antes hablado, el anlisis de la informacin actual descrita en los documentos es una cuestin muy difcil. Es difcil encontrar el trabajo en la literatura corriente que trata de dirigirse a este problema. Esta tesis propone un ajuste particular donde este anlisis es posible, llamado un depsito contextualizado. Esto propone una arquitectura para tal sistema, un modelo de IR para estimar la importancia de los hechos a una pregunta de usuario IR, y un modelo multidimensional ampliado por la importancia. El resto de esta disertacin es dedicado a este objetivo. En el futuro, con la Web Semntica extensamente adoptada, las compaas sern capaces de juntar cantidades enormes de metadata semnticamente relacionado valioso acerca de sus sujetos del inters. Toda esta informacin ser usada para crear depsitos metadata para la toma de decisiones global. Por lo que sabemos{conocemos}, actualmente all no existe

Maestra en Gestin de Sistemas de Informacin - Universidad Catolica Boliviana San Pablo - Abril 2011 ningn acercamiento para construir depsitos de datos para el metadata generado por la Web Semntica.
IV. TRABAJOS FUTUROS

Si los cambios ocurren en las fuentes de datos, un depsito de web debera ser consciente de aquellos cambios que pueden afectar los datos en el depsito de web. De esta manera la cuestionante del como hace un depsito de web para descubrir los cambios, se constituye en adelante el problema de descubrimiento de cambio. Por lo tanto, como descubrir eficazmente los cambios de las fuentes de datos es un problema importante a un depsito de web. Si los cambios ocurren en las fuentes de datos, un depsito de web puede tener que ser mantenido. La decisin del cmo mantener un depsito de web es llamado el problema de mantenimiento de depsito. El problema del mantenimiento de depsito no es un problema reciente y ha sido estudiado para depsitos de datos tradicionales. Sin embargo, la mayor parte del trabajo anterior en este problema fue enfocado en el modelo de datos relacional y el ambiente de depsito de datos tradicional (Agrawal, 1997; Zhuge, 1995; Zhuge, 1996). Un depsito de web puede ser diferenciado de un depsito de datos tradicional en trminos de su modelo de datos y ambiente de operaciones, y de ah requiere un mtodo de mantenimiento diferente. Por lo tanto, como mantener eficazmente un depsito de web conlleva a problemas de descubrimiento de cambio y mantenimiento de depsito para un sistema de depsito de web XML. Autores han sugerido encarar esta problemtica utilizando un modelo de datos orientado por el objeto para pginas Web XML en el depsito de web as como arquitectura de sistema para descubrimiento de cambio y mantenimiento de depsito [31]. V. REFERENCIAS
[1] J. Pokorny. XML Data Warehouse: Modelling andQuerying. In 5th International Baltic Conference (BalticDB&IS 06), Tallin, Estonia, pages 267-280. Institute of Cybernetics at Tallin Technical University,2002. [2] W. Hummer, A. Bauer, and G. Harde. XCube: XML for data warehouses. In 6th International Workshop on Data Warehousing and OLAP (DOLAP 03), New Orleans, USA, pages 33-40. ACM, 2003. [3] L. I. Rusu, J. W. Rahayu, and D. Taniar. A Methodology for Building XML Data Warehouse. International Journal of Data Warehousing and Mining, 1(2), pages 67-92, 2005. [4] O. Boussad, R. BenMessaoud, R. Choquet, and S. Anthoard. XWarehousing: An XML-Based Approach for Warehousing Complex Data. In 10th East-European Conference on Advances in Databases and Information Systems (ADBIS 06), Thessaloniki, Greece, volume 4152 of Lecture Notes in Computer Science, pages 39-54. Springer, 2006. [5] Atributo, desde el punto de vista de las bases de datos. [6] The Web Warehousing & Mining Group.Whoweda. http://www.cais.ntu.edu.sg:8000/whoweda. [7] Xyleme, L. A dynamic warehouse for XML data of the Web. IEEE Data Engineering Bulleting 24, 2 (2001), 40 - 47. [8] Bhowmick, S. S. WHOM: A Data Model and Algebra for a Web Warehouse. PhD thesis, School of Computer Engineering, Nanyang Technological University (Singapore), 2001. [9]Yinyan, C., Lim, E. P., and Ng, W. K. Storage Management of a Historical Web Warehousing System. In Proceedings of 11th International Conference on Database and Expert Systems Applications (2000),Springer, Berlin, pp. 457-466. [10]Bhowmick, S. S., Mandria, S., and Ng, W. K. Detecting and Representing Relevant Web Deltas in Whoweda. IEEE Transactions on Knowledge and Data Engineering 15, 2 (2003), 423 - 441.

[11]Bhowmick, S. S. WHOM: A Data Model and Algebra for a Web Warehouse. PhD thesis, School of Computer Engineering, Nanyang Technological University (Singapore), 2001. [12] Nguyen, B., Abiteboul, S., Cbena, G., and Preda, M. Monitoring XML data on the web. In Proceedings of the 2001 ACM SIGMOD international conference on Management of data (2001), ACM Press, New York, NY, pp. 437-448. [13] Marian, A., Abiteboul, S., Cbena, G., and Mignet, L. Changecentric management of versions in an XML warehouse. In Proceedings of the 27th International Conference on Very Large Data Bases (2001),Morgan Kaufmann Publishers Inc., San Francisco, CA, pp. 581-590. [14] Cobena, G., Abiteboul, S., and Marian, A. Detecting changes in XML documents. In Proceedings of the 18th International Conference on Data Engineering (2002), IEEE Computer Society, Washington, DC,pp. 41-52 [15] Zhuge, Y., and Garcia-Molina, H. Graph Structured Views and their Incremental Maintenance. In Proceedings of the 14th International Conference on Data Engineering (1998), IEEE Computer Society, Washington, DC, pp. 116-125. [16] Golfarelli, M., Rizzi, S., and Vrdoljak, B. Data warehouse design from XML sources. In Proceedings of the 4th ACM international conference on Data warehousing and OLAP (2001), ACM Press, New York, NY, pp. 40-47. [17] Pokorny, J. Modelling Stars Using XML. In Procedings of the 4th ACM international conference on Data warehousing and OLAP(2001), ACM Press, New York, NY, pp. 24-31. [18] Jensen, M. R., Mller, T. H., and Pedersen, T. B. Specifying OLAP Cubes on XML Data. Journal of Intelligent Information Systems 17,2/3 (2001), 255 280. [19] Golfarelli, M., Rizzi, S., and Vrdoljak, B. Data warehouse design from XML sources. In Proceedings of the 4th ACM international conference on Data warehousing and OLAP (2001), ACM Press, New York, NY, pp. 40-47. [20] OMG - Object Management Group. Unified Modeling Language (UML). http://www.uml.org, 2004. [21] Kimball, R., and Ross, M. The Data Warehouse Toolkit. John Wiley & Sons, 2002. [22] Pedersen, D., Riis, K., and Pedersen, T. B. XML-Extended OLAP Querying. In Proceedings of the 14th International Conference on Scientific and Statistical Database Management (2002), IEEE Computer Society, Washington, DC, pp. 195206. [23] Pedersen, D., Pedersen, J., and Pedersen, T. B. Integrating XML Data in the TARGIT OLAP System. In Proceedings of the 20th International Conference on Data Engineering (2004), IEEE Computer society, Washington, DC, pp. 778-781. [24] Pedersen, D., Pedersen, T. B., and Riis, K. The Decoration Operator: A Foundation for On-Line Dimensional Data Integration. In Proceedings of the International Database Engineering and Applications Symposium (2004), IEEE Computer Society, Washington, DC, pp. 357-366. [25] Pedersen, D., Riis, K., and Pedersen, T. B. Cost Modeling and Estimation for OLAP-XML Federations. In Proceedings of the 6th International Conference on Data Warehousing and Knowledge Discovery (2002), Springer, Berlin, pp. 245-223. [26] McCabe, M. C., Lee, J., Chowdhury, A., Grossman, D., and Frieder, O. On the design and evaluation of a multi-dimensional approach to information retrieval. In Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval (2000), ACM Press, New York, NY, pp. 363-365. [27] Singahl, A., Buckley, C., and Mitra, M. Pivoted document length normalization. In Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval (1996), ACM Press, New York, NY, pp. 21-29. [28] Park, B.-K., Han, H., and Song, I.-Y. XML-OLAP: A Multidimensional Analysis Framework for XML Warehouses. In Proceedings of the 6th International Conference on Data Warehousing and Knowledge Discovery (2005), Springer, Berlin, pp. 32-42. [29] Xyleme, L. A dynamic warehouse for XML data of the Web. IEEE Data Engineering Bulleting 24, 2 (2001), 40 - 47. [30] Inmon, W. H. Building the Data Warehouse. John Wiley & Sons, 2005. [31] CHANGE DETECTION AND MAINTENANCE OF AN XML WEB WAREHOUSE Enterprise Information Systems VII Ching-Ming Chao

Maestra en Gestin de Sistemas de Informacin - Universidad Catolica Boliviana San Pablo - Abril 2011

Pabn, Jorge Carlos Segundo Autor Lic. en Ingeniera de Sistemas Universidad Catlica boliviana San Pablo (La Paz, Bolivia). Lider de proyectos de desarrollo de software, Proyecto ARCO-Usaid (14/01/2008 31/12/2009). Lider de proyectos de desarrollo de Software Soluciones Integrales en Sistemas e Internet - SIESIS SRL. (01/03/2008 - 10/01/2008) Carreo Siqueira, Fernando Tercer Autor. - Lic. en Ingeniera de Computacin - Universidad Federal de Itajub (Itajub, Brasil 12/2007). INGENIERO A&S de la empresa Huawei Technologies (Bolivia) S.R.L. desde 08/2010 a la fecha (La Paz - Bolivia). PROGRAMADOR de la empresa Panatek de 02/2010 a 07/2010 (La Paz - Bolivia). DOCENTE DE LAS MATERIAS DE TECNOLOGA DE LA INFORMACIN, HARDWARE, MANTENIMIENTO DE COMPUTADORA Y REDES WIRELESS de la institucin Microcamp de 10/2009 a 01/2010 (Braganca Paulista - Brasil). GERENTE GENERAL de la empresa Cananea Productos de Informtica de 05/2009 a 09/2009 (Braganca Paulista - Brasil). ANALISTA DE SISTEMAS de la empresa Bragnet Internet Wireless de 02/2008 a 04/2009 (Braganca Paulista Brasil). Miembro de la IEEE (Institute of Electrical and Electronics Engineers).

Vous aimerez peut-être aussi