Académique Documents
Professionnel Documents
Culture Documents
Tema 4
Objetivos
Presentar los modelos de datos semiestructurados. Dar a conocer la importancia del XML, sus
caractersticas, sus componentes y su relacin con las bases de datos. Conocer que es una base de datos XML. Presentar algunos SGBD que soportan XML.
4. 2
XML
4. 3
Bibliografa
Connolly y Begg (2005)
Cap. 30 Cap.
4. 4
Introduccin Introducci
Nivel de Estructuracin de Datos representados en un formato estricto (relaciones/tablas) Datos semi-estructurados los datos tienen una cierta estructura pero no toda la informacin recogida tiene la misma estructura (grafos) Datos desestructurados hay una indicacin muy limitada del tipo de datos (documentos de texto, archivos de video)
Datos estructurados
4. 5
Introduccin Introducci
Estn orientadas a almacenar datos desestructurados Est Carecen de una estructura tabular y contienen
informacin bibliogrfica y/o el texto completo de los informaci bibliogr documentos. Los modelos de informacin consideran que cada informaci documento se describe con un conjunto de palabras clave significativas (llamadas ndices). ndices). Los ndices se utilizan para indexar y resumir el contenido de los documentos, ayudando a su gestin. gesti
4. 6
Introduccin Introducci
Integracin de Datos
muy estructurados con los poco estructurados. estructurados.
4. 7
Introduccin Introducci
Queremos
XML
solo se puede formatear texto, no describe contenido. XML empez en 1996 como un pequea versin de SGML para evitar su redundancia, complicacin y caractersticas confusas. XML se plantea por la necesidad de poder definir y manejar estructura interna en los documentos HTML. En 1998 la W3C ya publica su especificacin y recomienda su uso.
4. 9
XML
4. 10
XML
XML es
Un lenguaje de marcas (etiquetas delimitadas) para definir nuevos lenguajes (un metalenguaje) metalenguaje)
Verstil: separa contenido, estructura y presentacin. Esto permite un Vers til: presentaci a visin personalizada de los datos. Los datos pueden ser visi presentados a los usuarios a travs de un browser donde se pueden trav presnetar de manera personalizada, basada en preferencias o configuracin. configuraci Extensible: se pueden definir nuevas etiquetas Extensible: Estructurado: se pueden modelar datos a cualquier nivel de Estructurado: complejidad Validable: cada documento se puede validar frente a un Validable: DTD/Schema, o en su defecto, se puede declarar bien formado. DTD/Schema, Abierto: independiente de plataformas, empresas, lenguajes de programacin programaci Abierto: o entornos de desarrollo. Sencillo: fcil de aprender y de usar. Sencillo: f
4. 11
XML
4. 12
XML
Extensiones del propio XML
Amplan las capacidades del XML original, no son un lenguaje XML en sentido estricto. Se definen de forma similar al XML original, como un subconjunto de SGML. Todas ellas deben ser compatibles entre s. Lenguajes definidos en base a XML y sus extensiones. Cada lenguaje se define mediante una gramtica que consiste en un tipo de documento XML (DTD (document type definition) o XSD XML schema definition)). Pueden ser:
Horizontales: resuelven cierta funcionalidad que es til en general.
SOAP (Simple Object Access Protocol). Es un protocolo estndar creado por
WC, que define cmo dos objetos en difrentes procesos pueden comunicarse por medio de intercambio de datos XML. SOAP es uno de los protocolos utilizados en los servicios Web.
4. 13
XML
4. 14
XML
4. 15
Esquemas
XML
Ejemplo:
XHTML es el lenguaje HTML reformulado como aplicacin XML, aplicaci y se que se la prxima generacin de HTML. Es una versin pr generaci versi mas estrita y limpia de HTML..
4. 16
XML
XML
4. 18
XML
4. 19
XML
4. 20
10
XML
4. 21
XML
Seleccionar todos los captulos pblicos que tengan algn cap p alg prrafo que contenga algn elemento con atributo href: alg href:
//capitulo[parrafo/*[@href]][@public='si'] //capitulo[parrafo/*[@href]][@public='si']
Seleccionar todos los captulos pblicos que tengan algn cap p alg prrafo importante o un apndice: ap
//capitulo[parrafo/[@importante=si]]|//apendice //capitulo[parrafo/[@importante= si
4. 22
11
Otras Extensiones XSL XSL (eXtensible Stylesheet Language) no slo permite anguage) s
XML
definir el estilo a aplicar a cada elemento XML. Tambin Tambi es un lenguaje de programacin para transformar programaci documentos XML. XML.
El resultado puede ser un documento HTML, WML (para WAP), texto plano, RTF, PDF, o incluso otro documento XML. Utiliza XPath para referir partes de documentos XML.
formateado XSL
4. 23
XML
12
13
Centrados en Documentos
4. 27
14
4. 29
</capitulo> </libro>
4. 30
15
Usar un SGBD para almacenar los elementos XML de los documentos como elementos de datos.
Si todos los documentos XML tienen una estructura basada en un DTD/Schema, es posible volcar sus partes a estructuras DTD/Schema, relacionales o a objetos de un SGBD.
Disear un nuevo Sistema de BD para almacenar documentos Dise XML de forma directa (BD XML nativa). (BD nativa). Generar los documentos XML como capa de interfaz de datos almacenados en BD tradicionales (relacionales u OO).
DASBD Curso 2006/2007 4. 31
4. 32
16
4. 33
4. 34
17
indexacin. indexaci Todos los documentos son accesibles mediante una URL. Mantienen el modelo XML intacto.
4. 35
La unidad mnima de almacenamiento es un documento XML. m Existen retos pendientes para la integridad global de la BD
Integridad referencial inter-documento. interRestricciones semnticas inter-documento. sem interDASBD Curso 2006/2007 4. 36
18
Ventajas
mbito de Uso
4. 37
4. 38
19
4Suite
Cdigo Abierto. Ncleo formado por herramientas para procesamiento XML. Contiene un Servidor de Consultas con mltiples m mtodos de acceso. Contiene un Repositorio de Documentos XML sobre BD orientada a objetos. Soporte para concurrencia, gestin de transacciones y gesti control de accesos. Soporta accesos remotos va v HTTP, RPCs, FTP y CORBA. RPCs,
Sistemas de BD Nativos XML - productos Tamino XML Server Caractersticas principales: Caracter
Almacenamiento nativo XML Riqueza de tipos de datos multimedia (audio, video, imagen) Consultas basadas en XPath Bsqueda y Recuperacin de textos completos Recuperaci Definicin de datos extensible (cambios dinmicos) Definici din Salidas multi-canal (HTML, WML, PDF, ..) multi Consolidacin de datos (acceso a datos externos) Consolidaci Extensiones para integracin (EJB, CORBA, DOM, ERP, integraci Servlets, ..) Servlets, Rendimiento Escalabilidad Fiabilidad Disponibilidad
DASBD Curso 2006/2007 4. 40
20
4. 41
Arquitectura: Arquitectura:
Otros
Tamino Schema Editor Tamino Interactive Interface Tamino X-Plorer Tamino WebDAV Server APIs Tamino X-Application
4. 42
21
Integracin de XML en otros SGBD SGBD con extensin para XML: extensi XML:
Oracle (8i en adelante) IBM DB2 Microsoft SQL Server 2000 (en adelante) INFORMIX
4. 43
Herramientas
SQL XML para Java: clases Java para la insercin de datos XML y generar documentos XML partiendo de SQL. Servlet Java XQL: pasa consultas SQL a XML y posteriormente a HTML mediante hojas de estilo.
4. 44
22
Integracin de XML en otros SGBD IBM DB2 (DB2 XML Extender) Extender)
Datos carcter en una nica columna. car Mapeando a mltiples tablas y columnas m Archivos externos.
Soporte para esquemas XML Ejecucin de consultas con XPath Ejecuci Obtener y escribir datos XML Obtencin de datos en documentos XML (FOR XML) Obtenci ( XML Escritura de documentos XML mediante OpenXML, que crea OpenXML, una imagen en memoria.
DASBD Curso 2006/2007 4. 45
23