Captulo 4. Ontologas y su representacin jerrquica.
En la interpretacin de alto nivel de informacin visual, se tienen muchos progresos en la derivacin de caractersticas de bajo nivel a partir de pxeles y representaciones de imgenes basadas en regiones. Dichas regiones son definidas como partes conectadas de una imagen y comparten un conjunto de propiedades. El trmino segmentacin es el proceso de encontrar un conjunto de regiones no traslapadas en base a caractersticas de la imagen (color, forma y textura), para encontrar regiones donde existan mayores variaciones entre regiones vecinas que en una regin individual [75]. Debido a que cada objeto abarca un nmero de regiones y cada regin puede contener varios objetos, existen la segmentacin de regiones y la segmentacin de objetos. La segmentacin de regiones es definida por un predicado en particular y un algoritmo de segmentacin. Las caractersticas de bajo nivel como los bordes, generalmente no son suficientes para la segmentacin de objetos, debido a que los contornos de los objetos son reconocidos por los humanos, basndose en prioridades del lenguaje en cuanto a la semntica del nivel del objeto y la integracin de contexto. La representacin de imgenes digitales basada en contenido, se puede presentar en forma jerrquica, con niveles ms altos de abstraccin capturen su interpretacin semntica [87]. Las ontologas definen los trminos bsicos y las relaciones que comprenden el vocabulario de un tema de alguna rea, las reglas para combinar los trminos y las relaciones para definir extensiones al vocabulario, es decir, define entidades, clases, propiedades predicados y relaciones entre estos componentes. Debido a que la ontologa es un sistema de representacin del conocimiento que resulta de la seleccin de un mbito o dominio de conocimiento, las ontologas se pueden organizar en estructuras jerrquicas, las cuales se pueden considerar como una de las mejores formas para representar el conocimiento [76]. 4.1 Definicin de ontologa. La palabra Ontologa se deriva del griego ontos (estudio del ser) y logos (palabra). Filosficamente, Ontologa es la ciencia de qu es, es una explicacin sistemtica de la Existencia, de los tipos de estructuras, categoras de objetos, propiedades, eventos, procesos y relaciones en cada rea de la realidad [75]. Una ontologa es una especificacin explcita y formal de una conceptualizacin compartida [76]. Una conceptualizacin es una vista simplificada y abstracta del mundo que deseamos representar para algn propsito en especfico, definiendo un vocabulario controlado. Explcita significa que el tipo de conceptos utilizados sean explcitamente definidos, esto es que si tambin 67 pueden describir otros conceptos del mismo tipo, se definan detalladamente. Formal se refiere al hecho de que la ontologa debe ser legible por la mquina, esto decir, que se almacene en un formato digital. Compartido refleja la nocin de que la ontologa no es restringida solo para un individuo, sino que es aceptada por un grupo de personas [89]. Algunas definiciones de ontologa en el campo de la Inteligencia Artificial: Una ontologa es una especificacin explcita de una conceptualizacin, es decir proporciona una estructura y contenidos de forma explcita, que codifica las reglas implcitas de una parte de la realidad, independientemente del fin y del dominio de la aplicacin en el que se usarn o reutilizarn sus definiciones. Una ontologa define el vocabulario de un rea mediante un conjunto de trminos bsicos y relaciones entre dichos trminos, as como las reglas que combinan trminos y relaciones y que amplan las definiciones dadas en el vocabulario. El trmino ontologa se refiere al intento de formular un esquema conceptual exhaustivo y riguroso en un dominio dado, facilitando la comunicacin y comparticin de informacin entre diferentes sistemas. Esto hace la diferencia con el significado filosfico de la palabra Ontologa [93]. Utilizando estas tcnicas semnticas, se adquiere la posibilidad de hacer los recursos accesibles de acuerdo a su contenido semntico. Estos conceptos semnticos se utilizan para describir un entorno, con una serie de conceptos atmicos existentes asociados a ste, de forma estructurada jerrquicamente y que se utiliza como esqueleto fundamental para una base de conocimiento. El uso de ontologas permite el tratamiento ponderado del conocimiento, sirviendo como herramienta para recuperar informacin de una manera automatizada. 4.2 Caractersticas y tipos de ontologas Las ontologas pueden ser consideradas como repositorios de informacin ligada a hechos particulares, a travs de la cual se da una interpretacin particular a los datos. El conocimiento de una ontologa puede ser verdadero, codificado en una ontologa, deducido, que significa que se deriva por alguna forma de razonamiento. 4.2.1 Caractersticas representativas de las ontologas Algunas de las caractersticas ms representativas de las ontologas se mencionan [76]: 68 Ontologas mltiples: El propsito de una ontologa es hacer explcito algn punto de vista, por lo tanto, a veces ser conveniente combinar dos o ms ontologas. Cada ontologa va a introducir conceptualizaciones especficas. Distintos niveles de abstraccin de las ontologas: Estos niveles de generalizacin o abstraccin nos dan una topologa de ontologas. La idea es caracterizar una red de ontologas con el uso de multiplicidad y abstraccin. Puesto que no podemos aspirar a tener una descripcin completa del mundo, se puede pensar en una estrategia de construccin gradual de abajo hacia arriba. Multiplicidad de la representacin: Un concepto puede ser representado de muchas formas, por lo que pueden coexistir mltiples representaciones de un mismo concepto. Mapeo de ontologas: Establecer relaciones entre los elementos de una o ms ontologas, para establecer conexiones, especializaciones, generalizaciones, etc. 4.2.2 Propiedades que deben cumplir las ontologas Algunas propiedades que deben cumplir las ontologas [75]: Claridad: Para comunicar el significado intencionado de los trminos definidos. Coherencia: Para sancionar inferencias que son consistentes con las definiciones. Extensibilidad: Para anticipar el uso de vocabulario compartido. Sesgo de codificacin mnimo (Minimal encoding bias): Debe de especificar al nivel de conocimiento sin depender de una codificacin particular a nivel de smbolo. Mnimo compromiso ontolgico: debe de hacer la menor cantidad de "pretensiones'' acerca del mundo modelado. 4.2.3 Clasificacin en cuanto al mbito de conocimiento. Existen 4 tipos de ontologas en funcin de su alcance y posibilidad de aplicacin [75]: Ontologa de la aplicacin: usadas por la aplicacin. Por ejemplo, ontologa de procesos de produccin, de diagnstico de fallas, de diseo intermedio de barcos, etc. Ontologa del dominio: especficas para un tipo de artefacto, generalizaciones sobre tareas especficas en algn dominio concreto del conocimiento. Por ejemplo, ontologa del proceso de produccin. Ontologas tcnicas bsicas: describen caractersticas generales de artefactos. Por ejemplo: componentes, procesos y funciones. 69 Ontologas genricas: describe la categora de ms alto nivel, describiendo conceptos generales (como tiempo, espacio, objeto, etc.). Otras posibles clasificaciones de las ontologas son: en funcin de su punto de vista, por ejemplo: fsico, de comportamiento, funcional, estructural, topolgico, etc. Segn el grado o nivel de abstraccin y razonamiento lgico que permitan, por ejemplo: ontologas descriptivas, que incluyen taxonomas de conceptos, relaciones entre conceptos pero no permiten inferencias lgicas y ontologas lgicas. Las que permiten inferencias lgicas mediante la utilizacin de una serie de componentes como la inclusin de axiomas, etc. 4.2.4 Diseo de Ontologas. Las ontologas pueden ser utilizadas como herramienta en la ciencia computacional, su mayor uso se ve ms explcito en el campo de la Inteligencia Artificial y disciplinas tales como la robtica e ingeniera del conocimiento. Las tcnicas de programacin orientadas a objetos estn siendo ms comunes, debido a que su representacin en trminos de clases, atributos de las clases, objetos y la jerarqua de la herencia de clases, ha influido a un nmero de lenguajes y esquemas que se utilizan para la representacin de conocimiento digital. Ontologa es la teora de objetos en trminos de criterios, que nos permiten distinguir entre diferentes tipos de objetos y sus relaciones, dependencias y propiedades [76]. 4.2.4.1 Elementos bsicos de una ontologa. La ontologa define modelos base que tendrn la definicin semntica representando a una clase de objetos en la ontologa. En la ontologa se definen un conjunto de trminos representativos llamados conceptos. Las ontologas dependientes de dominio proveen conceptos en un dominio especfico, que se enfoca en el conocimiento en un rea limitada; las ontologas genricas proveen conceptos en un dominio en especfico, enfocado al conocimiento de un rea limitada [88]. En una ontologa, los conceptos son las unidades fundamentales para la especificacin. Proveen una base para la descripcin de informacin. Cada concepto consta de 3 componentes bsicos: trminos, atributos y relaciones. Los trminos son los nombres utilizados para referirse a un concepto especfico que puede incluir un conjunto de sinnimos que especifican los mismos conceptos. Los atributos son las caractersticas de un concepto y describen el concepto a ms detalle. Las relaciones se utilizan para representar correspondencias entre diferentes conceptos y para proveer una estructura general a la ontologa. 70 Cada concepto define una clase que es una representacin para una agrupacin conceptual de trminos similares. Por ejemplo, una computadora podra ser representada como una clase, que tiene muchas subclases como son computadoras personales, mainframes, workstations, etc. Las ontologas estn formadas de los siguientes componentes que servirn para representar el conocimiento de algn dominio en especfico [89]. Conceptos: que son las ideas bsicas que intentan formalizar, estos conceptos pueden ser clases de objetos, mtodos, planes, estrategias, procesos de razonamiento, etc. Relaciones: que representan la interaccin y el enlace entre los conceptos del dominio. Suelen formar la taxonoma del dominio. Por ejemplo: subclase-de, parte-de, etc. Funciones: que son un tipo concreto de relacin, donde se identifica un elemento mediante el clculo de una funcin que considera varios elementos de la ontologa. Por ejemplo, categorizar-clase, etc. Instancias: utilizadas para representar objetos determinados de un concepto. Axiomas: que son teoremas que se declaran sobre relaciones que deben cumplir los elementos de la ontologa. Por ejemplo: Si X y Y son de la clase Z, entonces X no es subclase de Y o Para todo X que cumpla con la condicin Cond1, A es B, etc. Las ontologas se pueden ver como un conjunto de conceptos-definiciones, estos conceptos pueden ser ordenados en jerarquas de taxonomas y tener propiedades asociadas. En un sentido de manejo de conocimiento, las ontologas aportando una herramienta para la representacin de la semntica de la informacin y automatizacin del proceso de recuperacin; son el vehculo para la representacin e intercambio del conocimiento en diferentes niveles de granularidad de diferentes dominios. El uso de ontologas en esta tesis es ofrecer una herramienta que simplifique y ayude a la recuperacin e indexacin de imgenes basndose en las caractersticas de la forma del objeto contenido. Al relacionar palabras con una imagen, se pueden obtener mejores resultados, porque las ontologas ayudarn a que la computadora procese la informacin tal como el usuario la percibe. Se debe hacer notar que ninguna imagen puede ser absolutamente descrita, ya que las personas tenemos una cierta intensin o enfoque al describir el contenido de una imagen, por lo que se le asigna un significado intencional [88]. La ontologa codifica la estructura relacional de conceptos, utilizada para describir aspectos del mundo. En el proceso de creacin de una ontologa, se hace uso de conocimiento previo almacenado en una ontologa para la indexacin y solucin a problemas de bsquedas. La anotacin basada en ontologas es relativamente nueva, pero que ha mostrado ser de gran utilidad [76]. 71 4.2.4.2 Pasos para la creacin de una ontologa Al crear una ontologa, se hace explcita la categorizacin de elementos y relaciones que intervienen en un modelo de conocimiento. Por un lado el modelo de conocimiento se puede editar y gestionar, por otro lado, se puede transmitir de manera que un sistema entienda la conceptualizacin que se ha utilizado en otro. Este hecho se ha citado fundamental, al convertir el proceso de creacin de escenarios educativos en una labor de ingeniera ms que en una labor artesana, adems de proporcionar un conocimiento del dominio reusable y mantenible [77]. La utilidad de una ontologa se puede medir en la capacidad de permitir a los sistemas, hacer referencias a otros componentes de conocimiento definidos, siempre que ambos compartan la misma conceptualizacin. Una ontologa compartida solo necesita describir un vocabulario comn para hablar sobre un dominio. A continuacin se citan algunos de los pasos especificados en [78], para la creacin de una ontologa: 1. Definir el dominio y alcance de la ontologa. Esto es definir el dominio que cubrir la ontologa, definir el uso la aplicacin final de dicha ontologa, definir a que tipo de preguntas responder la ontologa, recolectar la informacin necesaria, etc. 2. Considerar el reuso de ontologas, en caso de poder aplicarse se recolectan trminos y caractersticas de ontologas comunes ya existentes. 3. Enumerar trminos importantes en la ontologa. Definir una lista de los trminos que se quieren almacenar en la ontologa, as como de sus propiedades y las relaciones que existen entre ellos. 4. Definir las clases y la jerarqua de clases. Esto es definir la estructura conceptual del dominio, siguiendo el mtodo top-down, primero se crean las clases para los conceptos generales en el dominio y su especializacin subsiguiente. 5. Definir las propiedades de las clases. Las clases por s solas no proveen suficiente informacin para responder a las peticiones, una vez definidas las clases se deben definir la estructura interna de los conceptos. 6. Creacin de instancias. Creacin de instancias de clases individuales en la jerarqua. Las ontologas generalmente se usan para: Anotar trminos, bsqueda basada en vista, dar semntica a las relaciones. La ontologa ayuda al usuario a formular consultas de forma correcta. 72 4.2.5 Relaciones que se presentan en una ontologa La ontologa, como se ha mencionado anteriormente define un conjunto de clases, relaciones, funciones y constantes para un determinado dominio, adems introduce axiomas para restringir la interpretacin de estos elementos. Las relaciones que se establecen entre los elementos del dominio son aquellas que clasifican las entidades del dominio en base a relaciones como: Es-un, Instancia-de y Parte-de. La relacin Instancia-de, es una membresa entre conceptos. Parte-de muestra relaciones de composicin. La relacin Es-un, muestra la propiedad de inclusin, utilizada en las ontologas para encontrar la similitud a la hora de la comparacin. Cuando un concepto tiene una relacin Es-un hacia otro concepto, significa que el segundo concepto es ms general que el primer concepto. Una ontologa no slo sirve para hacer anotaciones y precisar la recuperacin de la informacin, tambin ayuda al usuario a especificar informacin correcta y necesaria para generar el Query correspondiente. La mayor dificultad que podran presentar las ontologas es el trabajo extra que se necesita, para su creacin y anotacin detallada. Pero a cambio se obtiene una mejor recuperacin de informacin [83]. 4.3 Creacin de la ontolgica para el modelo de recuperacin de imgenes Para ellos seguimos algunos pasos descritos en la seccin 4.2.4.2 [78]. Paso 1. Primero se define el dominio al cual se enfocar. Se decidi definir varios dominios, cada uno define una clasificacin con un nmero, considerado pequeo, de categoras. As, el primer dominio fue el de Construcciones, otro dominio que tambin se defini fue el de Transportes, el dominio de Naturaleza, Muebles y Figuras de Polgonos. Se definieron pocos dominios para evaluar diferentes pruebas de recuperacin de imgenes. Paso 2. El reuso de ontologas no aplica, ya que esta estructura solo se defini para probar los fines de ste trabajo, la recuperacin de imgenes basndose en la ontologa definida para dominios determinados. Paso 3. El dominio de Construcciones, se clasific en Iglesias y Ruinas, las Iglesias a su vez se clasificaron en Barrocas, Gticas y Romnticas. Para el dominio de Transportes, las clasificaciones que se definieron fueron Carros, Motocicletas y Camiones. En el dominio de Naturaleza se encuentran Flores, Animales, rboles y Frutas. En Animales se distinguen Aves, Insectos, Mamferos y Peces, en Insectos se encuentran Araas y Mariposas y en Mamferos se definieron Tigres y Elefantes. El dominio de Polgonos se clasific en 73 Regulares e Irregulares, en Regulares se distinguen Tringulos, Cuadrados, Pentgonos y como caso especial Circunferencias. En Irregular existen Rectngulos y Trapecios. Para el dominio de Muebles se definieron Sillas, Mesas y Libreros. Los diferentes conceptos se eligieron, debido a que en cada dominio puede ser definido por formas que son diferentes y representativas. Paso 4. Para definir las clases y la jerarqua de clases, se utilizaron los conceptos que se definieron en el Paso 3. A continuacin se presenta la jerarqua de clases de los conceptos, mediante una estructura de rbol definida en la Figura 4.1. Paso 5. Las propiedades de cada clase las determina la estructura jerrquica, esto es, las subclases o categoras ms internas son ms especficas, en una consulta por s solas, pueden recuperar las imgenes ya que se encuentran en el ltimo nivel, el cual contiene las instancias de la ontologa. Para una consulta ms general, de las clases principales (Construccin, Naturaleza, Mueble, etc. ver Figura 4.1), se unen las instancias que contienen subclases que pertenecen a su respectiva clase. Por lo tanto existen instancias que pertenecen a varias clases generales, pero slo a una subclase de nivel ms interno.
Figura 4.1: Diagrama de la ontologa definida en este trabajo Universo Construccin Mueble Naturaleza Polgono Transporte Ruina Iglesia Librero Mesa Silla Flor Animal Arbol Fruta Mango Regular Irregular Manzana Naranja Melon Platano Sandia Ave Insecto Mamifero Pez Araa Mariposa Elefante Tigre Rectngulo Trapecio Circunferencia Cuadrado Pentagono Triangulo Camion Carro Motocicleta Barroca Romntica Gtica Clase de nivel 0 Clase de nivel 1 Clase de nivel 2 Clase de nivel 3 Clase de nivel 4 A continuacin se muestran algunas de las instancias de dos clases de nivel ms externo, conformadas por todas las instancias de sus respectivas subclases ms internas. Las instancias son archivos *.bmp cuyo nombre no tiene ningn significado, se trabaja con su forma y su color, que sern sus atributos (caractersticas). En el Captulo 5 se explica ms a detalle el uso de estas instancias.
Figura 4.2: Instancias pertenecientes a las clases generales Construcciones y Transportes. El proceso para la recuperacin de semntica, se define en el diagrama de bloques de la Figura 4.3. Con la definicin anterior de la estructura y los dominios de la ontologa, se muestra el proceso de recuperacin de semntica. En una consulta por imagen, se extraen los vectores de caractersticas de color y de forma (como se explicar en el Captulo 5), como se ve en la Figura 4.3, posteriormente se hace la correspondencia con vectores clasificados en la ontologa para retornar la descripcin asignada.
Figura 4.3: Diagrama de bloques del proceso para la recuperacin de semntica Construccin Iglesia Barroca Habana.bmp Jaen.bmp Taxco.bmp SantBardiri.bmp Gtica Romntica Assumption.bmp MatthiasHung.bmp St Annes Lituania.bmp SantBardiri.bmp Iovaniroma.bmp CharlesBorrone.bmp SatEufemia.bmp Georgex.bmp Ruina ChichenItza.bmp ChichenCastillo.bmp Keops.bmp Chichen2.bmp Transporte Camin BusAzul.bmp busescuela.bmp busNaranja.bmp
Bsqueda de similitud y correspondencia de vectores de caractersticas Recuperacin Vectores de caractersticas Semntica Anotaciones ontolgicas relacionadas (Descripcin).
Figura 4.4: C(L) es la conceptualizacin del lenguaje L, de acuerdo con la consulta, es un subconjunto del conjunto TO(L) que son todas las opciones de consulta del lenguaje L. En la Figura 4.4, L es el lenguaje que esta formado por el vocabulario ontolgico. C(L) es la conceptualizacin del lenguaje L, en s, representa al conjunto de clases de imgenes que satisfacen una consulta del usuario. TO(L) es el conjunto de todas las posibles opciones de consulta para el lenguaje L. C(L) es un subconjunto del conjunto de todas las opciones que se tienen, ) ( ) ( L TO L C [90]. 4.3.1 Axiomas definidos En la mayora de los casos, los axiomas de una ontologa solo expresan relaciones de inclusin (es-un) entre predicados unarios. Una detallada axiomatizacin es requerida si se desean excluir interpretaciones no deseadas. Los axiomas permiten, junto con la herencia de conceptos, inferir conocimiento que no est indicado explcitamente en la taxonoma de conceptos [94]. A continuacin se definen algunos axiomas generales para las clases y cada nivel de sus subclases de la ontologa que se defini anteriormente en Figura 4.1. 1. Existe solamente una clase de nivel 0, la cual no se deriva de ninguna clase. 2. Si una clase X de nivel n pertenece a una clase de nivel n-1, entonces las clases de nivel n+1 derivadas de la clase X, tambin pertenecen a la clase de nivel n-1, de la que se deriva X. 3. Las clases de un mismo nivel n, que pertenecen a una misma clase X de nivel n-1, no se intersectan entre s. 4. Toda clase X es idntica a s misma. 5. Una clase X de nivel n, pertenecen solamente a una clase Y de nivel n-1. 4.4 Representacin jerrquica de niveles conceptuales de informacin visual La semntica de una imagen describe el significado de la misma. La asignacin de semntica se puede realizar por medio de anotaciones, las cuales tratan de describir el contenido de la imagen, tan completo como sea posible. La anotacin semntica requiere algn TO(L).- Todas las opciones C(L).- Conceptualizacin
Ontologa 77 entendimiento del significado semntico en las imgenes, las consultas de recuperacin y la estandarizacin de representacin de imgenes. La informacin importante que se requiere para interpretar el contenido de una imagen, comnmente no es representada por a travs de un simple pxel, sino por los objetos o regiones de la imagen y las relaciones que existan entre ellos [91]. 4.4.1 Semntica a partir de una imagen La Figura 4.5 muestra la representacin de una imagen, desde diferentes niveles de abstraccin. Primero se identifican caractersticas, estas caractersticas se utilizan para agrupar pxeles en regiones, posteriormente, se reconocen cuales regiones contienen o son parte de objetos y finalmente se asigna la semntica a la imagen. Este proceso tambin puede darse de forma descendente, iniciando con la semntica que restringe el dominio de inters y usando estas restricciones se buscan objetos y caractersticas [92].
Figura 4.5: Niveles de abstraccin para formar semntica. (a) Representacin de semntica en una imagen. (b) Niveles de representacin de una imagen. Algunos tipos de datos recolectados en sistemas de recuperacin visual, se refieren a contenido semntico. Tambin llamado metadato descriptivo de contenido. Estos a su vez son afectados por relaciones de entidades, en las imgenes con que contienen entidades del mundo real o eventos temporales, emociones y significado asociado con seales visuales y escenas. La semntica corresponde a abstracciones, como objetos, roles y escenas que a su vez pueden definir impresiones, emociones y significado que se asocie con la combinacin de caractersticas perceptuales. Estos tipos de datos son definidos como caractersticas de alto nivel [92]. Existen varios tipos de semntica que pueden representar a las imgenes, a continuacin se mencionan algunos. La semntica puede definir si se trata de una foto o de grficos creados por herramientas de computadora; si la escena es de un interior de edificio o casa, etc. o es al aire libre; si la (a) Representacin basada en objetos Representacin basada en semntica Representacin basada en pixeles Representacin basada en regiones (b) 78 imagen es de una ciudad o se trata de algn paisaje; en la deteccin de rostros, para reconocer que tipo de rostro y a que persona especfica se refiere; definir si la imagen digital contiene o no gente, etc. 4.5 Conclusiones. En este captulo se estudiaron algunas propiedades, elementos bsicos, relaciones, caractersticas y clasificaciones de los tipos de ontologas segn su posibilidad de aplicacin y segn su nivel de abstraccin. Se mencionaron brevemente los seis pasos para crear una ontologa as como la representacin semntica que se obtiene de una imagen. Bsicamente, el rol de las ontologas es facilitar la construccin de un modelo de dominio el cual nos va a proveer un vocabulario de trminos y relaciones con las cuales se puede modelar el dominio. El uso de ontologas provee una estructura apropiada para solucionar muchos problemas de visin por computadora, que requieren conocimiento anticipado para ser modelados de forma descriptiva y prescriptiva. Debido a todas las ventajas que presenta el uso de una ontologa, ste trabajo se basa en el uso de una estructura ontolgica la cual facilite la clasificacin semntica de los dominios de las imgenes y con ello, aadir esta ventaja a la recuperacin de imgenes. La estructura ontolgica se defini y dise anteriormente en este captulo, siguiendo los pasos para su creacin que se mencionan en la bibliografa. A partir de los dominios restringidos definidos, se har la recuperacin de semntica, considerando los componentes bsicos de la ontologa.