Vous êtes sur la page 1sur 8

Colaboracin entre informacin paradigmtica y sintagmtica en la Desambiguacin Semntica Automtica

Iulia Nica D. Lingstica General Universidad de Barcelona Universidad de Iasi, Rumania iulia@clic.fil.ub.es M. Antnia Mart i Antonin D. Lingstica General Universidad de Barcelona amarti@clic.fil.ub.es Andrs Montoyo y Guijarro DLSI Universidad de Alicante montoyo@dlsi.ua.es

Resumen. Proponemos un mtodo alternativo para la desambiguacin semntica automtica, centrado en la interaccin entre la informacin sintagmtica y paradigmtica. Se toma como unidad en el proceso de desambiguacin una ocurrencia ambigua integrada en un patrn sintagmtico. La estrategia no necesita corpus etiquetado al nivel de sentido, presupone tan slo un anlisis previo de tipo morfosintctico y agrupacin por chunks, no usa informacin estadstica y su potencial desambiguador es amplio. Ilustramos las dos implementaciones propuestas con ejemplos concretos y estudiamos posibilidades de refinamiento del mtodo. Palabras clave: desambiguacin semntica automtica, etiquetacin semntica Abstract. We propose an alternative method for Word Sense Disambiguation, based on the interaction between syntagmatic and paradigmatic information. The unit of the disambiguation process is taken to be an ambiguous occurrence integrated into a syntagmatic pattern. The strategy needs not a semantically annotated corpus, it supposes only a morphological analysis and chunking, does not make use of statistical information and has en wide disambiguating potential. We illustrate the two implementations proposed with concrete examples and study ways for refinement. Key words: Word Sense Disambiguation, semantic annotation

1. Introduccin
En este trabajo presentamos parte de una investigacin ms amplia sobre el uso intensivo de conocimiento lingstico en el proceso de Desambiguacin Semntica Automtica (DSA)1. En concreto, para esta tarea nos centramos en cuestiones esenciales, como la caracterizacin de los sentidos de una palabra polismica, el acercamiento entre el lexicn y el corpus y por ltimo la identificacin y el tratamiento del contexto relevante para la asignacin del sentido de una ocurrencia ambigua.

La investigacin ha sido posible gracias a una beca predoctoral MAE. 1 Varios experimentos desarrollados ltimamente confirman que la calidad de la DSA depende ms de la informacin utilizada que de los algoritmos que la explotan: Pedersen, 2002, Yarowsky y Florian, 2002.

Existen diferentes sistemas de DSA segn la informacin de referencia que se utiliza para la identificacin de los sentidos: los sistemas DSA basados en conocimiento (KnowledgeDriven WSD), que utilizan fuentes lxicas estructuradas (diccionarios accesibles por ordenador, ontologas, etc.), y los basados en corpus (Corpus-Based WSD), que utilizan ejemplos etiquetados a nivel de sentido. En las dos competiciones SENSEVAL, los sistemas DSA basados en corpus obtuvieron mejores resultados debido al uso de informacin sintagmtica. Estos sistemas plantean un problema de cobertura, ya que necesitan grandes cantidades de ejemplos etiquetados con sentidos para su correcto funcionamiento. La obtencin de textos etiquetados semnticamente es difcil, aunque hay trabajos como (Mihalcea y Moldovan, 1999) que intentan adquirirlos de manera automtica. Los sistemas de DSA basados en conocimiento usan la informacin, principalmente paradigmtica, de fuentes

lxicas, por lo cual tienen limitaciones debido al vaco que hay entre el lexicn y el corpus (Kilgarriff, 1998). Para solucionar el problema, las propuestas actuales acercan las fuentes lxicas a los corpora mediante la incorporacin de informacin sintagmtica (Vronis, 2001). El enfoque supone un proceso costoso de extraccin y de representacin de tal conocimiento. El contexto que se puede usar para la desambiguacin de una ocurrencia ambigua se suele diferenciar en dos categoras bsicas: contexto local y contexto tpico. El contexto local, que es el objeto de nuestro anlisis, se ha definido como una ventana centrada en la ocurrencia por desambiguar, usualmente de dimensin predefinida. Su explotacin para la desambiguacin semntica se ha realizado principalmente mediante un enfoque bolsa de palabras: se toman en consideracin slo las palabras de contenido lxico y se ignoran las palabras funcionales. Sin embargo, cada vez son ms frecuentes los sistemas que tienen en cuenta las palabras funcionales que vinculan la ocurrencia ambigua a las dems unidades de contenido lxico presentes en el contexto considerado. Los resultados demuestran la validez de la opcin2. As, se han usado las palabras funcionales para identificar, en un corpus etiquetado a nivel de sentido, bigramas o trigramas alrededor de la ocurrencia ambigua, que pueden aportar informacin sobre su sentido (Yarowksy, 1993, Pedersen, 2001). En un nivel de anlisis ms profundo, los elementos funcionales permiten identificar las relaciones sintcticas con las dems unidades de contenido lxico de la oracin. Los sistemas de DSA que usan estas relaciones lo suelen hacer en un enfoque basado en ejemplos, con lo cual necesitan un corpus etiquetado sintctica y semnticamente. La informacin sintctica usada para la DSA se ha limitado en general a las relaciones verbosujeto y verbo-objeto (Ng, 1996, Leacock et al., 1998, Federici et al., 2000, Agirre y

Martnez, 2001, etc.), con pocas excepciones (Lin, 1997, Stetina et al., 1998, etc.). En el presente trabajo proponemos un enfoque alternativo para la DSA, centrado en la interaccin entre la informacin sintagmtica y paradigmtica que caracteriza el lenguaje natural: la estrategia P&S. Introducimos la nocin de patrn sintagmtico que engloba ambos tratamientos del contexto local, n-gramas y relaciones sintcticas, y tomamos como unidad en el proceso de desambiguacin una ocurrencia integrada en un patrn sintagmtico. De esta manera, en nuestra aproximacin tratamos de superar tanto el problema de la falta de datos de los sistemas basados en ejemplos como el vaco entre el lexicn y el corpus, aproximando ste ltimo al lxico. La propuesta presupone tan slo un anlisis previo de tipo morfosintctico y una agrupacin por chunks3. Inicialmente el mtodo se ha aplicado para la desambiguacin de nombres, pero igualmente se puede adaptar a la desambiguacin de otras categoras sintcticas. En este trabajo se ha aplicado la estrategia sobre el castellano. Despus de esta introduccin, en el apartado 2 se describe la propuesta con las modalidades de aplicacin; en el apartado 3 se discuten posibles mejoras; finalmente, en el apartado 4 se definen las conclusiones y las lneas de investigacin futura. 2. Propuesta 2.1. Aproximacin Nuestro enfoque a la desambiguacin lxica parte de las consideraciones que presentamos a continuacin sobre a) la caracterizacin de los sentidos, b) el contexto local, y c) la distancia entre el lexicn y el corpus. a) Para la informacin de referencia sobre los sentidos, hemos utilizado el componente espaol de EuroWordNet (Vossen, 1998). Este componente se utiliza en su versin
3

Yarowsky y Florian, 2002, Mihalcea, 2002, Hoste et al., 2002.

Civit, 2003. 2

estndar para un tipo de implementacin (M1, apartado 2.2.1.), y hemos desarrollado una adaptacin para otro tipo de implementacin (M2, apartado 2.2.2.). En esta adaptacin, cada uno de los sentidos de una palabra polismica se caracteriza mediante el conjunto de variants de los synsets con los que est en relacin, y que no comparte con ningn otro sentido de la palabra. As, para cada sentido Xi de una palabra X, se extrae de EWN el conjunto de synsets con que se relaciona, y de stos los variants que contienen. Con lo cual, a los sentidos Xi de X se les asocian respectivamente los conjuntos Vi de variants. Se eliminan los variants que aparecen en ms de un conjunto Vi, de modo que las palabras de los conjuntos reducidos Di son especficas para cada uno de los sentidos correspondientes Xi y se convierten en discriminadores de sentido4. Por ejemplo, rgano tiene cinco sentidos en EWN5:
rgano_1: 'parte de una planta'; rgano_2: 'agencia gobernamental, instrumento'; rgano_3: 'parte funcional de un animal' rgano_4: 'instrumento musical' rgano_5: 'peridico'

Los conjuntos disjuntos que los caracterizan, extrados de EWN, son respectivamente:
D1: {rgano vegetal_1, lmina_3, raz_2, tronco_4, troncho_1, tallo_1, pednculo_1, hoja_3, } D2: {oficina_2, agencia_2, unidad administrativa_1, organizacin_1, grupo social_1, colectivo_1, } D3: {parte del cuerpo_1, trozo_8, porcin_3, parte_9, lbulo_2, patas_3, lengua_3, ojo_4, } D4: {instrumento de viento_1, instrumento musical_1, mecanismo_3, aparato_3, teclado_1, } D5: {publicacin_2, peridico_4, medio de comnicacin_1, manera_4, obra_5, }

Debido a que nos centramos en la desambiguacin de nombres, consideramos una buena aproximacin a las relaciones sintcticas el contexto local estricto: las palabras que se encuentran inmediatamente antes y despus de la palabra en cuestin, hasta la siguiente palabra de contenido lxico. Identificamos el contexto local de una ocurrencia ambigua con la suma de los patrones sintagmticos en que participa. Un patrn sintagmtico se define formalmente como una tripleta que corresponde a una relacin sintctica, formada por dos unidades de contenido lxico y un patrn lxico-sintctico R que expresa la relacin (de dependencia o de coordinacin) que contraen las dos unidades lxicas: L1 R L2. Incluimos en este patrn general el caso en que R es nulo, como en la relacin entre un nombre y un adjetivo6. Ejemplos: grano-n deprep azcar-n; pasaje-n subterrneo-adj. Desde esta perspectiva, una palabra polismica, y cada uno de sus sentidos, se podrn caracterizar mediante los patrones sintagmticos en que participan. En concordancia con la manera misma de delimitar el contexto local, nuestra aproximacin toma en consideracin las palabras funcionales, distancindose del enfoque bolsa de palabras. c) Para reducir la distancia entre el lexicn y el corpus, evitando el esfuerzo que supone la incorporacin de informacin sintagmtica en las fuentes lxicas, hemos explorado la va opuesta: el acercamiento del corpus al lexicn. La informacin implcita en los corpora, creemos, es explotable para la DSA mediante diferentes agrupaciones de palabras. Una manera de concretar esta segunda opcin puede ser la explotacin de la interaccin semntica entre los ejes paradigmtico y

b) El contexto local debe ser delimitado de manera distinta para cada ocurrencia, y segn criterios lingsticos. Nuestra hiptesis es que, excepto la informacin de tipo temtico, el sentido de una palabra en una oracin est determinado esencialmente por las relaciones sintcticas que sta establece con las dems palabras de la oracin.

La extraccin de la informacin para caracterizar los sentidos es completamente automtica. 5 Las pseudodefiniciones son nuestras.

Ofrecemos una definicin genrica y aproximativa de lo que entendemos por patrn sintagmtico. Su delimitacin no es trivial, y debe ser sujeta a restricciones sintcticas y semnticas. Es fuera del alcance de esta presentacin, y ser objeto de nuestro estudio futuro. 3

sintagmtico del lenguaje7. Las condiciones sintagmticas identicas delimitan conjuntos de tipo paradigmtico de palabras. Inversamente, las palabras afines paradigmticamente (por ejemplo, mediante las relaciones lxico-semnticas del EWN) se sustituyen recprocamente en la cadena enunciativa. 2.2. Estrategia de DSA A partir de estas consideraciones, proponemos una modalidad distinta de desarrollar el proceso de DSA: se toma como unidad de referencia en el proceso de desambiguacin la ocurrencia ambigua integrada en un patrn sintagmtico y no la ocurrencia ambigua aislada. Esta integracin constituye el elemento clave de nuestra propuesta: sobre la base de los patrones sintagmticos se realiza la transicin entre los ejes sintagmtico y paradigmtico. La estrategia se funda en las siguientes hiptesis: H0: Las ocurrencias de una palabra ambigua en una determinada posicin de un patrn sintagmtico fijado tienen el mismo sentido (hiptesis que podemos denominar one sense per syntagmatic pattern, y que proponemos como alternativa a la hiptesis one sense per collocation (Yarowsky, 1993). H1: Las diferentes palabras que pueden aparecer en una determinada posicin de un patrn sintagmtico fijado tendrn sentidos relacionados, pertenecientes a una zona conceptual comn.

H2: Dos palabras con sentidos relacionados son conmutables en un mismo patrn sintagmtico. La hiptesis H0 permite el paso de una ocurrencia aislada a una ocurrencia integrada en un patrn sintagmtico como unidad de desambiguacin; H1 y H2 proyectan los ejes sintagmtico y paradigmtico el uno en el otro y son la base de las implementaciones M1 y M2 respectivamente, que se explican a continuacin. - Modalidad M1: Se identifica en un corpus el conjunto de posibilidades para la posicin de la ocurrencia ambigua en el patrn sintagmtico, lo que define una clase de tipo paradigmtico. Sobre esta clase se aplica un algoritmo de desambiguacin que se basa en las relaciones paradigmticas de EWN. - Modalidad M2: Se sustituye la ocurrencia ambigua en el patrn sintagmtico por cada una de las palabras de los conjuntos que caracterizan sus sentidos. Se verifica en el corpus la existencia de los patrones obtenidos para cada conjunto, como indicador para la identificacin del sentido correcto. Ambas implementaciones se basan en la colaboracin entre fuentes de conocimento y corpora, sin necesidad de ejemplos etiquetados al nivel de sentido. Por lo tanto, se trata de desambiguacin semntica no supervisada, basada en conocimiento. Detallamos a continuacin las dos posibilidades de aplicacin de la estrategia. 2.2.1. La modalidad M1 En nuestros experimentos correspondientes a la modalidad M1 usamos como corpus el CREA (RAE)8, como fuente lxica el EWN, y como heurstica de DSA, la Marca de Especficidad Comn, MEC (Montoyo y Palomar, 2000), que usa la informacin paradigmtica de EuroWordNet en un enfoque bolsa de palabras. La base intuitiva del algoritmo es: cuanta ms informacin comn comparten dos conceptos, ms relacionados estarn. En EWN, la informacin comn que comparten esos dos conceptos corresponde al concepto padre de
8

Syntagmatic sense relations [...] are an expression of coherence constraints. Paradigmatic sense relations, on the other hand, operate within the sets of choices. Each such set represents the way the language articulates, or divides up, some conceptual area, and each displays a greater or lesser degree of systematic structuring. Paradigmatic relations are an expression of such structuring. [...] Paradigmatic and syntagmatic relations function in tandem, syntagmatic relations delimiting the space within which paradigmatic relations operate. (Cruse, 2000: 149)

http://www.rae.es/ 4

ambos en la jerarqua (Marca de Especficidad, ME). La heurstica toma como entrada las palabras no funcionales del contexto oracional de la ocurrencia ambigua, incluida la palabra en cuestin, y busca aquella ME en EuroWordNet que tenga mayor densidad de palabras de entrada debajo de su subrbol. Se elige como sentido de la ocurrencia ambigua el que se encuentra en el subrbol de la ME as identificada. La modalidad M1 consiste en la siguiente secuencia de operaciones para la desambiguacin de una ocurrencia del nombre polismico X: Paso 1. Se establecen los patrones sintagmticos Sk en que la ocurrencia ambigua de X aparece en la oracin. Paso 2. Para cada patrn Sk identificado: - Se buscan, en el corpus, los nombres que pueden aparecer en el patrn Sk como sustitutos de X. Se obtiene as un paradigma PSk. - Se aplica la heurstica de DSA (MEC) sobre el paradigma PSk. Paso 3. Se establece el sentido de la ocurrencia ambigua X, corroborando las propuestas para su sentido obtenidas en 2. Contrastamos (a) la aplicacin estndar de la heurstica MEC con (b) nuestra propuesta para la desambiguacin de la ocurrencia resaltada del nombre rgano en la siguiente oracin del corpus CREA (RAE):
Entre sus composiciones ms clebres destacan las obras para rgano "La Natividad del Seor" (1935), "Los cuerpos gloriosos" (1939), "Misa de Pentecosts" (1950), "Libro de rgano" (1952), obras corales como "Tres pequeas liturgias de la presencia divina" (1944), y para piano, "Veinte miradas sobre el Nio Jess" (1944) y "Cuatro estudios de ritmo" (1949).

obteniendo el paradigma: {rgano, piano, guitarra}. El algoritmo MEC toma ahora como input las palabras de este paradigma, y desambigua correctamente rgano_4, y adems piano_2, guitarra_1, como instrumentos musicales. Aun ms, a partir del patrn identificado se pueden operar generalizaciones de formas a categoras sintcticas. Una generalizacin sera rgano integrado en el patrn: N PARA RGANO. La aplicacin de la estrategia sobre esta variante se realiza en los siguientes pasos: - Se determinan los nombres que aparecen en este patrn en la posicin de N: Ni. - Para cada Ni, se buscan en el corpus los nombres en la posicin de N (RGANO) en el patrn: Ni PARA N. Se obtiene el conjunto de nombres {Nij}. - Para cada i, se aplica la heurstica sobre los nombres Nij. As, los Ni hallados son: concierto, obra, pieza. Sustituyendo estos nombres en el patrn en la posicin N y buscando en el corpus los nombres N, se obtienen los paradigmas correspondientes y, como resultado de la aplicacin del algoritmo MEC, las asignaciones de sentido:
- Para N1 = concierto: Patrn: CONCIERTO(S) PARA N Paradigma: {piano, violn, guitarra, solista, rgano, clarinete, } Aplicacin MEC: piano_2, violn_2, guitarra_1, solista_1, rgano_4, clarinete_2, - Para N2 = obra: Patrn: OBRA(S) PARA N Paradigma: {piano, guitarra, rgano, } Aplicacin MEC: piano_2, guitarra_1, rgano_4, - Para N3=pieza: Patrn: PIEZA(S) PARA N Paradigma: {orquesta, piano, clarinete, rgano, } Aplicacin MEC: orquesta_2, piano_2, clarinete_2, rgano_4,

a) En la estrategia estndar, la heurstica MEC toma como input el conjunto de nombres del contexto oracional, y asigna a rgano el sentido 5 (peridico), que es inadecuado. b) En la estrategia por patrones sintagmticos, se identifica el patrn en que participa la ocurrencia ambigua: OBRA(S) PARA RGANO. Se buscan en el corpus los nombres que se pueden alternar con RGANO en el patrn: OBRA(S) PARA N(sg),

Los sentidos asignados son correctos (instrumentos musicales), excepto en algunos pocos casos, para cuyo tratamiento se proponen soluciones en el apartado 3. En el mismo proceso, se desambigua adems cualquier combinacin entre dos nombres en las posiciones N y N, en el marco del patrn sintagmtico generalizado N PARA N,

donde N pertenece al conjunto unificado de los Ni (concierto, obra, pieza), y N, al conjunto unificado de los Nij (piano, violn, guitarra, solista, rgano, clarinete,). Nos acercamos, en esta extensin, a propuestas como las de (Federici et al., 2000; Agirre y Martnez, 2001), en que se combinan variantes paradigmticas para las dos posiciones lxicas. Sin embargo, en estos trabajos la combinacin se realiza slo para las relaciones verbo-(sujeto/objeto) sobre un corpus ya etiquetado sintctica y semnticamente. 2.2.2. La modalidad M2 Utilizamos, como informacin de referencia sobre los sentidos los conjuntos disjuntos Di extrados de EWN (apartado 2.1.), y como corpus, LEXESP (Sebastin et al., 2000). La prueba de conmutabilidad, basada en la hiptesis H2, se define de la manera siguiente: partiendo de una ocurrencia del nombre por desambiguar, integrado en un patrn sintagmtico, el algoritmo lo sustituye por cada una de los nombres presentes en los conjuntos Di asociados a sus sentidos, y busca en el corpus ocurrencias del patrn sintagmtico obtenido en cada sustitucin. Si se encuentra en el corpus alguno de los patrones sintagmticos obtenidos con los nombres de Di, a la ocurrencia ambigua se le asigna el sentido i correspondiente al respectivo conjunto Di. Los pasos que se siguen, para una ocurrencia del nombre polismico X, son los siguientes: Paso 1. Se identifican los patrones sintagmticos Sk en que participa X. Paso 2. Para cada patrn Sk identificado y para cada sentido Xi de X: - Se sustituye X en el patrn Sk por cada uno de los elementos dij (j variable) de Di. Se obtendrn las variantes particulares Skij del patrn Sk. - Se buscan ocurrencias de Skij en el corpus. Se cuentan las ocurrencias nij identificadas de cada variante Skij. - Se suman las ocurrencias identificadas nij para cada i (j variable): Ni. En base del numero Ni de ocurrencias encontradas en el corpus para las variantes

correspondientes a cada conjunto Di, se establece el sentido que se obtiene usando el patrn Sk. Paso 3. Se establece el sentido de la ocurrencia ambigua, corroborando las propuestas de los diferentes patrones individuales Sk en el paso 2. Hemos realizado esta secuencia de operaciones para la desambiguacin de rgano en el patrn: TRFICO DE RGANOS, y hemos encontrado en el corpus un nico patrn obtenido mediante la sustitucin de rgano por las palabras de los conjuntos que caracterizan sus sentidos: trfico de ojos. En base de este resultado, se asigna a rgano el sentido 3, y a ojo el sentido 4, ya que ojo_4 pertenece al conjunto D3 asociado a rgano. 3. Discusin a) Hemos realizado un estudio de caso sobre el nombre rgano, en una variedad amplia de patrones sintagmticos, con el objetivo de estudiar cuestiones fundamentales de nuestra propuesta: el impacto sobre la calidad de la desambiguacin; los problemas de cada implementacin; posibilidades de refinamiento; la comprobacin de las hiptesis iniciales y eventuales revisiones. Nos hemos centrado en el paso 2, que es fundamental para la estrategia, en ambas modalidades. En este paso se considera un slo patrn sintagmtico a la vez. Respecto de esta reduccin, el paso 3 se puede ver como una generalizacin. Las principales observaciones relacionadas con la implementacin de la estrategia son: a1) Hay patrones sintagmticos ms estrictos (OBRA(S) PARA RGANO) y otros ms dbiles (RGANO DEL CUERPO). Los segundos no son suficientemente restrictivos, y el paradigma que se obtiene es heterogneo, con lo cual la identificacin del sentido no es satisfactoria. Para delimitar subconjuntos homogneos en este paradigma se pueden aplicar restricciones: que los elementos del paradigma compartan ms de una palabra en la otra posicin del patrn sintagmtico, o que tengan la misma etiqueta de dominio.
6

Ejemplificamos el impacto del primer filtro sobre el paradigma obtenido en el apartado 2.2.1. para el nombre obra en el patrn OBRAS PARA RGANO. Siendo el paradigma inicial:
{arpa, atencin, canto, cello, clarinete, clave, cobla, conjunto, coro, cuerda, febrero, flauta, gente, guitarra, noviembre, rgano, orquesta, percusin, piano, quinteto, teatro, tenor, violn, violonchelo, voz},

se obtiene el conjunto homogneo:


{arpa, cello, clarinete, clave, flauta, guitarra, orquesta, rgano, piano, quinteto, violn, violonchelo, voz},

cualquier combinacin de sus posibles sustitutos en el patrn inicial. c) Una caracterstica importante de nuestra propuesta es la no dependencia de un corpus etiquetado al nivel de sentidos y de funciones o relaciones sintcticas. La flexibilidad respecto del corpus utilizado permite que los resultados puedan mejorar de manera continua, en paralelo con la ampliacin de los corpora, ya que se va reduciendo el problema de la escasez de datos. 4. Conclusiones e investigacin futura Hemos propuesto una estrategia para la DSA que se basa en la colaboracin entre la informacin sintagmtica, presente en los textos, y la informacin paradigmtica de las fuentes lxicas. El mtodo toma como unidad por desambiguar una ocurrencia ambigua integrada en un patrn sintagmtico. El potencial del proceso de desambiguacin es amplio, ya que permite la desambiguacin a la vez de varias ocurrencias de una misma palabra en cualquier texto, y de varias palabras relacionadas con la primera en base a un patrn sintagmtico. La estrategia no necesita un corpus etiquetado al nivel de sentido ni al nivel sintctico, con lo cual es un mtodo de desambiguacin totalmente automtico. La prioridad absoluta de nuestra labor futura es la aplicacin a gran escala, para una evaluacin real de la propuesta. Se compararn las dos modalidades por separado, y luego se combinarn en un sistema nico. Interesan las posibles generalizaciones: por una parte, considerar los varios patrones en que participa una ocurrencia ambigua; por otra, pasar de variantes flexivas a lemas, y de lemas a categoras sintcticas. Las aplicaciones inmediatas son la obtencin de ejemplos etiquetados al nivel de sentido, y la ampliacin del conocimiento asociado a los sentidos.

adecuado al contexto oracional y sobre el cual el algoritmo MEC da ptimos resultados. a2) Para los patrones sintagmticos de coordinacin, con dos nombres y una conjuncin, hemos probado dos modalidades de aplicar el algoritmo MEC: vertical, sobre los nombres del paradigma, y horizontal, sobre los dos nombres del patrn sintagmtico. Si la aplicacin vertical se enfrenta con el mismo problema de heterogeneidad del paradigma, la aplicacin horizontal lleva a resultados correctos, aunque la desambiguacin puede ser parcial. a3) La implementacin M2, sobre todo, se ve afectada primero por la escasez de datos en la fase de bsqueda en el corpus. Adems del uso de un corpus ms grande o de la web, vemos como posible solucin el relajamiento de la prueba de conmutabilidad: se buscan ocurrencias de los nombres de los conjuntos Di integradas no solo en el patrn de partida sino tambin en variantes de este patrn, sustituyendo la otra palabra lxica por una palabra relacionada con ella en EWN. b) El potencial desambiguador del patrn es amplio: b1) la desambiguacin de una ocurrencia ambigua integrada en un patrn sintagmtico ser supuestamente vlida para todas las ocurrencias de la palabra respectiva en el mismo patrn en cualquier otra oracin; b2) en este proceso se desambiguan a la vez ocurrencias de las diferentes palabras alternativas a la palabra de partida en el patrn dado; b3) si se desambiguan ambas palabras lxicas del patrn, se desambiguan implcitamente

5. Agradecimientos
Esta investigacin ha sido financiada por la Agencia Valenciana de Ciencia y Tecnologa (OCyT) con el proyecto CTIDIB/2002/151.

6. Bibliografa Agirre, E. y D. Martnez, 2001. Learning class-to-class selectional preferences, en Proceedings of the ACL CONLL2001 Workshop, Tolouse Civit, M., 2003. Criterios de etiquetacin y desambiguacin morfosintctica de corpus en espaol, tesis doctoral, Universidad de Barcelona (en preparacin) Cruse, Alan, 2000. Meaning in Language. An Introduction to Semntics and Pragmatics, Oxford University Press Federici, S., S.Montemagni y V.Pirelli, 2000. ROMANSEVAL: Results for Italian by SENSE, en Computers and the Humanities. Special Issue: Evaluating WSD Programs, 34 (1-2) Hoste, V., I.Hendrickx, W.Daelemans y A. van den Bosch, 2002. Parameter optimization for machine-learning of WSD, en Natural Language Engineering, 8 (4) Kilgariff, A., 1998. Bridging the gap between lexicn and corpus: convergence of formalisms, en LREC'1998, Granada Leacock, C., M.Chodorow y G.A.Miler, 1998. Using Corpus Statistics and WordNet Relations for Sense Identification, en Computational Lingstics. Special Issue on Word Sense Disambiguation, 24 (1) Lin, D., 1997. Using Syntactic Depency as Local Context to Resolve Word Sense Ambiguity, en Proceedings of ACL and EACL'97, Morgan Kaufman Publishers, San Francisco Mihalcea, R., 2002. WSD with pattern learning and feature selection, en Natural Language Engineering, 8(4), Cambridge University Press Mihalcea, R. y D. Moldovan, 1999. An Automatic Method for Generating Sense Tagged Corpora, en Proceedings of AAAI '99, Orlando Montoyo, A. y Palomar M., 2000. Word Sense Disambiguation with Specification Marks in Unrestricted Texts. Proc. 11th International Workshop on DEXA, Greenwich, London

Ng, H.T. y H.B. Lee, 1996. Integrating Multiple Knowledge Sources to Disambiguate Word Sense: An ExemplarBased Approach, en Proceedings of the 34th Annual Meeting of the ACL Pedersen, T., 2001. A decision tree of bigrams is an accurate predictor of word sense, en Proceedings of NAACL 2001, Pittsburg Pedersen, T., 2002. A Baseline Methodology for Word Sense Disambiguation: http://www.d.umn.edu/tpedersen Sebastin, N., M.A. Mart, M. F. Carreiras, F. Cuetos Gmez, 2000. Lexesp, lxico informatizado del espaol, Edicions de la Universitat de Barcelona Stetina, J., S. Kurohashi, M. Nagao, 1998. General WSD Method Based on a Full Sentential Context, en Proceedings of COLING-ACL Workshop, Montreal Vronis, J., 2001. Sense tagging: does it make sense? Trabajo presentado en The Corpus Lingstics'2001 Conference, Lancaster Vossen, P., 1998 (ed.). EUROWORDNET. A Multilingual Database with Lexical Semntic Networks, Kluwer Academic Publishers, Dordrecht Yarowsky, D., 1993. One Sense per Collocation, en DARPA Workshop on Human Language Technology, Princeton Yarowsky, D. y R. Florian, 2002. Evaluating sense disambiguation across diverse parameter spaces, en Natural Language Engineering, 8(4), Cambridge University Press.

Vous aimerez peut-être aussi