Propuesta y evaluación de un método extractivo de generación de
resúmenes en el ámbito biomédico basado en conceptos
A proposal and evaluation of an extractive method for summarization in the
biomedical domain based on concepts Manuel de la Villa y Manuel J. Maña Departamento Tecnologías de la Información Universidad de Huelva. Campus La Rabida. Edif. Torreumbría, 21618, Palos de la Frontera, Huelva, España {manuel.villa, manuel.mana}@dti.uhu.es
Resumen: Los métodos de generación de resúmenes basados en técnicas extractivas han
demostrado ser muy útiles por su adaptabilidad y eficiencia en tiempo de respuesta en cualquier tipo de dominios. En el ámbito biomédico son numerosos los estudios que hablan de la sobrecarga de información y recogen la necesidad de aplicación de técnicas eficientes de recuperación y generación de resúmenes para una correcta aplicación de la medicina basada en la evidencia. En este contexto vamos a presentar una propuesta metodológica de generación automática de resúmenes basada en ontologías y grafos, aplicando técnicas de similitud y la frecuencia de aparición de los conceptos para obtener las frases más relevantes. Se realiza una evaluación de la propuesta frente a otras metodologías con la herramienta ROUGE y se analizan los resultados. Aunque la extensión del conjunto de evaluación no permite extraer conclusiones significativas, los resultados son suficientemente prometedores como para confiar en la efectividad de la propuesta presentada. Palabras clave: resumen automático, método extractivo, conceptos biomédicos, UMLS Abstract: The methods for automatic summarization generation based in extractive techniques have widely shown its utility for his adaptability and efficiency in the manner of response time at any kind of application domain. In Biomedical field are numerous the research results about the overload information and the need of application of efficient recovery and summarization methods for the proper use of evidence based medicine. In this context we are going to present a proposal of methodology for automatic summarization based on structured knowledge and graph's use, applying similarity methods between phrases and considering concepts appearance frequency. Finally, a methodology’s evaluation is made to compare with other methods using the ROUGE tool and analyzing their results. Although the size of the evaluation set doesn’t allow extracting noteworthy conclusions, the results collected are enough promising to trust in the effectiveness of the proposal handed in. Keywords: automatic summarization, extractive method, biomedical concepts, UMLS
1 Introducción Numerosos artículos certifican la sobrecarga
de información tan común hoy día en nuestra La generación de resúmenes de texto es un sociedad, y en especial en el ámbito biomédico, proceso de reducción de la información, que donde la información está disponible desde una permite a un usuario tomar idea o conocer el variedad de fuentes, incluyendo artículos contenido de un texto completo, sin tener que científicos, bases de datos de resúmenes, bases leer todas sus frases. Esta reducción de la de datos estructuradas o semiestructuradas, cantidad de información a leer produce una servicios web, webs de documentos o historia mayor rapidez en la búsqueda de información clínica de pacientes (Afantenos et al., 2005). relevante y una mayor asimilación de conceptos con menor esfuerzo. Si a ello unimos el hecho de que gran parte evaluación y se interpretan. En la sección 6 se de los resultados de la investigación biomédica establecen los resultados y las conclusiones del se encuentran en forma de literatura escrita en presente trabajo. formato libre que se acumulan en grandes bases de datos en línea, podemos concluir que el 2 Trabajos relacionados en el ámbito proceso de reducción de información que biomédico y recursos UMLS. producen los resúmenes automáticos es especialmente útil en el ámbito biomédico. Una primera propuesta de nuestro trabajo, (de la Villa y Maña, 2009) recoge en detalle el Por otro lado, el rápido crecimiento de los proceso de generación de resúmenes, los resultados de la investigación del dominio principales trabajos de referencia en el ámbito, biomédico está produciendo un importante así como una descripción detallada de los cuello de botella. MEDLINE1 (Medical recursos UMLS que usa. Literature Analysis and Retrieval System Online), la principal base de datos bibliográfica En el ámbito biomédico destacaremos los de EE.UU (de la National Library of Medicine), métodos de generación de resúmenes contiene más de 16 millones de referencias a extractivos como BioChain, (basado en cadenas artículos de revistas, centrados principalmente de conceptos o relaciones semánticas entre en biomedicina. Entre 2000 y 4000 referencias conceptos vecinos en texto), FreqDist (centrado completas se añaden cada día, más de 670000 en el uso de las distribuciones de frecuencia, fueron añadidas en 2007. construyendo un resumen con similar distribución que el original) y Chainfreq Es evidente que en este dominio, los (híbrido de los dos anteriores), que usan profesionales en general necesitan herramientas conceptos específicos del dominio biomédico orientadas a proporcionar medios para acceder para identificar las sentencias destacables del y visualizar la información adecuada para sus texto completo (Reeve et al., 2007). necesidades. Los trabajos específicos de un ámbito usan En este trabajo vamos a presentar el modelo conceptos en vez de términos, para lo que de generación de resúmenes de carácter necesitan herramientas que den soporte a la extractivo apoyado en conceptos del dominio identificación de los conceptos en una biomédico así como una evaluación realizada estructura de conocimiento del dominio y con un mini-corpus, con el que podemos capaces de determinar relaciones semánticas obtener unas primeras conclusiones. Para ello entre estos conceptos. estructuramos el documento de la siguiente manera: en primer lugar se comentan trabajos Para el procesado semántico, consistente en de interés que son específicos del dominio. el análisis e identificación de los conceptos y También presentamos UMLS y el conjunto de relaciones subyacentes en un texto, se requiere herramientas de procesamiento de lenguaje una estructura de conocimiento, como la que en natural orientadas al ámbito biomédico que el ámbito biomédico proporciona el proyecto incorpora. En la sección tres introducimos el Unified Medical Language System (UMLS) modelo de generación de resúmenes en que (Humphreys et al., 1998). El objetivo de este estamos trabajando, dividido en cuatro fases. proyecto es el desarrollo de herramientas que En la sección 4 se recoge el procedimiento ayuden a investigadores en la representación del seguido para evaluar la efectividad de nuestro conocimiento, recuperación e integración de sistema, enfrentándolo a sistemas presentes en información biomédica. el mercado, ya sean resultados de investigación o herramientas comerciales. Para ello se explica UMLS consiste en tres componentes, el el uso de la herramienta automática de SPECIALIST Lexicon, el Metathesaurus y la evaluación ROUGE, se explica el corpus de UMLS Semantic Network (Rindflesh et. al., documentos a evaluar y una breve reseña de 2005). SemRep es una herramienta de cada sistema contra el que nos comparamos. En procesado semántico que integra los tres la sección 5, se presentan los resultados de la anteriores componentes de UMLS para analizar de manera automática textos con lenguaje 1 www.nlm.nih.gov/pubs/factsheets/medline.html médico identificando los conceptos y relaciones manera simultánea, se identifican con la ayuda que representan el contenido del documento. de Metamap Transfer (integrada en SemRep), los conceptos biomédicos incluidos en la frase y Usaremos el Metathesaurus y la herramienta se incluyen en el nodo, así como las relaciones Metamap Transfer (MMTx) para la semánticas. identificación de los conceptos biomédicos de cada frase, base para el cálculo del solape entre 3.2 Fase 2. Aplicación de algoritmo de frases. En cuanto a SemRep, añadiremos esta similitud. lista de relaciones al grafo dirigido para posteriores trabajos. Para la extracción de sentencias en resúmenes, un concepto importante es la 'similaridad' o 3 Propuesta de generación del resumen grado de solapamiento entre sentencias, cuánto del contenido de una sentencia se encuentra Los métodos de generación de resúmenes incluido en otra. Es como si consideráramos el basados en técnicas extractivas han demostrado solape como una “recomendación” de una frase ser muy útiles por su adaptabilidad y eficiencia de dirigirse a otras que tratan y abundan los en tiempo de respuesta en cualquier tipo de mismos conceptos. Una función de similaridad, dominios. Por contra, los métodos abstractivos, que tome en cuenta el grado de repetición de por la necesidad de recursos léxicos, sintácticos tokens entre sentencias de manera normalizada y semánticos han proporcionado unos mejores proporcionará una medida de este concepto. resultados en cuanto a comprensibilidad a costa Aplicamos una versión modificada (con de un mayor esfuerzo computacional y por conceptos en vez de términos) de la formula de tanto, de tiempos de respuesta, aparte de la similaridad de (Milhacea y Tarau, 2006): especificidad del ámbito de uso de la {T | Tk ∈ Vi ∧ Tk ∈ V j } herramienta. Similitud (Vi ,V j ) = k
Nuestro objetivo es intentar combinar la
capacidad y rapidez de los métodos extractivos ( ) log(Vi )+ log V j
con la efectividad y concreción de los métodos
que podríamos expresar como sigue: abstractivos. Para ello vamos a presentar la ({df (C ) | C ∈ V ∧ C ∈ V }) Similitud p (Vi ,V j ) = propuesta en que venimos trabajando de una k k i k j metodología de generación automática de log(V )+ log(V ) i j resúmenes apoyada en conocimiento estructurado y grafos de ranking. La recomendación que hace cada concepto Nuestra propuesta, basada en (Milhacea y sobre sus apariciones en otras frases no es Tarau, 2006) es eminentemente extractiva, de equitativa sino que está ponderada. Su modo que el proceso podría resumirse en influencia será mayor cuanto mayor sea su identificar las sentencias en el texto de origen, frecuencia de apariciones en el documento (df, seleccionar aquellas que sean relevantes para el document frequency). usuario a la vez que disminuimos la redundancia de la información. Para ellos asignamos una puntuación a cada frase de 3.3 Fase 3. Aplicación de algoritmo de acuerdo a un conjunto de características. Las n- ranking primeras frases en cuanto a puntuación se Los algoritmos de ranking basados en grafos, a extraen y se presentan al usuario en su orden de partir de la asignación arbitraria de valores a aparición en el texto original. cada nodo, realizan cálculos para obtener la puntuación S(Vi) de cada nodo de manera 3.1 Fase 1. Generación del grafo. iterativa, hasta que se produce convergencia Independientemente del tamaño del texto, sea bajo un determinado umbral. Las referencias un texto completo o un abstract, la primera entre nodos y/o conceptos son tratadas como tarea debe consistir en la identificación de cada 'votos' para decidir el elemento más importante. una de las sentencias del texto de origen, así La puntuación de cada vértice se obtiene como en la creación de un grafo que incluya un aplicando Pagerank (Brin y Page, 1998): vértice en el grafo por cada sentencia. De evaluación de traductores automáticos (MT WS (V j ) W ji WS (Vi ) = (1 − d )+ d ∗ Machine Translations) de herramientas como ∑ ∈I n (Vi ) ∑W BLEU (Papineni et al. 2001), Lin y Hovy ∈O (V ) Vj jk Vk presentaron ROUGE (Recall-Oriented ut j Understudy for Gisting Evaluation). En dicho trabajo mostraban que los resúmenes Tras la ejecución del algoritmo, los nodos se producidos por jueces humanos no eran fiables ordenan atendiendo al peso o puntuación como ‘resúmenes ideales’ (gold standard), a asociada, que define la notoriedad (saliency) de causa de las fuertes discrepancias que cada vértice en un grafo dirigido y ponderado. presentan. Como consecuencia, un resumen de consenso obtenido por la aplicación de métricas 3.4 Fase 4. Creación del resumen basadas en el contenido, como el solape de N- Los nodos de mayor puntuación definirán las gramas, parecía mucho más fiable como frases a incluir en el resumen. El número de resumen ideal para usarlos como referencia en frases puede ser fijo o basado en un umbral. En el contraste de nuevos modelos. nuestro prototipo es el usuario el que decide el porcentaje de frases del documento original que ROUGE, desarrollado por el Information formarán parte del resumen. Para facilitar la Science Institute en la University of Southern legibilidad del resumen, la secuencialidad de California es una herramienta automática que presentación de las frases seleccionadas se hace compara un resumen generado por un sistema atendiendo a su ordenamiento original. automatizado con uno o más resúmenes ideales, los llamados ‘modelos’. ROUGE usa N-gramas 4 Evaluación para determinar el solapamiento entre el resumen generado y los modelos. ROUGE ha Aunque la mayoría de trabajos de generación sido usado desde 2004 en las Conferencias automática de resúmenes de texto tienen una DUC (Document Understanding Conference) componente teórica importante, suelen como herramienta de evaluación en las establecer hipótesis o proponer técnicas y competiciones y es un estándar ‘de facto’ algoritmos que necesitan ser validados, asumido por la comunidad internacional del evaluados y comparados de una manera formal ámbito que usaremos nosotros para evaluar la y rigurosa. Tradicionalmente, la evaluación de corrección de nuestro trabajo. resúmenes ha requerido el juicio humano de diferentes métricas de calidad, como p.ej., Según (Lin, 2004) ROUGE-2, ROUGE-L, coherencia, concisión, gramaticalidad, ROUGE-W y ROUGE-S funcionan bien en legibilidad y contenido (Mani, 2001). tareas de resumen monodocumento. Del mismo modo, afirma que ROUGE-1, ROUGE-L, No obstante, incluso la evaluación manual ROUGE-W, ROUGE-SU4, y ROUGE-SU9 dan de resúmenes a gran escala sobre unas cuantas grandes resultados en la evaluación de cuestiones de calidad lingüística y cobertura de resúmenes muy cortos. contenido como las realizadas en la conferencia DUC (Document Understanding Conference) 4.1 Descripción del corpus de evaluación hubieran requerido sobre 3000 horas de esfuerzos humanos (Over y Yen, 2003). Una Para comparar los resúmenes generados tarea como ésta es muy cara y difícil de llevar a automáticamente y probar nuestro sistema, cabo de manera frecuente, por lo que la hemos usado una pequeña colección de cuatro evaluación automática de resúmenes es un documentos médicos, cedidos por (Plaza, Díaz desafío de investigación en el que la comunidad y Gervas, 2008), que también trabajan en la de generación de resúmenes ha puesto su generación de resúmenes usando grafos y objetivo en los últimos años. ontologías. Estos documentos obtenidos de la colección Biomed Central han sido resumidos Ante la escasez de propuestas y la dificultad manualmente por expertos médicos. de la tarea, ROUGE (Hovy, Lin 2003) se ha convertido en el paquete de evaluación de Indicar que sobre los documentos se realizó resúmenes automatizados más frecuentemente previamente un trabajo de preprocesado, usado. Tras la exitosa aplicación en la eliminando de cada documento el título, el abstract así como las cabeceras de sección • UHU1. En esta primera versión se ha (elementos que de ser tratados y tenidos en aplicado la metodología tal cual ha sido cuenta supondrían un gran valor añadido, por la presentada en la sección anterior. relevancia del título y del abstract), tablas e • UHU2. Es una versión anterior que no imágenes. tiene en cuenta la ponderación de los conceptos, considera todos los conceptos Para comparar los resúmenes generados iguales y aplica directamente la fórmula de automáticamente por los diferentes sistemas, similitud de (Milhacea y Tarau, 2006) vamos a usar 5 modelos o resúmenes ideales de cambiando términos por conceptos. cada documento de la colección, que • LEAD. Uno de los que suele llamarse representan supuestamente diferentes versiones generadores de línea base, ya que su de un resumen ideal. Dos resúmenes han sido objetivo es dar alguna idea del nivel de elaborados por dos expertos para un ratio de rendimiento de una implementación muy compresión del 20%, otros dos resúmenes más, simple. LEAD (o Lead) de manera elaborados por el primero de los expertos con secuencial recupera las primeras sentencias ratios del 30% y el 50%. Como quinto modelo del texto, hasta completar el 20% del ideal usaremos el abstract de cada artículo. tamaño. Indicar que en textos periodísticos y científicos, las primeras líneas del 4.2 Generadores de resúmenes usados para documento suelen tener un alto grado de evaluación. significatividad. Para la evaluación de nuestra propuesta vamos • MS-Word (AutoSummarize). Esta a presentar dos modelos candidatos, el primero función se encuentra incluida en el de ellos (UHU2) es un baseline con un proceso procesador de textos Microsoft Word inicial de tratamiento de los textos médicos, que v.2007 (concretamente, ensamblado en no tiene en cuenta la frecuencia de aparición de MS.Office.Tools.Word.v9.0.dll). Aunque conceptos. El segundo de ellos (UHU1) los detalles concretos del algoritmo no son incorpora en la fórmula de cálculo de la públicos, en la ayuda online del producto se similitud entre frases, la frecuencia de aparición afirma que las sentencias que usan palabras de los conceptos que se solapan. frecuentemente usadas tienen una mayor puntuación. Para tener un mayor grado de conocimiento • Copernic Summarizer2. Es una de la eficiencia genérica del proceso, se incluye herramienta multilingüe comercial de en la comparativa los resultados obtenidos generación de resúmenes a partir de textos o sobre el mismo corpus aplicando diferentes páginas web con el objetivo de disminuir el herramientas, plenamente admitidas y utilizadas tiempo de acceso del usuario a la como referencia por la comunidad información importante. Obtiene los internacional, tanto resultado de proyectos de conceptos clave y frases clave a partir de un investigación como herramientas comerciales. ratio de compresión dado. Se integra fácilmente en procesadores de texto, Cada herramienta generó un resumen de un navegadores y clientes de correo. Los tamaño igual al 20% del tamaño del texto algoritmos y técnicas usadas no son original. El tamaño del resumen no ha sido una públicos, sólo se revela que usa decisión arbitraria. En el dominio de los 'sofisticados' algoritmos estadísticos y resúmenes de noticia típicamente se selecciona lingüísticos, eliminando automáticamente un tamaño de cómo máximo 5 líneas, que contenido y texto irrelevante. representa sobre el 20% del tamaño de una • Pertinence Summarizer3 es una noticia típica (Goldstein et al., 1999). Ha sido herramienta comercial de generación de generalmente aceptado que un resumen no resúmenes que se basa en técnicas debería ser más corto del 15% ni más largo del extractivas, mediante el procesamiento de la 35% del tamaño del texto fuente (Hovy, 2005). relevancia (pertinencia la denominan ellos) de cada sentencia, tomando en cuenta Hagamos una breve descripción de los posibles palabras clave, diccionarios de generadores usados: 2 http://www.copernic.com/en/products/summarizer/ 3 http://www.pertinence.net/index_en.html términos y marcadores lingüísticos Cada tabla se ha ordenado descendentemente genéricos. Es multilingüe y se ha usado la atendiendo a su puntuación (medida F). Por lo versión online para la evaluación. tanto, el método de generación de resúmenes • Swesum. Es un generador de resúmenes más eficiente aparece en la primera entrada de multilingüe (Hassel, 2007), inicialmente cada tabla mientras que el menos eficiente para sueco e inglés. Utiliza múltiples aparece en la última fila. aspectos para valorar las sentencias, como su posición o valor numérico en un ROUGE es una herramienta que permite esquema, de modo que las sentencias evaluaciones parametrizadas en función de iniciales tienen un peso adicional, así como ciertos valores, que orientan la tarea al tipo las numeradas. Para la evaluación se ha especial de documento original y resumen a usado la versión online4, con las opciones generar. Vamos a diferenciar y separar entre por defecto. dos evaluaciones, una con los parámetros que se • Summ-It. Es un módulo para generación han usado en la tarea de resumen del DUC y de resúmenes integrado en la plataforma otra con los valores por defecto de ROUGE, en System Quirk5, un banco de trabajo para el la que se realizarán toda la batería de pruebas aprendizaje e investigación de técnicas de posible: procesamiento del lenguaje natural. • Mead. Es generador de resúmenes 5.1 Evaluación con los parámetros del DUC. mono- y multidocumento (Radev et al., Desde 2004 hasta 2007, ROUGE ha sido la 2004), que usa múltiples criterios a la hora herramienta fundamental de evaluación en las de puntuar las sentencias, como la posición Conferencias DUC. Entre las tareas principales de la sentencia en el texto, el solape de cada y desafíos propuestos se encontraban sentencia con la primera sentencia, la principalmente tareas de resumen longitud de la sentencia y un método multidocumento, question-answering y basado en el centroide de un clúster de detección de novedades. Para estas tareas, el documentos. Para la evaluación se ha usado método de evaluación usado en la tarea es la demo online6 (MEAD, 2008), que los ROUGE-2 y ROUGE-SU4, con stemming autores avisan de que es más limitada que la (corte de palabras a su raíz) y manteniendo versión para descarga. stopwords (listas de palabras a ignorar). • LexRank. (Erkan y Radev, 2004) es un ROUGE-1.5.5 será procesado con los siguientes método multidocumento de generación de parámetros: resúmenes extractivo orientado a la ROUGE-1.5.5.pl -n 2 -x -m -2 4 -u -c 95 obtención de la relevancia de una frase en -r 1000 -f A -p 0.5 -t 0 -d
base al concepto de centralidad del vector
propio (eigen vector) en una representación de sentencias en un grafo. Una matriz de Método Medida F conectividad basada en la similitud entre UHU1 0.49456 sentencias (método del coseno) es usada UHU2 0.47399 como matriz de adyacencia del grafo de Word 0.46203 sentencias. Este método quedó primero en Copernic Summ. 0.46183 la tarea de resúmenes del DUC 2004. Para Swesum 0.45606 la evaluación se ha usado la versión online7 Mead 0.45552 (LexRank, 2008), más limitada. Lead 0.45331 LexRank 0.44932 5 Resultados y discusión Pertinence Summ. 0.41740 Summ-It 0.40678 Los resultados de la evaluación usando Tabla 1. Evaluación según ROUGE-1 con ROUGE se muestran en las siguientes tablas. parámetros DUC 2005
4 -n 2 procesa ROUGE-1 y ROUGE-2
http://swesum.nada.kth.se/index-eng-adv.html -x no calcula ROUGE-L 5 http://www.computing.surrey.ac.uk/SystemQ/ -m aplica algoritmo de Porter. 6 http://tangra.si.umich.edu/clair/md/demo.cgi -2 4 procesa Skip Bigram (ROUGE-S4). 7 http://tangra.si.umich.edu/clair/lexrank/ -u incluye los uni-gramas en Skip Bigram (ROUGE-SU) 5.2 Resultados con los parámetros del DUC. -c 95 usa intervalo de confianza del 95% Podemos concluir después de esta evaluación -f A puntuaciones promediadas sobre los que nuestro método es claramente uno de los múltiples modelos mejores, en cuanto da el mejor resultado en -p 0.5 calcula la medida-F con alpha = 0.5 ROUGE-1 y queda muy cerca del mejor en ROUGE-2 y ROUGE-SU4, a pesar de que estas La mejor puntuación ha sido obtenida por métricas han sido seleccionadas por su nuestro algoritmo, en sus dos últimas versiones, conveniencia a la hora de medir la evaluación con una mejora sobre el siguiente del 7,04%. en sistemas multidocumento.
5.3 Evaluación con los parámetros ROUGE
Método Medida F por defecto. Copernic Summ. 0.35388 UHU1 0.33964 Dado que DUC se centra sólo en las métricas Swesum 0.33409 más adecuadas para sus tareas específicas, Lead 0.33263 hemos decidido realizar una evaluación Word 0.32381 genérica que recoja y presente todas las Mead 0.31947 métricas de que es capaz ROUGE. UHU2 0.31794 LexRank 0.30062 ROUGE-1.5.5.pl -c 95 -2 -1 -U -r 1000 -n 4 -w 1.2 Pertinence Summ. 0.29155 Summ-It 0.26765 -2 -1 indica que max-gap-length no tiene límite Tabla 2. Evaluación según ROUGE-2 con -U procesa los unigramas, incluso los regulares parámetros DUC 2005 -r 1000 remuestrea bootstrap 1000 veces para Para bi-gramas, tamaño de palabra 2, nuestra estimar el intervalo de confianza del 95% última versión del algoritmo consigue el -n 4 -n 2 procesa ROUGE-1, ROUGE-2, segundo mejor resultado, sólo superado por el ROUGE-3 y ROUGE-4 generador comercial de la casa Copernic. -w 1.2 con un factor de peso de 1.2 para WLCS
5.4 Resultados con los parámetros ROUGE
por defecto. Analicemos los resultados de la Tabla 4. Método Medida F Aparecen en las filas los distintos métodos de Copernic 0.36260 generación de resúmenes, mientras en las UHU1 0.35972 columnas aparecen cada uno de los diversos Lead 0.34231 métodos de evaluación que proporciona Swesum 0.34213 ROUGE. En cada columna se ha destacado en UHU2 0.33622 negrita el mejor resultado. Además, en la celda Word 0.33173 correspondiente a nuestro método, se indica Mead 0.32568 entre paréntesis el lugar en el ranking que ocupa LexRank 0.31275 nuestro sistema para esa métrica ROUGE. Pertinence Summ. 0.30078 Summ-It 0.28237 En este caso, los resultados de nuestros Tabla 3. Evaluación según ROUGE-SU4 con métodos han sido los más eficaces para los parámetros DUC 2005 evaluadores ROUGE-1, ROUGE-L, ROUGE- S* y ROUGE-SU*, ocupando siempre las Para ROUGE-SU4 nuestro algoritmo sigue primeras cuatro posiciones. superando claramente a la mayoría, salvo al de Copernic. ROUGE- ROUGE-W- ROUGE-1 ROUGE-2 ROUGE-3 ROUGE-4 ROUGE-L ROUGE-S* SU* 1.2 Copernic 0.4545 0.3526 0.3273 0.3165 0.4472 0.1868 0.1893 0.1961 Lead 0.4437 0.3307 0.3028 0.2909 0.4322 0.1620 0.1646 0.1936 Mead 0.4433 0.3181 0.2825 0.2642 0.4171 0.1877 0.1902 0.1853 Pertinence 0.4113 0.2902 0.2545 0.2398 0.3940 0.1493 0.1515 0.1432 Summ-It 0.3949 0.2648 0.2324 0.2197 0.3777 0.1383 0.1406 0.1482 Swesum 0.4493 0.3323 0.3009 0.2871 0.4322 0.1701 0.1727 0.1769 0.2978 0.2843 0.1881 UHU1 0.4834 0.3372 (2) (4) (4) 0.4657 0.2060 0.2085 (4) UHU2 0.4635 0.3151 0.2772 0.2638 0.4449 0.1931 0.1956 0.1722 Word 0.4527 0.3223 0.2782 0.2588 0.4287 0.1723 0.1749 0.1675 Tabla 4. Tabla comparativa de evaluación con ROUGE, parámetros por defecto
También se ha de destacar que a medida que
los N-gramas aumentan de tamaño, los 6 Conclusión resultados empeoran, si bien no podemos aún En este trabajo se ha presentado una concretar la causa. metodología propia para la generación automática de resúmenes de texto. El método Si bien los resultados han sido muy buenos, está basado en técnicas extractivas y en la hemos de ser conscientes de ciertos problemas representación del texto usando un grafo de intrínsecos a la tarea y a la solución aportada. frases y conceptos. El sistema hace uso de un Esta estrategia centrada en el concepto médico analizador semántico que etiqueta el texto, puede dar lugar a resúmenes más inconexos, identificando los conceptos y relaciona como parece que indican los resultados para semánticamente los mismos, utilizando para ROUGE mayores que 1. Sin duda, la mejora de ello un metathesauro médico todos los la legibilidad del resumen habrá de plantearse conceptos. Por ahora, sólo trabaja con textos en como objetivo. inglés. Las versiones de ROUGE L, W y S intentan Para conocer la calidad de los resúmenes arreglar ciertos problemas derivados de la generados hemos realizado un proceso de traducción (aumento del espaciado entre evaluación, valiéndonos para ello de la palabras, cambios en el orden, etc...). Los herramienta ROUGE. Esta herramienta evalúa resultados obtenidos en estas versiones han sido automáticamente la calidad de resúmenes muy buenos, lo que podría derivarse del hecho candidatos frente a un conjunto de resúmenes de que otros métodos hagan un especial modelo, generados por jueces humanos. hincapié en la búsqueda de grupos de términos Mediante diversas métricas, principalmente de significativos o relevantes, algo no prioritario comparación de diversas variantes de N-gramas para nosotros, por lo que a medida que el n- obtenemos valores de Cobertura, Precisión y grama a comparar aumenta de tamaño y se Medida-F de cada generador automático de permiten saltos, nuestro método es favorecido resúmenes. por los resultados. Los resúmenes se han generado a partir de En definitiva, creemos que como primera un pequeño corpus de documentos médicos del evaluación y a pesar de usar un sistema de repositorio BIOMED Central, de los que dos evaluación basado en términos, nuestros expertos han realizado una serie de resúmenes resultados son muy buenos, lo que parece manuales. Para obtener una más clara referencia indicar que el camino tomado y la estrategia de de nuestra propuesta, se han generado resolución del problema es la adecuada. Pero se resúmenes candidatos para la evaluación del ha de ser muy prudente en la evaluación de los mismo corpus usando una serie de generadores resultados obtenidos, primero por la escasa de resúmenes reconocidos por la comunidad representatividad de un corpus tan pequeño y investigadora. segundo, por los malos resultados obtenidos por generadores de resúmenes genéricos de Con la prudencia que merece el hecho de prestigio, como Mead o LexRank. haber usado un corpus tan pequeño, parece que los resultados confirman que el uso de Collaboration”, Journal of the American conceptos del ámbito biomédico dentro de un Medical Informatics Association, 5(1), 1-11. proceso de generación extractiva de resúmenes 1998. produce mejores resultados que los basados en Lin, C-Y. (2004) “ROUGE: a Package for términos y que la propuesta presentada Automatic Evaluation of Summaries” en establece un buen baseline a partir del cual Proceedings of the Workshop on Text seguir mejorando. Summarization Branches Out (WAS 2004), Barcelona, Spain. Mani, I. “Automatic Summarization” John Bibliografía Benjamins, Amsterdam / Philadelphia. (2001) Afantenos, S. D., Karkaletsis, V. y Milhacea R. and Tarau P: “TextRank: Bringing Stamatopoulos P. “Summarization from Order into Texts”. In Proceedings of Medical Documents: A Survey” en Artificial Empirical Methods in Natural Language Intelligence in Medicine, 33(2):157-177. Processing. ACL, 404-411, 2006. 2005. Over P., Yen J. (2003) “Intrinsic Evaluation of Brin, S. y Page, L. “The anatomy of a large- Generic News Text Summarization scale hypertextual web search engine” en Systems” DUC 2003. Workshop on Text Computer Networks and ISDN Systems, 30 Summarization. May 31-June 1, 2003. (1-7). 1998. Edmonton, Canada de la Villa, M., Maña, M. “Estableciendo una Papineni, K., S. Roukos, T. Ward, and W-J. línea base para un generador de resúmenes Zhu. “BLEU: A method for automatic extractivo basado en conceptos en el ámbito evaluation of machine translation”. Research biomédico”. Revista de la Sociedad Report RC22176, IBM. (2001) Española para el Procesamiento del Plaza L., Díaz A. and Gervás P.:”Concept- Lenguaje Natural, num.42 (Abril 2009) graph based Biomedical Automatic Erkan, G. y Radev D. (2004) “LexRank: Graph- Summarization using Ontologies” In based Centrality as Salience in Text Proceedings of the 3rd Textgraphs workshop Summarization”. Journal of Artificial on Graph-based Algorithms for Natural Intelligence Research 22. Language Processing (COLING 2008). Goldstein, J., Kantrowitz, M., Mittal, V., & Radev D.R., Timothy Allison, Sasha Blair- Carbonell, J. “Summarizing text documents: Goldensohn, John Blitzer, Arda Çelebi, sentence selection and evaluation metrics” Stanko Dimitrov, Elliott Drabek, Ali Hakim, SIGIR '99: Proceedings of the 22nd annual Wai Lam, Danyu Liu, Jahna Otterbacher, international ACM SIGIR conference on Hong Qi, Horacio Saggion, Simone Teufel, Research and development in information Michael Topper, Adam Winkel, and Zhang retrieval, Berkeley, California, United Zhu (2004) “MEAD - a platform for States. 121-128. (1999) multidocument multilingual text Hassel, M. (2007) “Resource Lean and Portable summarization”. En Proceedings of LREC Automatic Text Summarization”, PhD- 2004, Lisbon, Portugal. Thesis, School of Computer Science and Reeve, L.H., Han, H., Brooks, A.D. “The use of Communication, KTH, ISBN-978-917178- domain-specific concepts in biomedical text 704-0 summarization” en Information Processing Hovy, E. y Lin, C. Y. “Automatic evaluation of and Management 43, 1765-1776. 2007. summaries using N-gram co-ocurrence Rindflesh, T.C., Fiszman, M., Libbus, B. statistics” en Proceedings of 2003 language “Semantic interpretation for the biomedical technology conference (HLT-NAACL 2003) research literature”. Capítulo 14 del libro (Vol. 1(1), pag. 71-78). Edmonton, Canada. “Medical Informatics. Knowledge Hovy, E.. Automated text summarization. In R. Management and Data Mining in Mitkov (Ed.), The Oxford Handbook of Biomedicine ” (Springer's Integrated Series Computational Linguistics, pp. 583-598. in Information Systems), editores Chen, H., Oxford: Oxford University Press. (2005) Fuller, S.S., Friedman C., Hersh, W. 2005 Humphreys, B.L., Lindberg, D.A., Schoolman, H.M., y Barnett, G.O. “The Unified Medical Language System: An Informatics Research