Académique Documents
Professionnel Documents
Culture Documents
discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/259464275
CITATION READS
1 40
2 authors:
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Antonio Moreno Sandoval on 27 December 2013.
1. IntRoduccIn
45
La anotacin de la negacin en un corpus escrito...
siste en aprender o inferir las reglas gramaticales de una
lengua a partir del anlisis sintctico realizado por lingis-
tas. tomando la muestra de datos anotados, el programa
propone la estructura sintctica ms probable para una ora-
cin dada. esta induccin de reglas gramaticales se realiza
mediante mtodos estadsticos.
en este trabajo, pretendemos aportar algo de luz sobre
uno de los desafos en la formalizacin del lenguaje natural:
la negacin. mucho se ha escrito sobre ella en el plano teri-
co de la Lingstica; sin embargo, las teoras no siempre son
suficientes en la prctica de formalizar el funcionamiento de
la negacin para su procesamiento computacional. en los
ltimos aos se ha producido un inters creciente por el tra-
tamiento automtico de la negacin. el mejor ejemplo de ello
es el nmero especial de la revista computational Linguis-
tics dedicado al tema (morante y sporleder 2012), donde se
publican cinco artculos que tratan de temas generales apli-
cados al ingls.
como explican morante et al. (2011a:4), detecting negat-
ed events is important because negated events are not facts.
si un sistema de extraccin automtica de informacin se
encuentra con la siguiente oracin:
(1) La presidenta de uni mallorquina no descarta pactar
con los socialistas.
debera ser capaz de detectar que el evento principal, des-
cartar, est modificado por una marca de negacin. si el sis-
tema extrae que dicha presidenta descarta un pacto con los
socialistas, la informacin que obtenemos es falsa. para evi-
tar que esto ocurra, el tratamiento de la negacin debe ser
incorporado al sistema.
otro ejemplo, del campo de las aplicaciones computacio-
nales en anlisis de la opinin, es distinguir entre juan lo
hace mal, juan no lo hace mal y juan no lo hace nada
mal. La primera es una valoracin negativa mientras que
las dos ltimas implican una apreciacin positiva sobre el
sujeto. Las tres contienen elementos negativos.
de entre los trabajos que se estn llevando a cabo en este
campo, destacaremos algunos por la similitud que tienen con
nuestro proyecto: la anotacin de la negacin y su mbito en
un corpus compuesto por dos historias de conan doyle
(morante et al. 2011a) y el Bioscope corpus (szarvas et al.
46
Antonio moreno sandoval y marta garrote salazar
2. mARco teRIco
47
La anotacin de la negacin en un corpus escrito...
49
La anotacin de la negacin en un corpus escrito...
en resumen, el objeto de esta investigacin es centrarse
en los aspectos ms generales y frecuentes del fenmeno,
siempre desde una perspectiva sintctica oracional. para ello,
se aprovecha el trabajo previo en anlisis sintctico y las
herramientas computacionales que permiten localizar y ano-
tar rpidamente las palabras en nuestro corpus. esto permi-
te realizar un recuento y dar una primera aproximacin
cuantitativa a estos fenmenos.
Wsj 75 88 56 70
uAm 67 78 59 65
4. metodoLogA
La nueva extensin del uAm spanish treebank ha sido ano-
tada por dos investigadores expertos, ambos especialistas en
Lingstica de corpus. para ello, se ha seguido el modelo formal
presentado en la seccin 2. en los casos de ambigedad, se ha
llegado a un consenso tras una discusin sobre el fenmeno con-
creto y siempre manteniendo las pautas del modelo establecido2.
el uAm spanish treebank se presenta en formato xmL en
estructura anidada. cada una de las oraciones est represen-
tada por la etiqueta <sentence> como elemento raz dentro
del cual se van anidando los diferentes elementos que consti-
tuyen la oracin. esto nos permite acotar el mbito de la nega-
cin introduciendo el rasgo neg=yes en el constituyente
sintctico sobre el cual recae su significado. si la negacin es
total, afectando a la oracin completa, el rasgo se incluye en la
etiqueta <sentence>; si por el contrario el mbito de la nega-
cin slo abarcase, por ejemplo, un sintagma adjetival, repre-
sentado como <Adjp>, el rasgo neg=yes se incluira en
esta etiqueta. el In o marca de negacin se ha marcado con
51
La anotacin de la negacin en un corpus escrito...
el rasgo type=neg, y cuando se produce el fenmeno de
concordancia negativa, la palabra en funcin de tpn se marca
con el rasgo neg=yes. Los ejemplos de las Figuras 1, 2 y 3
muestran el resultado de la anotacin.
en la Figura 1 vemos un ejemplo de negacin oracional
(no comprenda la situacin) en el que se marca el mbito de
la negacin (neg=yes) y el In (type=neg). La Figura 2
(no pretende dar ninguna impresin concreta) se muestra
cmo se ha marcado la concordancia negativa: la palabra nin-
guna funciona como tpn concordando con el In no y a su vez
acta como In del sintagma nominal al que precede. Final-
mente, en la Figura 3 (carlos saura y jos Luis garci com-
petirn por la estatuilla a la mejor pelcula de habla no ingle-
sa) es una muestra de negacin cuyo mbito abarca sola-
mente un sintagma (<Adjp gender=Fem number=sg
neg=yes>). Los rboles simplificados de las tres oraciones
se muestran en la Figura 4. en ellos se puede observar el
mbito de alcance de la negacin. Los elementos hermanos
del In (en todos estos casos, el adverbio negativo no, excepto
en el ltimo np, cuyo In es el cuantificador ninguna) son
ncleos de un constituyente mayor: en el caso del verbo, este
es ncleo de la oracin; en el caso de otras categoras sintc-
ticas (n, Adj, etc.), estas son ncleos de un sintagma. ese
constituyente mayor es el alcance de la negacin.
52
Antonio moreno sandoval y marta garrote salazar
53
La anotacin de la negacin en un corpus escrito...
Imagen 3
54
Antonio moreno sandoval y marta garrote salazar
Imagen 4
5. ResuLtAdos
55
La anotacin de la negacin en un corpus escrito...
sencilla porque la negacin es un elemento marcado. en
todas las lenguas conocidas, las oraciones negativas se
marcan mediante una palabra o morfema especial y las
oraciones afirmativas no conocen en general un marcador
obligatorio de afirmacin. (moreno cabrera, 1991: 587).
Los elementos lingsticos marcados son menos frecuentes
en las lenguas del mundo por economa lingstica. por
ello, las oraciones afirmativas, y por lo tanto no marcadas,
son mucho ms productivas en cualquier lengua.
entre las marcas de negacin, el adverbio negativo no
es la marca ms frecuente, un 84,63% del total de las mar-
cas de negacin (tabla 2).
marcas de negacin
tipo Frec. relativa sobre el total Frec. relativa con respecto al
del uAm-treebank total de marcas de negacin
no 9,93 84,63
ni 0,27 2,27
56
Antonio moreno sandoval y marta garrote salazar
ni 100%
ni_siquiera 100%
nunca 100%
nada 100%
tampoco 100%
57
La anotacin de la negacin en un corpus escrito...
frecuente, la negacin sintctica oracional y sintagmtica.
La morfolxica y la discursiva se quedan muy fuera de lo
que podemos abordar. tampoco tratamos la interpretacin
del foco de la negacin y las estructuras negativas que no
tienen elementos negativos obvios. La aportacin de este
artculo es la cuantificacin de la negacin sintctica en
un corpus equilibrado de oraciones, lo que permite tener
una idea aproximada del porcentaje que suponen estas
estructuras en el uso lingstico en textos periodsticos.no
obstante, se han diseado nuevas etapas del proyecto en
las que se incluyen la anotacin de la negacin afijal, la de
unidades lxicas intrnsecamente negativas y la negacin
interoracional. el resultado final ser un corpus en el que
todos los elementos lingsticos negativos hayan sido ano-
tados, a partir del cual se puedan extraer patrones de fun-
cionamiento de la negacin, con la finalidad de desarrollar
sistemas de inferencia gramatical.
por el momento, podemos concluir que nuestro trabajo
demuestra que un corpus sintctico facilita la identifica-
cin de la negacin y, sobre todo, de su alcance, gracias a
la anotacin no slo de partes del discurso, sino tambin
de elementos superiores como los sintagmas o las oracio-
nes subordinadas. Adems, los datos estadsticos nos
muestran que solamente tratando el In no y las oracio-
nes como mbito de alcance se puede abarcar ms del 80%
de la negacin en un texto. A pesar de que las oraciones
negativas apenas supongan un 10% del total de oraciones
de un texto, su identificacin es fundamental para una
correcta comprensin del mismo.
AgRAdecImIentos
58
Antonio moreno sandoval y marta garrote salazar
BIBLIogRAFA
ABeILL, A. (2003). treebanks. Building and using parsed cor-
pora. netherlands, Kluwer Academic publishers.
Bosque muoz, I. y gutIRRez-RexAcH, j. (2009). Fundamentos
de sintaxis formal. madrid, Akal.
moRAnte, R., scHRAuWen, s. y dAeLemAns W. (2011a) Annota-
tion of negation cues and their scope. guidelines v1.0. tech-
nical Report series ctR-003, cLips. university of Antwerp,
Antwerp.
moRAnte, R., scHRAuWen, s. y dAeLemAns W. (2011b) corpus-
based approaches to processing the scope of negation cues: an
evaluation of the state of the art in proc. ninth Internation-
al conference on computational semantics, oxford.
moRAnte, R. y spoRdeLeR, c. (eds.) (2012) A special Issue of the
computational Linguistics journal on modality and nega-
tion. computational Linguistics, 38:2.
moReno, A. y de moLInA, jA. (2002). La negacin en espaol.
granada, port-Royal.
moReno cABReRA, jc. (1999) curso universitario de lingstica
general. tomo I: teora de la gramtica y sintaxis general.
madrid, sntesis.
moReno sAndovAL, A., Lpez RuesgA, s., sncHez, F. y gRIsH-
mAn, R. (2003) developing a spanish treebank. A. Abeill
(ed.) treebanks. Building and using parsed corpora.
netherlands, Kluwer Academic publishers, pp. 149-163.
nIvRe, j. (2006) Inductive dependency parsing. dordrecht, Klu-
wer.
RAe-AALe (2009). nueva gramtica de la lengua espaola.
madrid, espasa.
sncHez Lpez, c. (1999). La negacin. en Bosque y demon-
te (eds.) gramtica descriptiva de la lengua espaola.
madrid, espasa calpe, pp. 2561-2634.
sAntAmARA, j. (2013) Induccin gramatical no supervisada
basada en patrones lxicos. tesis doctoral indita. etsI
Informtica, uned.
segIneR, y. (2007). Learning sintactic structure. phd thesis.
university of Amstersdam.
szARvAs, g., vIncze, v., FARKAs, R. y csIRIK, j. (2008) the Bio-
scope corpus: anotation for negation, uncertainty and their
scope in biomedical texts. BionLp 2008: current trends in
Biomedical natural Language processing. columbus, ohio,
pp.3845.
59
La anotacin de la negacin en un corpus escrito...
notAs
1 morante et al. 2011b presentan un breve estado de la cuestin
del 5,14 para el ingls. esto significa que nuestro corpus contiene
ms informacin sobre la negacin.
60