Vous êtes sur la page 1sur 5

Desarrollo de Aplicaciones, Tecnologas y Sistemas* Ciudad de La Habana* Desarrollo de Aplicaciones, Tecnologas y Sistemas** Santiago de Cuba** Centro de Estudios de Reconocimiento

de Patrones y Minera de Datos (CERPAMID)*** Universidad de Oriente, Cuba*** yamila.cobos@datys.co.cu; rene.viant@sc.datys.co.cu; henry@cerpamid.co.cu

YAMILA COBOS CASTILLO* REN A. VIANT MORN** HENRY ANAYA SANCHEZ***

Tratamiento formalizado de categoras gramaticales para herramientas de P.L.N en el espaol de Cuba


Resumen Un tratamiento especial ha tenido la formacin de verbos con pronombres enclticos. Su descripcin y anlisis a partir de la creacin de reglas gramaticales que propicien a un Analizador Morfolgico un conocimiento gramatical formalizado, es la intencin de este trabajo. 1.- Introduccin El tratamiento automatizado de la morfologa de una lengua constituye el primer escaln para construir cualquier herramienta procesadora de lenguaje natural que contemple, al menos, la sintaxis y la semntica. La complejidad de las reglas de formacin de las palabras debido a la abundancia de excepciones en una lengua de gran riqueza formativa como el espaol, hacen que el tratamiento computarizado de esta disciplina, constituya un campo de investigacin con algunas dificultades. Nuestro pas carece an de contar con un nmero considerable de herramientas similares, no solo por el costo que alcanzan en el mercado internacional; sino adems porque stas, en la mayora de los casos, no se ajustan a la variante de lengua nacional. Sin tener a menos los retos, se trabaja en la creacin de otro Etiquetador Morfolgico para el espaol; enriquecido con datos de nuestra variante de lengua que permita realizar consultas gramaticales avanzadas. El etiquetador morfolgico, es una herramienta computacional capaz de procesar textos de una lengua determinada 1 y dar como salida la categora gramatical con toda la informacin morfolgica y el lema de cada palabra. Se apoya entre otros elementos, en un analizador morfolgico que permite analizar la informacin gramatical de cada palabra flexionada, y adems de forma inversa puede generar la forma gramatical correspondiente a una informacin morfolgica dada. El tratamiento automtico que le proporciona a la categora verbo consiste en el reconocimiento y generacin de sus diferentes formas conjugadas, identificando el infinitivo, las flexiones de tiempo, nmero, persona; y particularmente, las modificaciones dadas por la presencia de pronombres enclticos. El objetivo de nuestro trabajo consiste en proponer reglas admisibles de ordenamiento y combinacin de los enclticos en la unin con verbos y la formacin de modelos verbales atendiendo a dichas reglas, de manera que pueda ofrecerse una estructura informativa que sirva de referente a la hora de abordar este fenmeno en la construccin de la herramienta morfolgica. Desde el punto de vista computacional nuestro trabajo est orientado a satisfacer los fundamentos expuestos en la Morfologa de dos niveles de Kimmo Koskenniemi2 (Koskenniemi: 1983), entre otros. En los fundamentos lingsticos nos apoyamos esencialmente, en los trabajos de Samuel Gili y Gaya(1975), Olga Fernndez Soriano, (en I. Bosque y V. Demonte, 2000), Mara Cristina Cuervo(2002) y los aportes prcticos de la aplicacin informtica creada por el Grupo de Estructuras de Datos del Departamento de Informtica y Sistemas de la Universidad de Las Palmas de Gran Canaria (http://protos.dis.ulpgc.es), en cuanto a las consideraciones que ofrecen sobre las modificaciones que se producen en las formas verbales debido a la presencia de pronombres

De acuerdo a lo planteado en M. Pino y M.P. Santalla, 1996, el criterio de lema que subyace a la representacin propuesta es el siguiente: abstraccin del conjunto de formas flexionadas en cuanto a gnero, nmero, modo, tiempo y/o grado superlativo sinttico productivo (formado con el sufijo -simo, o sus variantes cultas, -rrimo/-imo, normalmente aplicadas sobre formas latinizantes de los adjetivos correspondientes) el lema abstrae tambin la variacin producida por la formacin derivativa de diminutivos o aumentativos. 2 [Koskenniemi: 1983] defini el modelo computacional de Morfologa de dos niveles. Este es un modelo general aplicable a cualquier lengua. Es vlido tanto para generar y/o reconocer una palabra que es representada como la correspondencia entre dos niveles: la forma del nivel superficial y la del nivel lxico o profundo declarando un sistema de reglas morfo fonolgicas; de otro modo, es la integracin de un lexicn de morfemas (raz +afijos) con la morfotctica (qu combinaciones de morfemas son vlidas) y las posibles alteraciones fonolgicas que pueda mostrar la palabra (se declaran reglas ortogrficas). Veamos un ejemplo reducido a su explicacin lingstica: Regla para aadir una e epenttica: Nivel lxico: coz+0s Nivel superficial: coc0es Indica que cuando a nivel lxico un morfema acaba en consonante y el siguiente morfema es s, entonces a nivel superficial se inserta una e epenttica.
1

344

enclticos. De los consultados, este ltimo trabajo nos aport una ejemplificacin abundante y precisa sobre el fenmeno de la enclisis; el resto de las fuentes se enfocan mayoritariamente hacia los proclticos. 2.- Descripcin del corpus. Primeramente se trabaj con un listado de verbos tomados de fuentes como el Diccionario de verbos del Espaol (1987), el Diccionario Bsico Escolar (2005), el DRAE( 2003) y el portal Diccionarios de variantes del espaol (http://www3.unileon.es/dp/dfh/jmr/dicci/007.htm); del cual seleccionamos algunas otras voces que identificamos como nuestras. Despus restringimos los verbos listados al uso en Cuba y formamos con ellos grupos verbales atendiendo a rasgos afines como: regularidad e irregularidad verbal, modelos de conjugacin y una aproximacin al comportamiento transitivo, intransitivo o posiciones intermedias de los mismos. Cada uno de estos grupos constituy un modelo verbal y sirvi de base para la realizacin del anlisis de enclticos. Coincidimos con O. de la Cueva (1989) en que no podemos trazar con todo rigor una lnea divisoria entre los verbos transitivos y los intransitivos, siendo este uno de los aspectos escabrosos a la hora de lograr la formalizacin computacional. No obstante, verbos como convertir e inferir, de naturaleza transitiva, fueron agrupados junto a otros verbos con caractersticas similares en un modelo que indicaba los terminados en ir. Por su parte, tambin terminado en ir; pero listado entre los de carcter intransitivo tenemos el caso de sonrer. Verbos como comer y beber conformaron el modelo de los que pueden funcionar como transitivos e intransitivos (posicin intermedia) terminados en er, etc. Todos estos criterios de medida revisten gran importancia en cuanto a la organizacin estructural que puede lograrse en cada modelo y su repercusin satisfactoria en el anlisis conjuntamente con los enclticos. Debemos evitar, por ejemplo, que el lexema de un verbo irregular se agrupe con el de otro que sea regular en un mismo modelo, as tambin que verbos definidos como intransitivos se complementen de forma similar a los transitivos. De esta manera tratamos de llegar al mayor nmero de regularidades posibles para facilitar la formalizacin del trabajo. Finalmente se obtuvieron 146 modelos verbales y 4229 verbos de los que listamos solo sus lemas. Este listado no constituye un registro cerrado, de ser necesario se puede ir perfeccionando gradualmente con la incorporacin de muchas otras formas verbales al uso en nuestro pas. En este punto es necesario tener siempre en cuenta que la complejidad del tratamiento computacional es proporcional al tamao de estos listados, por lo que la seleccin de los verbos ms representativos de nuestra variante nacional resulta una tarea decisiva. Teniendo los verbos agrupados por modelos pasamos entonces a la creacin de reglas que permitieran ordenarlos y combinarlos con pronombres enclticos de modo formalizado.
2.1.- Nomenclatura, ordenacin y combinacin de las secuencias de clticos.

Los clticos del espaol actual, estn especializados con respecto a la clase de palabras a la que se adjuntan que necesariamente debe ser el verbo. (2000: 1210). Visto as, el fenmeno de la enclitacin, se manifiesta casi exclusivamente acompaando al imperativo, gerundio e infinitivo en una relacin de estricta adyacencia (2000:1210). Se trata de combinaciones no productivas3 como demuestra el hecho de que no estn permitidas todas las secuencias lgicamente posibles o el hecho de que la combinacin de dos de ellos con similitudes 4 fnicas provoque la aparicin de formas especiales (que no se produciran en el caso de que aparecieran solos en la frase). En Fernndez Soriano (2000: 1213) se plantea que el primer trabajo que oficializa criterios sobre esta ordenacin es el de D. Perlmutter (1970)5. En l se reconoce que los clticos deben ajustarse al siguiente esquema: Se II I III (II= 2da.p. , I= 1ra.p. , III=3ra.p.) Tanto Perlmutter(1970) como Gili y Gaya(1975) argumentan que los clticos de 2da.p. ( te, os) deben preceder a los de 1ra.(me, nos) y estos a su vez, preceden a los de 3ra. [ le (s), la(s), los(s)]. El reflexivo / impersonal se, por su parte, siempre debe ser el primero en la secuencia. Partiendo de este precepto, se cre una nomenclatura (ver ms abajo) para nombrar las combinaciones posibles que se iban a utilizar en el anlisis. Tomamos la simbologa usada por Perlmutter y aadimos otras variantes a,b,c- segn fuera necesario especificar las variantes pronominales de una misma persona gramatical, por ejemplo: le(s), la(s), los(s) para referirnos a la 3ra y me, nos para la 1ra. Solo consideramos la variante te- de la 2da. persona ajustndonos al uso geolectal cubano. Nomenclatura de las secuencias y combinaciones de los clticos. SSe Ia Ib II
3

S+IIIa S+IIIb

sele(s) sela(s)

me nos te

S+IIIcselo(s) Ia+IIIb mela(s)

As los denomina Camacho Taboada, M. Victoria (2004): Sobre la formacin de grupos clticos romnicos en el componente postsintctico, Philologia Hispalensis, 18, pp. 21-41). 4 Nos referimos al llamado se espreo, segn Gili y Gaya (1975:235) su origen y uso moderno es independiente del se reflexivo, aunque hayan llegado a ser fonticamente iguales. Procede del dativo latino illi al igual que le, del cual se separ en cuanto al sonido, a causa de su posicin en la frase. Es realmente una duplicacin de este, apta para ser usada con otras formas del mismo pronombre de 3ra. p en acusativo. Ej. *entrgalela/ entrgasela. 5 Tambin Fernndez Soriano comenta que D. Dinnsen(1972) , aade una serie de restricciones especficas al trabajo de Perlmutter, estas en otra ordenacin paralela, atienden al caso: Reflexivo Benefactivo Dativo Acusativo.

345

IIIa IIIb IIIc S+Ia S+Ib S+II

le(s) la(s) lo(s) seme senos sete

Ia+IIIc

melo(s)

Ib+IIIb nosla(s) Ib+IIIcnoslo(s) II+Ia II+Ib II+IIIc teme tenos telo(s)

II+IIIbtela(s)

Las secuencias de ms de 3 clticos estn prohibidas en espaol, nosotros solo consideramos hasta 2 pronombres tonos adjuntados al verbo para evitar cualquier embrollo computacional que pudiera ocasionarse producto del tamao colosal de las secuencias de cadenas enclitizadas. Aunque nuestro trabajo se enmarca momentneamente en el nivel morfolgico, su proyeccin est dirigida hacia la integracin de este anlisis en estructuras sintcticas de acuerdo con las funciones futuras del etiquetador. En tal sentido, en las reglas de formacin, tuvimos en cuenta algunas restricciones que fueron referenciadas por Fernndez Soriano sobre el trabajo de D. Dinnsen(1972), enriquecido posteriormente por E. Bonet(1991) en cuanto a la relacin entre la funcin de complementariedad e implementariedad6 que ejercen los clticos y las estructuras de sus combinaciones. A continuacin enunciamos las restricciones: 1. Debe eliminarse el solapamiento referencial entre los enclticos, o sea, no deben coexistir 2 clticos del mismo grupo en una misma secuencia si consideramos que la ordenacin de persona es estrictamente montona creciente. Nuestra nomenclatura obvia estas variantes: menos, nosme, por ejemplo: *te te, *me me, *me nos, *nos me,* Me nos muestra/ * mustramenos 2. No puede coaparecer en una misma secuencia un cltico dativo de 3ra. p. y uno acusativo de 1ra. o 2da por la ambigedad que puede ocasionarse. Por tanto eliminamos de nuestro trabajo estas variantes combinatorias: Ia+IIIa: mele(s), II+IIIa: tele(s) y Ib+IIIa: nosle(s), por ejemplo: Se le entrega/ entrgasele = Se (compl.agente mplicito o suj. genrico) entrega a l (dativo) *Me le entrega/ *entrgamele = * Entrega a m (acusativo) a l (dativo). 3. El cltico impersonal se no puede ir seguido del Acusativo masculino singular lo y en algunos dialectos ni del plural los, refiere Fernndez Soriano (2000); sin embargo, son aceptadas las secuencias con el acusativo femenino la(s) y la estrategia a la que se recurre es sustituir la forma lo(s) por la correspondiente dativa le (s). Ahora bien, esta incompatibilidad no afecta propiamente a la secuencia selo, sino que est relacionada con el valor de impersonalidad que le trasmite se a la oracin. Nosotros decidimos no tener en cuenta esta restriccin por el momento. Las conjugaciones verbales que se usaron para el anlisis de la enclitacin independientemente del infinitivo y el gerundio fueron las dos formas propias para las 2das. personas del imperativo usadas en Cuba con sus variantes de terminaciones: -a, -epara el singular de la 1ra. y 2da/3ra. conjugacin respectivamente. -en, -anpara el plural de la 1ra. y 2da/3ra. conjugacin respectivamente. Y otras dos prestadas del subjuntivo que pueden expresar matiz imperativo seguidas de enclticos: -e, -apara la primera persona del singular de la 1ra. y 2da/3ra. conjugacin respectivamente. -emos, -amospara la primera persona del plural de la 1ra. y 2da/3ra conjugacin respectivamente. Por ejemplo, acertar funge como verbo modelo de uno de los grupos de verbos transitivos e irregulares de la primera conjugacin; su anlisis de enclitacin sera el siguiente: acert;( tr.) acertar S, Ia, Ib, II, IIIa, IIIb, IIIc, S+Ia, S+Ib, S+II, S+IIIa, S+IIIb, S+IIIc, Ia +IIIb, Ia+IIIc, , Ib+IIIb, Ib+IIIc, II+Ia, II+Ib, II+IIIb, II+IIIc acertando S, Ia, Ib, II, IIIa, IIIb, IIIc, S+Ia, S+Ib, S+II, S+IIIa, S+IIIb, S+IIIc, Ia +IIIb, Ia+IIIc, , Ib+IIIb, Ib+IIIc, II+Ia, II+Ib, II+IIIb, II+IIIc S, Ia, Ib, II, IIIa, IIIb, IIIc, S+Ia, S+Ib, S+II, S+IIIa, S+IIIb, S+IIIc, Ia +IIIb, Ia+IIIc, , Ib+IIIb, Ib+IIIc, II+Ia, II+Ib, II+IIIb, II+IIIc S, Ia, Ib, II, IIIa, IIIb, IIIc, S+Ia, S+Ib, S+II, S+IIIa, S+IIIb, S+IIIc, Ia +IIIb, Ia+IIIc, , Ib+IIIb, Ib+IIIc, II+Ia, II+Ib, II+IIIb, II+IIIc

acierta

acierte

Nomenclatura manejada por Alarcos al respecto (1980:206).

346

acierten

S, Ia, Ib, II, IIIa, IIIb, IIIc, S+Ia, S+Ib, S+II, S+IIIa, S+IIIb, S+IIIc, Ia +IIIb, Ia+IIIc, , Ib+IIIb, Ib+IIIc, II+Ia, II+Ib, II+IIIb, II+IIIc Ib, Ib+IIIb, Ib+IIIc7

acertemos

El resto de los verbos del grupo apacent;, aserr;, aspavent;, atraves;, etc.,se analizan de forma similar a su verbo modelo. Se realiz una diferenciacin en el anlisis de los verbos pronominales absolutos del resto de los tipos pronominales. Entre estos tuvimos en cuenta aquellos que en Cuba se usan exclusiva o mayoritariamente de forma pronominal (Ej.: lloviznarse, abstenerse, abnegarse, etc.). La distincin en el anlisis de enclitacin de los pronominales absolutos estuvo dada por la extensin del morfema invariable hasta la inclusin del pronombre para destacar que forma parte de la constitucin morfolgica del verbo (ntese en -se, -me, -te, -nos) y por el aado de secuencias simples de enclticos atendiendo a sus particularidades. Por ejemplo: lloviznarse; lloviznar -se -me -te -nos lloviznando -se -me -te -nos llovizna llovizne lloviznen lloviznemos -te -se -se -nos Ia, Ib, II, IIIa, IIIb, IIIc IIIa, IIIb, IIIc Ia, Ib, IIIa, IIIb, IIIc IIIb, IIIc Ia, Ib, II, IIIa, IIIb, IIIc IIIa, IIIb, IIIc IIIb, IIIc IIIb, IIIc IIIa, IIIb, IIIc Ia, Ib, II, IIIa, IIIb, IIIc Ia, Ib, II, IIIa, IIIb, IIIc IIIb, IIIc

Otras distinciones en el anlisis de enclitacin tuvieron los verbos defectivos, los impersonales, los de irregularidad especial, los de 2 y hasta 3 formas distintas de conjugacin, etc.; en dependencia de las excepciones que presentaran al adjuntrseles los enclticos. Por ejemplo, a defectivos como abolir, concernir y soler se les limit el nmero de combinaciones respondiendo a nuestro inters; solo usamos las formas de infinitivo y gerundio porque carecen de las de imperativo; sin embargo preterir es otro verbo defectivo que aunque tiene formas conjugadas para el imperativo, no las utilizamos en la variante cubana, solo analizamos de este, el infinitivo. A verbos impersonales intransitivos como atardecer les fueron atribuidas otras restricciones: eliminacin de las combinaciones que tuviesen como referente el acusativo lo(s), la(s) por la agramaticalidad que pudiera provocarse en una estructura dada si se tiene en cuenta el anlisis a nivel morfosintctico. Por ejemplo: atardec; atardecer Ia, Ib, II, IIIa, S+Ia, S+II, S+Ib, S+IIIa atardeciendo Ia, Ib, II, IIIa, S+Ia, S+II, S+Ib, S+IIIa 3.- A modo de conclusiones: El trabajo de la unin de verbos con los enclticos ha mostrado cierta complejidad en su realizacin y esto se debe a la labor pormenorizada que implica procurar el mayor nmero de regularidades posibles, siendo este el requisito ms deseable cuando se trabaja en la construccin de sistemas computacionales, mxime si es el caso de una lengua de tanta riqueza expresiva como el espaol. No obstante como era el objetivo, pudimos llegar a algunas generalizaciones:

Los clticos pueden desencadenar procesos fonolgicos en el verbo al que se adjuntan, por ejemplo: la elisin de la s de la 1ra.p. del pl. acertmo- s/ -nos. ; cambios en la acentuacin, donde la nueva palabra debe seguir rigindose por las reglas de acentuacin establecidas. No se han sealado correcciones ortogrficas en el trabajo porque para estos casos debe contarse con un programa que realice las revisiones pertinentes teniendo en cuenta reglas gramaticales definidas al respecto.

347

Las reglas de formacin desarrolladas para el infinitivo y el gerundio en una misma forma verbal son similares. 2. De los verbos defectivos listados no se utilizaron formas para el imperativo, estas fueron elididas. 3. Slo se definieron lemas distintos en los verbos pronominales absolutos. Esta aplicacin no pretende ofrecer conclusiones definitivas sobre el fenmeno abordado, puesto que es un modelo que puede enriquecerse de forma paulatina atendiendo a la gran elasticidad de nuestra lengua y a las nuevas sistematizaciones que muestren los desarrollos computacionales. Por otra parte, pudimos constatar que la construccin de herramientas automatizadas favorece el desarrollo sistemtico de la Lingstica debido al alto nivel de exigencia que reviste el tratamiento formalizado de los distintos niveles de la lengua. Esta especialidad, a su vez, devuelve al campo de las matemticas y la computacin los conocimientos bsicos imprescindibles para la construccin de sistemas de mayor especificidad y eficiencia. Esta relacin transdisciplinar y actuacin dialctica es el motor impulsor del campo de la Lingstica Computacional, que es a nuestro juicio, una de las reas que exhibe hoy vastos terrenos inexplotados de sumo inters para los investigadores de ambas disciplinas. Referencias Alcina, J. y J. M. Blecua (1979): Gramtica Espaola. Ariel. Barcelona. 5 tomos. Allen, James (1995): Natural Languages Understanding. The Benjamin / Cummings Publishing Company, Inc. USA. Camacho Taboada, M. Victoria (2004): Sobre la formacin de grupos clticos romnicos en el componente postsintctico. En: Philologia Hispalensis, 18, pp.21-24. Criado de Vals, M. (1973): Gramtica espaola y comentario de textos. Editorial S.A. E.T.A. Madrid. Cuervo, Mara Cristina (2002): Spanish clitics: three of a perfect pair. En: Generals in Morphology& Phonology. MIT. Cueva (de la), Otilia (1989): Manual de Gramtica Espaola II. Editorial Pueblo y Educacin. La Habana. Diccionario Bsico Escolar (2005): Centro de Lingstica Aplicada, Santiago de Cuba e IXA Taldea, Universidad del Pas Vasco. Edicin electrnica. Diccionario de la Real Academia Espaola (2003): Editorial Espasa Calpe. Madrid. Edicin electrnica. Fernndez Soriano, O. (2000): El pronombre personal. Formas y distribuciones. Pronombres tonos y tnicos. En: I. Bosque y V. Demonte: Gramtica Descriptiva de la lengua espaola, T. I, Espasa- Calpe. Madrid. Gili y Gaya, Samuel (1975): Curso Superior de Sintaxis Espaola. Editorial Pueblo y Educacin. La Habana. Kany, Charles (1969): Sintaxis hispanoamericana. Editorial Gredos. Madrid. Koskenniemi, K. (1983): Two-Level Morphology: A General Computational Model for Word-Form Recognition and Production. PhD Thesis. University of Helsinki, Finlandia. Marcos Marn, Francisco (1978): Estudios sobre pronombres. Editorial Gredos. Madrid. O (de la) Figueredo, Emelina (1987): Diccionario de verbos del espaol: 10 000 verbos. Editorial de Ciencias Sociales. La Habana. Pino, M.- M.P. Santalla(1996): Codificacin de la anotacin morfosintctica de corpus en lenguaje SGML. En: Procesamiento del lenguaje natural, revista # 19, pp.101-117. Porro Rodrguez, Migdalia (1972): Sintaxis del espaol contemporneo. Editorial Pueblo y educacin. La Habana. Pottier, Bernard (1985): Introduccin al estudio de la morfosintaxis espaola. Establecimiento Imprenta. Unidad administrativa Santiago. Ruiz Miyares, Leonel: Etiquetacin automtica en corpus textuales cubanos. Primeros resultados. http://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2000/pdf/68/68.pdf. (Consultado en mayo 2008) Torruella, J.- Llisterri, J. (1999): Diseo de corpus textuales y orales. En: J.M. Blecua, G. C. Clavera, y J. Torruella. Filologa e informtica. Nuevas tecnologas en los estudios filolgicos. Editorial Milenio. Barcelona. Gelbukh, A. y Grigori Todorov: Analizador morfolgico disponible: un recurso importante para PLN en espaol. http://ccc.inaoep.mx/~hrl_04/versionesFinales/Sidorov_14.pdf. (Consultado en marzo de 2007).

1.

348

Vous aimerez peut-être aussi