Académique Documents
Professionnel Documents
Culture Documents
locuciones especializadas de
Economa en espaol1
Pedro Patio
Universidad de Antioquia
(Medelln, Colombia)
introduccin
referentes tericos
2 GENELEX, http://llc.oxfordjournals.org/cgi/content/abstract/9/1/47
3 MULTEXT, http://acl.ldc.upenn.edu/C/C94/C94-1097.pdf
4 EAGLES, http://www.ilc.cnr.it/EAGLES/browse.html
5 ISLE, http://portal.acm.org/citation.cfm?doid=1118062.1118075
6 SIMPLE, http://www.ub.es/gilcub/SIMPLE/simple.html
de manera ptima los textos encargados por sus clientes y para ello
se sirve de diversas fuentes documentales y herramientas auxiliares
como diccionarios (en papel o en formato electrnico), bases de datos
terminolgicas, glosarios, memorias de traduccin, textos paralelos y
motores de bsqueda en Internet. En el caso de los diccionarios, de forma
creciente estn disponibles en formato electrnico preferiblemente, por
las claras ventajas que ello presenta para la recuperacin ms rpida
y eficiente de la informacin deseada, como por ejemplo la facilidad
de copiar y pegar los equivalentes en un procesador de textos o en un
programa para la gestin de las memorias de traduccin, en comparacin
con la forma tradicional de buscar los equivalentes en un diccionario
voluminoso de papel.
No obstante, los diccionarios tradicionales, as estn en formato
electrnico para ser consultados en lnea, no estn codificados para el
procesamiento computacional, pues fueron concebidos para ser ledos por
humanos y no por mquinas, es decir que en su etapa inicial, estos recursos
eran una transcripcin fiel de la versin en papel, aunque con algunos
valores agregados como la posibilidad de efectuar bsquedas ms rpidas
y exhaustivas, escuchar la pronunciacin de la entrada mediante archivos
de audio y acceder a sinnimos u otra informacin complementaria
mediante hipervnculos. Sin embargo, a la hora de intentar alguna tarea de
procesamiento, presentan desventajas para usarlos como un repositorio
desde el cual extraer la informacin lingstica de tipo lxico, semntico,
fonolgico o morfosintctico (Hanks, 2003, p. 56).
Uno de los aspectos de vital importancia para el procesamiento
de lenguaje natural (PLN) es el de la adquisicin lxica, puesto que el
desempeo de cualquier sistema para procesar texto escrito o hablado
depende del grado de conocimiento que el sistema tenga sobre los
datos lingsticos que est procesando (Grishman & Calzolari, 1997, p.
392). Segn McCarthy (2006, p. 61) la adquisicin lxica es la produccin
o enriquecimiento de un lexicn para emplearlo en un sistema para el
procesamiento del lenguaje natural. El lexicn resultante es un recurso
como un diccionario o tesauro en formato electrnico pero en un formato
legible para la mquina y no para humanos, en el que se incluyen las
formas, los significados, las colocaciones y la informacin estadstica
asociada, la cual no es de inters para un lector humano, pero que es vital
para que el sistema computacional pueda efectuar operaciones como las de
7 El autor no conoce una traduccin en espaol para las siglas inglesas MRD y MTD, y la
traduccin diccionario en formato electrnico no refleja la diferencia entre ambas.
metodologa
Constitucin de la muestra
Con el fin de establecer algunos patrones morfosintcticos frecuentes
en la formacin de locuciones, se empez por hacer una lista de las
773 locuciones incluidas en el apndice de locuciones de Pavn (1999)
que figuran en la Gramtica descriptiva de la lengua espaola (Bosque &
Demonte, 1999), correspondientes a 39 patrones.9 Despus, se tomaron
como punto de partida los patrones morfosintcticos de las locuciones
incluidas en dicha gramtica, para compararlos, mediante tablas
introducidas en una hoja de clculo, con los lemas del diccionario que
8 Bwananet, Programa dexplotaci del corpus tcnic (CT) de lIULA de la UPF [http://
bwananet.iula.upf.edu].
9 Vase el listado en http://atraducir.info/LocucionesGramatDescrEsp.xml
Extraccin
Para realizar el proceso de extraer locuciones de forma semiautomtica
mediante patrones morfosintcticos, se adapt el cdigo de un script de
Perl10 tomado del libro Perl pour les linguistes (Tanguy & Hathout,
2007), concebido para la extraccin de patrones correspondientes al
tipo N de N. Dicho script toma como entrada un texto etiquetado con
el programa TreeTagger, que presenta los datos procesados en tres
columnas, separados por tabuladores, donde la primera columna
corresponde a la forma, la segunda a la categora gramatical y la tercera
al lema, como en este ejemplo:
diferencias NC diferencia
en PREP en
el ART el
ritmo NC ritmo
de PREP de
integracin NC integracin
de PREP de
los ART el
pases NC pas
anlisis de resultados
En esta seccin, se comenta el anlisis efectuado con las locuciones y luego
se comentan los patrones morfosintcticos ms representativos de la
muestra, y luego se propone un script en el lenguaje de programacin Perl11
para buscar esos patrones en un corpus etiquetado con TreeTagger12.
Para establecer los patrones morfosintcticos ms frecuentes en
esta muestra de 678 unidades provenientes del diccionario Routledge,
se emple la herramienta de anlisis estadstico R13, de cdigo abierto,
junto con el programa Rattle14 que se integra con R y facilita el trabajo
para los usuarios que no son estadsticos.
La Figura 2 describe la distribucin de estos patrones. Se encontr
que el patrn Prep + N es el ms frecuente, con 194 casos, lo cual representa
el 28,5 %, seguido de Prep + N + Adj, con 103 casos, es decir el 15,1 %. En
tercer lugar aparece N Conj N, con 110 ocurrencias, lo que representa un
porcentaje de 16,2% de la muestra de 678 unidades. De estos patrones,
encontramos que la suma de los tres primeros por su frecuencia de
aparicin representa el 59,8% de las unidades que conforman la muestra.
En cuarto lugar figura el patrn Prep + D + N, seguido del patrn Prep +
Adj + N, ambos con 56 casos, es decir que cada uno representa el 8,23%
del total de la muestra. En sexto lugar aparece el patrn Prep + N + Prep
+ N con 46 casos, es decir, un 6,76% del total de la muestra.
15 [http://bwananet.iula.upf.edu/].
conclusiones
el valor terminolgico que pueden tener las locuciones, usando para ello
un listado de nombres, adjetivos y verbos que se tomen como palabras
clave de un rea temtica y que en un discurso especializado actan
como trminos. Tomando como ejemplo el rea de Economa, entre
las locuciones usadas en la muestra, a modo de subvencin incluye un
constituyente de ese tipo que permite delimitar el rea temtica mediante
la inclusin de piezas lxicas con las que presenta alguna relacin
semntica o de coocurrencia lxica.
referencias
Amsler, R. (1982). Computational lexicology: a research program. En AFIPS
National Computer Conference (pp. 657-663). Houston: ACM.
Bach, C., Saur, R., Vivaldi, J., & Cabr, M. (1997). El Corpus de lIULA. IULA/
INF017/97. Universitat Pompeu Fabra, Barcelona.
Bosque, I. & Demonte, V. (Dirs.) (1999). Gramtica descriptiva de la lengua espaola.
Vol. I, captulo 9. Madrid: Espaa Calpe.
Calzolari, N. (1994). Issues for Lexicon Building. En A. Zampolli, N. Calzolari
& M. Palmer (Eds.), Linguistica Computazionale Vol. IX-X. Current Issues
in Computational Linguistics: In Honour of Don Walker (pp. 267-281). Pisa:
Giardini Editori e Stampatori.
Casares, J. (1992[1969]). Introduccin a la lexicografa moderna. 3 edicin. Madrid:
CSIC.
Corpas, G. (1997). Manual de fraseologa espaola. Madrid: Gredos.
Cunningham, H. & Bontcheva, K. (2006). Computational Language Systems:
Architectures. En K. Brown (Ed.), Encyclopedia of Language and Linguistics
(pp. 733-752). Londres: Elsevier Ltd.
Francopoulo, G., Declerck, T., Monachini, M. & Romary, L. (2006). The relevance
of standards for research infrastructures. En International Conference on
Language Resources and Evaluation, LREC 2006, Gnova. Consultado el 14
de febrero de 2010 en http://www.tagmatica.fr/publications/LREC2006WS-
RI-20AprilBis.pdf.
Godfrey, J. & Zampolli, A. (1997). Language Resources. En G. Battista & A.
Zampolli (Eds.), Survey of the State of the Art in Human Language Technology
(pp. 381-384). Cambridge: Cambridge University Press.
Grishman, R. & Calzolari, N. (1997). Lexicons. En G. Battista & A. Zampolli
(Eds.), Survey of the State of the Art in Human Language Technology (pp. 392-
395). Cambridge: Cambridge University Press.
Hanks, P. (2003). Lexicography. En R. Mitkov (Ed.), The Oxford Handbook of
Computational Linguistics (pp. 48-69). Oxford: The Oxford University
Press.
Wilks Y., Fass, D., Guo, C., McDonald, J., Plate, T. & Slator, B. (1988). Machine
tractable dictionaries as tools and resources for natural language
processing. En Proceedings of the 12th conference on Computational linguistics
(pp. 750-755). Morristown, Nueva Jersey: Association for Computational
Linguistics. Consultado el 14 de febrero de 2010 en http://www.aclweb.
org/anthology/C/C88/C88-2153.pdf.
Zuluaga, A. (1980). Introduccin al estudio de las expresiones fijas. Bern, Frankfurt:
Peter Lang Verlag.
sobre el autor
Pedro Patio Garca
Es Magster en Lingstica y Aplicaciones Tecnolgicas por la Universitat Pompeu Fabra
y Traductor Ingls-Francs-Espaol por la Universidad de Antioquia, donde es docente
ocasional de tiempo completo e integrante del Grupo de Investigacin Traduccin y
Nuevas Tecnologas. Sus reas de inters son el procesamiento del lenguaje natural,
la fraseologa, terminologa y lexicografa computacionales, la traduccin y las nuevas
tecnologas, y la traduccin audiovisual.
Correo electrnico: ppatino@idiomas.udea.edu.co