Vous êtes sur la page 1sur 8

Traductor morfolgico del castellano y quechua

Indhira Castro Cavero


Jaime Farfn Madariaga

RESUMEN

El presente proyecto se orient a desarrollar un sistema cin no es una excepcin. La traduccin automtica (TA)
automtico de traduccin inteligente entre los idiomas es una disciplina que ha contribuido de manera deter-
castellano y quechua, el cual nace a raz del Proyecto de Ti- minante al desarrollo de la tecnologa lingstica. Existe
tulacin presentado por Indhira Mayra Castro Cavero, egre- actualmente un gran abanico de herramientas de ayuda
sada de la especialidad de Redes y Comunicacin de Datos a la traduccin: programas de interpretacin asistida por
Promocin 2004 II (becaria de la Unin Europea). ordenador, herramientas de gestin de terminologa, sis-
temas de traduccin automtica, etc.
Este sistema de traduccin supone la automatizacin del
proceso de traduccin de palabras del castellano al que- Si bien estas aplicaciones son empleadas habitualmente
chua y viceversa, basado en la transferencia, que opera por un gran nmero de usuarios en todo el mundo, en la
en tres fases (anlisis, transferencia y generacin) usando actualidad, no existe un traductor automtico morfolgi-
representaciones morfolgicas para las palabras. Al tradu- co que utilice el idioma quechua, a pesar de ser este el
cir una palabra, el sistema no slo devuelve la palabra con- mayor idioma indgena de Amrica Latina, con cerca de
44 vertida al otro idioma, sino tambin, muestra informacin 10 millones de usuarios.
lingstica de los componentes de la palabra.
Asimismo, en aos recientes, y como consecuencia de
Es importante destacar que para el desarrollo del sistema se la globalizacin, se percibe un creciente inters por el
us herramientas tecnolgicas de cdigo abierto como es rescate, el mantenimiento y la revaloracin de nuestras
Java, MySql y Apache. As tambin este trabajo cumple un lenguas nativas, especialmente el quechua. A pesar de
eminente rol informativo, que trae como consecuencia el que esta lengua junto al aymara y el castellano, es len-
enriquecimiento lingstico del idioma quechua, que resul- gua oficial en el Per y Bolivia, ello slo queda en el
ta ms explicativo que un simple inventario de trminos; y, papel, pues an no se da al quechua el estatuto oficial
sobre todo, la difusin de una lengua que se debe conocer y que por ley, merece; ms an, si existe la gran necesi-
desarrollar. En la actualidad, el quechua es lengua materna dad de conocimiento y aprendizaje del quechua para
de un 17% de la poblacin en el Per, lo que representa el la comunicacin con personas que tienen este idioma
53% de los quechua hablantes en Sudamrica. como lengua nativa.

La red mundial de la Web representa, hoy en da, el modo Desde esta perspectiva este trabajo busca ser un aporte
de comunicacin ms utilizado, lo cual permitir publicar para nuestra sociedad a travs de la difusin del idioma
la aplicacin para que pueda ser fcilmente accedida. Esto quechua. Es muy probable ahorrar tiempo y esfuerzo em-
indudablemente abre la posibilidad de incrementar el ma- pleando este tipo de sistemas si tenemos que traducir del
terial lingstico disponible para el aprendizaje del idioma castellano al quechua, o viceversa, un informe tcnico o
y es, adems, una buena herramienta para llegar a un gru- administrativo. La traduccin automtica es hoy en da
po ms amplio de individuos. El sistema puede ser utiliza- tema de trabajo de investigacin de lingistas, ingenieros
do desde cualquier parte y por cualquier persona. y cientficos de la informacin. Queda entonces, en noso-
tros profesionales, profundizar acerca del tema y ms an,
INTRODUCCIN si se trata del idioma quechua.

Durante los ltimos aos, la informtica ha revoluciona- Este documento presenta los alcances ms importantes
do la mayora de las actividades profesionales y la traduc- del proyecto. En primer lugar se fundamentan los moti-

TRADUCTOR MORFOLGICO DEL CASTELLANO Y QUECHUA


vos que llevaron al desarrollo del sistema traductor para Programa de alfabetizacin (http://alfa.minedu.gob.
el idioma quechua. A continuacin se exponen los facto- pe/alfa/).
res o dimensiones que condicionan la viabilidad del desa- Programa Huascarn (http://www.huascarn.edu.
rrollo del sistema. Luego, se presentan las principales ca- pe/).
ractersticas del idioma, como tambin su estructuracin Escuela del Aire (http://www.minedu.gob.pe/ocder/
lingstica. De esta manera se podr comprobar cmo se escueladelaire/).
ha adecuado una metodologa, que permite desarrollar DENEBI (Direccin Nacional de Educacin Bilinge In-
un motor automtico que traduce cada componente de tercultural).
una palabra de una lengua a la otra. Finalmente, se anali- (http://www.minedu.gob.pe/gestion_pedagogica/
za con algo ms de detalle las principales funcionalidades dir_edubilingue/presentacion_bilingue.htm).
del sistema, poniendo un nfasis especial en cada una de Proyecto Microsoft: Traduccin del Windows XP y Offi-
sus facilidades como en sus limitaciones. ce 2003 al quechua.
(http://www.microsoft.com/latam/prensa/2004/no-
FUNDAMENTACIN viembre/quechua.asp).
Quechua Network: Diccionario quechua.
Existe gran necesidad de conocimiento y aprendizaje (http://www.quechuanetwork.org/dictionar y.
del quechua para la comunicacin con personas que cfm?lang=s).
tienen el quechua como idioma nativo. Intervida (Asoc. Solaris Per): Proyecto Escuela Andi-
Las fuerzas armadas y policiales, jueces, periodistas, m- na Intercultural en el que participan 775 nios de 13
dicos y otros profesionales tienen dificultades para diri- escuelas andinas.
girse y comprender las necesidades y propuestas de la (http://www.intervida.org/).
poblacin quechua-hablante; que merece ser atendida
en su propia lengua, por respeto a la diversidad cultural LOS SISTEMAS DE TRADUCCIN
que existe en nuestro pas.

45

Un tercio de los nios indgenas peruanos abandonan


la escuela, principalmente porque la educacin no se
adapta a su lengua materna.
(http://www.servindi.org/sp/noticias/Noticias_2005/ Existen dos tipos de sistemas de traduccin:
actualidad_74.htm) Manual: Uso de medios fsicos (diccionarios y traduc-
Carencia de traductores: Actualmente no se cuenta tores humanos).
con un sistema de traduccin para el quechua, sola- Automtica: Sistemas informticos.
mente existen diccionarios y glosarios bilinges. La TA sin participacin humana: es la realizada
La necesidad de una nueva herramienta que resulte ms ex- por un computador.
plicativa que un simple inventario de trminos quechuas. La TA con participacin humana: el programa es
Incremento del material a traducir. el que lleva a cabo la traduccin, pero el traductor
La comisin europea ha puesto un nfasis especial en interviene cuando es necesario.
el estmulo a las llamadas industrias de la lengua y a
la tecnologa necesaria para su desarrollo. Traduccin automtica (TA)
(http://www.foreignword.com/es/Technology/
art/Abaitua/Abaitua_3.htm#sociedad) Son sistemas informticos que llevan a cabo traducciones
de una lengua a otra con o sin intervencin humana.
ANTECEDENTES Podemos clasificar los sistemas de TA atendiendo a dife-
rentes criterios:
Actualmente los proyectos y programas educativos Nmero de lenguas: sistemas bilinges y sistemas mul-
estn trabajando en el rescate y difusin de la prctica tilinges.
de la lengua quechua. Direccin de la traduccin: unidireccionales y bidireccionales.

TRADUCTOR MORFOLGICO DEL CASTELLANO Y QUECHUA


Enfoque: sistemas directos, sistemas de transferencia Necesidades bsicas de un sistema de
y sistemas de interlingua. traduccin

Traduccin quechua Conocimiento de la lengua origen (LO).


Conocimiento de la lengua meta (LM).
A travs de la web podemos encontrar actualmente Conocimiento de las distintas correspondencias entre
diferentes herramientas que ayudan a la traduccin, LO y LM: en el ms bsico de los niveles, es el conoci-
pero no existe un traductor automtico morfolgico miento de los equivalentes de traduccin de las distin-
quechua: tas palabras individuales.
Diccionarios on-line. Conocimiento del dominio sobre el que se traduce:
(http://www.quechuanetwork.org/dictionary.cfm?lang=s) anlisis y diseo del sistema, desarrollo del sistema y
Glosarios terminolgicos. la implementacin del sistema
(http://www.folkloredelnorte.com.ar/diccionario.htm#j) Conocimiento del entorno cultural: convenciones so-
(http://www.serindigena.cl/territorios/recursos/bibliote- ciales, costumbres, etc., de los hablantes de LO y LM.
ca/diccionarios/espa_quechu/)
(http://www.prodiversitas.bioetica.org/quecl-o.htm) Niveles de conocimiento lingstico
Diccionarios en la Web (diccionarios bilinges): siste-
mas que hacen uso de una base de datos, en donde Conocimiento fonolgico (conocimiento sobre el sis-
almacenan las palabras asociadas a su respectiva tra- tema de sonidos de un lenguaje).
duccin. Conocimiento morfolgico (conocimiento de la ma-
- Se ingresa la palabra. nera en que las formas de un determinado lema son
- El sistema consulta a la base de datos por su equi- construidas, as como de las posibles producciones de
valente. una determinada raz).
- El sistema muestra la traduccin. Conocimiento sintctico (cmo las distintas palabras se
combinan de forma lineal para construir frases y oracio-
Traduccin automtica de palabras nes aceptables de una lengua. Por lo que respecta al
tratamiento automtico de una lengua es, bsicamente,
Traductores morfolgicos: estos tienen tres compo- un problema de ordenacin de cadenas de caracteres).
46 nentes bsicos: Conocimiento semntico (el conocimiento del signifi-
- El diccionario, donde se almacena el contenido. cado de palabras y frases y de las relaciones de signifi-
- El motor morfolgico, que permite aceptar pala- cado entre una frase y sus unidades constituyentes).
bras derivadas.
- La interfaz grfica del usuario, mediante la cual EL IDIOMA QUECHUA
este interacta con el diccionario.
Es la lengua nativa americana ms extendida en todo el
mundo y la cuarta ms extendida en el continente, le si-

TRADUCTOR MORFOLGICO DEL CASTELLANO Y QUECHUA


guen el aymara y el guaran, se habla en la zona occidental Palabra Verbo: PV >Rverb + (deriv) + flex + (disc)
de Sudamrica y es idioma oficial en Ecuador, Per y Boli-
via, junto con el castellano y el aymara. A continuacin se
presenta las caractersticas ms relevantes del idioma.

Caractersticas del quechua


Palabra nominal: PN >Rnom + (deriv) + (flex) + (disc)
Es aglutinante, es decir, rene varias palabras en una:
wasinmanta => de su casa
Ausencia de prefijos y abundancia de sufijos.
Ausencia de artculo y gnero gramatical.
Conjugacin muy perfeccionada (tiempos y modos
completos). Sufijos derivativos
Estoy cantando => takichkani. Sufijos de derivacin:
Estoy comiendo => mikuchkani. Castellano
Poseedor antes de cosa poseda: Diminutivos: ito, ita, cico, cica, cillo, ecilla, uelo, cica =>cha.
wasipa punkun => de la casa su puerta. piedrita rumicha
Topologa SOV (sujeto + objeto + verbo). perrito allqucha
Ubicacin del elemento modificador antes del ncleo. Aumentativos: oso, osa => sapa ote, ota => su
Adjetivo antes del sustantivo: yuraq wasi musculoso challwansapa
Adjetivo antes del verbo: kunanmi hamunqa perrote allqusu

Quechua
cha diminutivo ito/ita (wasicha - casita)
yuq posesivo con (usayuq - con piojo)
naq desposesivo sin (usanaq - sin piojo)
sapa aumentativo oso/osa (usapa piojoso(a))
su aumentativo ote/ota (wasisu - casota)
ntin incorporante todos/los (laqtantin-todo el pueblo)
lla limitativo solo (atuqlla solo zorro)
47

Sufijos de Flexin:
Persona
1ra_s -y
2da_s -yki
3ra_s -n
Estudio morfolgico: 1ra_p -nchik/nchis
1ra_p -yku
El morfema: unidad mnima portadora de significado. 2da_p -ykichik/ykichis
Palabra: es el resultado de la unin de uno o ms morfe- 3ra_p -nku
mas. La palabra est compuesta por raz o por raz ms
afijos. Nmero : kuna
Castellano * Quechua Ejemplos:
Adjetivo * Palabra Partcula Sufijo Funcin Significado
Adverbio * Palabra Partcula - ta ACU acusativo a (deter. al objeto)
- man ALA dativo (alativo) a/hacia (prep)
Posesivo * Palabra Cualificante
- paq BEN benefactivo para
(adjetivos y adverbios) - pa GEN genitivo agente poseedor
Preposicin - manta ABL ablativo de/desde (prep)
Pronombre * Palabra pronombre - pi LOC locativo en (prep.)
Sustantivo * Palabra nominal - wan ASO asociativo/conminativo con (prep.)
Verbo * Palabra verbo - kama TER ilativo hasta (prep.)
- pura INT interactivo (palabra) entre (prep.)
La palabra quechua

Citamos a continuacin dos ejemplos de clases de pala-


bras y su sintaxis de composicin en el idioma quechua. - rayku CAU causal por / a causa de

TRADUCTOR MORFOLGICO DEL CASTELLANO Y QUECHUA


EL SISTEMA TRADUCTOR MORFOLGICO Sistema pblico de fcil accesibilidad va Web.
DE CASTELLANO Y QUECHUA Internet

Tecnologas utilizadas en el sistema:

Java
Lenguaje de programacin orientado a objetos, Bajo costo de implementacin.
desarrollado por la empresa Sun Microsystems en Uso de software libre (Freeware).
1995, y que se ha extendido ampliamente en World
Wide Web.

Sistema Multiplataforma:
Gracias a la portabilidad que brinda Java.
Robustez al verificar errores en tiempo de ejecucin
como en tiempo de compilacin.
El principal aporte de Java a la Comunidad de Usua-
rios y Programadores es la portabilidad, que per-
mite que los usuarios se puedan mover fcilmente
entre sistemas operativos y plataformas diferentes.
MySql Codificacin
Base de datos que consume pocos recursos, tanto de
CPU como de memoria. Se realiz una clasificacin de las palabras segn el cri-
terio semntico-sintctico, para su uso codificado dentro

48 del sistema. Cabe mencionar la importancia que tiene la


Utilidades de administracin (backups) y Control de siguiente tabla debido a su original y particular elabora-
acceso (qu usuarios tienen acceso a qu tablas y cin, de acuerdo con las reglas de correspondencia entre
con qu permisos). ambos idiomas. A continuacin se muestra una fraccin
de la tabla de codificacin.
Requerimientos del sistema:
Servidor
Hardware
Procesador: Pentium IV 2GHz
RAM: 512 Mb
Disco Duro: 10MB
Software
Sistema Operativo: Windows 200X / XP / Linux
Servidor Web: Tomcat (jakarta-tomcat-4.1.30)
Base de datos: MySql 4.1.7
Java: j2sdk1.4.2

Cliente
Hardware
Procesador: Pentium
RAM: 128 Mb o superior Funcionamiento del sistema
Software
Sistema Operativo: Windows95/98 o superior En principio, el sistema recibe del cliente la palabra que
Acceso a Internet. se quiere traducir y el mtodo de traduccin (castellano

TRADUCTOR MORFOLGICO DEL CASTELLANO Y QUECHUA


a quechua o viceversa). Luego, el servidor realiza el pro-
ceso de traduccin en tres fases e interactuando con la
base de datos.

Quechua - Castellano: la palabra se analiza en funcin


a las reglas del quechua.

Proceso de traduccin

El sistema de traduccin realiza tres procesos principales:


Proceso de anlisis.- En primer lugar, la palabra origen
se compara con las diferentes clases de palabras existen-
tes en la base de datos. Para este proceso el sistema rea- Proceso de transferencia.- Esta es la fase verdadera-
liza un detallado anlisis morfolgico (descomposicin mente bilinge del sistema. Primero se recibe la estruc-
de la palabra: raz y sufijo(s)), que se hace en funcin a tura de la palabra que enva el proceso de anlisis. Luego
las reglas gramaticales de la lengua en cuestin. Luego se realiza la transferencia de significados de races y sufi-
49
se les asigna el correspondiente tipo de palabra a cada jos, es decir, se traduce cada componente de la palabra
componente de la palabra de origen (segn codificacin de acuerdo con su codificacin de tipos, utilizando el
de races y sufijos). Finalmente esta estructura pasa al si- diccionario bilinge. Este subproceso devuelve el equi-
guiente proceso. Se resalta la importancia de que la fase valente del idioma origen en el idioma destino de cada
de anlisis se dise de tal manera que slo precisa de in- componente. Finalmente se forma una nueva estructura
formacin de la lengua origen. A continuacin se muestra con su correspondiente codificacin, pero ya en el idio-
un ejemplo del proceso de anlisis para la traduccin de ma destino. A continuacin se citan dos ejemplos de este
una de las lenguas a la otra y viceversa. proceso.

Castellano Quechua: se realiza la traduccin de cada


componente de la palabra en funcin al cdigo de pa-
labra asociado (en base al sistema de codificacin).

Castellano Quechua: la palabra se analiza en funcin


a las reglas del castellano.

TRADUCTOR MORFOLGICO DEL CASTELLANO Y QUECHUA


Quechua - Castellano: se realiza la traduccin de cada
componente de la palabra en funcin al cdigo de pa-
labra asociado (en base al sistema de codificacin).

Descripcin de la composicin morfolgica de la pala-


bra, adems de mostrar la palabra traducida el siste-
ma es capaz describir cmo est compuesta la palabra
origen y las equivalencias de estos componentes en la
lengua destino.

Proceso de generacin.- En esta fase bsicamente se


realiza la composicin de cada componente de la pala- Sinnimos, el sistema tambin muestra los sin-
bra: raz + sufijo(s), formando la nueva palabra en lengua nimos (en lengua destino) de la palabra traducida.
destino. En esta fase se realiza la comparacin de acuerdo
con las reglas morfolgicas de la lengua destino.
Castellano Quechua: se realiza la generacin (con-
catenacin) de la palabra de acuerdo con las reglas
morfolgicas del quechua.
Caractersticas funcionales del sistema

Reconoce y especifica la clase de palabra.

50 Sustantivo comn, adjetivo calificativo, etc.


Realiza la traduccin de palabras en plural.
ros => mayukuna
urqukuna => cerros
Traduce palabras con sufijos derivativos.
Quechua - Castellano: se realiza la concatenacin de perrito => allqucha
la palabra de acuerdo con las reglas morfolgicas del florcita => tikacha
castellano. Traduce palabras con sufijos derivativos y flexivos.
Mallki-cha-kuna => arbol-ito-s
Reconoce los artculos del castellano que no existen
en el quechua.
Realiza la traduccin de verbos en infinitivo.
Barrer => pichay
mirar => jhaway
abrir => qhaway
Realiza la traduccin de verbos en participio.
Componentes del sistema amado => munasqa
temido => manchasqa
Traduccin de palabras, principal funcionalidad del Realiza la traduccin de verbos en presente progresi-
sistema. vo y gerundio.
rompiendo => pakichka
Realiza la conjugacin de los verbos regulares (termi-
nados en ar, er o ir) y en Modo Indicativo.
Tiempo Simple: Presente.

TRADUCTOR MORFOLGICO DEL CASTELLANO Y QUECHUA


tem-en => mancha-niku perfectas.
cant-an => taki-niku La traduccin automtica se genera de forma instan-
abr-en => picha-niku tnea y, por lo tanto, es ideal para situaciones en las
que no es posible que una persona haga la traduc-
Tiempo Simple: Pretrito Perfecto Simple.
cin.
Tem-ieron => mancha-rqaku
Este sistema servir como prototipo para la optimiza-
cant-aron => taki-rqaku
cin del sistema y el desarrollo de un sistema de tra-
abr-ieron => kicha-rqaku duccin de frases, oraciones y posteriormente textos.
Tiempo Simple: Pretrito Imperfecto.
tem-an => mancha-rqaku REFERENCIAS BIBLIOGRFICAS
cant-aban => taki-rqaku
abr-an => kicha-rqaku 1 Gustavo Solis Fonseca, Jorge Chacn Sihuay. Lingis-
Tiempo Simple: Futuro Imperfecto. tica y Gramtica Runasimi-Chanka.
2 Nilda Velarde de Grgicevic, Universidad Tecnolgica
tem-ern => mancha-nqaku
de los Andes. Quechua.
cant-arn => taki-nqaku
3 Mabel Tarazona Espritu. Lecciones Bsicas para apren-
abr-irn => kicha-nqaku
der Quechua.
4 Demetrio Tupaq Yupanqui. Curso de Quechua Red
CONCLUSIONES Cientifica Peruana. Se consigue en URL:
(www.quechuanetwork.com)
Es importante considerar la complejidad de las len-
5 El lexicn en la Traduccin Automtica. Se consigue
guas y, especialmente, los principios que rigen la len-
en URL:
gua quechua, que no tiene por qu ser compartidos
(http://elies.rediris.es/)
por el castellano y viceversa.
6 La Linterna del Traductor. Se consigue en URL:
Este proyecto estudi las posibilidades de explotacin de
(http://traduccion.rediris.es/)
un sistema de traduccin automtica para el quechua, el
7 Joseba Abaitua. Universidad de Deusto. Traduccin
cual podra ser de gran repercusin, por la utilidad como
automtica: Presente y Futuro. Se encuentra en URL:
herramienta de ayuda al conocimiento del quechua, gra-
(http://foreignword.com/es/technology/art/Abaitua/
cias a la informacin morfolgica que nos brinda.
Abaitua_4.htm) 51
Al tratar de la traduccin automtica estamos hablan-
8 Jess Valds. La traduccin automtica. Se encuentra
do de una tecnologa muy desarrollada, pero que
en URL:
trabaja con algo tan complejo como la lengua; por lo
(http://www.dgbiblio.unam.mx/servicios/dgb/publi-
cual es importante tener en cuenta que las computa-
cdgb/bole/fulltext/volIV3/traduccion.htm)
doras no poseen el bagaje cultural que suele tener un
9 Arturo Trujillo. Estrategias de traduccin automtica/
traductor y, por este motivo, sus traducciones no son
Machine translation strategies. Se encuentra en URL:
(http://www.prbb.org/Quark/19/019053.htm)

TRADUCTOR MORFOLGICO DEL CASTELLANO Y QUECHUA

Vous aimerez peut-être aussi