Vous êtes sur la page 1sur 7

Faculdade de Letras da Universidade de Lisboa

Ano Lectivo 2015/2015


Sistemas de Traduo Automtica

Marianna Buchicchio

A Survey of Current Paradigms in Machine Translation


RESUMO
1) INTRODUO
MT = Machine Translation traduo de uma lngua natural para outra, por meio de um
sistema computorizado.
MT: Problema na rea da AI (inteligncia artificial). Porque?
Primeira abordagens Falimento parcial da Traduo automtica, por causa de fenmenos
ligados manipulao da traduo.
Resultados (outras dcadas):
-

traduo semiautomtica;
baixo grau de qualidade das tradues;
traduo til s para satisfazer as necessidades bsicas dos usurios exigncia de
imputs controlados e de reviso para chegar ao resultado final.

2) HISTRIA DA MT
Tentativa de automatizar o processo de traduo no passado: Estados Unidos e Europa.
Ferramentas que ajudam a traduo automtica:
-

dicionrios on-line bilingue;


bancos de dados on-line terminolgicos;
outras ferramentas que completam os sistemas de traduo automtica.

Anos 1950-60: primeiros anos em que se comeou a trabalhar na MT.


Anos 60: primeiros passos para chegar MT.
RESULTADOS:
1966: relatrio da ALPAC (Automatic Language Processing Advisory Committee)
qualidade das tecnologias insatisfatria e altos gastos = fatores negativos.
Causas do falimento da MT:
-

Expectativas altas;
Falta de uma base teortica para chegar MT.

Estados Unidos: investigao em reas ligadas MT:

Lingustica computacional
Inteligncia artificial

Para criar uma melhor base


teortica MT

Relatrio ALPAC Europa do Oeste e URSS


Resultados:
-

Investigao nascimento de um dos melhores sistemas de MT, como Systran e


Logos.

Faculdade de Letras da Universidade de Lisboa


Ano Lectivo 2015/2015
Sistemas de Traduo Automtica
Marianna Buchicchio
Fim dos anos 60, Canad: primeiras investigaes na rea da MT, graas ao estatuto
bilingue do pas.
Acontecimentos importantes: anos 70-80
1) EUROTRA: projeto das Comunidades Europeias para trabalhar com todas as lnguas dos
Estados Membros.
2) Realizao por parte do governo Japons de um sistema de MT para a traduo da e
para as lnguas europeias primeiro, e depois da e para as lnguas asiticas.
EUROTRA: no consegue a inter-traduo nas lnguas europeias, mas foi um primeiro passo
importante para a investigao nesta rea e na rea da lingustica computacional.
primeiros sistemas comerciais de MT que nascem daqui.
Investigao no Japo produo de diferentes sistemas de MT para o comrcio.
Metade dos anos 80: Estados Unidos expanso da investigao e do desenvolvimento.
Porque?
-

Concorrncia do estrangeiro;
Fundos do governo para a investigao.
Interesse por parte do governo por escopos civis e militares.

3) DESAFIOS DA TRADUO
Desafios = tipos de desafios que temos de ter em conta para desenvolver um sistema de
MT.
Anlise dos desafios dois pontos de vista:
1) Consideraes lingusticas (como a ordem sinttica das palavras ou a ambiguidade
semntica)
2) Consideraes operacionais (extensibilidade, capacidade de manuteno, interface do
usurio)
3.1) CONSIDERAES LINGUSTICAS
Trs categorias:
1) Compreenso da lngua;
2) Produo da lngua;
3) Mapeamento entre pares lingusticos.

COMPREENSO DA LNGUA necessria uma completa compreenso do texto de


partida para uma adequada MT. Estudos recentes demostraram tambm que
aceitvel tambm um menor grau de compreenso do texto de partida. Quais so as

reas que temos de considerar para compreender o texto de partida?


Ambiguidade sinttica I saw the man on the hill with the telescope. De quem
o telescpio? Do homem ou da colina? No caso de lnguas prximas, o leitor humano

resolve rapidamente o problema.


Ambiguidade lexical libro (espanhol) book (ingls). A palavra ingls book
pode ser traduzida com o substantivo libro em espanhol ou com o verbo
reservar.

Faculdade de Letras da Universidade de Lisboa


Ano Lectivo 2015/2015
Sistemas de Traduo Automtica
Marianna Buchicchio
Ambiguidade semntica dois casos: homografia (palavra com a mesma grafia que
tem significados distintos) e polissemia (mesma palavra que tem significados
diferentes em contextos diferentes). Para resolver este casos preciso ter um
conhecimento profundo do texto e das duas lnguas.

Ambiguidade contextual analise do discurso que pode ser til para resolver casos
de ambiguidade contextual, mas tambm preciso ter um conhecimento
pragmtico e semntico da frase para uma correta interpretao.

PRODUO DA LNGUA ltimos estudos nesta rea: no preciso ter uma plena
capacidade de gerar o texto de chegada, porque o texto de partida tem todos os
elementos necessrios para que o tradutor seja capaz de construir o texto.
Dificuldade da seleo lexical conhecimento conceptual das frases do texto de
partida.

Exemplo de SELEO LEXICAL:


Esp: esperar

Conhecimento do tradutor que


permite de selecionar a forma
correta

Ing: to wait, to

hope

Outros problema: PRODUO DOS TEMPOS VERBAIS caso do Chins, no qual o verbo no
fornece nenhuma informao acerca do tempo verbal. Assim, a escolha do tempo verbal
depende do contexto da frase.

MAPEAMENTO ENTRE PARES LINGUSTICOS: existem diversas dimenses nas quais a


lngua de partida e a lngua de chegada podem variar. Estas divergncias no
permite, por isso, o mapeamento entre as duas lnguas.

5 TIPOS DE DIVERGNCIAS:
1)

Temtica Neste tipo de divergncia temos uma troca entre o sujeito e o objeto na
lngua de chegada e na lngua de partida:
ing: I like Mary esp: Mary me gusta (Mary (to) me pleases).
Mary o objeto da frase ingls e sujeito naquela em espanhol e, ao
contrrio, o sujeito

ingls I objeto em espanhol me.

2) Head-switching O verbo principal na lngua de partida subordinado na lngua de


chegada:
ing: I like to eat Al: Ich esse gern (I eat likingly).
Na frase em ingls like o verbo principal, na frase em alemo um
modificador

adverbial (gern).

3) Estrutural O argumento do verbo da lngua de partida realiza-se de maneira


sintaticamente diferente na lngua de chegada:
Ing: John entered the house esp: Juan entr en la casa (John entered
IN the house)

Faculdade de Letras da Universidade de Lisboa


Ano Lectivo 2015/2015
Sistemas de Traduo Automtica
Marianna Buchicchio
O objeto do verbo realizado como um nome (the house) em ingls e
com uma frase

preposicional em espanhol (en la casa).

4) Categorial Uma palavra na lngua de chegada uma variante categorial do


equivalente na lngua de partida. Nestes casos, temos tambm a mudana do verbo:
Ing: I am hungry Al: Ich habe Hunger (I have hunger).

O predicado adjetival (hungry) em ingls e nominal em alemo (Hunger).


Temos tambm uma mudana na escolha do verbo (to be - to have).
5) De confluncia Diferena de propriedades entre duas lnguas:
Ing: I stabbed John esp: Yo le di pualadas a Juan (I gave knifewounds to John).
A realizao de um constituinte ingls realizado abertamente em
espanhol: o efeito da ao (knife-wounds) indicado pela palavra pualadas,
que contem a informao.
3.2) CONSIDERAES OPERACIONAIS
Cinco tipologias diferentes:
1)
2)
3)
4)
5)

Extenso do sistema de MT para lidar com novos domnios e lnguas;


Lidar com um nmero extenso de textos e estilos;
Mantimento do sistema depois do seu desenvolvimento:
Integrao do sistema de MT com outros softwares;
Avaliao de medidas para testar a eficcia do sistema.

Restrio de lxico e gramtica para eliminar os problemas associados criao e


compreenso do texto. Assim, so reduzidos tambm os problemas associados
ambiguidade lexical, homografia, polissemia, metonmia, ambiguidade contextual e lexical,
seleo e escolha dos tempos verbais.
Para desenhar um sistema de MT preciso, por isso, adaptar o lxico.
Como adicionar entradas num sistema de MT? A maioria delas so introduzidas de
maneira manual, graas ajuda de um experto de lingustica e do domnio no qual
estamos a adicionar uma entrada. Estas palavras devem ser extratas de um corpus, e
preciso introduzir tambm a qual parte do discurso pertence. Depois da introduo das
entradas, todo o trabalho deve ser revisto.

EXTENSO DO SISTEMA DE MT para adicionar nova lnguas. Inclui tambm o


processo de analise gramatical da lngua de partida e a criao de uma gramtica
da lngua de chegada. Esta gramtica deve ser revista continuamente, para ter um
nvel satisfatrio dos inputs. Dois desafios: primeiro, estabelecer o que um bom

input, e depois ter um bom resultado e prever os inputs.


TIPO DE TEXTO A TRADUZIR grande variedade de tipos e estilos de textos =
dificuldade em traduzir com um sistema de MT. Isto porque os textos, sobretudos
os literrios, contm figuras de estilo (ex: metfora) ou tm uma estrutura complexa

Faculdade de Letras da Universidade de Lisboa


Ano Lectivo 2015/2015
Sistemas de Traduo Automtica
Marianna Buchicchio
das frases, mas tm tambm referncias com o contexto = pressupem um
conhecimento do mundo. Os sistemas de MT trabalham melhor com textos simples
do ponto de vista da sintaxe, como por exemplo com os textos tcnicos e cientficos.
Aqui vai outro problema e outro desafio: seleo do lxico nos textos tcnicos e

cientficos.
MANTIMENTO DO SISTEMA DEPOIS DO DESENVOLVIMENTO Reviso continua das
entradas = necessidade de um experto em lingustica. Novas palavras e novos

domnios = reviso continua.


INTEGRAO DO SISTEMA DE MT COM OUTROS SOFTWARES um exemplo o
OCR, ou seja o Reconhecimento ptico dos carateres e uma ferramenta de
publicao de documentos.

TESTES PARA A EFICCIA DO SISTEMA envolve os programadores e os usurios do


sistema.

6) PARADIGMAS DOS SISTEMAS DE INVESTIGAO DA MT.


Trs tipos diferentes de paradigmas:
1) Paradigmas de tipo lingustico;
2) Paradigmas de tipo no lingustico;
3) Combinao entre paradigmas de tipo lingustico e de tipo no lingustico.
5.1) PARADIGMAS DE TIPO LINGUSTICO.
A maioria dos estudos so efetuados nesta rea teoria lingustica.
So sistemas que se esforam de utilizar restries lingusticas da sintaxe, do lxico e da
semntica para produzir uma correta realizao da frase na lngua de partida.
6 tipologias de paradigma de tipo lingustico:
1) CONSTRAINT-BASED MT (CBMT) Sistema LFG-MT para a traduo bidirecional entre
ingls, francs e alemo baseada na gramtica funcional e lexical (LFG) a estrutura
funcional vista come uma componente fundamental na traduo. Um sistema deste
tipo pode superar as dificuldades dadas do caso do head-switching:
Ing: The baby just fell Fr: Le beb vient de tomber (The baby just (V)
of fall).
O ingls just traduzido com o verbo francs venir, do qual o evento
da cada o complemento. Estrutura funcional diferente.
Desvantagem: se um conceito particular pode ser representado a nvel da
sintaxe em mais do que uma maneira vai haver mais do que uma estrutura
funcional.

RELAO ENTRE PREDICADO E ARGUMENTO frases relativas. Em frases


como I think that the baby just fell temos dois ncleos lgicos (think e
just). O sistema LFG-MT no capaz de determinar a maneira em como
compor os dois conceitos e gerar os outputs na lngua de chegada.

Faculdade de Letras da Universidade de Lisboa


Ano Lectivo 2015/2015
Sistemas de Traduo Automtica
Marianna Buchicchio
2) KNOWLEDGE-BASED MT (KBMT) concentra-se no desenvolvimento intensivo da
informao morfolgica, semntica e sinttica conteda no lxico. Este paradigma
fornece tradues automatizadas de alta qualidade.
3) LEXICAL-BASED MT (LBMT) em geral, um sistema que fornece regras para ligar as
entradas lexicais de uma lngua s entradas lexicais de uma outra. Um destes sistemas
o LTAG, para a traduo entre francs e ingls ingls e francs. Este sistema utiliza
as rvores gramaticais para mapear as duas lnguas. O mapeamento feito utilizando
um lxico bilingue que associa as duas rvores atravs ligaes entre um item lexical e
o seu argumento. Cada entrada bilingue contem um mapeamento entre uma frase da
lngua de partida e a correspondente na lngua de chegada. Esta abordagem permite
de superar dificuldades como a divergncia categorial:
Ing: John is fond of music Fr: John aime la musique (John loves the
music).

O conceito na lngua de partida representado por is fond of e em francs por o


verbo aimer.
Exemplo da mesma frase com o modificador very John is very fond of music
John aime
beaucoup la musique o sistema associa very em ingls a is fond of, e

na

mesma maneira,
associa beaucoup ao verbo aimer.
Desvantagem: sistema deve ter em memria todas as rvores do pares lingusticos.

RULE-BASED MT (RBMT) sistemas que dependem de diferentes regras de nveis


lingusticos para traduzir. Um prottipo o sistema Rosetta, que utiliza duas
categorias de regras:
1) M-rules: regras que preservam o significado mapeamento entre significados
2) S-rules: regras que no preservam o significado mapeamento entre itens
lexicais.
sistema que

Sistemas destes tipos tm dificuldades nos casos do head-switching


fora uma traduo literal.

Ing: Mary usually goes to school esp: Mary suele ir a la escuela

Mary usualmente va
going
a la escuela

Mary is accostumed to

Traduo literal forada pelo


sistema

to school

Faculdade de Letras da Universidade de Lisboa


Ano Lectivo 2015/2015
Sistemas de Traduo Automtica
Marianna Buchicchio
PRINCIPLE-BASED MT (PBMT) uma alternativa ao RBMT, no qual as regras
substituem

um

pequeno

conjunto

de

princpios

que

interessam

fenmenos

morfolgicos, gramaticais e lexicais. Construo passiva exemplo de uma


construo derivada de princpios gerais.
PRINCTRAN MT = sistema de RBMT descodifica a gramtica de uma lngua com
uma rede de ns que

representam as categorias ou as subcategorias gramaticais. As

frases que constituem um input so analisadas por agentes que comunicam entre eles
enviando mensagens atravs de ligaes na direo oposta ligao. Todas as informaes
que passam por um n devem satisfazer as restries do mesmo mensagem que pode ser
transmitida s se satisfaz estas restries.

SHAKE&BAKE MT

(S&B MT) um dos sistemas mais recentes.

As regras de

transferncia de uma informao so estabelecidas com base em entradas lexicais


bilingues, relatadas a entradas lexicais monolingues. Depois de uma frase ser
analisada, as palavras da lngua de partida so mapeadas com as palavras da lngua
de chegada por meio das entradas bilingues mapeamento efetuado por meio de
um algoritmo que trabalha utilizando restries sintticas da lngua de chegada.

Vous aimerez peut-être aussi