Memória de tradução
Uma 'memória de tradução' (TM) é uma base de dados que armazena "segmentos". Esses segmentos podem ser frases, parágrafos ou unidades textuais (cabeçalhos, títulos ou elementos em uma lista) já traduzidos previamente e que servem para auxiliar tradutores. A memória de tradução armazena o texto de partida e sua correspondente tradução nos pares de idiomas chamados de “unidades de tradução”. As palavras individuais são processadas por bases terminológicas e não estão dentro do âmbito da TM.
Os programas de software que utilizam memórias de tradução são muitas vezes conhecidos como gerenciadores de memórias de tradução (TMM).
As memórias de tradução são normalmente utilizadas juntamente com uma ferramenta específica de tradução assistida por computador (CAT Tool), programas de processamento de palavras, sistemas de gerenciamento de terminologias, dicionários multilíngues ou até mesmo resultados brutos de traduções automáticas.
Pesquisas indicam que muitas empresas que trabalham com documentações multilíngues usam sistemas de memória de tradução. Em uma pesquisa com profissionais de línguas em 2006, 82,5% dos 874 participantes afirmaram utilizar uma TM.
Usando memórias de tradução
[editar | editar código-fonte]O programa divide o texto de partida (o texto a ser traduzido) em segmentos, procura por correspondências entre segmentos previamente traduzidos e armazenados em uma memória de tradução, apresentando tais pares como opções de tradução. O tradutor pode aceitar uma opção, substituí-la por uma tradução nova ou modificá-la para combinar com o original. Nos dois últimos casos, a nova tradução ou a modificada vai para o banco de dados.
Alguns sistemas de memórias de tradução procuram apenas por combinações 100%. Isto quer dizer que eles só recuperam segmentos de texto que correspondem exatamente às entradas no banco de dados, enquanto outros empregam algoritmos de correspondência fuzzy para recuperar segmentos similares, que são apresentados ao tradutor com as diferenças de correspondência sinalizadas. É importante observar que sistemas de memória de tradução mais comuns apenas pesquisam por texto no segmento de origem.
A flexibilidade e a robustez do algoritmo de correspondência determinam, em grande parte, o desempenho da memória da tradução, embora para algumas aplicações o percentual de combinações exatas possa ser alto o bastante para justificar as correspondências de cem por cento.
Os segmentos onde não se encontra correspondência deverão ser manualmente traduzidos pelo tradutor. Estes segmentos traduzidos pela primeira vez são armazenados no banco de dados, onde podem ser usados tanto para futuras traduções, quanto como repetições desse mesmo segmento na presente tradução.
As memórias de tradução funcionam melhor em textos com um alto nível de repetições, como manuais técnicos. Eles são também úteis para traduzir novas mudanças em um texto original previamente traduzido, como por exemplo a introdução de pequenas mudanças numa nova versão de um manual de usuário. As memórias de tradução sempre foram consideradas pouco adequadas para textos literários ou criativos, pela simples razão de haver pouquíssima repetição na linguagem usada. Entretanto, há quem encontre utilidade mesmo para textos não tão repetitivos, pois os recursos criados com a base de dados podem auxiliar nas buscas por concordância, determinar um uso mais apropriado de termos, gerar uma certa garantia de qualidade (sem segmentos não traduzidos) e simplificar o processo de revisão – os textos de partida e de chegada estão indicados sempre juntos na tela, enquanto numa revisão tradicional os tradutores precisam trabalhar com dois originais.
Se um sistema de memória de tradução for usado de forma consistente em determinados textos por um longo período de tempo, poderá poupar consideravelmente o trabalho dos tradutores.
Principais benefícios
[editar | editar código-fonte]Os gerenciadores de memória de tradução são mais adequados para traduzir documentação técnica e documentos que contêm vocabulários especializados. Os benefícios incluem:
• Assegurar que o documento seja completamente traduzido (memórias de tradução não aceitam segmentos-alvo não traduzidos); • Assegurar que os documentos traduzidos sejam coerentes, incluindo definições, expressões e terminologias em comum. Isto é importante quando diferentes tradutores trabalham em um único projeto; • Permitir que os tradutores traduzam documentos em uma ampla variedade de formatos sem a necessidade de possuir o software requerido para processar esses formatos; • Acelerar o processo total da tradução; uma vez que as memórias de tradução recuperam o material previamente traduzido, os tradutores têm que traduzi-lo somente uma vez; • Reduzir os custos de projetos de longa duração. Por exemplo, textos de manuais, placas de advertência ou séries de documentos necessitam ser traduzidos somente uma vez e podem ser usados diversas vezes. • Para grandes projetos, a economia (em tempo e dinheiro) graças ao uso de uma TM se torna perceptível já em uma primeira tradução de um novo projeto, mas normalmente tal redução de custos somente é visível durante a tradução de versões subsequentes de um projeto traduzido anteriormente usando a memória de tradução.
Principais obstáculos
[editar | editar código-fonte]Os principais obstáculos que impedem um uso maior de Gerenciadores de Memórias de Tradução são:
• O conceito de "Memórias de Tradução" se baseia na premissa de que as frases usadas em traduções anteriores podem ser "recicladas". Entretanto, um princípio norteador da tradução sugere que o tradutor deve traduzir a mensagem do texto e não as sentenças que o compõem. • Os Gerenciadores de Memórias de Tradução não se encaixam facilmente na tradução existente ou em processos de localização. Para um melhor aproveitamento da tecnologia de TM, os processos de tradução devem ser reestruturados. • Os Gerenciadores de Memórias de Tradução atuais não têm suporte para todos os formatos de documentação e talvez não existam filtros para suportar todos os tipos de arquivos. • Há uma curva de aprendizagem associada ao uso de Gerenciadores de Memórias de Tradução, além disso, os programas devem ser personalizados para maior eficácia. • Em casos em que a totalidade ou parte do processo de tradução é terceirizado ou realizado a distância por tradutores autônomos, são necessárias ferramentas especiais que permitam trabalhar com os textos gerados a partir dos Gerenciadores de Memórias de Tradução. • Versões completas de programas de gerenciadores de memórias de tradução podem custar entre US$500 e US$2,500 por licença, o que representa um investimento grande, apesar de existir versões de menor custo. No entanto, algumas empresas disponibilizam, com funções reduzidas, versões gratuitas ou de baixo custo de seus programas para que tradutores autônomos possam trabalhar em projetos criados com versões completas desses programas. Há softwares livres de TM, mas nenhum deles alcançou uma grande fatia de mercado. • Os custos envolvidos em importação das traduções anteriores dos usuários para uma base de dados de memória de tradução, em treinamento, bem como em qualquer produto adicional podem representar, também, um investimento considerável. • A manutenção da base de dados da memória de tradução ainda tende a ser um processo manual na maioria dos casos e deixar de fazê-lo pode resultar em um decréscimo significativo na qualidade e praticidade dos resultados da TM. • Como dito anteriormente, os gerenciadores de memória de tradução podem não ser adequados para textos que não têm repetição interna ou que não contêm porções não modificadas entre as revisões. Textos técnicos são geralmente mais adequados para o uso da memória de tradução, enquanto textos de marketing ou textos criativos são menos adequados. • A qualidade do texto gravado na memória de tradução não é garantida se a tradução para um certo segmento for incorreta. Há uma alta probabilidade que a tradução incorreta venha a ser reutilizada da próxima vez que o texto de partida ou em um texto similar for traduzido, eternizando, assim, o erro. • Também existe um efeito potencial e, se presente, provavelmente inconsciente sobre o texto traduzido. Diferentes línguas usam distintas sequências para os elementos lógicos na frase e um tradutor que se depara com orações compostas traduzidas parcialmente terá menos chance para reconstruí-las completamente. • Também existe um risco potencial em o tradutor lidar com o texto mecanicamente, frase por frase, ao invés de ter por foco o modo como cada frase está relacionada às outras e ao texto como um todo.
Funções da memória de tradução
[editar | editar código-fonte]Veja a seguir um resumo das principais funções de uma memória de tradução.
Funções Off-line
[editar | editar código-fonte]Importação
[editar | editar código-fonte]Esta função é usada para transferir um texto e sua tradução de um arquivo de texto para a TM. A importação pode ser feita a partir de um formato cru em que um texto de partida externo está pronto para ser importado para uma TM junto com sua respectiva tradução. Às vezes, é necessário que o usuário processe o texto novamente. Existe outro formato que pode ser usado para importar: o formato nativo. Este formato é o que usa a TM para salvar as memórias de tradução em um arquivo.
Análise
[editar | editar código-fonte]O processo de análise envolve as seguintes etapas:
- Análise textual
- É muito importante reconhecer a pontuação corretamente, a fim de distinguir entre, por exemplo, um ponto final no final de uma frase e um ponto final em uma abreviatura. Assim, a linguagem de marcação é uma espécie de pré-edição. Geralmente, os materiais que foram processados através de programas de ajuda aos tradutores contêm linguagem de marcação, já que a fase de tradução está embutida em uma linha de produção de documentos multilíngues. Outros elementos especiais de texto podem ser desencadeados pela linguagem de marcação. Há elementos especiais que não precisam ser traduzidos, como nomes e códigos próprios, enquanto outros podem precisar ser convertidos para o formato nativo.
- Análise linguística
- A redução da forma básica é usada para preparar listas de palavras e um texto para resgate automático de termos a partir de um banco de termos. Em contrapartida, a análise sintática pode ser usada para extrair termos com várias palavras ou a fraseologia a partir de um texto de partida. Assim, a análise é usada para padronizar a variação da ordem das palavras da fraseologia, ou seja, quais palavras podem formar uma frase.
- Segmentação
- O propósito dessa função é selecionar as unidades de tradução mais úteis. A segmentação é um tipo de análise. Ela é feita de forma monolíngue usando uma análise superficial e um alinhamento com base em segmentação. Se os tradutores corrigirem os segmentos manualmente, as versões posteriores do documento não encontrarão correspondências na TM com segmentação corrigida, pois o programa repetirá seus próprios erros. Os tradutores geralmente processam linearmente frase por frase, embora a tradução de uma frase possa depender da tradução de outros segmentos no texto.
- Alinhamento
- É a tarefa de identificar as correspondências de tradução entre o texto de partida e o de chegada. Deve haver feedback do alinhamento para a segmentação. Um bom algoritmo de alinhamento consegue corrigir a segmentação inicial.
- Extração de termos
- A extração de termos pode ter como entrada um dicionário prévio. Além disso, ao extrair termos desconhecidos, pode-se usar a análise baseada em dados estatísticos de texto. Estas são usadas para calcular o trabalho envolvido em uma tarefa de tradução. Isso é muito útil para planejar e programar o trabalho. As estatísticas de tradução geralmente contam as palavras e estimam a quantidade de repetições no texto.
Exportação
[editar | editar código-fonte]A exportação transfere o texto da TM para um arquivo de texto externo. A importação e a exportação devem ser inversas.
Funções on-line
[editar | editar código-fonte]Ao traduzir, uma das principais finalidades da TM é recuperar as correspondências mais úteis na memória de modo que o tradutor possa escolher a melhor. A TM deve mostrar o texto de partida e o texto de chegada que indicam as identidades e as diferenças.
Recuperação
[editar | editar código-fonte]Diversos tipos diferentes de correspondências podem ser recuperados de uma TM.
- Correspondência exata
- As correspondências exatas aparecem quando a correspondência entre o segmento atual da fonte e o armazenado é uma correspondência de caractere por caractere. Ao traduzir uma sentença, uma correspondência exata significa que a mesma sentença foi traduzida antes. As correspondências exatas são chamadas também de correspondência cem por cento.
- Correspondência (ICE) ou Correspondência Garantida
- A correspondência ICE é uma correspondência exata que ocorre exatamente no mesmo contexto, isto é, no mesmo local em um parágrafo. O contexto é muitas vezes definido pelas sentenças e atributos vizinhos, como nome dos documentos de arquivo, data e permissões.
- Correspondência Fuzzy
- Quando a correspondência não é exata, é denominada "fuzzy". Alguns sistemas atribuem porcentagens para esses tipos de resultados. Uma correspondência fuzzy é maior que zero por cento e menor que cem por cento. Esses números não são comparáveis entre os sistemas, a menos que o método de pontuação seja especificado.
- Concordância
- Quando o tradutor escolhe uma ou mais palavras no segmento fonte, o sistema recupera pares de segmentos que correspondam aos critérios de pesquisa. Este recurso é útil para encontrar traduções de termos e expressões idiomáticas, na ausência de uma base de dados terminológica.
Atualização
[editar | editar código-fonte]A TM é atualizada com uma nova tradução, quando esta for aceita pelo tradutor. Como geralmente acontece na atualização de um banco de dados, há a questão do que fazer com o conteúdo anterior do banco de dados. A TM pode ser modificada por alteração ou exclusão de entradas prévias na TM. Alguns sistemas permitem que os tradutores salvem várias traduções do mesmo segmento de partida. Vários tipos diferentes de resultados podem ser recuperados a partir de uma TM.
A história das memórias de tradução
[editar | editar código-fonte]Os anos 70 foram a fase inicial dos sistemas de memória de tradução (TMS), quando estudiosos conduziram uma série preliminar de discussões exploratórias. A ideia inicial dos TMS é comumente atribuída ao estudo "Proper Place" de Martin Kay, mas os detalhes não são totalmente esmiuçados. Nesse trabalho, demonstrou-se o conceito básico de sistema de armazenamento: "O tradutor pode começar emitindo um comando que faz com que o sistema exiba qualquer dado armazenado que, por sua vez, pode ser relevante. Antes de prosseguir, o tradutor pode examinar fragmentos anteriores e posteriores do texto que contêm material similar." Esta observação de Kay foi na verdade influenciada pela sugestão de Peter Arthern, de que os tradutores podem usar documentos semelhantes, já traduzidos, on-line. Em seu artigo de 1978, ele deu uma demonstração completa do que chamamos atualmente de TMS: qualquer texto novo seria digitado em um processador de texto e, à medida que fosse digitado, o sistema compararia esse texto aos textos anteriores armazenados na memória, juntamente com a sua tradução em todas as línguas oficiais da Comunidade Europeia. Uma vantagem sobre a tradução automática propriamente dita, seria a de que todas as passagens recuperadas deste modo estariam gramaticalmente corretas. De fato, seria um processo eletrônico de "recortar e colar" que economizaria pelo menos 15 por cento do tempo que hoje os tradutores gastam na produção eficaz de suas traduções. Alan Melby e seu grupo da Universidade de Brigham Young alegaram também serem fundadores do TMS. A ideia foi incorporada das ferramentas ALPS (Sistemas de Processamento de Linguagem Automática), desenvolvidas primeiramente pelo pesquisador da Universidade de Brigham Young. Na época, a ideia de TMS foi misturada com uma ferramenta chamada “Processamento de Repetições", cujo único objetivo era encontrar sequências correspondentes. Somente depois de anos é que o conceito de memória de tradução passou a existir.
A verdadeira fase exploratória dos TMS aconteceu na década de 1980. Uma das primeiras implementações de TMS apareceu no Banco de Conhecimento bilíngue de Sadler e Vendelman. Um banco de conhecimento bilíngue é um par de corpora estruturado sintática e referencialmente, sendo um a tradução do outro, no qual unidades de tradução tem uma codificação cruzada entre os dois corpora. O objetivo do banco de conhecimento bilíngue é desenvolver uma fonte de conhecimento de uso geral baseada em corpus para aplicações na tradução mecânica e na tradução assistida por computador (Sadler & Vendelman, 1987). Outro passo importante foi realizado por Brian Harris, com seu “bitexto”. Ele definiu o bitexto como "um texto simples de duas dimensões" (1988), onde os textos de partida e de chegada se relacionam pela atividade do tradutor por meio das unidades de tradução que se parecem com o banco de conhecimento bilíngue de Sadler. No trabalho de Harris foi proposto algo parecido com o TMS, mas sem usar esse nome: um banco de dados de traduções emparelhadas, pesquisáveis tanto por palavra individual como por "unidade completa de tradução” e, em último caso, sendo permitida a busca para recuperar unidades similares, mas não necessariamente idênticas.
A tecnologia de TM somente se tornou comercialmente disponível em grande escala nos anos 90, depois do esforço de diversos engenheiros e tradutores como Alan Melby, Sumita e Tsutsumi. Vale ressaltar que a primeira ferramenta de TM foi o Trados, atualmente conhecida como SDL Trados. Nesta ferramenta, ao abrir o arquivo original e aplicar a memória de tradução, as "combinações 100%" (combinações idênticas) ou as "combinações fuzzy" (similares, mas não idênticas) dentro do texto são imediatamente extraídas e colocadas no arquivo de destino. Assim, as combinações sugeridas pela memória de tradução podem ser aceitas ou substituídas por novas alternativas. Se uma unidade da tradução for atualizada manualmente, ficará armazenada na memória da tradução para futuramente ser usada, bem como para repetição no texto atual. Da mesma forma, todos os segmentos no arquivo de destino sem combinações seriam traduzidos manualmente e, então, adicionados automaticamente à memória da tradução. Outro marco significativo dos TMS são os projetos do Serviços de Línguas Europeias da IBM (Dinamarca), nos quais uma grande quantidade de memórias de tradução foi utilizada para eliminar as barreiras das línguas.
Suporte para novas línguas
[editar | editar código-fonte]A maioria das empresas têm ferramentas de memória de tradução sem suporte a novas línguas. Recentemente, países asiáticos como a Índia também inovaram na linguagem de computação, pois há uma demanda grande de memórias de tradução em países em desenvolvimento. Já que a maioria das empresas que desenvolvem programas de tradução CAT tem seu foco em línguas mais comuns, há pouca oferta nas línguas asiáticas.
Tendências recentes
[editar | editar código-fonte]Um avanço recente é o conceito de “memória de texto” em contraste com a memória de tradução[3] Esta é também a base da proposta de padrão LISA OSCAR.A memória do texto dentro do xml:tm compreende a “memória do autor” e a “memória de tradução”. A memória do autor é usada para acompanhar as mudanças durante o ciclo autoral. A memória de tradução usa as informações da memória do autor para implementar a correspondência da memória de tradução. Embora inicialmente direcionado a originais de XML, o xml:tm pode ser usado em todo o documento que puder ser convertido ao formato XLIFF.
Memórias de tradução de segunda geração
[editar | editar código-fonte]Muito mais poderosas do que TMs de primeira geração, elas incluem a ferramenta de análise linguística, usam tecnologia de segmentação para quebrar segmentos em grupos terminológicos inteligentes e para gerar glossários específicos automaticamente.
A memória de tradução e padrões relacionados
[editar | editar código-fonte]TMX
[editar | editar código-fonte]A Troca de Memória de Tradução (TMX - Translation Memory eXchange) é um padrão que possibilita a troca de memórias de tradução entre fornecedores de tradução. A TMX foi adotada na comunidade da tradução como a melhor maneira de importar e exportar memórias de tradução. [Necessário citar] A versão atual é a 1.4b, que permite a recriação de documentos de partida e de destino do banco de dados da TMX.
TBX
[editar | editar código-fonte]Troca de Base de Termos (TBX - TermBase eXchange). Este padrão da LISA - Associação de Padrões da Indústria de Localizações, revisado e republicado como ISO 30042, permite a troca de dados terminológicos incluindo informações lexicais detalhadas. O quadro para a TBX é fornecido por três padrões ISO: ISO 12620, ISO 12200 e ISO 16642. O ISO 12620 oferece uma listagem de “categorias de dados” bem definidos com nomenclatura padronizada e funciona como tipos de elementos de dados ou valores pré-definidos. O ISO 12200, também conhecido como MARTIF, fornece a base para a estrutura núcleo de TBX. O ISO 16642, também conhecido como Estrutura de Marcação Terminológica (Terminological Markup Framework), inclui um metamodelo estrutural para as Linguagens de Markup Terminológico em geral.
UTX
[editar | editar código-fonte]O formato Troca de Terminologia Universal (UTX – Universal Terminology eXchange) é um padrão especificamente desenvolvido para dicionários de usuários de tradução mecânica, mas pode ser utilizado para glossários. A proposta do formato UTX é acelerar o compartilhamento e a reutilização de dicionários com suas especificações extremamente simples e práticas.
SRX
[editar | editar código-fonte]A Troca de Regras de Segmentação (SRX – Segmentation Rules eXchange) busca aprimorar o padrão de TMX para que os dados da memória de tradução trocados entre aplicações possam ser utilizados de maneira mais efetiva. A habilidade de descrever as regras de segmentação utilizadas na tradução anterior pode intensificar o aproveitamento a ser alcançado.
GMX
[editar | editar código-fonte]Parâmetros GILT. GILT significa “Globalização, Internacionalização, Localização e Tradução”. O padrão de parâmetros GILT é composto por três categorias: GMX-V para parâmetros de volume, GMX-C para parâmetros de complexidade e GMX-Q para parâmetros de qualidade. O padrão de parâmetros GILT proposto tem a tarefa de quantificar a carga de trabalho e de critérios de qualidade para qualquer tarefa GILT.
OLIF
[editar | editar código-fonte]Formato de Intercâmbio de Léxico. O OLIF é um padrão aberto, compatível com XML para a troca de dados terminológicos e lexicais. Embora seu objetivo seja, originalmente, realizar a troca de dados lexicais entre léxicos de tradução automática proprietária, este formato evoluiu, tornando-se um padrão geral para a troca de terminologia.
XLIFF
[editar | editar código-fonte]O Formato de Arquivo de Intercâmbio de Localização (XLIFF - Localisation Interchange File Format) busca oferecer um único formato de troca de arquivo que possa ser entendido por todos provedores de localização. Na indústria da tradução o XLIFF é o modo preferido para troca de dados em formato XML.
TransWS
Serviços de Tradução da Web. O TransWS especifica o necessário para usar os serviços da web para a recuperação e envio de mensagens e arquivos relacionados a projetos de localização. É entendido como um sistema detalhado para a automação de muitos dos atuais processos de localização por meio do uso de serviços da web.
xml:tm
[editar | editar código-fonte]Artigo principal: xml:tm A abordagem do xml:tm (Memória de Texto baseada em XML) para a memória de tradução é fundamentada no conceito de memória de texto que compreende o autor e a memória de tradução. [9] O xml:tm foi doado para Lisa OSCAR por XML-INTL.
PO
[editar | editar código-fonte]Formato de objeto portátil Gettext. Embora nem sempre sejam considerados um formato de memória de tradução, os Getttext PO são arquivos bilíngues também usados em processos de memória de tradução. Normalmente, um sistema de memória de tradução PO consistirá de vários arquivos separados em uma estrutura ramificada de diretório. Entre as ferramentas comuns que funcionam com arquivos de PO estão as ferramentas GNU Gettext e o Translate Toolkit. Muitas ferramentas e programas também fazem com que os arquivos PO sejam editados como se fossem meros arquivos de texto de partida.
Software de memória de tradução para Desktop
[editar | editar código-fonte]As ferramentas de memória de tradução para desktop são o que os tradutores individuais normalmente usam para completar traduções. São ferramentas especializadas para a tradução da mesma forma que um processador de texto é uma ferramenta especializada para a escrita.
Memória de tradução centralizada
[editar | editar código-fonte]A memória de tradução centralizada é um sistema de armazenamento de TM em um servidor central. Esses sistemas trabalham junto com as TMs de desktop e podem aumentar as taxas de correspondência de TMs de 30 a 60% a mais do que a correspondência de TM obtida apenas pela TM de desktop. Eles exportam os “kits de tradução” ou “t-kits” pré-definidos para ferramentas de TM de desktop. Um t-kit contém o conteúdo a ser traduzido pré-segmentado pelo servidor central e um subgrupo da TM com todas as correspondências apropriadas de TM. A TM centralizada geralmente faz parte do sistema de gerenciamento globalizado (GMS), que também inclui a base de dados terminológicos centralizada, ou glossário, um mecanismo de fluxo de trabalho, estimativas de custo e outras ferramentas.