13/05/2024

Avaliação da Tradução Automática: O Guia Definitivo

Digamos que você seja uma empresa que decidiu investir em um sistema de tradução automática. Você fez uma pesquisa básica e descobriu que há muitas opções para escolher. Cada um afirma pontuar uma certa quantia com base em determinadas métricas, mas você não sabe o que os números realmente significam. Como você sabe qual é o mais adequado para você?

Você precisa entender como a avaliação da tradução automática funciona.

Este artigo abordará detalhadamente o tópico da avaliação da tradução automática. Isso o ajudará a entender o que é, por que você precisa e os diferentes tipos de avaliação, para ajudá-lo a tomar uma decisão bem informada ao escolher um sistema de MT para investir.

Introdução: O que é avaliação da tradução automática?

A avaliação da tradução automática se refere aos diferentes processos de medição do desempenho de um sistema de tradução automática.

É uma forma de avaliar a qualidade do MT para que seja possível saber se o sistema é bom e se há uma base sólida para comparar a eficácia de diferentes sistemas de MT. Para fazer isso, a avaliação da tradução automática faz uso de métricas quantificáveis.

Por que as métricas de avaliação da tradução automática são importantes?

Há duas razões principais pelas quais a avaliação do desempenho de um sistema de MT precisa ser feita. A primeira é verificar se é bom o suficiente para aplicação no mundo real. A segunda é servir como guia em pesquisa e desenvolvimento.

Para verificar se é bom o suficiente para aplicação no mundo real

Primeiro, é claro, é determinar se o sistema MT funciona em um nível que seja bom o suficiente para uso real. Esse é o motivo mais direto para os usuários finais. Se o sistema de tradução automática funcionar mal, é mais provável que os usuários escolham outra coisa.

Os setores industriais que usam MT também gostariam de métricas concretas para decidir qual sistema de MT obter. Afinal, MT é um investimento e as empresas precisam obter a melhor relação custo-benefício.

Dessa forma, os desenvolvedores de MT precisam avaliar se a qualidade do sistema de tradução automática é boa o suficiente para enviá-lo aos clientes.

Para servir como guia em pesquisa e desenvolvimento

Idealmente, os sistemas MT não são uma entidade estática. A tecnologia para MT está melhorando continuamente ao longo do tempo. Faz sentido que se espere que os sistemas de MT também melhorem.

É aqui que entra a pesquisa, e os pesquisadores precisam ter um guia sobre onde procurar. Métricas mensuráveis permitem que os pesquisadores comparem se uma abordagem específica é melhor do que outra, ajudando-os a ajustar o sistema.

Isso é especialmente bom para ver como o sistema lida com erros de tradução consistentes. Ter métricas mensuráveis pode mostrar em um ambiente mais controlado se uma abordagem específica é capaz ou não de lidar com esses tipos de erros.

Como você avalia o sucesso da tradução automática?

Há duas maneiras diferentes de determinar o desempenho de um sistema de MT. A avaliação humana é feita por especialistas humanos que fazem uma avaliação manual, enquanto a avaliação automática usa métricas baseadas em IA especialmente desenvolvidas para avaliar a qualidade da tradução sem intervenção humana. Cada um tem suas próprias vantagens e desvantagens. Entraremos em mais detalhes sobre os dois tipos de avaliação de MT nas seções posteriores deste artigo, mas primeiro, aqui está uma visão geral rápida dos dois tipos de avaliação de tradução automática, bem como das abordagens de avaliação de MT que fazem uso deles.

Avaliação humana versus Avaliação automática

A avaliação humana da tradução automática significa que a avaliação da qualidade da tradução é feita por tradutores profissionais humanos. Essa é a opção mais eficaz quando se trata de determinar a qualidade das traduções automáticas até o nível das frases. Mas a avaliação humana, assim como a tradução humana, é por natureza mais cara e demorada.

A avaliação automática, por outro lado, usa programas criados especificamente para avaliar a qualidade da tradução automática de acordo com diferentes métodos. Não é tão confiável quanto a avaliação humana no nível da frase, mas é uma boa opção escalável ao avaliar a qualidade geral da tradução em vários documentos.

Abordagens para avaliação de MT

As abordagens para a avaliação da tradução automática são baseadas no conceito de granularidade. Ou seja, os diferentes níveis nos quais a pontuação pode ser considerada significativa.

Abordagem baseada em frases. Sob essa abordagem, cada frase recebe uma pontuação dizendo se sua tradução é boa (1) ou não boa (0) e o total recebe uma média. Isso é mais comumente feito na avaliação humana.

Abordagem baseada em documentos. Também conhecida como abordagem baseada em corpus, as frases também recebem pontuações, mas a pontuação significativa é o total ou a média entre um conjunto maior de documentos. Esse é o menor nível no qual a avaliação automatizada de MT pode ser considerada significativa, pois depende muito das estatísticas de um amplo conjunto de dados.

Abordagem baseada no contexto. Essa abordagem difere das anteriores, pois o que ela leva em consideração é o quão bem a tarefa geral de MT se adapta aos propósitos aos quais é colocada, e não por meio de pontuações médias baseadas em frases. Como tal, pode ser considerada uma abordagem holística para a avaliação de MT.

Desafios na avaliação da tradução automática

A avaliação da tradução automática é um processo difícil. Isso ocorre porque a linguagem em si é uma coisa muito complexa.

Por um lado, pode haver várias traduções corretas. Veja, por exemplo, a seguinte frase:

A rápida raposa marrom pulou sobre o cachorro preguiçoso.

Em vez disso, um sistema MT pode gerar a seguinte tradução:

A rápida raposa marrom atacou o cão indolente.

Esta é uma tradução tecnicamente correta e, na avaliação humana, normalmente seria marcada como tal. Mas na avaliação automatizada, ela seria marcada como incorreta.

Pequenos detalhes também podem mudar completamente o significado de uma frase.

A rápida raposa marrom pulou sobre o cachorro preguiçoso.

Aqui, há apenas uma palavra que foi alterada. Mas essa palavra muda completamente o significado da frase. É provável que as avaliações automáticas o marquem mais do que o exemplo anterior. É provável que tradutores humanos detectem o erro, mas alguns podem considerá-lo correto.

E isso porque a linguagem pode ser subjetiva. Até mesmo avaliadores humanos podem diferir em seus julgamentos sobre se uma tradução é boa ou não.

Avaliação humana: O padrão-ouro

Agora que examinamos o básico, vamos examinar detalhadamente os dois tipos de avaliação de MT, começando com a avaliação humana.

No nível mais básico, o objetivo da tradução automática é traduzir texto de um idioma de origem para um idioma de destino em um nível que os humanos possam entender. Dessa forma, os humanos são o melhor ponto de referência para avaliar a qualidade da tradução automática.

Tipos de avaliação humana

Há várias maneiras diferentes de fazer a avaliação humana, que abordaremos agora:

Avaliação direta

Esse é o tipo mais simples de avaliação humana. A saída da tradução automática é pontuada no nível da frase.

O desafio da avaliação direta é que diferentes juízes variam muito na forma como pontuam. Alguns tendem a ir para os extremos em termos de pontuação, marcando as traduções como muito ruins ou muito boas. Outros podem ser mais conservadores, marcando as mesmas frases com pontuações mais próximas do meio.

Outro desafio é, novamente, a subjetividade. Ao julgar se uma frase é uma tradução ruim ou não, os avaliadores precisam tomar decisões sobre um idioma ambíguo. Voltando à frase de exemplo:

A rápida raposa marrom pulou sobre o canino preguiçoso.

Aqui, o canino não está necessariamente errado, mas também não é o melhor ajuste. Alguns avaliadores podem considerá-lo bom o suficiente, enquanto outros podem sinalizá-lo como completamente errado. Por exemplo, se a pontuação for feita em uma escala de 5 pontos, alguns tradutores podem marcá-la como 4, enquanto outros podem atribuir apenas 2.

Esses desafios podem ser compensados com o emprego de um grupo maior de avaliadores, o que permitirá que as pontuações sejam normalizadas em termos estatísticos.

Classificação

Outra forma de avaliar os sistemas de tradução automática por meio da avaliação humana é a classificação.

Nesse caso, os avaliadores não fornecem pontuações individuais para as frases, mas comparam as traduções de diferentes sistemas de MT. Eles então decidem qual é a melhor tradução, qual é a segunda melhor e assim por diante.

A vantagem desse método sobre a avaliação direta é que ele fornece imediatamente uma comparação direta, em vez de comparar pontuações que foram geradas em diferentes ensaios e possivelmente por diferentes avaliadores.

No entanto, ainda sofre com o desafio da subjetividade. É provável que diferentes sistemas de MT apresentem erros diferentes. Por exemplo:

A rápida raposa verde pulou sobre o cachorro preguiçoso.

Raposa marrom rápida pulou sobre cachorro preguiçoso.

A rápida raposa marrom pula sobre o cachorro preguiçoso.

Cada frase tem um erro simples. O primeiro tem um erro de tradução. O segundo omite artigos. No terceiro, faltam tempos verbais.

Os avaliadores agora precisam decidir qual erro é mais importante do que o outro e, novamente, os avaliadores podem ter opiniões diferentes sobre o assunto.

Esforço de pós-edição

Se o objetivo do usuário com um sistema de MT é preparar documentos para pós-edição, também há maneiras de avaliá-lo de acordo com a quantidade de esforço necessário para pós-edição.

O objetivo fundamental da pós-edição é permitir que um tradutor trabalhe mais rápido do que se fosse traduzir um texto do zero. Dessa forma, a maneira mais simples de avaliar um sistema de MT para pós-edição é medir o tempo que o tradutor leva para corrigir a saída traduzida automaticamente.

Outra forma de medir o esforço de pós-edição é tabular o número de traços no teclado necessários para substituir o texto traduzido automaticamente por uma tradução de referência humana. Isso independe das restrições de tempo, mas também não leva em consideração a possibilidade de várias traduções corretas.

Avaliação baseada em tarefas

Depois, há a avaliação baseada em tarefas que, como o nome sugere, avalia um sistema de MT com base em sua adequação à tarefa em questão. Por exemplo, se for usado em um ambiente de webinar multilíngue, os participantes podem ser solicitados a avaliar sua experiência com uma transcrição traduzida automaticamente. Isso significa que eles estão avaliando o sucesso do sistema MT como um todo.

O problema com essa abordagem é que ela está muito aberta à introdução de outros elementos não controlados que podem afetar a classificação atribuída pelos avaliadores. Como tal, o uso da avaliação baseada em tarefas é muito situacional.

Desafios gerais na avaliação humana

Como você pode ver, os diferentes tipos de avaliação humana da MT apresentam seus próprios desafios. Há também alguns desafios que eles compartilham amplamente, e eles têm a ver com consistência ou concordância.

Concordância entre anotadores

Isso se refere à consistência das pontuações entre os diferentes avaliadores. Como mencionamos anteriormente, diferentes avaliadores terão tendências variadas na forma como pontuam os mesmos segmentos de texto. Alguns podem pontuá-los nos extremos ou no meio. Ao classificar diferentes motores MT, suas opiniões também podem variar. É por isso que é importante ter vários avaliadores, para que a distribuição das pontuações seja normalizada.

Concordância de cada anotador

A forma como um único avaliador pontua um texto também é uma medida de validade. Um avaliador pode classificar uma frase como boa ou ruim na primeira vez, mas pode mudar de ideia ao repetir o mesmo teste. Ter uma alta medição da concordância de cada anotador garante que o avaliador escolhido possa ser considerado consistente e confiável.

Avaliação automática: A opção escalável

A avaliação humana é considerada o padrão-ouro quando se trata de avaliar a qualidade da tradução automática. No entanto, é um empreendimento caro em termos de esforço e tempo. É por isso que pesquisadores da área desenvolveram diferentes meios de avaliar a qualidade da MT por meio de processos automatizados.

Esses processos são projetados para aproximar como os humanos avaliarão o sistema MT. Obviamente, eles estão longe de serem perfeitos nisso, mas a avaliação automática ainda tem casos de uso muito importantes.

A principal vantagem da avaliação automática sobre a avaliação humana é sua escalabilidade. É muito mais rápido executar centenas de instâncias de avaliação automática do que até mesmo uma rodada de avaliação humana. Isso o torna uma solução ideal para fazer ajustes ou otimizar o sistema MT, que precisa de resultados rápidos.

Desafios na avaliação automática

Ao contrário dos humanos, as máquinas não estão equipadas para lidar com as diferentes nuances do uso da linguagem. Os sistemas de avaliação automática têm como premissa que a MT tenha uma correspondência exata com um texto de referência, e pequenas diferenças podem ter um impacto na pontuação final. Essas diferenças podem incluir desvios na morfologia, uso de sinônimos e ordem gramatical.

Qualquer coisa que possa ser considerada tecnicamente ou mais ou menos correta por um avaliador humano pode ser penalizada na avaliação automática. No entanto, o número de correspondências exatas, especialmente quando se considera uma grande amostra de texto, geralmente é suficiente para viabilizar o uso da avaliação automática.

Métricas de avaliação automática

Atualmente, existem várias métricas de avaliação automática diferentes disponíveis. Aqui estão alguns exemplos dos que estão em uso:

 

      BLEU (Substituta de Avaliação Bilíngue)

      NIST (do Instituto Nacional de Padrões e Tecnologia)

      METEOR (Métrica para Avaliação de Tradução com Ordenação Explícita)

      LEPOR (Penalidade de Comprimento, Pprecisão, Penalidade de Diferença de Posição de n gramas e recall)

      COMETA 

      PRIS

      TER (Taxa de Erro de Tradução)

Cada métrica funciona com algoritmos diferentes e, como tal, lida com o processo de avaliação automática de forma diferente. Isso significa que eles têm pontos fortes e fracos diferentes e diferem quanto aos tipos de erros aos quais aplicam penalidades maiores ou menores.

BLEU, a métrica mais popular

De todas as métricas listadas acima, a BLEU é a mais usada. Foi uma das primeiras métricas a atingir um alto nível de correlação com a avaliação humana e gerou muitas variações diferentes.

Funciona assim: frases individuais são pontuadas em relação a um conjunto de traduções de referência de alta qualidade. Essas pontuações são então calculadas, e o número resultante é a pontuação BLEU final para esse sistema MT. Essa pontuação representa até que ponto a saída do sistema MT corresponde à tradução humana de referência, que é o marcador de qualidade.

As pontuações são calculadas usando unidades chamadas n-gramas, que se referem a segmentos de texto consecutivo. Voltando à frase anterior, por exemplo:

A rápida raposa marrom pulou sobre o cachorro preguiçoso.

Isso pode ser dividido em n-gramas de diferentes comprimentos. Um de 2 gramas, por exemplo, seria “A rápida”, “rápida marrom” ou “raposa marrom”. Um de 3 gramas seria “A rápida marrom” ou “rápida raposa marrom”. Um de 4 gramas seria “A raposa marrom rápida”. E assim por diante.

É um processo matemático complexo, mas, em termos básicos, o algoritmo do BLEU calcula a pontuação verificando o número de sobreposições entre n-gramas. A pontuação calculada estará entre 0 e 1, com 1 representando uma correspondência completamente idêntica entre a referência e a frase de saída. Agora, considere a seguinte variação na frase de exemplo:

A rápida raposa marrom pulou sobre o cachorro preguiçoso.

Todos os n-gramas corresponderão, exceto aqueles que têm a palavra “rápida”. Outro exemplo:

A rápida raposa marrom pulou sobre o cachorro.

Neste exemplo, a palavra “preguiçoso” está ausente, o que também afeta negativamente a sobreposição. Em ambos os casos, a pontuação BLEU ainda seria alta, mas menor que 1.

Na prática, poucas frases mostrarão esse alto nível de correlação. Dessa forma, as pontuações do BLEU se tornam estatisticamente significativas somente quando tomadas no contexto de uma grande amostra de texto ou corpora.

É claro que existem outros fatores que influenciam o cálculo da pontuação BLEU, como penalidades por palavras extras ou frases muito curtas. Outros sistemas de pontuação derivada foram desenvolvidos para compensar suas deficiências, mas o BLEU permanece altamente cotado e continua sendo o sistema de avaliação de MT mais usado atualmente.

Palavras finais sobre avaliação de MT

E isso abrange os fundamentos da avaliação de tradução automática. Como mostramos, a avaliação de um sistema de MT pode ser feita por meio de avaliação humana ou avaliação automática. Ambos os processos têm suas vantagens e desvantagens.

A avaliação humana é o padrão-ouro em termos de qualidade, mas é cara e demorada. A tradução automática não é tão precisa, mas é rápida e escalável. Dessa forma, os dois tipos têm seus casos de uso específicos em que se destacam.