13/05/2024

Avaliação da tradução automática: O guia definitivo

Digamos que é uma empresa que decidiu investir num sistema de tradução automática. Fez uma pesquisa básica e descobriu que há muitas opções que pode escolher. Cada uma afirma ter uma certa pontuação com base em determinadas métricas, mas não sabe o que os números realmente significam. Como sabe qual é o mais adequado para si?

Precisa de compreender como a avaliação da tradução automática funciona.

Este artigo abordará detalhadamente o tópico da avaliação da tradução automática. Isso ajudá-lo-á a compreender o que é, por que precisa dela e os diferentes tipos de avaliação, para ajudá-lo a tomar uma decisão bem informada quando escolher um sistema de TA em que investir.

Introdução: O que é avaliação de tradução automática?

A avaliação da tradução automática refere-se aos diferentes processos de medição do desempenho de um sistema de tradução automática.

É uma forma de avaliar a qualidade da TA para que seja possível conhecer as competências do sistema, e há uma base sólida para comparar a eficácia de diferentes sistemas de TA. Para tal, a avaliação da tradução automática utiliza métricas quantificáveis.

Por que motivo as métricas de avaliação da tradução automática são importantes?

Há duas razões principais pelas quais é importante realizar a avaliação do desempenho de um sistema de TA. A primeira é verificar se é bom o suficiente para ser usado no mundo real. A segunda é servir como guia para pesquisa e desenvolvimento.

Para verificar se é bom o suficiente para ser usado no mundo real

Primeiro, evidentemente, é determinar se o sistema de TA funciona num nível que seja bom o suficiente para uso real. Esse é o motivo mais diretamente relevante para os utilizadores finais. Se o sistema de tradução automática funcionar mal, é mais provável que os utilizadores escolham outra opção.

Os setores industriais que utilizam TA também gostariam de ter acesso a métricas concretas para os ajudar a decidir qual o sistema de TA que devem obter. Afinal, a TA é um investimento e as empresas precisam obter a melhor relação de custo-benefício possível.

Como tal, os programadores de TA precisam de avaliar se a qualidade do sistema de tradução automática é boa o suficiente para o enviar aos clientes.

Para servir como guia para pesquisa e desenvolvimento

Idealmente, os sistemas de TA não são uma entidade estática. A tecnologia para TA está constantemente a ser melhorada ao longo do tempo. Faz sentido que se espere que os sistemas de TA também melhorem.

É aqui que entra a pesquisa, e os pesquisadores precisam de ter um guia para saberem onde procurar. Métricas mensuráveis permitem aos pesquisadores comparem se uma abordagem específica é melhor do que outra, ajudando-os a ajustar o sistema.

Isso é especialmente bom para ver como o sistema lida com erros de tradução consistentes. Ter métricas mensuráveis pode mostrar, num ambiente mais controlado se uma abordagem específica é capaz ou não de lidar com esses tipos de erros.

Como se avalia o sucesso da tradução automática?

Há duas maneiras diferentes de determinar o desempenho de um sistema de TA. A avaliação humana é feita por especialistas humanos que fazem uma avaliação manual, enquanto que a avaliação automática usa métricas baseadas em IA especialmente desenvolvidas para avaliar a qualidade da tradução sem intervenção humana. Cada uma tem as suas próprias vantagens e desvantagens. Vamos entrar em mais detalhes sobre os dois tipos de avaliação de TA nas seções posteriores deste artigo, mas primeiro, aqui está uma visão geral rápida dos dois tipos de avaliação de tradução automática, assim como das abordagens de avaliação de TA que fazem uso deles.

Avaliação humana versus avaliação automática

A avaliação humana da tradução automática significa que a avaliação da qualidade da tradução é feita por tradutores profissionais humanos. Essa é a opção mais eficaz para determinar a qualidade das traduções automáticas até ao nível das frases. Mas a avaliação humana, assim como a tradução humana, é por natureza mais cara e demorada.

A avaliação automática, por outro lado, utiliza programas criados especificamente para avaliar a qualidade da tradução automática de acordo com métodos diferentes. Não é tão fiável quanto a avaliação humana ao nível das frases, mas é uma boa opção escalável para avaliar a qualidade geral da tradução em vários documentos.

Abordagens para avaliação de TA

As abordagens para a avaliação da tradução automática são baseadas no conceito de granularidade. Ou seja, os diferentes níveis aos quais a pontuação pode ser considerada significativa.

Abordagem baseada em frases. Ao abrigo desta abordagem, cada frase recebe uma pontuação dizendo se a sua tradução é boa (1) ou má (0) e o total recebe uma média. Esta abordagem é mais comum na avaliação humana.

Abordagem baseada em documentos. Também conhecida como abordagem baseada no corpo, as frases também recebem pontuações, mas a pontuação significativa é o total ou a média de um conjunto maior de documentos. Esse é o nível mais pequeno ao qual a avaliação automatizada de TA pode ser considerada significativa, pois depende muito das estatísticas de um amplo conjunto de dados.

Abordagem baseada no contexto. Esta abordagem difere das anteriores, pois o que ela toma em consideração é o quão bem a tarefa geral de TA se adapta aos propósitos para os quais está a ser utilizada, em vez de se basear em pontuações médias baseadas em frases. Como tal, pode ser considerada uma abordagem holística para a avaliação de TA.

Desafios na avaliação da tradução automática

A avaliação da tradução automática é um processo difícil. Isso deve-se ao fato de que a linguagem em si é uma coisa muito complexa.

Por um lado, podem haver várias traduções corretas. Veja, por exemplo, a seguinte frase:

A raposa castanha rápida saltou por cima do cão preguiçoso.

Em vez disso, um sistema de TA pode gerar a seguinte tradução:

A raposa castanha rápida atacou o cão indolente.

Esta é uma tradução tecnicamente correta e, na avaliação humana, normalmente seria marcada como tal. Mas, na avaliação automatizada, ela seria marcada como incorreta.

Pequenos detalhes também podem mudar completamente o significado de uma frase.

A raposa castanha rápida saltou em cima do cachorro preguiçoso.

Aqui, há apenas uma palavra que foi alterada. Mas essa palavra muda completamente o significado da frase. É provável que as avaliações automáticas a marquem com uma pontuação maior que a do exemplo anterior. É provável que tradutores humanos detetem o erro, mas alguns podem considerá-lo correto.

E isso é porque a linguagem pode ser subjetiva. Até mesmo avaliadores humanos podem diferir nos seus julgamentos relativamente à precisão de uma tradução.

Avaliação humana: O padrão de qualidade

Agora que examinámos o básico, vamos examinar detalhadamente os dois tipos de avaliação de TA, começando com a avaliação humana.

No nível mais básico, o objetivo da tradução automática é traduzir texto de uma língua de origem para uma língua de destino a um nível que os humanos possam compreender. Como tal, os humanos são o melhor ponto de referência para avaliar a qualidade da tradução automática.

Tipos de avaliação humana

Há várias maneiras diferentes de fazer a avaliação humana, que abordaremos agora:

Avaliação direta

Esse é o tipo mais simples de avaliação humana. O texto produzido pela tradução automática é pontuado ao nível da frase.

O desafio da avaliação direta é que diferentes juízes variam muito na forma como pontuam. Alguns tendem a ir para os extremos em termos de pontuação, marcando as traduções como muito más ou muito boas. Outros podem jogar de forma mais conservadora, marcando as mesmas frases com pontuações mais medianas.

Outro desafio é, mais uma vez, a subjetividade. Quando julgam se uma frase é uma tradução má ou não, os avaliadores precisam de tomar decisões relativamente a linguagem ambígua. Voltando ao exemplo:

A raposa castanha rápida saltou por cima do canino preguiçoso.

Aqui, “canino” não está necessariamente errado, mas também não é a palavra mais adequada. Alguns avaliadores podem considerá-la suficientemente boa, enquanto que outros podem sinalizá-la como completamente errada. Por exemplo, se a pontuação for feita numa escala de 5 pontos, alguns tradutores podem marcá-la como 4, enquanto que outros podem atribuir-lhe apenas 2.

Esses desafios podem ser compensados com o emprego de um grupo maior de avaliadores, o que permitirá que as pontuações sejam normalizadas em termos estatísticos.

Classificação

Outra forma de avaliar os sistemas de tradução automática por meio da avaliação humana é a classificação.

Nesse caso, os avaliadores não fornecem pontuações individuais para as frases, mas comparam as traduções de diferentes sistemas de TA. Eles então decidem qual é a melhor tradução, qual é a segunda melhor e assim por diante.

A vantagem desse método sobre a avaliação direta é que ele fornece imediatamente uma comparação direta, em vez de comparar pontuações que foram geradas em diferentes ensaios e, possivelmente, por diferentes avaliadores.

No entanto, ainda sofre com o desafio da subjetividade. É provável que diferentes sistemas de TA apresentem erros diferentes. Por exemplo:

A raposa verde rápida saltou por cima do cão preguiçoso.

Raposa castanha rápida saltou por cima de cão preguiçoso.

A raposa castanha rápida saltar por cima do cão preguiçoso.

Cada frase tem um erro simples. O primeiro tem um erro de tradução. O segundo omite artigos. No terceiro, faltam tempos verbais.

Os avaliadores agora precisam de decidir qual dos erros é mais importante do que os outros e, mais uma vez, os avaliadores podem ter opiniões diferentes sobre o assunto.

Esforço de pós-edição

Se o objetivo do utilizador para um sistema de TA é preparar documentos para pós-edição, também existem maneiras de avaliá-lo de acordo com a quantidade de esforço necessário para a pós-edição.

O objetivo fundamental da pós-edição é permitir que um tradutor trabalhe mais depressa do que seria possível se estivesse a traduzir um texto do zero. Como tal, a maneira mais simples de avaliar um sistema de TA para pós-edição é medir o tempo que o tradutor demora a corrigir o texto produzido pela tradução automática.

Outra maneira de medir o esforço de pós-edição é tabular o número de toques no teclado necessários para substituir o texto traduzido automaticamente por uma tradução de referência humana. Este método é independente das restrições de tempo, mas também não leva em consideração a possibilidade de várias traduções corretas.

Avaliação baseada em tarefas

Em seguida, temos a avaliação baseada em tarefas que, como o nome sugere, avalia um sistema de TA com base na sua adequação para a tarefa em questão. Por exemplo, se for usado num ambiente de webinar multilíngue, pode ser solicitado aos participantes que avaliem a sua experiência com uma transcrição traduzida automaticamente. Isso significa que eles estão a avaliar o sucesso do sistema de TA como um todo.

O problema com essa abordagem é que ela está muito aberta à introdução de outros elementos não controlados que podem afetar a classificação atribuída pelos avaliadores. Como tal, o uso da avaliação baseada em tarefas é muito situacional.

Desafios gerais na avaliação humana

Como pode ver, os diferentes tipos de avaliação humana da TA apresentam os seus próprios desafios. Há também alguns desafios que eles partilham, em geral, e têm a ver com consistência ou a concordância.

Concordância entre anotadores

Isso refere-se à consistência das pontuações entre os diferentes avaliadores. Como mencionámos anteriormente, diferentes avaliadores terão tendências variadas na maneira como pontuam os mesmos segmentos de texto. Alguns podem pontuá-los nos extremos ou no meio. Ao classificar diferentes motores de TA, suas opiniões também podem variar. É por isso que é importante ter vários avaliadores, para que a distribuição das pontuações seja normalizada.

Consistência de cada anotador

A maneira como um único avaliador pontua um texto também é uma medida de validade. Um avaliador pode pontuar uma frase como boa ou má na primeira vez, mas pode mudar de ideia ao repetir o mesmo teste. Ter uma alta medição da consistência de cada anotador garante que o avaliador escolhido pode ser considerado consistente e fiável.

Avaliação automática: A opção escalável

A avaliação humana é considerada o padrão de qualidade relativamente à avaliação da qualidade da tradução automática. No entanto, é um empreendimento caro em termos de esforço e tempo. É por isso que pesquisadores da área desenvolveram diferentes meios de avaliar a qualidade de TA por meio de processos automatizados.

Esses processos são projetados para se assemelharem à maneira como os humanos avaliarão o sistema de TA. Obviamente, eles estão longe de serem perfeitos nisso, mas a avaliação automática ainda tem casos de uso muito importantes.

A principal vantagem da avaliação automática sobre a avaliação humana é o fato de que pode ser escalada. É muito mais rápido executar centenas de instâncias de avaliação automática do que até mesmo uma rodada de avaliação humana. Isso torna-a uma solução ideal para fazer ajustes ou otimizar o sistema de TA, que precisa de resultados rápidos.

Desafios na avaliação automática

Ao contrário dos humanos, as máquinas não estão equipadas para lidar com as diferentes nuances do uso da linguagem. Os sistemas de avaliação automática têm como premissa o fato de a TA ter uma correspondência exata com um texto de referência, e pequenas diferenças podem ter um impacto na pontuação final. Essas diferenças podem incluir desvios na morfologia, uso de sinónimos e ordem gramatical.

Qualquer coisa que possa ser considerada tecnicamente ou mais ou menos correta por um avaliador humano pode ser penalizada na avaliação automática. No entanto, o número de correspondências exatas, especialmente quando se considera uma grande amostra de texto, geralmente é suficiente para viabilizar o uso da avaliação automática.

Métricas de avaliação automática

Atualmente, existem várias métricas de avaliação automática diferentes disponíveis. Aqui estão alguns exemplos das que estão a ser usadas:

● BLEU (Substituta de Avaliação Bilíngue)

● NIST (do Instituto Nacional de Normas e Tecnologia)

● METEOR (Métrica para Avaliação de Tradução com Ordenação Explícita)

● LEPOR (Penalidade de Comprimento, Precisão, Penalidade de Diferença de Posição de n-gramas e Retirada)

● COMET

● PRIS

● TER (Taxa de Erros de Tradução)

Cada métrica funciona em algoritmos diferentes e, como tal, lida com o processo de avaliação automática de maneira diferente. Isso significa que elas têm pontos fortes e fracos diferentes e diferem relativamente aos tipos de erros aos quais aplicam penalidades maiores ou menores.

BLEU, a métrica mais popular

De todas as métricas listadas acima, a BLEU é a mais usada. Foi uma das primeiras métricas a atingir um nível elevado de correlação com a avaliação humana e gerou muitas variações diferentes.

Funciona assim: frases individuais são pontuadas relativamente a um conjunto de traduções de referência de alta qualidade. A média dessas pontuações é calculada, e o número resultante é a pontuação BLEU final para esse sistema de TA. Essa pontuação representa até que ponto o texto produzido pelo sistema de TA corresponde à tradução humana de referência, que é o marcador de qualidade.

As pontuações são calculadas usando unidades chamadas n-gramas, que se referem a segmentos de texto consecutivo. Voltando à frase anterior, por exemplo:

A raposa castanha rápida saltou por cima do cão preguiçoso.

Ela pode ser dividida em n-gramas de diferentes comprimentos. Um de 2-gramas, por exemplo, seria “A raposa”, “castanha rápida” ou “raposa castanha”. Um de 3-gramas seria “A raposa castanha” ou “raposa castanha rápida”. Um de 4-gramas seria “A raposa castanha rápida”. E assim por diante.

É um processo matemático complexo, mas, em termos básicos, o algoritmo do BLEU calcula a pontuação verificando o número de sobreposições entre n-gramas. A pontuação calculada estará entre 0 e 1, com 1 a representar uma correspondência completamente idêntica entre a referência e a frase produzida. Agora, considere a seguinte variação na frase de exemplo:

A raposa castanha veloz saltou por cima do cão preguiçoso.

Todos os n-gramas corresponderão, exceto aqueles que têm a palavra “veloz”. Outro exemplo:

A raposa castanha rápida saltou por cima do cão.

Neste exemplo, a palavra “preguiçoso” está ausente, o que também afeta negativamente a sobreposição. Em ambos os casos, a pontuação do BLEU ainda seria alta, mas menor que 1.

Na prática, poucas frases mostrarão esse alto nível de correlação. Como tal, as pontuações do BLEU tornam-se estatisticamente significativas apenas quando consideradas no contexto de uma grande amostra de texto ou corpora.

É claro que existem outros fatores que influenciam o cálculo da pontuação do BLEU, como, por exemplo, penalidades por palavras extras ou frases muito curtas. Outros sistemas de pontuação derivada foram desenvolvidos para compensar as suas deficiências, mas o BLEU permanece altamente classificado e permanece o sistema de avaliação de TA mais usado atualmente.

Palavras finais sobre a avaliação de TA

E isso abrange os fundamentos da avaliação de tradução automática. Como mostrámos, a avaliação de um sistema de TA pode ser feita por meio de avaliação humana ou avaliação automática. Ambos os processos têm vantagens e desvantagens.

A avaliação humana é o padrão de qualidade, mas é cara e demorada. A tradução automática não é tão precisa, mas é rápida e escalável. Portanto, os dois tipos têm seus casos de uso específicos em que se destacam.