10/05/2024

Évaluation de la traduction automatique : Le guide ultime

Supposons que vous soyez une entreprise qui a décidé d'investir dans un système de traduction automatique. Vous avez fait quelques petites recherches et vous vous rendez compte qu'il existe une infinité d'options. Chaque système prétend marquer un certain nombre de points sur la base de certaines métriques, mais vous ignorez ce que ces chiffres signifient réellement. Comment savoir lequel vous convient le mieux ?

Vous devez comprendre comment fonctionne l'évaluation de la traduction automatique.

Cet article étudie le sujet en profondeur. Il vous aidera à comprendre de quoi il s'agit, pourquoi vous en avez besoin et quels sont les différents types d'évaluation. Ainsi, vous pourrez prendre une décision éclairée lorsque vous choisirez d'investir dans un système de TA.

Introduction : Qu'est-ce que l'évaluation de la traduction automatique ?

L'évaluation de la traduction automatique fait référence aux différents processus de mesure des performances d'un système de traduction automatique.

C'est un moyen d'évaluer la qualité de la TA afin de connaître celle du système et de disposer d'une base solide pour effectuer des comparaisons en termes d'efficacité par rapport à d'autres systèmes de TA. Pour ce faire, l'évaluation de la traduction automatique repose sur des métriques quantifiables.

Quelle est l'importance des métriques d'évaluation de la traduction automatique ?

L'évaluation des performances d'un système de TA est nécessaire pour deux grandes raisons. La première consiste à vérifier s'il est suffisamment bon pour une application dans la vie réelle. La seconde est de servir de guide en matière de recherche et développement.

Vérifier s'il est suffisamment bon pour une application dans la vie réelle

Bien entendu, il s'agit tout d'abord de déterminer si le système de TA fonctionne à un niveau suffisamment élevé pour un usage concret. C'est la raison qui revêt le plus d'importance aux yeux des utilisateurs finaux. Si les performances du système de traduction automatique sont médiocres, les utilisateurs sont plus susceptibles de se tourner vers une autre solution.

Les secteurs industriels qui utilisent la TA veulent également disposer de métriques précises pour déterminer le système de TA qu'ils vont choisir. La TA est avant tout un investissement et les entreprises ont besoin du meilleur rapport qualité/prix.

Par conséquent, les développeurs de systèmes de TA doivent évaluer si la qualité du système de traduction automatique est suffisamment bonne pour qu'ils puissent le fournir à leurs clients.

Servir de guide en matière de recherche et développement

En principe, les systèmes de TA ne sont pas des entités statiques. La technologie de la TA ne cesse de s'améliorer au fil du temps. Il est donc normal que les systèmes de TA s'améliorent également.

C'est là que la recherche entre en jeu, et les chercheurs ont besoin d'un guide pour s'orienter. Des métriques mesurables permettent aux chercheurs de comparer si une approche donnée est meilleure qu'une autre, ce qui les aide à perfectionner le système.

C'est particulièrement utile pour observer la manière dont le système traite les erreurs de traduction incohérente. Des métriques mesurables peuvent montrer, dans un cadre plus contrôlé, si une approche spécifique est capable ou non de traiter ce type d'erreurs.

Comment évaluer le succès de la traduction automatique ?

Il existe deux façons différentes de déterminer les performances d'un système de TA. L'évaluation humaine est effectuée par des experts humains qui procèdent à une évaluation manuelle, tandis que l'évaluation automatique utilise des métriques basées sur l'intelligence artificielle et spécialement développées pour évaluer la qualité des traductions sans intervention humaine. Chaque méthode a ses avantages et ses inconvénients. Nous reviendrons plus en détail sur les deux types d'évaluation de la traduction automatique dans les sections suivantes de cet article. En attendant, voici un bref aperçu des deux méthodes et des approches d'évaluation de la TA qui les utilisent.

Évaluation humaine vs Évaluation automatique

L'évaluation humaine de la traduction automatique consiste à faire évaluer la qualité de la traduction par des traducteurs professionnels. C'est l'option la plus efficace pour déterminer la qualité des traductions automatiques au niveau des phrases. Toutefois, l'évaluation humaine, tout comme la traduction humaine, est par nature plus coûteuse et prend plus de temps.

L'évaluation automatique, quant à elle, utilise des programmes conçus spécifiquement pour évaluer la qualité de la traduction automatique selon différentes méthodes. Elle n'est pas aussi fiable que l'évaluation humaine au niveau des phrases, mais constitue une bonne option évolutive pour évaluer la qualité globale des traductions de plusieurs documents.

Approches d'évaluation de la TA

Les approches d'évaluation de la traduction automatique sont basées sur le concept de granularité. C'est-à-dire les différents niveaux auxquels l'évaluation peut être considérée comme pertinente.

Approche basée sur les phrases. Selon cette approche, chaque phrase se voit attribuer une note indiquant si sa traduction est bonne (1) ou mauvaise (0) et une moyenne est calculée pour le total. Cela se fait généralement lors de l'évaluation humaine.

Approche basée sur les documents. Connue également sous le nom d'approche basée sur un corpus, les phrases sont également notées, mais la note retenue est le total ou la moyenne d'un ensemble plus large de documents. Il s'agit du plus petit niveau auquel l'évaluation automatique de la TA peut être considérée comme pertinente, étant donné qu'elle dépend fortement des statistiques d'un vaste ensemble de données.

Approche contextuelle. Cette approche se distingue des précédentes dans la mesure où elle tient compte de l'adéquation de l'ensemble de la tâche de TA avec les objectifs poursuivis, plutôt que des scores moyens basés sur les phrases. C'est pourquoi on peut considérer qu'il s'agit d'une approche holistique d'évaluation de la TA.

Défis de l'évaluation de la traduction automatique

L'évaluation de la traduction automatique est un processus difficile. En effet, la langue elle-même est très complexe à la base.

D'un côté, il peut y avoir plusieurs traductions correctes. Prenons par exemple la phrase suivante :

Le renard brun et rapide a sauté par-dessus le chien paresseux.

Un système de TA pourrait générer la traduction suivante à la place :

Le renard brun et rapide s'est jeté sur le chien indolent.

Cette traduction est techniquement correcte et, lors d'une évaluation humaine, elle devrait normalement être notée comme telle. En revanche, elle serait considérée comme incorrecte selon l'évaluation automatique.

De petits détails peuvent également modifier tout le sens d'une phrase.

Le renard brun et rapide a sauté sur le chien paresseux.

Ici, il n'y a qu'un seul mot qui a été modifié. Pourtant, ce seul mot change complètement le sens de la phrase. Les évaluations automatiques sont susceptibles d'attribuer une note supérieure à celle de l'exemple précédent. Les traducteurs humains sont capables de déceler l'erreur, mais certains peuvent la considérer comme correcte.

Cela est dû au fait que la langue peut avoir un caractère subjectif. Même les évaluateurs humains peuvent avoir des avis différents sur la qualité d'une traduction.

Évaluation humaine : L'étalon-or

Maintenant que nous avons passé en revue les fondamentaux, examinons en détail les deux types d'évaluation de la TA, en commençant par l'évaluation humaine.

À la base, l'objectif de la traduction automatique est de traduire un texte d'une langue source vers une langue cible à un niveau compréhensible par l'homme. Les humains constituent donc le meilleur point de référence pour évaluer la qualité de la traduction automatique.

Types d'évaluation humaine

L'évaluation humaine se fait de différentes manières. C'est ce que nous allons voir à présent :

Évaluation directe

Il s'agit de la forme la plus simple d'évaluation humaine. Les traductions automatiques sont évaluées au niveau des phrases.

Le problème de l'évaluation directe est que les critères varient considérablement d'un expert à l'autre. Certains auront tendance à opter pour les extrêmes en termes d'évaluation, en notant les traductions comme étant soit très mauvaises, soit très bonnes. D'autres peuvent se montrer plus réservés, en attribuant aux mêmes phrases des notes plus proches de la moyenne.

Une fois encore, la subjectivité constitue un autre défi. Pour déterminer si une phrase est une mauvaise traduction ou non, les évaluateurs doivent prendre des décisions sur la base d'un langage parfois ambigu. Reprenons l'exemple de la phrase :

Le renard brun et rapide a sauté par-dessus le canidé paresseux.

Dans ce cas, le terme « canidé » n'est pas nécessairement erroné, mais il n'est pas non plus le plus approprié. Certains évaluateurs peuvent le considérer comme suffisant, tandis que d'autres peuvent le qualifier de complètement faux. Par exemple, si l'évaluation se fait sur une échelle de 5 points, certains traducteurs peuvent donner une note de 4, tandis que d'autres ne donneront qu'une note de 2.

Ces défis peuvent être surmontés en faisant appel à un plus grand nombre d'évaluateurs, ce qui permettra de normaliser les notes sur le plan statistique.

Classement

Le classement est un autre moyen d'évaluer les systèmes de traduction automatique par le biais d'une expertise humaine.

Dans ce cas, les évaluateurs ne fournissent pas de notes individuelles pour les phrases, mais comparent les traductions provenant de différents systèmes de TA. Ils décident ensuite laquelle est la meilleure traduction, laquelle est la deuxième meilleure, et ainsi de suite.

L'avantage de cette méthode par rapport à l'évaluation directe est qu'elle fournit immédiatement une comparaison franche, contrairement à la confrontation de scores générés au cours de différents essais et éventuellement par des évaluateurs différents.

Cependant, elle souffre toujours du défi de la subjectivité. Des systèmes de TA différents sont susceptibles de produire des erreurs différentes. Par exemple :

Le renard vert et rapide a sauté par-dessus le chien paresseux.

Renard brun et rapide a sauté par-dessus chien paresseux.

Le renard brun et rapide saute par-dessus le chien paresseux.

Chaque phrase comporte une erreur élémentaire. La première est mal traduite. La seconde omet des articles. Dans la troisième, le temps verbal est manquant.

Les évaluateurs doivent alors décider quelle erreur est plus importante que l'autre, et là encore, les évaluateurs peuvent avoir des avis différents sur la question.

Effort de post-édition

Si l'objectif de l'utilisateur d'un système de TA est de préparer des documents pour la post-édition, il existe également des moyens de l'évaluer en fonction des efforts nécessaires à la post-édition.

L'objectif fondamental de la post-édition est de permettre au traducteur de travailler plus rapidement que s'il devait traduire un texte en partant de zéro. Ainsi, la manière la plus simple d'évaluer un système de TA pour la post-édition est de mesurer le temps nécessaire au traducteur pour corriger le résultat de la traduction automatique.

Une autre façon de mesurer l'effort de post-édition consiste à tabuler le nombre de touches qu'il faudrait appuyer sur le clavier pour remplacer le texte traduit automatiquement par une traduction de référence humaine. Cela ne dépend pas des contraintes de temps, mais ne prend pas non plus en compte la possibilité de plusieurs traductions correctes.

Évaluation basée sur les tâches

Il y a ensuite l'évaluation basée sur les tâches qui, comme son nom l'indique, permet d'évaluer un système de TA en fonction de son adéquation à la tâche à accomplir. Par exemple, s'il est utilisé dans le cadre d'un webinaire multilingue, les participants pourraient être invités à évaluer leur expérience avec une transcription traduite automatiquement. Cela revient à évaluer le succès du système de TA dans son ensemble.

Le problème de cette approche est qu'elle est très ouverte à l'introduction d'autres éléments non contrôlés susceptibles d'affecter la note attribuée par les évaluateurs. C'est pourquoi l'utilisation de l'évaluation basée sur les tâches est très conjoncturelle.

Défis majeurs de l'évaluation humaine

Comme vous pouvez le constater, les différents types d'évaluation humaine de la TA présentent leurs propres défis. Il y a également des défis communs à toutes ces méthodes et qui concernent la cohérence ou le consensus.

Accord inter-annotateur

Il s'agit de la concordance des notes attribuées par différents évaluateurs. Comme indiqué précédemment, différents évaluateurs auront des tendances différentes dans la manière dont ils notent les mêmes segments de texte. Certains peuvent les noter aux extrêmes et d'autres au milieu. Lorsqu'il s'agit de classer les différents moteurs de TA, leurs opinions peuvent également varier. C'est pourquoi il est important d'avoir plusieurs évaluateurs, afin que la distribution des scores soit normalisée.

Accord intra-annotateur

La manière dont un même évaluateur note un texte est également une mesure de validité.Un évaluateur peut attribuer une certaine note à une phrase la première fois, mais il peut changer d'avis lorsqu'il répète le même test. Une mesure élevée de l'accord intra-annotateur garantit que l'évaluateur choisi peut être considéré comme constant et fiable.

Évaluation automatique : L'option évolutive

L'évaluation humaine est considérée comme la référence absolue lorsqu'il s'agit d'évaluer la qualité de la traduction automatique. Cependant, il s'agit d'une démarche exigeante en termes d'efforts et de temps. C'est pourquoi les chercheurs du domaine ont développé différents moyens d'évaluer la qualité de la traduction automatique par le biais de processus automatisés.

Ces processus sont conçus pour se rapprocher de la manière dont les humains évalueront le système de TA. Bien sûr, ils sont loin d'être parfaits à cet égard, mais l'évaluation automatique a encore des applications très importantes.

L'avantage principal de l'évaluation automatique par rapport à celle humaine est son évolutivité. Il est bien plus rapide d'effectuer des centaines d'évaluations automatiques qu'une seule évaluation humaine. Il s'agit donc d'une solution idéale pour effectuer des ajustements ou optimiser le système TA, ce qui nécessite des résultats rapides.

Défis de l'évaluation automatique

Contrairement aux humains, les machines n'ont pas la capacité de saisir les différentes nuances de l'usage de la langue. Les systèmes d'évaluation automatique reposent sur une correspondance exacte entre la TA et le texte de référence. Ainsi, des différences mineures peuvent avoir un impact sur le résultat final. Ces différences incluent des écarts dans la morphologie, l'utilisation de synonymes et l'ordre grammatical.

Tout ce qui est considéré comme techniquement ou plus ou moins correct par un évaluateur humain peut parfois ne pas l'être lors de l'évaluation automatique. Néanmoins, le nombre de correspondances exactes, en particulier lorsqu'il s'agit d'un important échantillon de texte, est souvent suffisant pour permettre l'utilisation d'une évaluation automatique.

Métriques d'évaluation automatique

Il existe aujourd'hui plusieurs métriques d'évaluation automatique. Voici quelques exemples de celles qui sont utilisées :

● BLEU (Bilingual Evaluation Understudy)

● NIST (de l'Institut national des normes et de la technologie)

● METEOR (Métrique pour l'évaluation de la traduction avec commande explicite)

● LEPOR (Length-Penalty, Precision, n-gram Position Difference Penalty and Recall)

● COMET

● PRIS

● TER (Taux d'erreur de traduction)

Chacune de ces métriques fonctionne avec des algorithmes différents et, de ce fait, traite le processus d'évaluation automatique différemment. Autrement dit, ils présentent des atouts et des faiblesses différents, et diffèrent quant aux types d'erreurs qu'ils sanctionnent plus ou moins lourdement.

BLEU, la métrique la plus populaire

De toutes les métriques mentionnées ci-dessus, BLEU apparaît comme étant la plus utilisée. Elle a été l'une des premières métriques à atteindre un niveau élevé de corrélation avec l'évaluation humaine et a donné lieu à de nombreuses variantes.

Son fonctionnement consiste à évaluer les phrases individuellement par rapport à un ensemble de traductions de référence de haute qualité. La moyenne de ces scores est ensuite calculée et le résultat obtenu est le score BLEU final pour ce système de traduction automatique. Ce score représente le degré de correspondance entre le résultat du système de traduction automatique et la traduction de référence humaine, qui est le marqueur de qualité.

Les scores sont calculés à l'aide d'unités appelées n-grammes, qui se réfèrent à des segments de texte consécutifs. Reprenons l'exemple de la phrase précédente :

Le renard brun et rapide a sauté par-dessus le chien paresseux.

Elle peut être divisée en n-grammes de différentes longueurs. Par exemple, un 2-gramme serait « le renard », « renard brun » ou « chien paresseux ». Un 3 grammes serait « Le renard brun » ou « brun et rapide ». Un 4 grammes serait « renard brun et rapide ». Et ainsi de suite.

Il s'agit d'un processus mathématique complexe, mais en termes simples, l'algorithme BLEU calcule le score en vérifiant le nombre de chevauchements entre les n-grammes. Le score calculé sera compris entre 0 et 1, 1 indiquant une correspondance totalement identique entre la phrase de référence et la phrase finale. Prenons maintenant la variante suivante de l'exemple de phrase :

Le rapide renard brun a sauté par-dessus le chien paresseux.

Tous les n-grammes correspondront à l'exception de ceux qui contiennent le mot « rapide ». Un autre exemple :

Le rapide renard brun a sauté par-dessus le chien.

Dans cet exemple, le mot « paresseux » est absent, ce qui a également un impact négatif sur le chevauchement. Dans les deux cas, le score BLEU serait toujours élevé, mais inférieur à 1.

Dans la pratique, peu de phrases présentent un niveau de corrélation aussi élevé. Ainsi, les scores BLEU ne deviennent statistiquement significatifs que lorsqu'ils sont pris dans le contexte d'un important échantillon de texte, ou corpus.

D'autres facteurs sont évidemment pris en compte dans le calcul du score BLEU, tels que les pénalités pour les mots supplémentaires ou les phrases très courtes. D'autres systèmes de notation dérivés ont été développés pour compenser ses lacunes, mais BLEU reste très apprécié et demeure le système d'évaluation de la TA le plus utilisé à ce jour.

Conclusion sur l'évaluation de la TA

Voilà pour les bases de l'évaluation des traductions automatiques. Comme nous l'avons montré, l'évaluation d'un système de TA peut se faire par le biais d'une évaluation humaine ou d'une évaluation automatique. Les deux procédés présentent des avantages et des inconvénients.

L'évaluation humaine est la référence en termes de qualité, mais reste onéreuse et fastidieuse. La traduction automatique n'est pas aussi précise, mais elle est rapide et évolutive. Par conséquent, ces deux types de systèmes se distinguent par des cas d'utilisation spécifiques.