10/05/2024
Supposons que votre entreprise ait décidé d’investir dans un système de traduction automatique. Vous avez effectué quelques recherches de base et vous avez découvert qu’il y avait une pléthore d’options parmi lesquelles choisir. Chacune d’entre elles prétend obtenir un certain nombre de points sur la base de certains indicateurs, cependant vous ne savez pas ce que signifient réellement les chiffres. Comment déterminer quel système vous convient le mieux?
Vous devez comprendre comment fonctionne l’évaluation de la traduction automatique.
Cet article aborde en profondeur le sujet de l’évaluation de la traduction automatique. Il vous aidera à comprendre de quoi il s’agit, pourquoi vous en avez besoin et les différents types d’évaluation, pour vous aider à prendre une décision éclairée lors du choix d’un système de TA dans lequel investir.
L’évaluation de la traduction automatique fait référence aux différents processus de mesure des performances d’un système de traduction automatique.
Il s’agit d’un moyen d’évaluer la qualité de la traduction automatique afin de déterminer si le système est performant et de disposer d’une base solide pour comparer l’efficacité des différents systèmes de TA. Pour ce faire, l’évaluation de la traduction automatique fait appel à des indicateurs quantifiables.
Il existe deux raisons principales pour lesquelles il est nécessaire d’évaluer les performances d’un système de traduction automatique. La première est de vérifier s’il est suffisamment performant pour une application réelleLa seconde est de servir de guide en matière de recherche et développement.
Bien entendu, il s’agit tout d’abord de déterminer si le système de traduction automatique fonctionne à un niveau acceptable pour une utilisation réelle. C’est la raison qui intéresse le plus directement les utilisateurs finaux. Si le système de traduction automatique n’est pas performant, les utilisateurs sont plus susceptibles de choisir autre chose.
Les secteurs d’activité qui utilisent la TA voudraient également disposer d’indicateurs concrets pour décider du système de TA à utiliser. Après tout, la TA est un investissement et les entreprises doivent obtenir le meilleur rapport qualité-prix.
Les développeurs de TA doivent donc évaluer si la qualité du système de traduction automatique est acceptable pour pouvoir l’envoyer aux clients.
Dans l’idéal, les systèmes de TA ne sont pas une entité statique. La technologie de la TA ne cesse de s’améliorer au fil du temps. Il est logique de s’attendre à ce que les systèmes de TA s’améliorent également.
C’est là qu’intervient la recherche, et les chercheurs ont besoin d’un guide pour savoir où chercher. Des indicateurs mesurables permettent aux chercheurs de comparer si une approche donnée est meilleure qu’une autre, ce qui les aide à affiner le système.
Cela est particulièrement utile pour déterminer comment le système gère les erreurs de traduction récurrentes. Le fait de disposer d’indicateurs mesurables permet de démontrer, dans un cadre plus contrôlé, si une approche particulière est capable de traiter ce type d’erreurs.
Il existe deux manières différentes de déterminer les performances d’un système de traduction automatique. L’évaluation humaine est effectuée par des experts humains effectuant une évaluation manuelle, tandis que l’évaluation automatique utilise des indicateurs basés sur l’IA spécialement développés pour évaluer la qualité des traductions sans intervention humaine. Chacune de ses méthodes présente des avantages et des inconvénients. Nous aborderons plus en détail les deux types d’évaluation de la traduction automatique dans les sections suivantes de cet article, mais pour commencer, voici un aperçu des deux types d’évaluation de la traduction automatique, ainsi que des approches d’évaluation de la traduction automatique qui les utilisent.
L’évaluation humaine de la traduction automatique signifie que l’évaluation de la qualité de la traduction est effectuée par des traducteurs professionnels humains. Il s’agit de l’option la plus efficace pour déterminer la qualité des traductions automatiques au niveau des phrases. Toutefois, l’évaluation humaine, comme la traduction humaine, est par nature plus coûteuse et plus chronophage.
L’évaluation automatique, quant à elle, utilise des programmes conçus spécifiquement pour évaluer la qualité de la traduction automatique selon différentes méthodes. Elle n’est pas aussi fiable que l’évaluation humaine au niveau de la phrase, mais elle constitue une bonne option évolutive pour déterminer la qualité globale de la traduction de plusieurs documents.
Les approches de l’évaluation de la traduction automatique sont basées sur le concept de granularité. Il s’agit des différents niveaux auxquels la notation peut être considérée comme importante.
Approche basée sur la phrase. Selon cette approche, chaque phrase reçoit une note indiquant si sa traduction est bonne (1) ou mauvaise (0) et une moyenne est attribuée au total. Cela se fait le plus souvent lors de l’évaluation humaine.
Approche basée sur les documents. Elle est également connue sous le nom d’approche basée sur le corpus. Les phrases reçoivent également des notes, mais la note importante est le total ou la moyenne d’un ensemble plus large de documents. Il s’agit du niveau le plus bas auquel l’évaluation automatisée de la TA peut être considérée comme importante, car elle dépend fortement des statistiques d’un vaste ensemble de données.
Approche basée sur le contexte. Cette approche diffère des précédentes, car elle prend en compte l’adéquation de l’ensemble de la tâche de traduction automatique aux objectifs poursuivis, plutôt que par des résultats moyens basés sur des phrases. En tant que telle, elle pourrait être considérée comme une approche holistique de l’évaluation de la traduction automatique.
L’évaluation de la traduction automatique est un processus difficile. En effet, la langue elle-même est une chose très complexe.
D’une part, il peut y avoir plusieurs traductions correctes. Prenons l’exemple de la phrase suivante :
Le rapide renard brun a sauté par-dessus le chien paresseux.
Un système de TA pourrait générer la traduction suivante :
Le rapide renard brun s’est jeté sur le chien indolent.
Il s’agit d’une traduction techniquement correcte et, selon une évaluation humaine, elle serait normalement marquée comme telle. Mais lors de l’évaluation automatisée, elle serait marquée comme incorrecte.
De petits détails peuvent également changer complètement le sens d’une phrase.
Le rapide renard brun a sauté sur le chien paresseux.
Ici, il n’y a qu’un seul mot qui a été modifié. Cependant, ce seul mot change complètement le sens de la phrase. Les évaluations automatiques sont susceptibles de lui donner une note plus élevée que dans l’exemple précédent. Les traducteurs humains sont susceptibles de détecter l’erreur, mais certains pourraient la considérer comme correcte.
En effet, la langue peut être subjective. Même les évaluateurs humains peuvent avoir des opinions différentes sur la qualité d’une traduction.
Maintenant que nous avons passé en revue les bases, examinons en profondeur les deux types d’évaluation de la traduction automatique, en commençant par l’évaluation humaine.
Au niveau le plus élémentaire, l’objectif de la traduction automatique est de traduire du texte d’une langue source vers une langue cible à un niveau compréhensible pour les humains. Les humains constituent donc le meilleur point de référence pour évaluer la qualité de la traduction automatique.
L’évaluation humaine se fait de différentes manières, que nous allons aborder maintenant :
Il s’agit du type d’évaluation humaine le plus simple. Les résultats de traduction automatique sont évalués au niveau de la phrase.
Le problème de l’évaluation directe réside dans le fait que les notes des différents juges peuvent varier considérablement. Certains peuvent avoir tendance à opter pour les extrêmes en termes de notation, marquant les traductions comme étant soit très mauvaises, soit très bonnes. D’autres sont plus conservateurs et notent les mêmes phrases avec des notes plus proches de la moyenne.
Un autre défi est, une fois de plus, la subjectivité. Pour déterminer si la traduction d’une phrase est de mauvaise qualité ou non, les évaluateurs doivent prendre des décisions en fonction d’un langage ambigu. Revenons à la phrase d’exemple :
Le rapide renard brun a sauté par-dessus le canin paresseux.
Ici, le terme canin n’est pas nécessairement faux, mais il n’est pas non plus le plus approprié. Certains évaluateurs peuvent considérer que cette traduction est de bonne qualité, tandis que d’autres peuvent la qualifier de complètement fausse. Par exemple, si la notation est effectuée sur une échelle de 5 points, certains traducteurs peuvent lui attribuer une note de 4, tandis que d’autres ne donneront qu’une note de 2.
Ces difficultés peuvent être surmontées en faisant appel à un plus grand nombre d’évaluateurs, ce qui permettra de normaliser les notes en termes statistiques.
Le classement est un autre moyen d’évaluer les systèmes de traduction automatique par le biais d’une évaluation humaine.
Dans ce cas, les évaluateurs ne fournissent pas de notes individuelles pour les phrases, mais comparent les traductions de différents systèmes de TA. Ils décident ensuite quelle est la meilleure traduction, quelle est la deuxième, et ainsi de suite.
L’avantage de cette méthode par rapport à l’évaluation directe est qu’elle fournit immédiatement une comparaison directe, par opposition à la comparaison des notes qui ont été générées au cours de différents essais et éventuellement par différents évaluateurs.
Cependant, elle souffre toujours du défi de la subjectivité. Les différents systèmes de traduction automatique sont susceptibles de générer des erreurs différentes. Par exemple :
Le rapide renard vert a sauté par-dessus le chien paresseux.
Rapide renard brun a sauté par-dessus chien paresseux.
Le rapide renard brun sauter par-dessus le chien paresseux.
Chaque phrase comporte une erreur simple. La première contient une erreur de traduction. La seconde omet des articles. La troisième ne contient pas de temps verbaux.
Les évaluateurs doivent maintenant décider quelle erreur est la plus importante, et là encore, ils peuvent avoir des opinions différentes à ce sujet.
Si l’objectif de l’utilisateur d’un système de traduction automatique est de préparer des documents pour la post-édition, il existe également des moyens de l’évaluer en fonction de l’effort requis pour la post-édition.
L’objectif fondamental de la post-édition est de permettre au traducteur de travailler plus rapidement que s’il traduisait un texte de zéro. Ainsi, le moyen le plus simple d’évaluer un système de TA pour la post-édition est de mesurer le temps nécessaire au traducteur pour corriger le texte traduit automatiquement.
Une autre façon de mesurer l’effort nécessaire pour la post-édition consiste à tabuler le nombre de frappes nécessaires sur le clavier pour remplacer le texte traduit automatiquement par une traduction de référence humaine. Ceci est indépendant des contraintes de temps, mais ne prend pas non plus en compte la possibilité de plusieurs traductions correctes.
En outre, il y a l’évaluation basée sur les tâches qui, comme son nom l’indique, évalue un système de traduction automatique en fonction de son adéquation à la tâche à accomplir. Par exemple, si le système est utilisé dans le cadre d’un webinaire multilingue, les participants pourraient être invités à évaluer leur expérience à l’aide d’une transcription traduite automatiquement. Cela signifie qu’ils évaluent la performance du système de traduction automatique dans son ensemble.
Le problème de cette approche est qu’elle est très ouverte à l’introduction d’autres éléments non contrôlés susceptibles d’affecter la notation attribuée par les évaluateurs. En tant que telle, l’utilisation de l’évaluation basée sur les tâches est très situationnelle.
Comme vous pouvez le constater, les différents types d’évaluation humaine de la traduction automatique comportent leurs propres défis. Il existe également certains défis qu’ils partagent dans l’ensemble, et ceux-ci ont trait à la cohérence ou à l’accord.
Cela fait référence à la cohérence des notes entre les différents évaluateurs. Comme nous l’avons mentionné précédemment, les différents évaluateurs auront des tendances différentes dans la façon dont ils évaluent les mêmes segments de texte. Certains peuvent les noter aux extrêmes ou dans la moyenne. Lors du classement des différents moteurs de TA, leurs opinions peuvent également varier. C’est pourquoi il est important d’avoir plusieurs évaluateurs, afin que la distribution des notes soit normalisée.
La façon dont un évaluateur unique note un texte est également une mesure de validité. Un évaluateur peut attribuer une bonne ou une mauvaise note à une phrase la première fois, mais il peut changer d’avis en répétant le même test. Le fait de disposer d’une mesure élevée d’un accord de l’annotateur garantit que l’évaluateur choisi peut être jugé comme cohérent et fiable.
L’évaluation humaine est considérée comme l’étalon de référence lorsqu’il s’agit d’évaluer la qualité de la traduction automatique. Cependant, il s’agit d’une entreprise coûteuse en termes d’efforts et de temps. C’est pourquoi les chercheurs du domaine ont développé différents moyens d’évaluer la qualité de la traduction automatique par le biais de processus automatisés.
Ces processus sont conçus pour évaluer approximativement la façon dont les humains évalueront le système de traduction automatique. Bien entendu, ils sont loin d’être parfaits dans ce domaine, mais l’évaluation automatique a encore des cas d’utilisation très importants.
Le principal avantage de l’évaluation automatique par rapport à l’évaluation humaine est son évolutivité. Il est beaucoup plus rapide d’effectuer des centaines d’évaluation automatique qu’une seule évaluation humaine. Cela en fait une solution idéale pour apporter des modifications ou optimiser le système de traduction automatique, qui nécessite des résultats rapides.
Contrairement aux humains, les machines ne sont pas équipées pour gérer les différentes nuances de l’utilisation du langage. Les systèmes d’évaluation automatique sont basés sur le principe que la TA correspond exactement à un texte de référence, et des différences mineures peuvent avoir un impact sur la note finale. Ces différences peuvent inclure des écarts de morphologie, l’utilisation de synonymes et l’ordre grammatical.
Tout ce qui peut être considéré comme techniquement ou plus ou moins correct par un évaluateur humain peut éventuellement être pénalisé lors de l’évaluation automatique. Néanmoins, le nombre de correspondances exactes, en particulier lorsqu’il s’agit d’un large échantillon de texte, est souvent suffisant pour rendre possible l’utilisation de l’évaluation automatique.
Il existe aujourd’hui un certain nombre d’indicateurs d’évaluation automatique. Voici quelques exemples de ceux qui sont utilisés :
●
●
●
●
●
●
●
Chaque indicateur fonctionne sur des algorithmes différents et gère donc différemment le processus d’évaluation automatique. Cela signifie que les indicateurs ont des forces et des faiblesses différentes et qu’ils diffèrent quant aux types d’erreurs qu’ils sanctionnent plus ou moins lourdement.
Parmi tous les indicateurs énumérés ci-dessus, BLEU est celui qui est le plus couramment utilisé. Il s’agit de l’un des premiers indicateurs à atteindre un niveau élevé de corrélation avec l’évaluation humaine, et il a donné lieu à de nombreuses variantes.
Le principe est le suivant : chaque phrase est évaluée par rapport à un ensemble de traductions de référence de haute qualité.La moyenne de ces scores est ensuite calculée et le résultat obtenu est le score BLEU final pour ce système de TA.Cette note représente le degré de correspondance entre le résultat du système de TA et la traduction de référence humaine, qui est le marqueur de qualité.
Les notes sont calculées à l’aide d’unités appelées n-grammes, qui font référence à des segments de texte consécutifs. Reprenons l’exemple de la phrase précédente :
Le rapide renard brun a sauté par-dessus le chien paresseux.
Cela peut être divisé en n-grammes de différentes longueurs. Un 2 grammes, par exemple, serait « Le rapide », « rapide renard » ou « renard brun ». Un 3 grammes serait « Le rapide renard » ou « rapide renard brun ». Un 4 grammes serait « Le rapide renard brun ». Ainsi de suite.
Il s’agit d’un processus mathématique complexe, mais en termes simples, l’algorithme BLEU calcule la moyenne en vérifiant le nombre de chevauchements entre n-grammes. La moyenne calculée sera comprise entre 0 et 1, 1 représentant une correspondance complètement identique entre la phrase de référence et la phrase finale. Prenons maintenant la variante suivante de l’exemple de phrase :
Le rapide renard brun a sauté par-dessus le chien paresseux.
Tous les n-grammes correspondront à l’exception de ceux qui contiennent le mot « rapide ». Autre exemple :
Le rapide renard brun a sauté par-dessus le chien.
Dans cet exemple, le mot « paresseux » est absent, ce qui a également un impact négatif sur le chevauchement. Dans les deux cas, le score BLEU serait toujours élevé, mais inférieur à 1.
Dans la pratique, peu de phrases présentent un niveau de corrélation aussi élevé. Ainsi, les scores BLEU ne deviennent statistiquement importants que lorsqu’ils sont pris dans le contexte d’un large échantillon de textes ou de corpus.
Bien entendu, d’autres facteurs entrent en ligne de compte dans le calcul du score BLEU, tels que les pénalités pour les mots supplémentaires ou les phrases très courtes. D’autres systèmes de notation dérivés ont été développés pour pallier ses lacunes, mais BLEU reste très apprécié et continue demeure le système d’évaluation de traduction automatique le plus utilisé aujourd’hui.
Cette conclusion couvre les bases de l’évaluation de la traduction automatique. Comme nous l’avons montré, l’évaluation d’un système de traduction automatique peut se faire par le biais d’une évaluation humaine ou d’une évaluation automatique. Les deux procédés ont leurs avantages et leurs inconvénients.
L’évaluation humaine est la référence absolue en termes de qualité, mais elle est coûteuse et prend du temps. La traduction automatique n’est pas aussi précise, mais elle est rapide et évolutive. En tant que tels, les deux types ont leurs cas d’utilisation spécifiques dans lesquels ils se distinguent.