10/05/2024

机器翻译评估：终极指南

假设您是一家决定投资机器翻译系统的企业。您已经做了一些基础研究，发现有很多选项可供选择。每个选项都声称根据某些指标得出一定的分数，但您不知道这些数字的真正含义。您如何知道哪一个最适合您呢？

您需要了解机器翻译评估的工作原理。

本文将深入探讨机器翻译评估这一主题。它将帮助您了解机器翻译评估是什么、为什么需要进行评估以及不同的评估类型，从而帮助您在选择要投资的机器翻译系统时做出明智的决定。

介绍：什么是机器翻译评估？

机器翻译评估是指衡量机器翻译系统性能的不同过程。

它是一种对机器翻译质量进行评分的方法，这样就可以知道系统的优良程度，也为比较不同机器翻译系统的有效性提供了坚实的基础。为此，机器翻译评估使用了可量化的指标。

为什么说机器翻译评估指标很重要？

之所以需要对机器翻译系统的性能进行评估主要有两个原因。首先是检查它是否足以满足实际应用需求。第二是充当究发指南。

检查它是否足以满足实际应用需求

当然，首先是确定机器翻译系统的运行水平是否足以满足实际使用需求。这是与最终用户最直接相关的原因。如果机器翻译系统表现不佳，用户更有可能选择其他方法。

使用机器翻译的工业部门也需要具体的指标来决定采用哪种机器翻译系统。毕竟，机器翻译是一项投资，企业需要让他们的钱花得物有所值。

因此，机器翻译开发人员需要评估机器翻译系统的质量是否足以让他们将其发送给客户。

充当研发指南

理想情况下，机器翻译系统不是静态实体。随着时间的推移，机器翻译技术不断改进。机器翻译系统也有望得到改进，这是符合常理的。

这就是研究的意义所在，研究人员需要研究方向的指导。可衡量的指标让研究人员能够进行比较，确认某一种特定的方法是否比另一种方法更好，从而帮助他们微调系统。

这对于查看系统如何处理一致的翻译错误特别有用。拥有可衡量的指标可以在更可控的环境中显示特定方法是否能够处理此类错误。

您如何评估机器翻译的成功？

有两种不同的方法可以确定机器翻译系统的性能。人工评估由人工专家进行手动评估，而自动评估则使用专为评估翻译质量而开发的基于人工智能的指标，无需人工干预。每种方法都有自己的优势和劣势。在本文后面的章节中，我们将进一步详细介绍这两种机器翻译评估，但现在我们先简要概述一下机器翻译评估的两种类型以及利用它们进行机器翻译评估的方法。

人工评估与自动评估

机器翻译人工评估意味着翻译质量的评估由专业人工翻译人员完成。在从句子级别确定机器翻译的质量时，这是最有效的选择。但是，与人工翻译一样，人工评估本质上更昂贵且更耗时。

另一方面，自动评估使用专门构建的程序，根据不同的方法来评估机器翻译的质量。在句子层面上，它不如人工评估那么可靠，但在评估多个文档的整体翻译质量方面，它是一个很好的可扩展选项。

机器翻译评估方法

机器翻译评估方法基于粒度概念。也就是说，不同级别的分数可能被认为是重要的。

基于句子的方法。在这种方法下，给每个句子打一个分数，说明其翻译是良好（1）或不好（0），并给出总分平均值。人工评估中最常见的就是这种方法。

基于文档的方法。也称为基于语料库的方法，句子也被赋予分数，但重要分数是一组较大文档的总分或平均分数。这是自动机器翻译评估可以视为重要的最小级别，因为它在很大程度上依赖于广泛数据集的统计数据。

基于情境的方法。这种方法与前面讲到的方法不同，因为它考虑的是整个机器翻译任务在多大程度上符合其执行目标，而不是通过基于句子的平均分数来评估。因此，它可以被视为机器翻译评估的整体方法。

机器翻译评估面临的挑战

机器翻译评估是一个艰难的过程。这是因为语言本身是非常复杂的东西。

首先，可以有多个正确的翻译。以下面的句子为例：

The quick brown fox jumped over the lazy dog.

机器翻译系统可能会改为生成以下翻译：

The fast brown fox pounced over the indolent dog.

这是一种学术正确的翻译，在人工评估中，通常会将其标记为正确。但是在自动评估中，它会被标记为不正确。

小细节也可以完全改变句子的意思。

The quick brown fox jumped on the lazy dog.

在这里，只有一个词被修改了。但是那一个词完全改变了句子的意思。自动评估可能会打出比前一个示例更高的分数。人工翻译人员可能会发现错误，但有些人可能认为它是正确的。

这是因为语言可以是主观的。即使是人工评估人员，对翻译好与不好的判断也可能有所不同。

人工评估：黄金标准

我们已经了解了基础知识，现在让我们深入了解机器翻译评估的两大类型，先说人工评估。

从最基本的层面上看，机器翻译的目标是在人类能够理解的水平上将源语言中的文本翻译成目标语言。因此，人类是评估机器翻译质量的最佳参考点。

人工评估的类型

人工评估有许多不同的方法，我们现在将探讨这些方法：

直接评估

这是最简单的人工评估。机器翻译译文是在句子层面上进行评分。

直接评估面临的挑战在于，不同评委的打分方式会有很大差异。有些人可能倾向于在评分方面走极端，将翻译标记为非常差或非常好。其他人可能会更保守，用更接近中间的分数标记相同的句子。

另一个挑战还是主观性。在判断一个句子的译文好与不好时，评估人员需要就模棱两可的语言做出决定。回到例句：

The quick brown fox jumped over the lazy canine.

在这里，canine不一定是错的，但它也不是最合适的选择。一些评估人员可能认为它足够好，而另一些评估人员则可能将其标记为完全错误。例如，如果以5分制进行评分，一些翻译人员可能会将评为为4分，而另一位翻译人员可能只给2分。

这些挑战可以通过雇用更多的评估人员来加以抵消，这将允许根据统计条件对分数进行标准化。

排名

排名是通过人工来评估机器翻译系统的另一种方法。

在这种情况下，评估人员不提供句子的单独分数，而是比较来自不同机器翻译系统的译文。然后，他们决定哪一个是最好的译文，哪个是第二好的，依此类推。

与直接评估相比，这种方法的优势在于，它可以立即进行直接比较，而不是比较不同试验中得出或者可能由不同的评估者给出的分数。

但是，它仍然面临主观性的挑战。不同的机器翻译系统可能会出现不同的错误。例如：

The quick green fox jumped over the lazy dog.

Quick brown fox jumped over lazy dog.

The quick brown fox jump over the lazy dog.

每个句子都有一个简单的错误。第一个有误译。第二个省略了冠词。第三个是缺少动词时态。

评估人员现在需要决定哪个错误比另一个错误更严重，同样，评估人员可能对此有不同的看法。

译后编辑工作

如果用户使用机器翻译系统的目的是准备文档供译后编辑，则还有一些方法可以根据译后编辑所需的工作量对其进行评估。

译后编辑的基本目的是让译员比从头开始翻译文本更快地工作。因此，评估机器翻译系统译后编辑的最简单方法是衡量译员修改机器翻译译文所花费的时间。

衡量译后编辑工作的另一种方法是计算用人工参考译文替换机器翻译文本所需敲击键盘的次数。这与时间限制无关，但也没有考虑到多个正确翻译的可能性。

基于任务的评估

基于任务的评估，顾名思义，它根据机器翻译系统对手头任务的适应程度来评估机器翻译系统。例如，如果系统用于多语言网络研讨会场景，则可能会要求参与者对机器翻译的脚本进行评分。这意味着他们正在对整个机器翻译系统的成功与否进行评分。

这种方法的问题在于，它很容易引入其他不受控制的因素，这些因素可能会影响评估人员给出的评分。因此，基于任务的评估是非常情境化的。

人工评估的普遍挑战

正如您可能看到的那样，人工对机器翻译的不同评估都有其自身的挑战。它们还普遍面临着一些相同的挑战，这些挑战与一致性或协议有关。

标注者之间的协议

这是指不同评估者之间分数的一致性。正如我们前面提到的，不同的评估者对相同段落的文本进行评分的方式会有不同的倾向。有些人可能会给出极端分数，或者有些人可能给出偏向中间的分数。在对不同的机器翻译引擎进行排名时，他们的意见也会有所不同。这就是需要多个评估者的原因，这样分数的分布才能标准化。

标注者内部协议

单个评估者对文本进行评分的方式也是衡量有效性的方法。评估人员可能会在第一次将一句译文评为好或不好，但他们可能会在重复同样的测试时改变主意。严格衡量标注者内部的一致性可确保所选评估人员被认为是一致和可靠的。

自动评估：可扩展选项

在评估机器翻译质量时，人工评估被视为黄金标准。但是，就精力和时间而言，这是一项代价高昂的工作。这就是该领域的研究人员开发了通过自动化流程来评估机器翻译质量的不同方法的原因所在。

这些流程旨在模拟人类将如何评估机器翻译系统。当然，它们在这方面还远未达到完美，但是自动评估仍然有非常重要的用例。

与人工评估相比，自动评估的主要优势是可扩展性。运行数百个自动评估实例比进行一轮人工评估要快得多。在调整或优化机器翻译系统时，需要快速获得结果，因此自动评估是理想的解决方案。

自动评估面临的挑战

与人类不同，机器没有能力处理语言使用的不同细微差别。自动评估系统的前提是机器翻译译文与参考文本完全匹配，细微的差异都可能会对最终分数产生影响。这些差异可能包括结构、同义词使用和语法顺序的偏差。

任何可以被人工评估人员认为在技术上或多或少正确的元素都可能在自动评估中被罚分。尽管如此，精确匹配的数量，尤其是在考虑大量文本样本时，使用自动评估通常是可行的选项。

自动评估指标

当今有许多不同的自动评估指标可用。以下是一些正在使用的示例：

● BLEU（双语评估替换）

● NIST（来自美国国家标准与技术研究所）

● METEOR（明确排序翻译评估指标）

● LEPOR（长度罚分、精度、n元位置差异罚分和召回率）

● COMET

● PRIS

● TER（翻译错误率）

每个指标都使用不同的算法，因此对自动评估过程的处理方式也不同。这意味着它们有着不同的长处和短处，对哪种错误给予更高或更低的罚分也不同。

BLEU是最受欢迎的指标

在上面列出的所有指标中，BLEU是最常用的指标。它是最早实现人工评估高度关联的指标之一，并催生了许多不同的变体。

其工作原理是，对照一组高质量的参考译文，对单个句子进行评分。然后对这些分数求平均值，得出的数字是该机器翻译系统的最终BLEU分数。该分数表示机器翻译系统输出的译文与作为质量标志的人工参考译文的匹配程度。

分数使用称为n元语法（n-gram）的单位来计算，该单位指的是连续文本片段。回到之前的例句，例如：

The quick brown fox jumped over the lazy dog.

这可以分为不同长度的n元语法。例如，2元语法是 “The quick”、 “quick brown”或“brown fox”。3元语法是“The quick brown”或“quick brown fox”。4元语法是“The quick brown fox”。依此类推。

这是一个复杂的数学过程，但基本而言，BLEU的算法通过检查n元语法之间的重叠次数来计算分数。计算出的分数将介于0和1之间，1表示参考句子和输出的译文句子之间完全匹配。现在以例句的以下变体为例：

The fast brown fox jumped over the lazy dog.

除了带有“fast”一词的n元语法以外，所有的n元语法都匹配。另一个例子：

The quick brown fox jumped over the dog.

在此示例中，缺少“lazy”一词，因此这也会对重叠产生负面影响。在这两种情况下，BLEU分数仍然很高，但低于1。

实际上，没有多少句子能显示出这么高的相关性。因此，只有在大量文本样本或语料库的背景下，BLEU分数才具有统计学意义。

当然，计算BLEU分数还有其他因素，例如对额外单词或非常短的句子的罚分。为了弥补这些缺点，已经开发了其他衍生评分系统，但BLEU仍然受到高度评价，并且仍然是当今使用最广泛的机器翻译评估系统。

关于机器翻译评估的结束语

这涵盖了机器翻译评估的基础知识。正如我们已经展示的那样，机器翻译系统的评估可以通过人工评估或自动评估来完成。这两种评估方法都有各自的优点和缺点。

人工评估是质量方面的黄金标准，但既昂贵又耗时。自动翻译不那么准确，但它速度快，且可扩展。因此，这两种方法都有各自的特定用例。