10/05/2024

機器翻譯評估:終極指南

假設您是一家決定投資機器翻譯系統的企業。您已經做了一些基本研究,發現有很多選項可供選擇。每個選項都基於特定參數獲得特定分數,但你並不知道這些數字的真正含義。您如何知道哪一個最適合您?

您需要了解機器翻譯評估如何運作。

本文將深入探討機器翻譯評估。文章將幫助您了解什麼機器翻譯評估,為什麼需要它以及評估的不同類型,幫助您在選擇投資的機器翻譯系統時做出明智的決定。

導言:什麼是機器翻譯評估?

機器翻譯評估是指衡量機器翻譯系統效能的不同程序。

這是一種對機器翻譯品質進行評分的方式,以便可以了解系統的優劣,並提供比較不同機器翻譯系統有效性的堅實基礎。為此,機器翻譯評估使用可量化的指標。

為什麼機器翻譯評估指標很重要?

評估機器翻譯系統效能的主要原因有兩個。第一是檢查它是否足夠適用於真實世界應用。第二是作為研發的指導。

檢查它是否足夠適用於真實世界應用

當然,首先是確定機器翻譯系統是否在適合實際運用的水平上工作。這是與最終用戶最直接相關的原因。如果機器翻譯系統的效能不佳,用戶更有可能選擇其他選項。

使用機器翻譯的工業部門也需要具體的指標來決定要獲得哪個機器翻譯系統。畢竟,機器翻譯是一項投資,企業需要獲得最高的價值。

因此,機器翻譯開發人員需要評估機器翻譯系統的品質是否足夠好,以便將其發送給客戶。

作為研發的指導

理想情況下,機器翻譯系統不是靜態實體。機器翻譯的技術隨著時間的推移而不斷改進。因此機器翻譯系統也應該相應改進。

這就是研究發揮作用的地方,研究人員需要一些關於如何去做的指南。可衡量的指標允許研究人員比較特定的方法是否比另一種方法好,從而幫助他們微調系統。

這對於查看系統如何處理持續的翻譯錯誤特別有用。擁有可衡量的指標可以在更可控的環境中顯示特定方法是否能夠處理這類錯誤。

如何評估機器翻譯的成功?

有兩種不同的方法可以確定機器翻譯系統的效能。人工評估由人工專家進行手動評估,自動評估使用專為評估翻譯品質而開發的基於AI的指標,無需人工干預。每種方法都有自己的優點和缺點。我們將在本文下一節進一步詳細介紹兩種類型的機器翻譯評估,但首先是兩種機器翻譯評估類型的快速概述以及運用它們的機器翻譯評估方法。

人工評估與自動評估

對機器翻譯的人工評估意味著翻譯品質的評估由人類專業翻譯人員進行。在確定機器翻譯的句子層級品質時,這是最有效的選擇。但人工評估本質上更加昂貴和耗時,就像人工翻譯一樣,。

另一方面,自動評估使用專門構建的程序,根據不同的方法評估機器翻譯的品質。它在句子層級上並不像人工評估那麼可靠,但是在評估多個文檔的翻譯整體品質時是一個良好的可擴展選項。

機器翻譯評估方法

機器翻譯評估的方法基於粒度的概念。也就是說,評分可能被認為重要的不同級別。

基於句子的方法。根據這種方法,每句子都得到一個分數,表明其翻譯是良好(1)還是不好(0),總數給出平均值。這最常在人工評估中使用。

基於文件的方法。也被稱為基於全體的方法,句子也被評分,但重要分數是一組更大文件集中的總和或平均值。這是可以將自動機器翻譯評估視為重要的最小級別,因為它很大程度取決於來自廣泛數據集的統計數據。

基於上下文的方法。這種方法與前面的方法不同,因為它考慮的是整體機器翻譯任務適合其目的,而不是基於句子的平均分。因此,它可以被認為是機器翻譯評估的整體方法。

機器翻譯評估的挑戰

機器翻譯評估是一個艱難的過程。這是因為語言本身是一個非常複雜的東西。

首先,可以有多個正確的翻譯。以下列句子為例:

The quick brown fox jumped over the lazy dog.

機器翻譯系統可能會產生以下翻譯:

快速的棕色狐狸扔在那隻不適的狗身上。

這是技術上正確的翻譯,在人工評估中通常會這樣評分。但是在自動評估中,它將被評為不正確。

小細節也可以完全改變句子的含義。

The quick brown fox jumped on the lazy dog.

在這裡,只有一個單詞改變了。但是這個單詞完全改變了句子的含義。自動評估可能會給它高於上一個示例的評分。人類翻譯者可能會發現錯誤,但有些人可能認為它正確。

這是因為語言可以是主觀的。即使是人類評估者,他們對翻譯是否良好的判斷也可能不同。

人工評估:黃金標準

現在我們已經討論了基礎知識,讓我們深入了解兩種類型的機器翻譯評估,從人工評估開始。

在最基本的層面上,機器翻譯的目標是在人類可理解的水平將文本從源語言翻譯為目標語言。因此,人類是評估機器翻譯品質的最佳參考點。

人工評估的類型

人工評估有幾種不同的方式,我們現在將予以討論:

直接評估

這是最簡單的人工評估。對機器翻譯輸出在句子級別上評分。

直接評估的挑戰在於不同評審的評分方式會有很大的差異。有些人在評分方面傾向於極端,將翻譯評為非常糟糕或非常好。其他人可能會更保守地操作,用較接近中間的分數評價相同的句子。

另一個挑戰就是前面提到過的主觀性。在判斷一句子是否是不好的翻譯時,評估人員需要對模糊的語言做出決定。回到示例句子:

The quick brown fox jumped over the lazy canine.

在這裡,canine並不一定錯,但它也不是最適合的。有些評估者可能認為它足夠好,而另一些人可能會將其評為完全錯誤。例如,如果評分按5分制進行,某些翻譯者可能會將其評為4分,另一個翻譯者可能只給2分。

這些挑戰可以通過聘用更多評估人員來抵消,這將使分數可以按統計條件標準化。

排名

通過人工評估評估機器翻譯系統的另一種方法是排名。

在這種情況下,評估人員不會為句子提供個別分數,而是比較來自不同機器翻譯系統的翻譯。然後,他們決定哪個是最好的翻譯,哪個第二好,等等。

這種方法相比直接評估的優點在於它立即提供直接比較,而不是比較在不同試驗中產生的分數和可能由不同評估人員產生的分數。

然而,它仍然受到主觀性的挑戰。不同的機器翻譯系統可能會出現不同的錯誤。例如:

The quick green fox jumped over the lazy dog.

Quick brown fox jumped over lazy dog.

The quick brown fox jump over the lazy dog.

每個句子都有一個簡單的錯誤。第一個有誤譯。第二個遺漏了冠詞。第三個缺少動詞時態。

評估人員現在需要決定哪個錯誤比另一個錯誤更重要,同樣,評估人員可能對此問題有不同的意見。

後期編輯工作量

如果用戶對機器翻譯系統的目的是準備文件以進行後期編輯,也有辦法根據後期編輯所需的工作量來進行評估。

後期編輯的基本目的是讓譯者的工作速度比從頭開始翻譯文本的速度更快。因此,評估用於後期編輯的機器翻譯系統的最簡單方法是衡量譯者修正機器翻譯輸出所需的時間。

衡量後期編輯工作量的另一種方法是統計將機器翻譯文本替換為人工參考翻譯所需的鍵盤敲擊數。這與時間限制無關,但也不考慮多個正確翻譯的可能性。

基於任務的評估

然後還有基於任務的評估,正如名稱所示,根據它適應目標任務的好壞來評估機器翻譯系統。例如,如果它在多語言網路研討會環境中使用,可以要求參與者對機器翻譯的文稿進行評分。這意味著他們正在評估整個機器翻譯系統的好壞。

它非常容易引入其他不受控制的元素,這些元素可能會影響評估者給出的評級。因此,基於任務的評估的使用是非常情境化的。

人工評估的一般挑戰

正如您可能看到的那樣,機器翻譯的各種人工評估類型都有各自的挑戰。其中也有一些廣泛的共同挑戰,這些與一致性或協議有關。

註釋者間一致性

這是指不同評估者之間的分數一致性。正如我們之前提到的那樣,不同的評估者在對同一文本區段的評分方式上會有不同的傾向。有些人可能會在極端或中間進行評分。在對不同的機器翻譯引擎排名時,他們的意見也可能會不同。這就是擁有多個評估者很重要的原因,這樣分數的分佈就會標準化。

註釋者內部一致性

單個評估者評分文本的方式也是有效性的衡量標準。評估者可能會第一次將一句子評分為好或壞,但他們可能會在重複相同的測試時改變主意。對註釋者内部一致性進行高度衡量,可確保所選評估者被視為一致且可靠。

自動評估:可擴展選項

在評估機器翻譯品質時,人工評估被認為是黃金標準。但從工作量和時間方面來説,這是一項昂貴的努力。這就是該領域的研究人員開發了不同的方法,通過自動化流程評估機器翻譯品質的原因。

這些流程旨在估計人類如何評估機器翻譯系統。當然,它們在這方面遠不完美,但是自動評估仍然有非常重要的用例。

自動評估與人工評估相比的主要優點是其可擴展性。執行數百個自動評估實例甚至比一輪人工評估要快得多。這使其成為進行調整或優化機器翻譯系統時的理想解決方案,因為這需要快速結果。

自動評估的挑戰

與人類不同,機器沒有能力處理語言使用的細微差別。自動評估系統的前提是機器翻譯與參考文本精確匹配,微小的差異可能會影響最終分數。這些差異可能包括詞法偏差、同義詞使用和語法順序。

任何在技術上或多或少被評估人員認為正確的東西都可能在自動評估中被扣分。儘管如此,精確匹配的數量,尤其是在考慮大量文本樣本時,通常足以使自動評估可行。

自動評估指標

目前有許多不同的可用自動評估指標。以下是一些使用中的示例:

      BLEU(雙語評估補習)

      NIST(來自國家標準和技術研究所)

      METEOR(具有顯式排序的翻譯的評估指標)

      LEPOR(長度扣分,精度,n元語法位置差扣分和回索)

      COMET

      PRIS

      TER(翻譯錯誤率)

每個指標在不同的算法上運作,因此不同處理自動評估流程的方式也不同。這意味著它們有不同的優點和缺點,對哪些錯誤給予更高或更低的扣分也不同。

BLEU,最流行的指標

在上面列出的所有指標中,BLEU是最常用的指標。這是第一個與人工評估達到高關聯性水平的指標之一,並產生了許多不同的變體。

它的工作方式是,根據一組高品質參考翻譯對單個句子進行評分。然後將這些分數平均,得到的數字是該機器翻譯系統的最終BLEU分數。此分數表示機器翻譯系統的輸出與人工參考轉譯的匹配如何,這是品質標誌。

分數使用稱為n元語法的單位來計算,該單位指連續文本的片段。回到先前的樣本句子,例如:

The quick brown fox jumped over the lazy dog.

這可以分為不同長度的n元語法。例如,2元語法是「The quick」,「quick brown」或「brown fox」。3元語法是「The quick brown」或「quick brown fox」。4元語法是「The quick brown fox」。依此類推。

這是一個複雜的數學過程,但從基本上講,BLEU的算法通過檢查n元語法之間的重疊數來計算得分。計算的分數將介於01之間,其中1代表參考和輸出句子之間完全相同的匹配。現在在樣本句上進行以下變化:

The fast brown fox jumped over the lazy dog.

除了帶單詞「fast」的外,所有n元語法都將匹配。另一個例子:

The quick brown fox jumped over the dog.

在本例中缺少了單詞「lazy」,因此也會對重疊造成負面影響。在這兩種情況下,BLEU得分仍然很高,但低於 1

實際上,沒有很多句子會顯示這種高水平的關聯性。因此,只有在大量文本樣本或本體的上下文中取得BLEU分數才會有統計意義。

當然,還有其他因素可以用來計算BLEU分數,例如額外單詞或極短句的扣分。其他衍生評分系統已經開發出來以彌補其缺點,但BLEU仍然受到高評價,並繼續是當今最廣泛使用的機器翻譯評估系統。

機器翻譯評估的最後話語

這涵蓋了機器翻譯評估的基礎知識。正如我們所示,評估機器翻譯系統可以通過人工評估或自動評估進行。這兩個流程都有其優點和缺點。

人工評估在品質方面是黃金標準,但昂貴且耗時。自動翻譯不那麼準確,但是快速且可擴展。因此,這兩種類型都具有其發揮作用的特定用例。