10/05/2024

機械翻訳の評価:究極のガイド

あなたが機械翻訳システムに投資することを決めた企業だとします。あなたはいくつかの基礎調査を行ったところ、選択できるオプションが非常に多いことがわかりました。それぞれが特定の指標に基づいて特定の金額のスコアを付けていると主張していますが、その数字が実際に何を意味するのかはわかりません。どれがあなたに最適であるかをどうやって知りますか?

機械翻訳評価の仕組みを理解する必要があります。

この記事では、機械翻訳の評価のトピックを深く掘り下げます。機械翻訳システムとは何か、なぜ必要なのか、さまざまな種類の評価を理解するのに役立ち、投資する機械翻訳システムを選択する際に十分な情報に基づいた決定を下すのに役立ちます。

導入：機械翻訳の評価とは？

機械翻訳の評価とは、機械翻訳システムのパフォーマンスを測定するさまざまなプロセスを指します。

これは、機械翻訳の品質をスコアリングする方法であり、システムがどれほど優れているかを知ることができ、さまざまな機械翻訳システムがどれほど効果的かを比較するための確固たる基礎があります。これを行うために、機械翻訳の評価では定量化可能な指標を利用します。

機械翻訳の評価指標が重要なな理由は？

機械翻訳システムのパフォーマンスを評価する必要がある主な理由は 2 つあります。1 つ目は、実際のアプリケーションに十分対応できるかどうかを確認することです。二つ目は、研究開発の指針となることです。

実際のアプリケーションに十分対応できるかどうかを確認するには

1 つ目は、もちろん、機械翻訳システムが実際の使用に十分なレベルで機能するかどうかを判断することです。これが、エンドユーザーにとって最も直接的な関係がある理由です。機械翻訳システムのパフォーマンスが悪いと、ユーザーは別のものを選択する可能性が高くなります。

機械翻訳を使用する産業部門も、どの機械翻訳システムを取得するかを決定するための具体的な指標を求めています。結局のところ、機械翻訳は投資であり、企業はお金に見合う最高の価値を得る必要があります。

そのため、機械翻訳の開発者は、機械翻訳システムの品質がクライアントに送信するのに十分であるかどうかを評価する必要があります。

研究開発の指針となることには

機械翻訳システムは、理想的には静的なエンティティではありません。機械翻訳の技術は時間とともに絶えず改善されています。機械翻訳システムにも改善が期待できるのは理にかなっています。

これが研究の出番であり、研究者はどこを見ればよいかについてのガイドが必要です。測定可能な指標により、研究者は特定のアプローチが他のアプローチよりも優れているかどうかを比較でき、システムを微調整するのに役立ちます。

これは、システムが一貫した翻訳エラーをどのように処理するかを確認するのに特に役立ちます。測定可能な指標があると、特定のアプローチでこの種のエラーに対処できるかどうかを、より制御された設定で示すことができます。

機械翻訳の成功をどのように評価しますか？

機械翻訳システムのフォーマンスを判断する方法は 2 つあります。人間による評価は人間の専門家が手動で評価し、自動評価では人間の介入なしに翻訳品質を評価するために特別に開発された AI ベースの指標を使用します。それぞれに独自の長所と短所があります。両方の種類の機械翻訳の評価については、この記事の後のセクションで詳しく説明しますが、最初に、2 種類の機械翻訳の評価の概要と、それらを活用する機械翻訳の評価へのアプローチについて簡単に説明します。

人間による評価対自動評価

機械翻訳の人間による評価とは、翻訳品質の評価を人間のプロの翻訳者が行うことを意味します。これは、機械翻訳の品質を文章レベルまで判断する場合に最も効果的な方法です。しかし、人間による翻訳と同様に、人間による評価は、本質的にコストと時間がかかります。

一方、自動評価では、さまざまな方法で機械翻訳の品質を評価するために特別に構築されたプログラムを使用します。文章レベルでの人間による評価ほど信頼性は高くありませんが、複数の文書の翻訳の全体的な品質を評価する場合には優れたスケーラブルな選択肢です。

機械翻訳の評価へのアプローチ

機械翻訳の評価へのアプローチは、粒度という概念に基づいています。つまり、スコアが重要であると見なされるレベルが異なっているということです。

文ベースのアプローチ。このアプローチでは、各文に翻訳が良いか（1）、良くないか（0）を示すスコアが与えられ、合計に平均が与えられます。これは人間による評価で最も一般的に行われます。

文書ベースのアプローチ。コーパスベースのアプローチとも知られ、文にもスコアが付けられますが、重要なスコアは、より大きな文書セットの合計または平均です。これは、幅広いデータセットからの統計に大きく依存するため、自動機械翻訳の評価が重要と考えられる最小レベルです。

コンテキストベースのアプローチ。このアプローチは、文に基づく平均スコアではなく、機械翻訳タスク全体が目的とどの程度合っているかが考慮されるという点で、これまでのアプローチとは異なります。そのため、機械翻訳の評価への全体的なアプローチと考えられるかもしれません。

機械翻訳の評価における課題

機械翻訳の評価は難しいプロセスです。これは、言語自体が非常に複雑なものだからです。

1 つは、正しい翻訳が複数のある可能性があることです。たとえば、次の文を考えてみましょう：

素早い茶色のキツネが怠け者の犬を飛び越えた。

機械翻訳システムでは、代わりに次の翻訳が生成されることがあります：

足が速い茶色のキツネが怠惰な犬に飛びかかった。

これは技術的に正しい翻訳であり、人間による評価では通常そのようにマークされます。しかし、自動評価では、正しくないとマークされます。

細部が文の意味を完全に変えることもあります。

素早い茶色のキツネが怠惰な犬に飛び乗った。

ここで、変更された単語は 1 つだけです。しかし、その一言が文の意味を完全に変えます。自動評価では、前の例よりも評価が高くなる可能性があります。人間の翻訳者は間違いを察知する可能性がありますが、正しいと考える人もいるかもしれません。

それは、言語が主観的なものになりうるからです。人間の評価者でさえ、翻訳が良いかどうかについての判断は異なります。

人間による評価:ゴールドスタンダード

ここまで基本を確認したところで、人間による評価から始めて、2 種類の機械翻訳の評価について詳しく見ていきましょう。

最も基本的なレベルでは、機械翻訳の目標は、人間が理解できるレベルで、ソース言語からターゲット言語にテキストを翻訳することです。そのため、機械翻訳の品質を評価するうえで一番の基準は人間です。

人間による評価の種類

人間による評価にはさまざまな方法がありますが、これから説明します：

直接評価

これは最も単純な種類の人間による評価です。機械翻訳の出力は文レベルで採点されます。

直接評価を行う場合の課題は、審査員によって得点の仕方が大きく異なることです。中には、翻訳を「非常に悪い」または「非常に良い」とマークして、スコアの点で極端に評価する傾向がある人もいます。他の人は、同じ文の点数が真ん中に近いようにマークして、より保守的に演奏するかもしれません。

もう一つの課題は、やはり主観性です。ある文が悪い翻訳であるかどうかを判断する際、評価者は曖昧な言葉で判断する必要があります。例文に戻りましょう:

その素早い茶色のキツネがその怠惰な犬を飛び越えた。

ここでは、犬が必ずしも間違っているわけではありませんが、最適というわけでもありません。評価者の中には、それで十分だと考える人もいれば、完全に間違っているとフラグを立てる人もいます。たとえば、採点が5段階評価の場合、翻訳者の中には 4を付けるかもしれませんが、2 だけで採点する翻訳者もいます。

これらの課題は、評価者のプールを増やすことで相殺できます。これにより、スコアを統計的に正規化できるようになります。

ランク付け

人間による評価を通じて機械翻訳システムを評価するもう 1 つの方法は、ランク付けです。

この場合、評価者は文の個別のスコアを提供するのではなく、異なる機械翻訳システムからの翻訳を比較します。次に、どれが最高の翻訳か、どれが 2 番目に良いか、などを判断します。

この方法の直接評価に対する利点は、さまざまな試験で、場合によっては異なる評価者によって生成されたスコアを比較するのではなく、すぐに直接比較できることです。

ただし、それでも主観性の課題には悩まされています。機械翻訳システムが異なれば、発生するエラーも異なります。例えば:

その素早い緑のキツネがその怠惰な犬を飛び越えた。

素早い茶色のキツネが怠惰な犬を飛び越えた。

その素早い茶色のキツネがその怠惰な犬を飛び越えます。

各文には単純な誤りがあります。1 つ目のものは誤訳があります。2 つ目は記事を省略しています。3 つ目は動詞の時制が欠けていることです。

評価者は、どのエラーが他のエラーよりも重要かを判断する必要があります。繰り返しになりますが、評価者はこの問題について異なる意見を持っている可能性があります。

ポストエディットの取り組み

機械翻訳システムのユーザーの目的がポストエディット用の文書を準備することであれば、ポストエディットにかかる労力に応じて評価する方法もあります。

ポストエディットの基本的な目的は、翻訳者がテキストをゼロから翻訳する場合よりも早く作業できるようにすることです。そのため、ポストエディット用にMTシステムを評価する最も簡単な方法は、翻訳者が機械翻訳された出力を修正するのにかかる時間を測定することです。

ポストエディットの労力を測定するもう 1 つの方法は、機械翻訳されたテキストを人間が参照する翻訳に置き換えるのにかかるキーボードのストローク数を表にまとめることです。これは時間の制約とは無関係ですが、複数の正しい翻訳の可能性も考慮していません。

タスクベースの評価

次に、タスクベースの評価があります。これは、その名前が示すように、目前のタスクにどれだけ適しているかに基づいて機械翻訳システムを評価するものです。たとえば、多言語のウェビナー設定で使用する場合、参加者に機械翻訳されたトランスクリプトでの体験を評価するよう求めることができます。これは、機械翻訳システム全体の成功を評価しているということです。

このアプローチの問題点は、評価者が与える評価に影響を与える可能性のある、制御されていない他の要素が導入されやすいことです。そのため、タスクベースの評価の使用は非常に状況に応じて異なります。

人間による評価における一般的な課題

お分かりのように、機械翻訳のさまざまなタイプの人間による評価にはそれぞれ独自の課題があります。また、広く共有している課題もいくつかありますが、これらは一貫性や合意に関係しています。

アノテーター間の契約

これは、異なる評価者間のスコアの一貫性を指します。先に述べたように、評価者が異なれば、同じテキストセグメントを採点する方法の傾向も異なります。極端に得点したり、真ん中に向かって得点したりする人もいます。さまざまな機械翻訳エンジンをランク付けする場合、彼らの意見も異なる場合があります。そのため、スコアの分布が正規化されるためには、複数の評価者を配置することが重要です。

アノテーター内の契約

1 人の評価者がテキストを採点する方法も妥当性の尺度です。評価者は、最初に文章を良いか悪いかで採点するかもしれませんが、同じテストを繰り返すと気が変わるかもしれません。アノテーター内の一致度を高く評価することで、選ばれた評価者は一貫性があり信頼できると見なすことができます。

自動評価:スケーラブルなオプション

機械翻訳の品質を評価する場合、人間による評価がゴールドスタンダードと見なされています。ただし、労力と時間の面ではコストのかかる作業です。そのため、この分野の研究者は、自動化されたプロセスを通じて機械翻訳の品質を評価するさまざまな手段を開発してきました。

これらのプロセスは、人間が機械翻訳システムをどのように評価するかを概算するように設計されています。もちろん、これは完璧にはほど遠いですが、自動評価にはまだ非常に重要な使用例があります。

人間による評価に対する自動評価の主な利点は、そのスケーラビリティです。自動評価を数百回実行する方が、人間による評価を 1 ラウンド実行するよりもはるかに高速です。そのため、迅速な結果が必要な機械翻訳システムの微調整や最適化を行う場合に理想的なソリューションとなります。

自動評価における課題

人間と違って、機械は言葉の使い方のさまざまなニュアンスを処理する能力を備えていません。自動評価システムは、機械翻訳が参照テキストと完全に一致することを前提としており、わずかな違いが最終的なスコアに影響を与える可能性があります。これらの違いには、形態の違い、同義語の使用、文法順序などがあります。

人間の評価者が技術的に正しいと見なしたり、多かれ少なかれ正しいと見なしたりできるものは、自動評価で罰せられる可能性があります。とはいえ、特に大量のテキストサンプルを検討する場合は、完全一致の数だけで自動評価を使用できることがよくあります。

自動評価指標

現在、さまざまな自動評価指標が利用可能です。使用中のものの例をいくつか示します：

● BLEU (バイリンガル評価アンダースタディ)

● NIST（米国国立標準技術研究所から）

● METEOR (明示的な順序付けによる翻訳の評価指標)

● LEPOR (長さペナルティ、精度、n-グラム位置差ペナルティ、リコール)

● コメット

● プリス

● TER (翻訳エラー率)

各指標は異なるアルゴリズムで動作するため、自動評価プロセスの処理方法が異なります。つまり、両者にはそれぞれ長所と短所があり、どのようなエラーに対して高いペナルティを与えるか、より低いペナルティを与えるかについても異なります。

BLEU、最も人気のある指標

上記のすべての指標の中で、最も一般的に使用されているのは BLEU です。これは、人間の評価と高い相関関係を達成した最初の指標の 1 つであり、さまざまなバリエーションが生まれました。

その仕組みは、個々の文が質の高い参考翻訳セットと照らし合わせて採点されるということです。その後、これらのスコアが平均化され、その結果の数値がその機械翻訳システムの最終的な BLEU スコアになります。このスコアは、機械翻訳システムの出力が、品質の指標である人間の参照翻訳とどの程度一致しているかを表します。

スコアは、連続するテキストのセグメントを表す n-グラムと呼ばれる単位を使用して計算されます。前のサンプル文に戻ると、例えば:

その素早い茶色のキツネがその怠け者の犬を飛び越えた。

これは長さの異なる n-グラムに分けることができます。たとえば、2-グラムの場合は「その素早い」、「素早い茶色」、または「茶色のキツネ」になります。3-グラムは「その素早い茶色」または「素早い茶色のキツネ」です。4-グラムは「その素早い茶色のキツネ」です。などなど。

これは複雑な数学的プロセスですが、基本的には、BLEU のアルゴリズムはnグラム間のオーバーラップの数をチェックしてスコアを計算します。計算されるスコアは 0 ～ 1 の間で、1 は参照文と出力文が完全に一致することを表します。次に、サンプル文の次のバリエーションを見てみましょう：

その速い茶色のキツネがその怠惰な犬を飛び越えた。

「速い」という単語を含むものを除いて、すべての n-グラムが一致します。別の例:

その素早い茶色のキツネがその犬の上を飛び越えた。

この例では、「怠け者」という単語が抜けているため、オーバーラップにもマイナスの影響があります。どちらの場合も、BLEU スコアは高いものの 1 未満です。

実際には、これほど高い相関関係を示す文は多くありません。そのため、BLEU スコアは、大量のテキストまたはコーパスのコンテキストで取得した場合にのみ統計的に有意になります。

もちろん、BLEU スコアの計算には、余分な単語や非常に短い文に対するペナルティなど、他にも要因があります。その欠点を補うために他のデリバティブ・スコアリング・システムが開発されてきましたが、BLEU は依然として高い評価を得ており、今日でも最も広く使用されている機械翻訳の評価システムであり続けています。

機械翻訳の評価に関する最後の言葉

そして、機械翻訳の評価の基本も網羅しています。すでに説明したように、機械翻訳システムの評価は、人間による評価または自動評価によって行うことができます。どちらのプロセスにも長所と短所があります。

人間による評価は品質面ではゴールドスタンダードですが、費用と時間がかかります。自動翻訳はそれほど正確ではありませんが、迅速でスケーラブルです。そのため、どちらのタイプにもそれぞれ特有の用途があります。