08/07/2024

翻訳エンジンのベンチマーク:パフォーマンスと品質の比較研究

多くの翻訳エンジンは、さまざまなレベルのパフォーマンスと品質を提供します。しかし、どれを選ぶべきでしょうか?

MachineTranslation.com は、AI を活用した翻訳アグリゲータで利用可能なさまざまなトップクラスの機械翻訳を調査しました。主要な指標に基づいて主要なエンジンを分析し、速度と精度の最適なバランスを見つけました。

私たちがレビューしたトップの機械翻訳エンジンは、DeepL、Google、Chat GPT、Microsoft、Lingvanex、Modern MT、Royalflush、Niutrans、Groq です。

トップ翻訳エンジンの詳細な比較

AIを搭載した機械翻訳アグリゲータユーザーの翻訳とインタラクションから膨大なデータを収集しました。このデータを使用して、平均翻訳スコアと処理時間という 2 つの主要な指標を分析しました。

翻訳エンジンの平均スコア

平均スコアは、各エンジンによって生成された翻訳品質の重要な指標です。スコアは翻訳されたテキストに対するフィードバックから得られ、明瞭さ、一貫性、必要な編集の範囲に基づいて評価されます。この記事で提示された結果は異なる場合があり、継続的なフィードバックと調査に基づいて変更される可能性があります。

主要な翻訳エンジンの平均スコアは次のとおりです。

DeepL:8.38
Google:7.90
チャットGPT :7.82
Microsoft:7.77
リングバネックス:7.49
モダンMT :7.48
ロイヤルフラッシュ：6.54
ニウトランス:6.65
グロク:6.66

翻訳エンジンの平均スコア

このグラフは、各エンジンの平均スコアを示しています。

上記のグラフに基づくと、ディープL平均スコアが最も高く、11 の機械翻訳機の中で優れた翻訳品質を示しています。Google と Chat GPT もパフォーマンスが良好で、Microsoft がそれに続いています。

Lingvanex と Modern MT は中程度のパフォーマンスで、満足のいく品質を提供しますが、トップクラスのパフォーマンスほど高くはありません。Royalflush、Niutrans、Groq の平均スコアは最も低く、これらの翻訳にはより多くの編集が必要になることが多いことを意味します。

詳細：一般的な機械翻訳エンジンでサポートされている言語

さまざまなエンジンの処理時間

処理時間は、翻訳エンジンの効率を反映する重要な指標です。リアルタイム翻訳には、より高速な処理時間が不可欠です。各エンジンの平均処理時間は次のとおりです。

Google:0.22秒
Microsoft:0.26秒
アマゾン:0.33秒
モダンMT :0.36秒
リングバネックス:0.45秒
DeepL:0.51秒
チャットGPT :1.12秒
ニウトランス:1.47秒
ロイヤルフラッシュ：1.83秒

さまざまなエンジンの処理時間

このグラフは、各機械翻訳エンジンの平均処理時間を示しています。

上の表から、Google、Microsoft、Amazon が最も高速であり、迅速な翻訳に最適です。Modern MT、Lingvanex、DeepL の速度は中程度です。

ChatGPT、Niutrans、Royalflush は最も遅いため、時間に敏感な状況では欠点となる可能性があります。

処理時間とスコアの相関関係

ヒートマップマトリックス

このグラフは、翻訳速度と品質の間に相関関係がないことを示しています。

処理時間と翻訳品質、これら 2 つの指標間の相関関係を分析しました。上のグラフは相関係数が約 -0.093 であることを示しており、非常に弱い負の相関を示しています。つまり、翻訳時間が短くても必ずしも品質に影響するわけではなく、2 つの指標はほぼ独立しています。

フィードバック分析の洞察

フィードバックは翻訳の品質に関する貴重な洞察を提供します。MachineTranslation.com のアグリゲータからの最も一般的なフィードバックの種類とその頻度は次のとおりです。

主に明確な：いくつかの修正が必要でした- 76,877 件
ほぼスムーズ:オプションの調整が必要です- 64,001 件のインスタンス
かなり洗練されています:軽い編集で改善される可能性があります - 55,030 件
非常に矛盾している:大幅な編集が必要- 32,301 件
徹底的な編集が必要:徹底的な編集が必要です - 27,697 件

前述の一般的なフィードバックの種類に加えて、以下のグラフに示すように、AI を活用したアグリゲータから翻訳品質をより正確に表すためにさらに分析を行いました。

フィードバック分析の洞察

当社の AI 搭載翻訳アグリゲータは、内部フィードバック分析に基づいて「ほぼ明確な」出力を生成します。

上のグラフは、翻訳されたコンテンツに対する当社の AI 搭載アグリゲータの内部フィードバック分析を示しています。最も高い平均スコアは、「非常にクリア」、「ほぼスムーズ」、「非常に洗練されている」です。

「非常にクリア」は平均スコアが最も高く、編集の必要性が最小限であることを示しています。「ほぼスムーズ」と「かなり洗練されている」の平均スコアは 7.5 ～ 8 程度で、若干の改善が必要な良好な品質を示しています。

一方、スコアが最も低いのは「非常に一貫性がない」と「徹底的な編集が必要」で、平均スコアは 5 未満であり、翻訳に重大な問題があることを示しています。

詳細：言語ペアごとの最高の機械翻訳エンジン

結論

私たちの研究では、さまざまな翻訳エンジンの長所と短所を特定しています。この記事の機械翻訳に関する調査結果は、AI を活用したアグリゲーターの研究開発が進むにつれて変わる可能性があります。

これらの調査結果は、企業や個人が、速度、品質、またはその両方のバランスを重視するかどうかにかかわらず、特定のニーズに基づいて最適な翻訳エンジンを選択するのに役立ちます。この記事で紹介した機械翻訳エンジンを試してみたい方は、弊社のホームページをご覧ください。また、無料サブスクリプションプラン、これにより毎月 1500 クレジットが付与され、さらにアクセスしやすくなります。