10/05/2024

기계 번역 평가: 최고의 가이드

귀하의 기업이 기계 번역 시스템에 투자하기로 결정했다고 가정해 보겠습니다. 귀하는 몇 가지 기본 조사를 수행한 결과 선택할 수 있는 옵션이 너무 많다는 것을 알게 되었습니다. 각 시스템마다 특정 지표를 기반으로 특정 점수를 매긴다고 주장하지만 숫자가 실제로 무엇을 의미하는지는 알 수가 없습니다. 어떤 것이 귀하의 기업에 가장 잘 맞는지 어떻게 알 수 있습니까?

우선 기계 번역 평가가 어떻게 작동하는지 이해해야 합니다.

이 글에서는 기계 번역 평가라는 주제에 대해 자세히 설명합니다. MT 시스템이 무엇인지, 왜 필요한지, 다양한 평가 유형을 이해하는 데 도움을 줌으로써, 투자할 MT 시스템을 선택할 때 정보에 입각한 결정을 내릴 수 있도록 도와 드립니다.

소개: 기계 번역 평가란 무엇입니까?

기계 번역 평가란 기계 번역 시스템의 성능을 측정하는 다양한 프로세스를 말합니다.

이는 MT의 품질을 평가하여 시스템이 얼마나 좋은지 알 수 있는 방법이며, 여기에는 다양한 MT 시스템이 얼마나 효과적인지 비교할 수 있는 확실한 근거가 있습니다. 이를 위해 기계 번역 평가는 정량화할 수 있는 지표를 활용합니다.

기계 번역 평가 지표가 중요한 이유는 무엇일까요?

MT 시스템의 성능을 평가해야 하는 이유는 크게 두 가지입니다. 첫 번째는 실제 적용에 충분한지 확인하는 것입니다. 두 번째는 연구 개발에 대한 가이드 역할을 하는 것입니다.

실제 적용에 충분한지 확인

물론 그 첫 번째는 MT 시스템이 실제로 사용하기에 충분한 수준의 결과를 보여주는지 여부를 결정하는 것입니다. 이 이유가 바로 최종 사용자와 가장 직접적인 관련이 있는 것입니다. 기계 번역 시스템의 결과가 좋지 않으면 사용자는 다른 것을 선택할 가능성이 높습니다.

또한 MT를 사용하는 산업 부문에서는 어떤 MT 시스템을 사용할지 결정하기 위한 구체적인 기준을 원할 것입니다. 결국 MT는 투자이며 기업은 비용 대비 최고의 가치를 얻어야 합니다.

따라서 MT 개발자는 기계 번역 시스템의 품질이 고객에게 전송하기에 충분한지 평가해야 합니다.

연구 개발의 지침 역할

이상적으로 MT 시스템은 정적인 상태가 아니어야 합니다. MT 기술은 시간이 지남에 따라 지속적으로 개선되고 있습니다. MT 시스템도 개선될 것으로 기대되는 것은 당연합니다.

그래서 연구가 필요하며, 연구자가 어떤 연구를 해야 하는 지에 대한 가이드가 필요합니다. 연구자는 측정 가능한 지표를 통해 특정 접근 방식이 다른 접근 방식보다 나은지 비교하여 시스템을 미세 조정할 수 있습니다.

이러한 방법은 시스템이 일관된 번역 오류를 처리하는 방법을 확인하는 데 특히 유용합니다. 측정 가능한 지표가 있으면 특정 접근 방식이 이러한 종류의 오류를 처리할 수 있는지 여부를 보다 통제된 환경에서 확인할 수 있습니다.

기계 번역의 성공을 어떻게 평가하나요?

MT 시스템의 성능을 결정하는 방법에는 두 가지가 있습니다. 휴먼 평가는 사람인 전문가가 수작업 평가를 수행하는 반면, 자동 평가는 사람의 개입 없이 번역 품질을 평가하기 위해 특별히 개발된 AI 기반 지표를 사용합니다. 각각의 방법에는 고유한 장점과 단점이 있습니다. 이 글의 후반부에서 두 가지 유형의 MT 평가에 대해 더 자세히 다루겠지만, 먼저 두 가지 유형의 기계 번역 평가에 대한 간략한 개요와 이를 활용하는 MT 평가 접근 방식을 간략하게 살펴보겠습니다.

휴먼 평가와 자동 평가

기계 번역을 사람이 평가하는 것은 전문 번역가가 번역 품질을 평가하는 것을 의미합니다. 이것은 기계 번역의 품질을 문장 수준으로까지 내려가서 결정할 때 가장 효과적인 옵션입니다. 그러나 사람의 번역과 마찬가지로 사람이 하는 평가는 본질적으로 더 많은 비용과 시간이 소요됩니다.

반면 자동 평가는 다양한 방법에 따라 기계 번역의 품질을 평가하기 위해 특별히 설계된 프로그램을 사용합니다. 문장 수준에서 사람이 평가하는 것만큼 신뢰할 수는 없지만, 여러 문서에 대한 전반적인 번역 품질을 평가할 때는 확장 가능한 좋은 옵션입니다.

MT 평가에 대한 접근 방식

기계 번역 평가에 대한 접근 방식은 세분성 개념을 기반으로 합니다. 즉, 채점을 중요한 것으로 간주할 수도 있는 다양한 수준입니다.

문장 기반 접근법. 이 접근법에서는 번역이 좋은지(1) 아닌지(0)를 나타내는 점수를 각 문장에 부여하고 총계에 평균을 부여합니다. 이것은 사람이 하는 평가에서 가장 일반적으로 수행됩니다.

문서 기반 접근 방식. 코퍼스 기반 접근법으로도 알려져 있으며, 문장에도 점수가 부여되지만 중요한 점수는 대규모 문서 집합의 총점 또는 평균입니다. 이는 광범위한 데이터 세트의 통계에 크게 의존하기 때문에 자동화된 MT 평가가 중요하다고 간주될 수 있는 가장 작은 수준입니다.

컨텍스트 기반 접근 방식. 이 접근법은 문장을 기반으로 한 평균 점수가 아니라 전체 MT 작업이 주어진 목적에 얼마나 잘 맞는지를 고려한다는 점에서 이전 접근 방식과 다릅니다. 따라서 MT 평가에 대한 전체론적 접근 방식으로 간주될 수 있습니다.

기계 번역 평가의 어려움

기계 번역 평가는 까다로운 프로세스입니다. 그 이유는 언어 자체가 매우 복잡하기 때문입니다.

우선 올바른 번역도 여러 가지가 있을 수 있습니다. 다음 문장을 예로 들어 보겠습니다.

재빠른 갈색 여우가 게으른 개 위로 뛰어올랐다.

MT 시스템은 대신 다음과 같은 번역을 생성할 수도 있습니다.

금세 갈색 여우가 게으른 개 위로 달려들었다.

이것은 기술적으로 정확한 번역이며 사람이 하는 평가에서는 일반적으로 그렇게 표시됩니다. 하지만 자동 평가에서는 잘못된 것으로 표시될 수도 있습니다.

작은 세부 사항도 문장의 의미를 완전히 바꿀 수 있습니다.

재빠른 갈색 여우가 게으른 개에게 뛰어올랐다.

여기서 바뀐 단어는 하나뿐입니다. 하지만 그 단어 하나가 문장의 의미를 완전히 바꿉니다. 자동 평가에서는 이전 예제보다 더 높은 점수로 표시될 가능성이 있습니다. 사람인 번역가는 오류를 알아차릴 수 있지만, 일부는 정확하다고 생각할 수도 있습니다.

언어는 주관적일 수 있기 때문입니다. 번역이 좋은지 아닌지에 대한 판단은 사람마다 다를 수 있습니다.

휴먼 평가: 골드 스탠다드

이제 기본 사항을 살펴보았으니 휴먼 평가부터 시작하여 두 가지 유형의 MT 평가에 대해 자세히 살펴보겠습니다.

가장 기본적인 수준에서 기계 번역의 목표는 소스 언어의 텍스트를 사람이 이해할 수 있는 수준의 대상 언어로 번역하는 것입니다. 따라서 기계 번역의 품질을 평가하기 위한 최고의 기준점은 사람입니다.

휴먼 평가의 유형

휴먼 평가를 수행하는 방법에는 여러 가지가 있습니다. 이제 이에 대해 살펴보겠습니다.

직접 평가

이것은 휴먼 평가의 가장 단순한 종류입니다. 기계 번역 결과는 문장 수준에서 점수가 매겨집니다.

직접 평가의 문제점은 심사위원마다 점수를 매기는 방식이 크게 다르다는 것입니다. 어떤 사람들은 번역을 매우 나쁘거나 아주 좋은 것으로 표시하여 점수 산정 측면에서 극단적인 선택을 하는 경향이 있을 수 있습니다. 또 어떤 사람들은 같은 문장을 중간에 가까운 점수로 표시하여 좀 더 보수적으로 평가할 수도 있습니다.

또 다른 문제는 다시 말하지만 주관성입니다. 문장이 잘못된 번역인지 아닌지를 판단할 때 평가자는 모호한 언어에 대한 결정을 내려야 합니다. 예제 문장으로 돌아가서:

재빠른 갈색 여우가 게으른 송곳니를 뛰어넘었다.

여기서 송곳니가 반드시 틀린 것은 아니지만 가장 잘 맞는 것도 아닙니다. 일부 평가자는 충분히 훌륭하다고 생각할 수 있지만 다른 평가자는 완전히 틀렸다고 표시할 수도 있습니다. 예를 들어, 5점 척도로 점수를 매긴 경우 어떤 번역사는 4점을 주지만 다른 번역사는 2점만 매길 수도 있습니다.

이러한 문제는 더 많은 평가자 풀을 고용함으로써 상쇄될 수 있으며, 이를 통해 점수를 통계적 조건으로 정규화할 수 있습니다.

순위 지정

휴먼 평가를 통해 기계 번역 시스템을 평가하는 또 다른 방법은 순위 지정입니다.

이 경우 평가자는 문장에 대한 개별 점수를 제공하지 않고 대신 다른 MT 시스템의 번역과 비교합니다. 그런 다음 어떤 번역이 가장 좋은지, 어떤 것이 두 번째로 좋은지 등을 결정합니다.

직접 평가에 비해 이 방법의 장점은 여러 테스트에서 그리고 아마도 다른 평가자가 생성한 점수를 비교하는 것과는 대조적으로 즉시 직접 비교할 수 있다는 것입니다.

그러나 여전히 주관성이라는 문제는 남아 있습니다. MT 시스템마다 서로 다른 오류가 발생할 수 있습니다. 예를 들면 다음과 같습니다.

빠른 녹색 여우가 게으른 개를 뛰어 넘었습니다.

재빠른 갈색 여우가 게으른 개를 뛰어 넘었습니다.

갈색 여우가 게으른 개를 뛰어 넘습니다.

각 문장에는 간단한 오류가 있습니다. 첫 번째 것은 오역입니다. 두 번째는 정관사가 생략되어 있습니다. 세 번째는 동사 시제가 없습니다.

이제 평가자는 어떤 오류가 다른 오류보다 더 중요한지 결정해야 합니다. 다시 말하지만 평가자는 이 문제에 대해 서로 다른 의견을 가질 수 있습니다.

포스트 에디팅 노력

MT 시스템을 사용하는 사용자의 목적이 사후 편집을 위한 문서를 준비하는 것이라면 사후 편집에 드는 노력의 양에 따라 평가하는 방법도 있습니다.

포스트에디팅의 기본 목적은 번역사가 텍스트를 처음부터 번역하는 것보다 더 빠르게 작업할 수 있도록 하는 것입니다. 따라서 포스트에디팅을 위해 MT 시스템을 평가하는 가장 간단한 방법은 번역사가 기계 번역 결과물을 수정하는 데 걸리는 시간을 측정하는 것입니다.

사후 편집 작업을 측정하는 또 다른 방법은 기계 번역 텍스트를 사람이 참조한 번역으로 대체하는 데 걸리는 키보드 스트로크 수를 표로 작성하는 것입니다. 이는 시간 제약과 무관하지만 정확한 번역이 여러 개 있을 수 있다는 점도 고려하지 않습니다.

작업 기반 평가

그리고 이름에서 알 수 있듯이 당면한 작업에 얼마나 적합한지를 기반으로 MT 시스템을 평가하는 작업 기반 평가가 있습니다. 예를 들어, 다국어 웹 세미나 환경에서 사용하는 경우 참가자에게 기계 번역 대본으로 경험을 평가하도록 요청할 수 있습니다. 즉, 이는 곧 MT 시스템 전체의 성공 여부를 평가함을 의미합니다.

이 접근법의 문제점은 평가자가 부여하는 평점에 영향을 미칠 수 있는 통제되지 않은 다른 요소가 매우 자유롭게 도입될 수 있다는 것입니다. 따라서 작업 기반 평가의 사용은 상황을 매우 중시해야 합니다.

휴먼 평가의 일반적인 문제

보시다시피 MT에 대한 다양한 유형의 휴먼 평가에는 나름의 문제가 있습니다. 또한 이들이 광범위하게 공유하는 몇 가지 문제도 있는데, 이는 일관성 또는 합의와 관련이 있습니다.

주석자 간 합의

이는 서로 다른 평가자 간의 점수에 대한 일관성을 나타냅니다. 앞서 언급했듯이 평가자마다 동일한 텍스트 세그먼트에 점수를 매기는 방식이 서로 다른 경향이 있습니다. 일부는 극단적인 점수를 줄 수 있고 또는 중간 정도의 점수를 매길 수도 있습니다. 다양한 MT 엔진의 순위를 매길 때 사람마다 의견이 다를 수 있습니다. 그렇기 때문에 점수 분포를 정규화하려면 평가자를 여러 명 두는 것이 중요합니다.

주석자 본인의 합의

한 명의 평가자가 텍스트에 점수를 매기는 방식도 유효성의 척도입니다. 평가자는 처음에는 문장을 좋거나 나쁘게 평가할 수 있지만 같은 테스트를 반복하면 마음이 바뀔 수 있습니다. 주석자 자신의 합의가 높게 측정되면 선택된 해당 평가자가 일관적이고 신뢰할 수 있는 것으로 간주될 수 있습니다.

자동 평가: 확장 가능한 옵션

휴먼 평가는 기계 번역의 품질을 평가할 때 최고의 표준으로 간주됩니다. 그러나 이는 노력과 시간 측면에서 비용이 많이 드는 작업입니다. 이것이 바로 이 분야의 연구원들이 자동화된 프로세스를 통해 MT 품질을 평가하는 다양한 방법을 개발한 이유입니다.

이러한 프로세스는 사람이 MT 시스템을 평가하는 방법을 대략적으로 설명하도록 설계되었습니다. 물론 이러한 기능이 완벽하지는 않지만 자동 평가에는 여전히 매우 중요한 사용 사례가 있습니다.

휴먼 평가에 비해 자동 평가의 주요 장점은 확장성입니다. 수백 개의 자동 평가 인스턴스를 실행하는 것은 사람이 한 번 평가하는 것보다 훨씬 빠릅니다. 따라서 빠른 결과가 필요한 MT 시스템을 조정하거나 최적화할 때 이상적인 솔루션입니다.

자동 평가의 문제점

사람과 달리 기계는 언어 사용에 따른 다양한 뉘앙스를 처리할 수 있도록 되어 있지 않습니다. 자동 평가 시스템은 MT가 참조 텍스트와 정확히 일치하는 것을 전제로 하며, 사소한 차이가 최종 점수에 영향을 미칠 수 있습니다. 이러한 차이에는 형태학의 편차, 동의어 사용 및 문법 순서가 포함될 수 있습니다.

휴먼 평가자가 기술적으로 또는 다소 정확하다고 간주할 수 있는 모든 것이 자동 평가에서는 불이익을 받을 수 있습니다. 그럼에도 불구하고 특히 대량의 텍스트 샘플을 고려할 때 정확히 일치하는 항목의 수는 자동 평가를 사용해야 하는 이유로 충분한 경우가 많습니다.

자동 평가 지표

현재 사용할 수 있는 다양한 자동 평가 지표가 있습니다. 다음은 사용 중인 몇 가지 예입니다.

● BLEU (Bilingual Evaluation Understudy)

● NIST (National Institute of Standards and Technology)

● METEOR (Metric for Evaluation of Translation with Explicit Ordering)

● LEPOR (Length-Penalty, Precision, n-gram Position Difference Penalty and Recall)

● COMET

● PRIS

● TER (Translation Error Rate)

각 지표는 서로 다른 알고리즘에서 작동하므로 자동 평가 프로세스가 다르게 처리됩니다. 즉, 강점과 약점이 서로 다르며 어떤 종류의 오류에 대해 더 높거나 낮은 페널티를 주는지에 따라 달라집니다.

BLEU, 가장 인기 있는 지표

위에 나열된 모든 지표 중에서 BLEU가 가장 일반적으로 사용되는 지표입니다. 이는 휴먼 평가와 높은 수준의 상관관계를 달성한 최초의 지표 중 하나였으며 다양한 변형이 파생되었습니다.

작동 원리는 고품질 참조 번역 세트를 기준으로 개별 문장에 점수를 매기는 것입니다. 그런 다음 이 점수의 평균을 구하여 그 결과가 해당 MT 시스템의 최종 BLEU 점수가 됩니다. 이 점수는 MT 시스템의 출력이 품질 지표인 사람의 참조 번역과 얼마나 일치하는지를 나타냅니다.

점수는 연속된 텍스트의 세그먼트를 나타내는 n-gram이라는 단위를 사용하여 계산됩니다. 이전 샘플 문장으로 돌아가서 예를 들면 다음과 같습니다.

재빠른 갈색 여우가 게으른 개 위로 뛰어올랐다.

이것은 길이가 다른 n-그램으로 나눌 수 있습니다. 예를 들어 2-gram은 “The quick”, “quick brown” 또는 “brown fox”입니다. 3-gram은 “The quick brown” 또는 “quick brown fox”입니다. 4-gram 그램은 “The quick brown fox”입니다. 등등.

복잡한 수학적 과정이지만 기본적으로 BLEU의 알고리즘은 n-gram 간의 중첩 수를 확인하여 점수를 계산합니다. 계산된 점수는 0에서 1 사이이며, 1은 참조와 출력 문장 간의 완전히 동일한 일치를 나타냅니다. 이제 샘플 문장을 다음과 같이 변형해 보겠습니다.

빠른 갈색 여우가 게으른 개를 뛰어 넘었다.

“fast”라는 단어가 있는 n-gram을 제외한 모든 n-gram이 일치합니다. 또 다른 예는 다음과 같습니다.

재빠른 갈색 여우가 개 위로 뛰어올랐다.

이 예에서는 “lazy”라는 단어가 없기 때문에 겹치는 부분에도 부정적인 영향을 미칩니다. 두 경우 모두 BLEU 점수는 여전히 높지만 1보다 작습니다.

실제로 이렇게 높은 상관관계를 나타내는 문장은 많지 않습니다. 따라서 BLEU 점수는 대량의 텍스트 또는 말뭉치의 컨텍스트에서만 통계적으로 유의미해집니다.

물론 BLEU 점수 계산에는 추가 단어나 매우 짧은 문장에 대한 페널티와 같은 다른 요소도 있습니다. 단점을 보완하기 위해 다른 파생 채점 시스템이 개발되었지만 BLEU는 여전히 높은 평가를 받고 있으며 오늘날에도 가장 널리 사용되는 MT 평가 시스템입니다.

MT 평가에 대한 결론

여기서는 기계 번역 평가의 기본 사항을 다룹니다. 앞에서 살펴본 바와 같이 MT 시스템 평가는 휴먼 평가 또는 자동 평가를 통해 수행할 수 있습니다. 두 프로세스 모두 장점과 단점이 있습니다.

휴먼 평가는 품질 측면에서 최고의 표준이지만 비용과 시간이 많이 소요됩니다. 자동 번역은 정확하지는 않지만 빠르고 확장 가능합니다. 따라서 두 유형 모두 상황에 따라 적용할 수 있는 고유한 사용 사례가 있습니다.