13/05/2024

Оценка машинного перевода: Полное руководство

Допустим, вы являетесь компанией, которая решила инвестировать в систему машинного перевода. Вы провели исследование и обнаружили, что существует множество вариантов на выбор. Компании, предлагающие эти решения утверждают, что они набрали определенную сумму баллов по определенным показателям, но вы не понимаете, что на самом деле означают эти цифры. Как узнать, какой из вариантов подходит вам лучше, чем остальные?

Для этого вам нужно понять, как работает оценка машинного перевода.

В этой статье мы подробно рассмотрим тему оценки машинного перевода. Вы сможете понять, что это такое, зачем она вам нужна, а также познакомитесь с различными типами оценки, которые помогут вам принять взвешенное решение, в какую систему машинного перевода лучше инвестировать.

Введение: Что такое оценка машинного перевода?

Под оценкой машинного перевода понимаются различные процессы измерения эффективности системы машинного перевода.

Это способ оценки качества машинного перевода, позволяющий понять, насколько хороша система, является надежной основой для сравнения эффективности различных систем машинного перевода. Для этого при оценке машинного перевода используются количественные показатели.

Почему метрики оценки машинного перевода важны?

Существует две основные причины, по которым необходимо проводить оценку эффективности системы машинного перевода. Во-первых, это позволяет понять, подходит ли система для реального применения. Во-вторых, оценка позволяет определить дальнейшее направление для исследований и разработок.

Достаточно ли хороша система для реального применения

Во-первых, конечно, нужно определить, достаточен ли уровень системы машинного перевода для реального использования. Эта причина имеет самое непосредственное отношение к конечным пользователям. Если система машинного перевода работает плохо, пользователи с большей вероятностью выберут другой вариант.

Отраслям промышленности, использующим машинный перевод, также требуются конкретные показатели, позволяющие принять решение в пользу той или иной системы машинного перевода. Машинный перевод — это инвестиция, и компании должны получать максимальную выгоду от своих вложений.

Разработчика систем машинного перевода необходимо оценить, достаточен ли уровень качества системы машинного перевода для того, чтобы они могли отправить ее клиентам.

Определение направления дальнейших исследований и разработок

В идеальном варианте системы машинного перевода не являются статичными. Технология машинного перевода постоянно совершенствуется с течением времени. Вполне логично, что системы машинного перевода также должны улучшаться.

Здесь на помощь приходят исследования, а исследователям необходимо понимать, в какую сторону двигаться. Измеримые метрики позволяют исследователям сравнивать разные подходы и понять, в чем заключается преимущество одного метода над другим, что помогает им более точно настроить систему.

Это особенно полезно для того, чтобы увидеть, как система справляется с постоянными ошибками перевода. Измеримые метрики позволяют более контролируемым образом определить, способен ли тот или иной метод справиться с подобными ошибками.

Как оценивается успешность машинного перевода?

Для того чтобы определить, насколько хорошо работает система машинного перевода, используется два способа. Оценка людьми выполняется экспертами-людьми, которые оценивают перевод вручную, а автоматическая оценка использует метрики на основе искусственного интеллекта, специально разработанные для оценки качества перевода без вмешательства человека. У каждого способа есть свои преимущества и недостатки. Мы более подробно рассмотрим оба способа оценки машинного перевода в следующих разделах этой статьи, но сначала приведем краткий обзор обоих способов оценки машинного перевода и используемых в них подходов к оценке машинного перевода.

Оценка людьми и автоматическая оценка

Оценка машинного перевода людьми означает, что качество перевода оценивается профессиональными переводчиками. Это наиболее эффективный вариант, когда речь идет об определении качества машинных переводов вплоть до уровня предложений. Но оценка людьми, как и перевод с помощью человека, более дорогостоящая и трудоемкая.

Автоматическая оценка использует программы, созданные специально для оценки качества машинного перевода с использованием различных методов. Этот способ не такой надежный, как оценка людьми по предложениям, но это хороший масштабируемый вариант для оценки общего качества перевода нескольких документов.

Подходы к оценке машинного перевода

Подходы к оценке машинного перевода основаны на концепции детализации. Под этим термином понимаются разные уровни, на которых оценка может считаться значимой.

Подход с оценкой каждого предложения. В данном подходе каждому предложению присваивается оценка, указывающая, является ли перевод хорошим (1) или плохим (0), а затем подсчитывается среднее значение. Чаще всего этот способ используется при оценке людьми.

Подход с оценкой документов. В этом подходе, который также известен как корпусный подход, предложениям также присваиваются баллы, но при этом значимым баллом является общее или среднее значение по большему набору документов. Это наименьший уровень, на котором автоматическую оценку машинного перевода можно считать значимой, поскольку она в значительной степени зависит от статистики по широкому набору данных.

Подход с учетом контекста. Этот подход отличается от предыдущих тем, что в нем учитывается то, насколько общая задача машинного перевода соответствует поставленным целям, а не средние баллы, полученные в результате оценки предложений. Таким образом, данный подход можно считать наиболее целостным подходом к оценке машинного перевода.

Трудности при оценке машинного перевода

Оценка машинного перевода — это сложный процесс. Это связано с тем, что язык сам по себе очень сложен.

Во-первых, правильных переводов может быть несколько. Возьмем, к примеру, следующее предложение:

The quick brown fox jumped over the lazy dog.

Система машинного перевода может создать следующий перевод:

The fast brown fox pounced over the indolent dog.

Технически это правильный перевод, и при оценке людьми он обычно обозначается как таковой. Однако при автоматической оценке этот перевод будет помечен как неправильный.

Мелкие детали также могут полностью изменить смысл предложения.

The quick brown fox jumped on the lazy dog.

Здесь изменилось только одно слово. Но оно полностью меняет смысл предложения. Автоматические оценки, скорее всего, оценят этот перевод выше, чем предыдущий пример. Переводчики-люди, скорее всего, заметят эту ошибку, но некоторые могут счесть перевод правильным.

И все потому, что язык может быть субъективным. Даже специалисты по оценке могут расходиться в своих суждениях о том, является ли перевод правильным или нет.

Оценка людьми: золотой стандарт

Мы рассмотрели основы, а теперь давайте подробно рассмотрим два типа оценки машинного перевода. Начнем с оценки людьми.

На самом базовом уровне целью машинного перевода является перевод текста с исходного языка на целевой язык на понятном людям уровне. Таким образом, наилучшей точкой отсчета для оценки качества машинного перевода являются люди.

Типы оценки людьми

Ниже мы рассмотрим несколько разных способов оценки людьми:

Непосредственная оценка

Это самый простой вид оценки людьми. Результаты машинного перевода оцениваются по предложениям.

Проблема непосредственной оценки заключается в том, что оценки разных экспертов будут сильно отличаться. Кто-то может пойти на крайности, помечая переводы только как очень плохие или очень хорошие. Другие могут использовать более консервативную формулировку, оценивая те же предложения баллами ближе к середине.

Еще одна проблема — это субъективность. При оценке того, является ли перевод предложения плохим переводом или нет, эксперты должны принимать решения с учетом многозначности языка. Вернемся к примеру предложения:

The quick brown fox jumped over the lazy canine.

Здесь «canine» не является фактической ошибкой, но это не самый лучший вариант. Некоторые эксперты могут счесть этот вариант достаточно хорошим, а другие сочтут совершенно неправильным. Например, если оценка выставляется по 5-балльной шкале, некоторые переводчики могут поставить ей 4 балла, а другие — только 2.

Эти проблемы можно решить путем привлечения большего числа специалистов по оценке, что позволит нормализовать оценки в статистическом выражении.

Ранжирование

Еще один способ оценки систем машинного перевода людьми — это ранжирование.

В этом случае эксперты выставляют не индивидуальные оценки предложениям, а сравнивают переводы из разных систем машинного перевода. Затем они решают, какой перевод лучший, какой занимает второе место и так далее.

Преимущество этого метода перед непосредственной оценкой заключается в том, что он обеспечивает прямое сравнение, а не сравнение оценок, полученных в ходе разных тестов и, возможно, разными экспертами.

Однако этот способ все так же сталкивается с проблемой субъективности. В разных системах машинного перевода могут возникать разные ошибки. Пример:

The quick green fox jumped over the lazy dog.

Quick brown fox jumped over lazy dog.

The quick brown fox jumped over lazy dog.

В каждом предложении есть простая ошибка. Первое предложение переведено неправильно. Во втором пропущены артикли. В третьем выбрано неправильное время глагола.

Теперь эксперты должны решить, какая ошибка важнее другой, и, опять же, у них могут быть разные мнения по этому вопросу.

Усилия по постредактированию

Если целью пользователя системы машинного перевода является подготовка документов к постредактированию, существуют также способы оценить их в зависимости от количества усилий по постредактированию.

Основная цель постредактирования — повысить скорость работы переводчика по сравнению со скоростью перевода «с нуля». Таким образом, самый простой способ оценить систему машинного перевода по показателю постредактирования — измерить время, необходимое переводчику для исправления результатов машинного перевода.

Еще один способ измерить трудозатраты на постредактирование — подсчитать количество нажатий на клавиатуре, которое потребуется для замены текста, переведенного с помощью компьютера, на перевод, выполненный человеком. Такой подход не зависит от ограничений времени, но также не учитывает возможность нескольких правильных переводов.

Оценка на основе задач

Кроме того, существует оценка на основе задач, которая, как следует из названия, оценивает систему машинного перевода по тому, насколько она подходит для поставленной задачи. Например, если машинный перевод используется в многоязычном вебинаре, участников могут попросить оценить впечатления от работы с транскриптом, переведенным с помощью машинного перевода. Это означает, что они оценивают успех системы машинного перевода в целом.

Проблема этого подхода заключается в том, что он очень подвержен влиянию других неконтролируемых элементов, которые могут повлиять на оценку, выставляемую людьми. Таким образом, использование оценки на основе задач очень ситуативно.

Общие проблемы оценки людьми

Как вы можете видеть, разные типы оценки машинного перевода людьми имеют свои проблемы. Кроме того, имеется ряд общих для них проблем, связанных с единообразием и согласованностью.

Согласованность между оценивающими

Речь идет о согласованности оценок между оценивающими людьми. Как мы уже упоминали ранее, разные оценивающие по-разному оценивают одни и те же фрагменты текста. Некоторые могут ставить им крайние или средние баллы. При ранжировании различных движков машинного перевода их мнения также могут различаться. Поэтому для нормализованного распределения баллов важно, чтобы в работе участвовало несколько экспертов.

Согласованность между оценивающими

То, как один человек оценивает текст, также является мерой достоверности. Оценивающий может с первого раза оценить предложение как хорошее или плохое, но, повторив тот же тест, он может передумать. Высокий уровень согласованности между оценивающими экспертами гарантирует, что выбранного эксперта можно считать последовательным и надежным.

Автоматическая оценка: Масштабируемая опция

Оценка человеком считается золотым стандартом для оценки качества машинного перевода. Однако это дорогостоящее мероприятие с точки зрения усилий и времени. Поэтому исследователи в этой области разработали различные способы оценки качества машинного перевода с помощью автоматизированных процессов.

Эти процессы разработаны таким образом, чтобы приблизиться к тому, как система машинного перевода будет оцениваться людьми. Конечно, эти процессы далеко не идеальны, но, тем не менее, автоматическая оценка находит важное применение.

Основным преимуществом автоматической оценки по сравнению с оценкой людьми является ее масштабируемость. Сотня автоматических оценок происходит намного быстрее, чем один раунд оценки людьми. Это делает его идеальным решением при внесении изменений или оптимизации системы машинного перевода, где требуются быстрые результаты.

Проблемы автоматической оценки

В отличие от людей, машины не способны справиться с различными нюансами использования языка. Системы автоматической оценки основаны на точном совпадении результата машинного перевода с эталонным текстом, поэтому незначительные различия могут повлиять на окончательный результат. К таким различиям могут относиться отклонения в морфологии, использовании синонимов и порядке слов в предложении.

Все, что может быть сочтено экспертом более или менее правильным, может получить штрафные баллы при автоматической оценке. Тем не менее, числа точных совпадений часто бывает достаточно, чтобы можно было использовать автоматическую оценку (особенно при рассмотрении большой выборки текста).

Метрики автоматической оценки

Сегодня используется ряд различных метрик автоматической оценки. Вот несколько примеров:

 

      BLEU (Bilingual Evaluation Understudy)

      NIST (от National Institute of Standards and Technology)

      METEOR (Metric for Evaluation of Translation with Explicit Ordering)

      LEPOR (Length-Penalty, Precision, n-gram Position Difference Penalty and Recall)

      COMET 

      PRIS

      TER (Translation Error Rate)

Каждая метрика работает на разных алгоритмах и поэтому по-разному обрабатывает процесс автоматической оценки. Это означает, что у них есть свои сильные и слабые стороны, а также разные варианты ошибок, за которые они налагают больше или меньше штрафов.

BLEU — самая популярная метрика

Из всех перечисленных выше метрик наиболее часто используется BLEU. Это одна из первых метрик, которая достигла высокой степени корреляции с оценкой людьми и породила множество различных вариаций.

Принцип работы заключается в том, что отдельные предложения оцениваются по набору высококачественных эталонных переводов. Затем эти баллы усредняются, и полученное число является окончательным баллом BLEU для этой системы машинного перевода. Эта оценка показывает, насколько результаты системы машинного перевода соответствуют результатам перевода, выполненного человеком, что является показателем качества.

Оценки рассчитываются с использованием единиц, называемых n-grams (словосочетания с n слов), которые представляют собой сегменты последовательного текста. Вернемся к предыдущему примеру:

The quick brown fox jumped over the lazy dog.

Его можно разделить на словосочетания разной длины. Примером словосочетаний с 2 словами, например, являются “The quick”, “quick brown” или “brown fox”. Словосочетания с 3 словами: «The quick brown» или «quick brown fox». Словосочетание с 4 словами: «The quick brown fox». И так далее.

Это сложный математический процесс, но в общих чертах алгоритм BLEU рассчитывает оценку, проверяя количество совпадений между словосочетаниями с n слов. Вычисленный балл будет в диапазоне от 0 до 1, где 1 соответствует полностью идентичному совпадению между эталоном и переведенным предложением. Теперь рассмотрим следующий вариант того же предложения:

The fast brown fox jumped over the lazy dog.

Все словосочетания с n слов будут совпадать, кроме тех, в которых есть слово «fast». Другой пример:

The quick brown fox jumped over the dog.

В этом примере слово «lazy» отсутствует, что также отрицательно сказывается на совпадении. В обоих случаях оценка BLEU все равно будет высокой, но менее 1.

На практике немногие предложения показывают такой высокий уровень корреляции. Таким образом, оценки BLEU становятся статистически значимыми только в контексте большой выборки текста или корпусов.

Конечно, существуют и другие факторы, влияющие на расчет оценки BLEU, такие как штрафы за лишние слова или очень короткие предложения. Для компенсации недостатков были разработаны и другие производные системы оценки, но BLEU по-прежнему имеет высокие оценки и на сегодняшний день остается наиболее широко используемой системой оценки машинного перевода.

Заключительные слова об оценке машинного перевода

Мы рассмотрели основы оценки машинного перевода. Оценка системы машинного перевода может быть выполнена людьми или автоматически. Оба процесса имеют свои преимущества и недостатки.

Оценка на людях является золотым стандартом с точки зрения качества, но она дорогостоящая и трудоемкая. Автоматическая оценка перевода не такая точная, но она быстрая и масштабируемая. Таким образом, оба типа имеют свои особые варианты использования, для которых они подходят наилучшим образом.