13/05/2024

Оцінка машинного перекладу: Повний довідник

Уявімо, що ви маєте компанію і вирішили інвестувати в систему машинного перекладу. Ви провели відповідні фундаментальні дослідження і виявили, що існує доволі багато варіантів. Кожен з них має певну оцінку на основі певних показників, але ви не знаєте, що насправді означають ці цифри. Як вирішити, який з них найкраще підходить для вас?

Ви маєте розуміти, як працює оцінка машинного перекладу.

У цій статті ми детально розглянемо тему оцінки машинного перекладу. Це допоможе вам зрозуміти, що це таке, навіщо вам це потрібно, а також різні типи оцінки результату. Це допоможе вам прийняти зважене рішення щодо вибору системи МТ для інвестицій.

Вступ: Що означає оцінка машинного перекладу?

Оцінка машинного перекладу означає різні процеси вимірювання продуктивності системи машинного перекладу.

Це спосіб оцінки якості МТ, яка показує, наскільки якісною є система, і дає надійну основу для порівняння ефективності різних систем МТ. Для цього в оцінюванні машинного перекладу використовуються кількісні показники.

Чому показники оцінки машинного перекладу настільки важливі?

Є дві основні причини, з яких оцінка продуктивності системи МТ абсолютно необхідна. Перша — перевірити, чи достатньо вона якісна для практичного застосування. Друга — служити орієнтиром у дослідженнях і розробках.

Аби перевірити, чи достатньо вона якісна для практичного застосування

Перше, звичайно, полягає в тому, щоб визначити, чи працює система МТ на достатньому рівнідля фактичного використання. Ця причина має найбільше значення для кінцевих користувачів. Якщо система машинного перекладу працює погано, користувачі з більшою ймовірністю виберуть щось інше.

Промислові сектори, які використовують МТ, також хотіли б мати конкретні показники для вибору системи МТ. Зрештою, MT — це інвестиція, і бізнесу потрібно отримати найкраще співвідношення ціни та якості.

Таким чином, розробники систем МТ мають оцінити, чи якість системи машинного перекладу достатня, щоб її можна було надіслати клієнтам.

Служити орієнтиром у дослідженнях і розробках

Системи МТ в ідеалі не є статичними. Технологія MT постійно вдосконалюється з часом. Тож слід очікувати, що системи МТ також вдосконалюватимуться.

Настає час для досліджень, і дослідники повинні на щось орієнтуватися у своїх пошуках. Математичні показники дозволяють дослідникам порівняти, чи є певний підхід кращим за інший, допомагаючи їм точно налаштувати систему.

Це особливо добре для виявлення того, як система справляється з послідовними помилками перекладу. Наявність математичних показників може показати в більш контрольованих умовах, чи здатний певний підхід боротися з такими помилками.

Як ви оцінюєте результат машинного перекладу?

Існує два різних способи визначення ого, наскільки добре працює система МТ. Професійне оцінювання проводиться експертами-професіоналами, які проводять оцінювання вручну, в той час як автоматичне оцінювання використовує показники на основі ШІ, спеціально розроблені для оцінки якості перекладу без втручання людини. У кожного є свої переваги і недоліки. Ми детальніше розглянемо обидва види оцінки МТ у наступних розділах цієї статті, але спочатку — короткий огляд двох типів оцінки машинного перекладу, а також застосовних підходів до оцінювання МТ.

Професійне оцінювання у порівнянні з автоматичним

Професійне оцінювання машинного перекладу означає, що оцінка якості перекладу виконується професійними перекладачами. Це найбільш ефективний варіант, коли йдеться про визначення рівня якості машинних перекладів на рівні речень. Але професійне оцінювання, як і професійний переклад, за своєю природою є більш дорогим і трудомістким.

Автоматичне оцінювання, з іншого боку, використовує програми, створені спеціально для оцінки якості машинного перекладу за різними методами. Воно не таке надійне, як професійне оцінювання на рівні речень, але є хорошим масштабованим варіантом при оцінці загальної якості перекладу кількох документів.

Підходи до оцінювання МТ

Підходи до оцінювання машинного перекладу ґрунтуються на концепції деталізації. Тобто оцінка може вважатися значною на різних рівнях.

Підхід на основі речень. Відповідно до цього підходу, кожному реченню надається оцінка, яка свідчить про те, чи є його переклад якісним (1) або неякісним (0), результатом є середнє значення. Найчастіше це робиться при професійному оцінюванні.

Підхід на основі документів. Також відомий як корпусний підхід; речення теж отримують оцінки, але показний бал — це загальний або середній показник серед більшого пакету документів. Це найнижчий рівень, на якому автоматизоване оцінювання МТ можна вважати значним, оскільки воно значно залежить від статистики з широкого набору даних.

Контекстно-орієнтований підхід. Цей підхід відрізняється від попередніх тим, що він враховує, наскільки добре загальне завдання МТ відповідає поставленим цілям а не через середні бали на основі речень. Таким чином, його можна вважати цілісним підходом до оцінки МТ.

Проблеми в оцінюванні машинного перекладу

Оцінювання машинного перекладу є складним процесом. Справа в тому, що мова сама по собі дуже складна.

По-перше, може існувати декілька правильних варіантів перекладу. Візьмемо, наприклад, таке речення:

Спритна бура лисиця перестрибнула через ледачого собаку.

Натомість система MT може генерувати такий переклад:

Спритна бура лисиця накинулася на недоброзичливого собаку.

Це технічно правильний переклад, і при професійному оцінюванні він, швидше за все, буде позначений як такий. Але при автоматизованому оцінюванні його буде позначено як неправильний.

Незначні деталі також можуть повністю змінити значення речення.

Спритна бура лисиця стрибнула на ледачого собаку.

Тут змінилося лише одне слово. Але це одне слово повністю змінює сенс речення. При автоматичному оцінюванні цей варіант, швидше за все, отрмає вищий бал, ніж попередній приклад. Професійні перекладачі, швидше за все, виявлять помилку, але деякі можуть не вважати її такою.

І це тому, що мова може бути суб'єктивною. Навіть професійні оцінювачі можуть не погоджуватися у своїх судженнях щодо того, якісний переклад чи ні.

Професійне оцінювання: Золотий стандарт

Тепер, коли ми розглянули основи, давайте детально розглянемо два типи оцінювання МТ, починаючи з професійного оцінювання.

На найбільш базовому рівні метою машинного перекладу є переклад тексту з вихідної мови на цільову мову на рівні, який може зрозуміти людина. Таким чином, людина є найкращим орієнтиром для оцінки якості машинного перекладу.

Види професійного оцінювання

Існує ряд різних способів професійного оцінювання, які ми зараз розглянемо:

Пряме оцінювання

Це найпростіший вид професійного оцінювання. Машинний переклад оцінюється на рівні речення.

Проблема прямого оцінювання полягає в тому, що результати різних оцінювачів можуть кардинально відрізнятися. Деякі люди можуть схилятися до крайнощів, оцінюючи переклади як дуже погані або дуже хороші. Інші можуть бути більш консервативними, позначаючи ті самі речення балами ближче до середніх.

Ще один виклик — це, знову ж таки, суб'єктивність. Судячи про те, якісно перекладене речення чи ні, оцінювачі мусять приймати рішення з точки зору речень і слів, які є неоднозначними. Повертаючись до прикладу речення:

Спритна бура лисиця перестрибнула через ледачого пса.

«Пес» тут не обов'язково є помилкою, але також не є і найкращим варіантом. Деякі оцінювачі можуть позначити цей варіант як достатньо якісний, а інші можуть позначити його як абсолютно некоректний. Наприклад, якщо оцінка проводиться за 5-бальною шкалою, деякі перекладачі можуть позначити варіант як 4, а інші можуть дати лише 2.

Ці труднощі можна компенсувати за допомогою більшої кількості оцінювачів, що дозволить нормалізувати оцінки за статистичними ознаками.

Ранжування

Іншим способом оцінки якості систем машинного перекладу за допомогою професійного оцінювання є ранжування.

У цьому випадку оцінювачі не присвоюють балів реченням, а натомість порівнюють варіанти перекладів з різних систем МТ. Потім вони вирішують, який з них на першому місці, який — на другому тощо.

Перевага цього методу порівняно з прямим оцінюванням полягає в тому, що він одразу забезпечує пряме порівняння, на відміну від порівняння балів, отриманих під час різних досліджень і, можливо, різними оцінювачами.

Однак і тут присутній вплив суб'єктивності. Різні системи МТ, швидше за все, видають різні помилки. Наприклад:

Спритна зелена лисиця перестрибнула через ледачого собаку.

Спритна бура лисиця перестрибнула через ледачого собаку.

Спритна бура лисиця перестрибує через ледачого собаку.

У кожному реченні є проста помилка. Перше перекладено неправильно. У другому пропущені артиклі. У третьому — немає часової форми дієслова.

Тепер оцінювачі мають вирішити, яка помилка вагоміша за іншу, і знову ж таки, оцінювачі можуть мати різні думки з цього приводу.

Постредагування

Якщо метою користувача системи МТ є підготовка документів до постредагування, є також способи оцінити її відповідно до кількості правок, зроблених під час постредагування.

Основна мета постредагування полягає в тому, щоб дозволити перекладачеві працювати швидше, ніж при перекладі тексту з нуля. Таким чином, найпростіший спосіб оцінки системи МТ для постредагування — це виміряти час, необхідний перекладачеві для виправлення машинного перекладу.

Інший спосіб вимірювання — це кількість натискань на клавіші під час постредагування машинного перекладу людиною. Він не залежить від часових обмежень, але також не враховує можливість декількох правильних варіантів перекладу.

Оцінка на основі завдань

Також є оцінка на основі завдань, яка, як випливає з назви, оцінює наскільки система МТ добре підходить для виконання поставленого завдання. Наприклад, якщо вона використовується в мультимовному середовищі вебінару, учасників можна попросити оцінити досвід за допомогою стенограми машинного перекладу. Це означає, що вони оцінять якість системи МТ в цілому.

Проблема такого підходу полягає в тому, що він дуже відкритий для введення інших неконтрольованих елементів, які можуть вплинути на думку оцінювачів. Таким чином, використання оцінки на основі завдань є дуже нестабільним.

Загальні проблеми професійного оцінювання

Як ви зрозуміли, різні типи професійного оцінювання МТ мають свої нюанси. Є також певні спільні проблеми, які найчастіше пов'язані з консистентністю чи узгодженістю.

Згода між редакторами

Це стосується узгодженості балів між різними оцінювачами. Як ми вже пояснювали раніше, різні оцінювачі матимуть різні тенденції оцінювання тих самих сегментів тексту. Деякі можуть впадати у крайнощі або навпаки, триматися середини. При ранжуванні різних рушіїв МТ їхні думки також можуть відрізнятися. Ось чому важливо мати кілька оцінювачів, аби розподіл балів був нормалізований.

Згода редактора

Те, як само окремий оцінювач оцінює текст, також є показником достовірності. Оцінювач може вперше оцінити речення як хороше або погане, але він може змінити свою думку, переглянувши його повторно. Висока оцінка згоди редактора гарантує, що обраного оцінювача можна вважати послідовним і надійним.

Автоматичне оцінювання: Масштабований варіант

Професійне оцінювання вважається золотим стандартом, коли йдеться про оцінку якості машинного перекладу. Однак це дорого з точки зору зусиль і часу. Ось чому дослідники в цій галузі розробили різні засоби оцінки якості МТ за допомогою автоматизованих процесів.

Ці процеси розроблено наближено до професійного оцінювання систем МТ. Звичайно, вони далеко не ідеальні, але автоматичне оцінювання все ще використовується у дуже важливих випадках.

Основною перевагою автоматичного оцінювання в порівнянні з професійним є його масштабованість. Набагато швидше запустити автоматичне оцінювання сотні разів, ніж навіть один випадок професійного оцінювання. Це робить його ідеальним рішенням для внесення налаштувань або оптимізації системи МТ, яка потребує швидких результатів.

Проблеми автоматичного оцінювання

На відміну від людей, машини не здатні відрізнити різні нюанси використання мови. Автоматичні системи оцінювання ґрунтуються на тому, що МТ має точний збіг з еталонним текстом, і незначні відмінності можуть вплинути на кінцеву оцінку. Ці відмінності можуть включати відхилення в морфології, використання синонімів і граматичний порядок.

Все, що професійний оцінювач може вважати технічно або більш-менш правильним, може бути враховано як неправильне при автоматичному оцінюванні. Тим не менш, кількості точних збігів, особливо при розгляді великого масиву тексту, часто достатньо, щоб автоматичне оцінювання стало можливим для використання.

Показники автоматичного оцінювання

Нині існує низка різних показників автоматичного оцінювання. Ось кілька прикладів використовуваних показників:

 

      BLEU (двомовне оцінювання)

      NIST (від Національного інституту стандартів і технологій)

      METEOR (показник для оцінки перекладу з явним впорядкуванням)

      LEPOR (оцінюється за показниками довжини, точності, різниці у розташуванні n-грамів та відклику)

      COMET 

      PRIS

      TER (коефіцієнт помилок перекладу)

Кожен показник працює на різних алгоритмах і проводить автоматичне оцінювання по-різному. Це означає, що вони мають різні сильні та слабкі сторони та відрізняються тим кількістю балів за певні види помилок.

BLEU, найпопулярніший показник

З усіх перерахованих вище показників BLEU використовується найчастіше. Це був один з перших показників, який досяг високого рівня кореляції з професійним оцінюванням, і породив багато різних варіацій.

Він оцінює окремі речення за набором високоякісних довідкових перекладів. Потім ці оцінки усереднюються, і отримане число є остаточною оцінкою BLEU для цієї системи MT. Ця оцінка показує, наскільки переклад системи MT відповідає професійному еталонному перекладу, який є взірцем якості.

Оцінки обчислюються за допомогою одиниць, які називаються n-грами, які застосовуються до сегментів послідовного тексту. Для наочності повернемося до попереднього зразка речення:

Спритна бура лисиця перестрибнула через ледачого собаку.

Його можна розділити на n-грами різної довжини. Наприклад, 2-грами були б «Спритна бура» або «бура лисиця». 3-грамом буде «Спритна бура лисиця». 4-грами були б «Спритна бура лисиця перестрибнула». І так далі.

Це складний математичний процес, але простими словами, алгоритм BLEU обчислює оцінку, перевіряючи кількість перекриттів між n-грамами. Розрахована оцінка буде дорівнювати від 0 до 1, причому 1 представляє абсолютно ідентичну відповідність між еталонним та перекладеним реченням. Тепер візьмемо наступну варіацію зразка речення:

Спритна бура лисиця перестрибнула через ледачого собаку.

Усі n-грами будуть збігатися, за винятком тих, у яких є слово «спритна». Ще один приклад:

Спритна бура лисиця перестрибнула через собаку.

У цьому прикладі слово «ледачий» відсутнє, тому це також негативно впливає на перекриття. В обох випадках оцінка BLEU все одно буде високою, але менше 1.

На практиці не дуже багато речень покажуть такий високий рівень кореляції. Таким чином, оцінки BLEU стають статистично значущими лише в контексті великої вибірки тексту або корпусів.

Авжеж, є й інші фактори, які впливають на обчислення оцінки BLEU, як-от зниження оцінки за додаткові слова або дуже короткі речення. Інші похідні системи оцінювання було розроблено для компенсації її недоліків, але BLEU залишається високо оціненою і найбільш широко використовуваною системою оцінки МТ сьогодні.

Заключні думки щодо оцінювання МТ

І це також стосується основ оцінювання машинного перекладу. Як ми показали, оцінювання системи МТ може здійснюватися за допомогою професійного або автоматичного оцінювання. Обидва процеси мають свої переваги й недоліки.

Професійне оцінювання є золотим стандартом з точки зору якості, але воно дороге й часовитратне. Автоматичний переклад не такий точний, але він є швидкимє і його можна масштабувати. Таким чином, обидва типи мають свої специфічні виграшні випадки використання.