13/05/2024

Hodnotenie strojového prekladu: Konečný sprievodca

Povedzme, že ste firma, ktorá sa rozhodla investovať do systému strojového prekladu. Urobili ste základný prieskum  a zistili ste, že existuje tak veľa  možností, z ktorých si môžete vybrať. Každá  z nich si nárokuje, , že  dáva stanovený počet  bodov  na základe určitých metrík, ale neviete, čo tieto čísla skutočne znamenajú. Ako viete, ktorá  z nich je pre vás najvhodnejšia?

Musíte pochopiť, ako funguje hodnotenie strojového prekladu.

Tento článok sa podrobne zaoberá témou hodnotenia strojového prekladu. Pomôže vám pochopiť, čo to je, prečo to potrebujete a rôzne typy hodnotenia, ktoré vám pomôžu urobiť dobre informované rozhodnutie pri výbere systému MT, do ktorého chcete investovať.

Úvod Čo je hodnotenie strojového prekladu?

Hodnotenie strojového prekladu sa vzťahuje na rôzne procesy merania výkonnosti systému strojového prekladu.

Je to spôsob hodnotenia kvality MT, aby bolo možné vedieť, aký dobrý je systém, a existuje solídny základ na porovnanie toho, aké efektívne sú rôzne systémy MT. Hodnotenie  strojového prekladu využíva na tento účel kvantifikovateľné metriky.

Prečo sú metriky hodnotenia strojového prekladu dôležité?

Existujú dva hlavné dôvody, prečo je potrebné vykonať hodnotenie výkonnosti systému MT. Prvým je skontrolovať, či je dostatočne dobrý pre aplikáciu v reálnom svete. Druhým je slúžiť ako sprievodca vo výskume a vývoji.

Ak chcete skontrolovať, či je dostatočne dobrý pre aplikáciu v reálnom svete

Najprv je samozrejme určiť, či systém MT funguje na úrovni, ktorá je dostatočne dobrá na skutočné použitie. To je dôvod, ktorý má najpriamejší  význam pre koncových používateľov. Ak systém strojového prekladu funguje zle, používatelia si s väčšou pravdepodobnosťou vyberú niečo iné.

Priemyselné odvetvia, ktoré používajú MT, by tiež chceli konkrétne metriky na rozhodovanie o tom, aký systém MT získať. Koniec koncov, MT je investícia a podniky musia získať najlepšiu hodnotu za svoje peniaze.

Vývojári MT preto musia vyhodnotiť, či je kvalita systému strojového prekladu dostatočne dobrá na to, aby ho mohli poslať klientom.

Slúžiť ako sprievodca vo výskume a vývoji

Systémy MT nie sú v ideálnom prípade statickou entitou. Technológia pre MT sa časom neustále zlepšuje. Je zmysluplné, že by sa malo očakávať zlepšenie aj systémov MT.

Tu prichádza výskum a výskumníci musia mať nejaký sprievodca, kde  hľadať. Merateľné metriky umožňujú výskumníkom porovnať, či je konkrétny prístup lepší ako iný, čo im pomáha doladiť systém.

To je obzvlášť dobré na  zistenie toho, ako systém rieši konzistentné chyby v preklade. Merateľné metriky môžu v kontrolovanejšom prostredí ukázať, či je konkrétny prístup schopný vysporiadať sa s týmito druhmi chýb.

Ako hodnotíte úspech strojového prekladu?

Existujú dva rôzne spôsoby na určenie toho,  ako dobre funguje systém MT. Ľudské hodnotenie vykonávajú odborníci, ktorí vykonávajú manuálne hodnotenie, zatiaľ čo automatické hodnotenie využíva metriky založené na AI špeciálne vyvinuté na hodnotenie kvality prekladu bez ľudského zásahu. Každý má svoje výhody a nevýhody. V ďalších  častiach tohto článku sa podrobnejšie zaoberáme obidvoma druhmi hodnotenia MT, ale najprv tu je rýchly prehľad týchto dvoch typov hodnotenia strojového prekladu, ako aj prístupov k hodnoteniu MT, ktoré ich využívajú.

Ľudské hodnotenie vs automatické hodnotenie

Ľudské hodnotenie strojového prekladu znamená, že hodnotenie kvality prekladu vykonávajú profesionálni prekladatelia. Toto je najefektívnejšia možnosť, pokiaľ ide o určenie kvality strojových prekladov až po úroveň viet. Ale ľudské hodnotenie, rovnako ako pri ľudskom preklade, je svojou povahou nákladnejšie a časovo náročnejšie.

Automatické hodnotenie naopak využíva programy vytvorené špeciálne na hodnotenie kvality strojového prekladu podľa rôznych metód. Nie je to také spoľahlivé ako ľudské hodnotenie na úrovni vety, ale je dobrou škálovateľnou možnosťou pri hodnotení celkovej kvality prekladu na viacerých dokumentoch.

Prístupy k hodnoteniu MT

Prístupy k hodnoteniu strojového prekladu sú založené na koncepte granularity. To znamená rôzne úrovne, na ktorých by sa bodovanie mohlo považovať za významné.

Prístup založený na vetách. Podľa tohto prístupu sa každej vete udáva bodovanie, ktoré hovorí, či je jej preklad dobrý (1) alebo nie dobrý (0), a celkový počet je uvedený priemer. Najčastejšie sa to robí pri ľudskom hodnotení.

Prístup založený na dokumentoch. Vety, známe tiež ako prístup založený na predmete,  majú tiež bodovanie, ale významným bodovaním  je celkové  alebo priemerné  medzi väčším súborom dokumentov. Toto je najmenšia úroveň, na ktorej možno automatizované hodnotenie MT považovať za významné, pretože do značnej miery závisí od štatistík zo širokého súboru údajov.

Kontextový prístup. Tento prístup sa líši od predchádzajúcich, pretože berie do úvahy, ako dobre celková úloha MT vyhovuje účelom, na ktoré je určená, a nie prostredníctvom priemerných bodov založených na vetách. Preto by sa to mohlo považovať za holistický prístup k hodnoteniu MT.

Výzvy pri hodnotení strojového prekladu

Hodnotenie strojového prekladu je náročný proces. Je to preto, že samotný jazyk je veľmi zložitá vec.

Po prvé, môže existovať viacero správnych prekladov. Vezmite si napríklad nasledujúcu vetu:

Rýchla hnedá líška preskočila  lenivého psa.

Systém MT môže namiesto toho vygenerovať nasledujúci preklad:

Rýchla hnedá líška sa vrhla na indolentného psa.

Ide o technicky správny preklad a pri ľudskom hodnotení by bol normálne označený ako taký. Pri automatizovanom hodnotení by to však bolo označené ako nesprávne.

Malé detaily môžu tiež úplne zmeniť význam vety.

Rýchla hnedá líška skočila na lenivého psa.

Tu je len jedno slovo, ktoré sa zmenilo. Ale toto jedno slovo úplne mení význam vety. Automatické hodnotenia ho pravdepodobne označia vyššie ako predchádzajúci príklad. Ľudskí prekladatelia pravdepodobne chybu zachytia, ale niektorí ju môžu považovať za správnu.

A to preto, lebo jazyk môže byť subjektívny. Dokonca aj ľudskí hodnotitelia sa môžu líšiť vo svojich úsudkoch o tom, či je preklad dobrý alebo nie.

Ľudské hodnotenie: Zlatý štandard

Teraz, keď sme prešli základmi, poďme sa podrobne pozrieť na dva typy hodnotenia MT, počnúc ľudským hodnotením.

Na najzákladnejšej úrovni je cieľom strojového prekladu preložiť text zo zdrojového jazyka do cieľového jazyka na úrovni, ktorej môžu ľudia porozumieť. Ľudia sú teda najlepším referenčným bodom na hodnotenie kvality strojového prekladu.

Druhy ľudského hodnotenia

Existuje niekoľko rôznych spôsobov, ako sa vykonáva ľudské hodnotenie, na ktoré sa teraz pozrieme:

Priame hodnotenie

Toto je najjednoduchší druh ľudského hodnotenia. Výstup strojového prekladu sa hodnotí na úrovni vety.

Výzva  priameho hodnotenia spočíva v tom, že rôzni posudzovatelia  sa budú značne líšiť v spôsobe, akým bodujú. Niektorí môžu mať tendenciu ísť do extrémov, pokiaľ ide o bodovanie, pričom preklady označujú buď ako veľmi zlé, alebo veľmi dobré. Iní to môžu hrať konzervatívnejšie a označujú rovnaké vety bodovaním, ktoré je  bližšie k stredu.

Ďalšou výzvou je opäť subjektivita. Pri posudzovaní toho, či je veta zlým prekladom alebo nie, musia hodnotitelia robiť rozhodnutia o jazyku, ktorý je nejednoznačný. Vráťme sa k príkladovej vete:

Rýchla hnedá líška preskočila  lenivého psa.

Tu sa pes nemusí nevyhnutne mýliť, ale tiež nie je najlepší. Niektorí hodnotitelia to môžu považovať za dostatočne dobré, zatiaľ čo iní to môžu označiť ako úplne nesprávne. Napríklad, ak sa bodovanie  vykonáva na 5-bodovej stupnici, niektorí prekladatelia ho môžu označiť ako 4, zatiaľ čo iní môžu dať iba 2.

Tieto výzvy je možné kompenzovať zapojením  väčšieho súboru hodnotiteľov, čo umožní normalizáciu bodovania  zo štatistických podmienok.

Poradie

Ďalším spôsobom, ako posúdiť systémy strojového prekladu prostredníctvom ľudského hodnotenia, je hodnotenie.

V tomto prípade hodnotitelia neposkytujú jednotlivé body  pre vety, ale namiesto toho porovnávajú preklady z rôznych systémov MT. Potom sa rozhodnú, ktorý z nich je najlepší preklad, ktorý je druhý najlepší a tak ďalej.

Výhodou tejto metódy oproti priamemu hodnoteniu je, že okamžite poskytuje priame porovnanie, na rozdiel od porovnávania bodov,  ktoré boli generované v rôznych pokusoch a prípadne rôznymi hodnotiteľmi.

Stále však trpí výzvou subjektivity. Rôzne systémy MT pravdepodobne prídu s rôznymi chybami. Napríklad:

Rýchla zelená  líška preskočila  lenivého psa.

Rýchla hnedá líška preskočila  lenivého psa.

Rýchla hnedá líška preskočila  lenivého psa.

Každá veta má jednoduchú chybu. Prává  z nich má nesprávny preklad. Druhá  vynecháva články. V tretej  chýbajú slovesné časy.

Hodnotitelia sa teraz musia rozhodnúť, ktorá chyba je dôležitejšia ako druhá, a hodnotitelia môžu mať na túto záležitosť odlišné názory.

Úsilie potrebné na následnú úpravu

Ak je účelom používateľa pre systém MT pripraviť dokumenty na následnú úpravu, existujú aj spôsoby, ako ich vyhodnotiť podľa množstva úsilia potrebného na následnú úpravu.

Základným účelom následnej úpravy je umožniť prekladateľovi pracovať rýchlejšie, ako keby preložil text od nuly. Najjednoduchším spôsobom, ako posúdiť systém MT pre následnú úpravu, je meranie času, ktorý prekladateľ potrebuje  na opravu strojového preloženého výstupu.

Ďalším spôsobom, ako merať úsilie na následnú úpravu,  je tabuľka počtu ťahov na klávesnici, ktoré by bolo potrebné nahradiť strojovo preložený text ľudským referenčným prekladom. Je to nezávislé od časových obmedzení, ale tiež neberie do úvahy možnosť viacerých správnych prekladov.

Hodnotenie založené na úlohách

Potom je tu hodnotenie založené na úlohách, ktoré, ako už názov napovedá, hodnotí systém MT na základe toho, ako dobre je vhodný pre danú úlohu. Napríklad, ak sa používa v prostredí viacjazyčného webinára, účastníci môžu byť požiadaní, aby ohodnotili svoje skúsenosti so strojovo preloženým prepisom. To znamená, že hodnotia úspech systému MT ako celku.

Problém tohto prístupu spočíva v tom, že je veľmi otvorený zavedeniu ďalších nekontrolovaných prvkov, ktoré môžu ovplyvniť hodnotenie hodnotiteľov. Použitie hodnotenia založeného na úlohách je preto veľmi situačné.

Všeobecné výzvy pri hodnotení ľudí

Ako môžete vidieť, rôzne typy ľudského hodnotenia MT prichádzajú so svojimi vlastnými výzvami. Existujú aj niektoré výzvy, ktoré zdieľajú vo všeobecnosti a súvisia s konzistentnosťou alebo dohodou.

Dohoda medzi anotátormi

Vzťahuje sa to na konzistentnosť bodov  medzi rôznymi hodnotiteľmi. Ako sme už spomenuli, rôzni hodnotitelia budú mať rôzne tendencie v spôsobe, akým hodnotia rovnaké segmenty textu. Niektorí ich môžu bodovať  v extrémoch alebo smerom do stredu. Pri hodnotení rôznych motorov MT sa môžu líšiť aj ich názory. Preto je dôležité mať viac hodnotiteľov, aby sa rozdelenie bodov  normalizovalo.

Dohoda medzi anotátorom

Spôsob, akým jeden hodnotiteľ hodnotí text, je tiež mierou platnosti. Hodnotiteľ môže prvýkrát označiť vetu ako dobrú alebo zlú, ale po opakovaní toho istého testu môže zmeniť názor. Vysoké meranie dohody medzi anotátormi zaisťuje, že zvolený hodnotiteľ môže byť považovaný za konzistentného a spoľahlivého.

Automatické hodnotenie: Škálovateľná možnosť

Ľudské hodnotenie sa považuje za zlatý štandard, pokiaľ ide o hodnotenie kvality strojového prekladu. Je to však nákladné úsilie, pokiaľ ide o úsilie a čas. To je dôvod, prečo výskumníci v tejto oblasti vyvinuli rôzne spôsoby hodnotenia kvality MT prostredníctvom automatizovaných procesov.

Tieto procesy sú navrhnuté tak, aby približovali spôsob, akým ľudia budú hodnotiť systém MT. Samozrejme, že v tom nie sú ani zďaleka dokonalé, ale automatické hodnotenie má stále veľmi dôležité prípady použitia.

Hlavnou výhodou automatického hodnotenia oproti ľudskému hodnoteniu je jeho škálovateľnosť. Je oveľa rýchlejšie spustiť stovky prípadov automatického hodnotenia ako dokonca jedno kolo ľudského hodnotenia. Vďaka tomu je ideálnym riešením pri vylepšovaní alebo optimalizácii systému MT, ktorý vyžaduje rýchle výsledky.

Výzvy v automatickom hodnotení

Na rozdiel od ľudí nie sú stroje vybavené tak, aby zvládli rôzne nuansy používania jazyka. Systémy automatického hodnotenia sú založené na tom, že MT má presnú zhodu s referenčným textom a menšie rozdiely môžu mať vplyv na konečné bodovanie.Tieto rozdiely môžu zahŕňať odchýlky v morfológii, používanie synonymá a gramatické usporiadanie.

Čokoľvek, čo môže ľudský hodnotiteľ považovať za technicky alebo viac-menej správne, môže byť potrestané automatickým hodnotením. Počet presných zhodov, najmä pri posudzovaní veľkej vzorky textu, však často stačí na to, aby bolo možné automatické vyhodnotenie použiť.

Metriky automatického hodnotenia

Dnes je k dispozícii množstvo rôznych metrík automatického hodnotenia. Tu je niekoľko príkladov tých, ktoré sa používajú:

 

      BLEU (dvojjazyčná hodnotiaca štúdia)

      NIST (Národný inštitút pre štandardy a technológie)

      METEOR (metrika pre hodnotenie prekladu s explicitným usporiadaním)

      LEPOR (dĺžka-penalta, presnosť, trestný rozdiel v polohe n-gram a odvolanie)

      COMET (KOMÉTA) 

      PRIS (CENA)

      TER (chybovosť prekladu)

Každá metrika pracuje na rôznych algoritmoch a ako taká zvláda proces automatického hodnotenia odlišne. To znamená, že majú rôzne silné a slabé stránky a líšia sa v tom, akým druhom chýb ukladajú vyššie alebo nižšie pokuty.

BLEU, najobľúbenejšia metrika

Zo všetkých vyššie uvedených metrík je BLEU tá, ktorá sa najčastejšie používa. Bola to jedna z prvých metrík, ktorá dosiahla vysokú úroveň korelácie s ľudským hodnotením, a priniesla mnoho rôznych variácií.

Funguje to tak, že jednotlivé vety sú hodnotené proti súboru vysoko kvalitných referenčných prekladov. Tieto body  sa potom spriemerujú a výsledné číslo je konečné bodovanie  BLEU pre tento systém MT. Toto bodovanie  predstavuje, ako úzko sa výstup systému MT zhoduje s ľudským referenčným prekladom, ktorý je ukazovateľom kvality.

Body sa počítajú  pomocou jednotiek nazývaných n-gramy, ktoré sa vzťahujú na segmenty po sebe nasledujúceho textu. Vráťme sa k predchádzajúcej vzorovej vete, napríklad:

Rýchla hnedá líška preskočila  lenivého psa.

To možno rozdeliť na n-gramy rôznej dĺžky. Napríklad 2-gramová hodnota by bola „rýchla“, „rýchla hnedá“ alebo „hnedá líška“. 3-gramová by bola „rýchla hnedá“ alebo „rýchla hnedá líška“. 4-gramová by bola „Rýchla hnedá líška“. A tak ďalej.

Je to zložitý matematický proces, ale v základnom zmysle algoritmus BLEU vypočíta bodovanie  kontrolou počtu prekrývaní medzi n-gramami. Vypočítané bodovanie  bude medzi 0 a 1, pričom 1 predstavuje úplne identickú zhodu medzi referenčnou a výstupnou vetou. Teraz si vezmite nasledujúcu variáciu vzorovej vety:

Rýchla hnedá líška preskočila  lenivého psa.

Všetky n-gramy sa zhodujú s výnimkou tých, ktoré majú slovo „rýchly“. Ďalší príklad:

Rýchla hnedá líška preskočila  lenivého psa.

V tomto príklade chýba slovo „lenivý“, čo tiež negatívne ovplyvňuje prekrývanie. V oboch prípadoch by bodovanie  BLEU bolo stále vysoké, ale menej ako 1.

V praxi málo viet ukáže túto vysokú úroveň korelácie. Bodovanie  BLEU sa ako také stávajú štatisticky významnými iba vtedy, ak sa berú v kontexte veľkej vzorky textu alebo korpusov.

Do výpočtu bodovania  BLEU, samozrejme, vstupujú  aj ďalšie faktory, ako sú pokuty za ďalšie slová alebo veľmi krátke vety. Na kompenzáciu jeho nedostatkov boli vyvinuté ďalšie systémy bodovania derivátov, ale BLEU zostáva vysoko hodnotený a naďalej je najpoužívanejším systémom hodnotenia MT v súčasnosti.

Záverečné slová o hodnotení MT

A to zahŕňa základy hodnotenia strojového prekladu. Ako sme ukázali, hodnotenie systému MT sa môže uskutočniť prostredníctvom ľudského hodnotenia alebo automatického hodnotenia. Oba procesy majú svoje výhody a nevýhody.

Ľudské hodnotenie je zlatým štandardom z hľadiska kvality, ale je nákladné a časovo náročné. Automatický preklad nie je taký presný, ale je rýchly a škálovateľný. Oba typy majú svoje špecifické prípady použitia, kde vynikajú.