10/05/2024

Hodnocení strojového překladu: Kompletní průvodce

Řekněme, že jste firma, která se rozhodla investovat do systému strojového překladu. Provedli jste základní výzkum a zjistili jste, že existuje tolik možností, ze kterých si můžete vybrat. Každý systém tvrdí, že dosahuje určitého skóre na základě určitých metrik, ale nevíte, co ta čísla ve skutečnosti znamenají. Jak zjistíte, který z nich je pro vás nejvhodnější?

Musíte pochopit, jak funguje hodnocení strojového překladu.

Tento článek se podrobně věnuje tématu vyhodnocování strojového překladu. Pomůže vám pochopit, co to je, proč to potřebujete a různé typy hodnocení, které vám pomohou učinit informované rozhodnutí při výběru systému strojového překladu, do kterého chcete investovat.

Úvod: Co je to hodnocení strojového překladu?

Hodnocení strojového překladu se týká různých procesů měření výkonu systému strojového překladu.

Je to způsob, jak hodnotit kvalitu strojového překladu, takže je možné zjistit, jak dobrý systém je, a existuje pevný základ pro porovnání toho, jak efektivní jsou různé systémy strojového překladu. Za tímto účelem využívá hodnocení strojového překladu kvantifikovatelné metriky.

Proč jsou metriky hodnocení strojového překladu důležité?

Existují dva hlavní důvody, proč je třeba provést hodnocení výkonu systému strojového překladu. Prvním je nutnost zkontrolovat, zda je systém dost dobrý pro použití v reálném světě. Druhý je vodítko ve výzkumu a vývoji.

Kontrola, zda je systém dost dobrý pro použití v reálném světě

Nejprve je samozřejmě třeba zjistit, zda systém strojového překladu funguje na úrovni, která je dostatečně dobrá pro skutečné použití. To je důvod, který má pro koncové uživatele největší přímý význam. Pokud systém strojového překladu funguje špatně, uživatelé si s větší pravděpodobností vyberou něco jiného.

Průmyslová odvětví, která používají strojové překlady, by také chtěla konkrétní metriky pro rozhodování o tom, jaký systém strojového překladu si pořídit. Koneckonců, strojový překlad je investice a podniky musí získat nejlepší hodnotu za své peníze.

Vývojáři strojového překladu proto musí posoudit, zda je kvalita systému strojového překladu dostatečně dobrá na to, aby jej mohli nabídnout klientům.

Vodítko ve výzkumu a vývoji

Systémy strojového překladu nejsou v ideálním případě statickou entitou. Technologie pro strojové překlady se postupem času neustále zlepšují. Dává tedy smysl, že by se mělo očekávat i zlepšení systémů strojového překladu.

Zde přichází na řadu výzkum a výzkumníci musí mít k dispozici průvodce, kterými se mohou řídit. Měřitelné metriky umožňují výzkumníkům porovnat, zda je konkrétní přístup lepší než jiný, což jim pomáhá doladit systém.

To je zvláště dobré pro sledování toho, jak systém řeší konzistentní chyby překladu. Mít měřitelné metriky může v kontrolovanějším prostředí ukázat, zda je konkrétní přístup schopen řešit tyto druhy chyb.

Jak lze hodnotit úspěšnost strojového překladu?

Existují dva různé způsoby, jak určit, jak dobře funguje systém strojového překladu. Lidské hodnocení provádí lidští odborníci provádějící manuální hodnocení, zatímco automatické hodnocení využívá metriky založené na AI speciálně vyvinuté pro hodnocení kvality překladu bez lidského zásahu. Každý z nich má své výhody a nevýhody. Podrobněji se budeme věnovat oběma druhům hodnocení strojového překladu v pozdějších částech tohoto článku, ale nejprve zde uvádíme rychlý přehled dvou typů hodnocení strojového překladu, stejně jako přístupy k hodnocení strojového překladu, které je využívají.

Lidské hodnocení vs. automatické hodnocení

Lidské hodnocení strojového překladu znamená, že hodnocení kvality překladu provádí profesionální překladatelé. Toto je nejúčinnější možnost, pokud jde o stanovení kvality strojových překladů až na úroveň jednotlivých vět. Ale lidské hodnocení, stejně jako u lidského překladu, je ze své podstaty nákladnější a časově náročnější.

Automatické vyhodnocování naopak využívá programy vytvořené speciálně pro hodnocení kvality strojového překladu podle různých metod. Není to tak spolehlivé jako lidské hodnocení na úrovni věty, ale je dobrou škálovatelnou možností při hodnocení celkové kvality překladu u více dokumentů.

Přístupy k hodnocení strojového překladu

Přístupy k vyhodnocování strojového překladu jsou založeny na konceptu granularity. To znamená různé úrovně, na kterých může být hodnocení považováno za významné.

Přístup založený na větách.Podle tohoto přístupu je každé větě dáno skóre, které říká, zda je její překlad dobrý (1), nebo špatný (0), a součet se zprůměruje. To se nejčastěji provádí při lidském hodnocení.

Přístup založený na dokumentech. U tohoto přístupu, který je znám také jako přístup založený na korpusu, taktéž dostávají věty skóre, ale významné skóre je součet nebo průměr z větší sady dokumentů. Toto je nejmenší úroveň, na které lze automatizované hodnocení strojového překladu považovat za významné, protože do značné míry závisí na statistikách z široké datové sady.

Kontextový přístup. Tento přístup se liší od předchozích, protože bere v úvahu, jak dobře celkový projekt strojového překladu vyhovuje účelům, ke kterým je určen, než průměrné skóre založené na větách. Jako takový by tak mohl být považován za holistický přístup k hodnocení strojového překladu.

Výzvy v hodnocení strojového překladu

Vyhodnocení strojového překladu je obtížný proces. Je to proto, že jazyk sám o sobě je velmi složitá věc.

Za prvé může existovat více správných překladů. Vezměme si například následující větu:

Rychlá hnědá liška přeskočila líného psa.

Systém strojového překladu může místo toho generovat následující překlad:

Mrštná hnědá liška přeskočila lenivého psa.

Jedná se o technicky správný překlad a při hodnocení člověka by byl normálně takto označen. Ale v automatizovaném hodnocení by byl označen jako nesprávný.

Malé detaily mohou také zcela změnit význam věty.

Rychlá hnědá liška skočila na líného psa.

Zde bylo změněno jen jedno slovo. Ale toto slovo úplně mění význam věty. Automatická hodnocení jí pravděpodobně přidělí vyšší hodnocení než větě v předchozím příkladu. Lidští překladatelé pravděpodobně chybu zachytí, ale někteří větu mohou považovat za správnou.

Je to proto, že jazyk může být subjektivní. Dokonce i lidští hodnotitelé se nemusí shodnout ve svých úsudcích o tom, zda je překlad dobrý, nebo ne.

Lidské hodnocení: Zlatý standard

Nyní, když jsme si prošli základy, pojďme se podrobně podívat na dva typy hodnocení strojového překladu, počínaje lidským hodnocením.

Na nejzákladnější úrovni je cílem strojového překladu překlad textu ze zdrojového jazyka do cílového jazyka na úrovni, které lidé rozumějí. Jako takoví jsou lidé nejlepším referenčním bodem pro hodnocení kvality strojového překladu.

Typy lidského hodnocení

Existuje řada různých způsobů, jak se provádí lidské hodnocení, na které se nyní podíváme:

Přímé hodnocení

Toto je nejjednodušší typ lidského hodnocení. Výstup strojového překladu je hodnocen na úrovni věty.

Výzva přímého hodnocení spočívá v tom, že různí posuzovatelé se budou velmi lišit ve způsobu, jakým skórují. Někteří mohou mít tendenci jít do extrémů, pokud jde o bodování, a označují překlady jen jako velmi špatné nebo velmi dobré. Jiní si mohou počínat konzervativněji a skórují stejné věty blíže ke středu.

Další výzvou je opět subjektivita. Při posuzování, zda je věta špatným překladem nebo ne, musí hodnotitelé rozhodovat o jazyce, který je nejednoznačný. Vraťme se zpět k příkladové větě:

Rychlá hnědá liška přeskočila línou psovitou šelmu.

Tady není “psovitá šelma“ nutně nesprávně, ale není to ani nejvhodnější řešení. Někteří hodnotitelé mohou řešení považovat za dostačující, zatímco jiní je mohou označit jako zcela nesprávné. Pokud se například bodování provádí na pětibodové stupnici, někteří překladatelé je mohou označit jako 4, zatímco jiní mohou dát pouze 2.

Tyto výzvy lze kompenzovat využitím větší skupiny hodnotitelů, což umožní normalizovat skóre na základě statistických údajů.

Žebříček hodnocení

Dalším způsobem, jak posoudit systémy strojového překladu prostřednictvím lidského hodnocení, je žebříček hodnocení.

V tomto případě hodnotitelé neposkytují individuální skóre pro věty, ale místo toho porovnávají mezi překlady z různých systémů strojového překladu. Poté se rozhodnou, který z nich je nejlepší překlad, který je druhý nejlepší a tak dále.

Výhodou této metody oproti přímému hodnocení je, že okamžitě poskytuje přímé srovnání, na rozdíl od porovnání skóre, která byla generována v různých studiích a případně různými hodnotiteli.

Stále však trpí problémem subjektivity. Různé systémy strojového překladu pravděpodobně přijdou s různými chybami. Například:

Rychlá zelená liška přeskočila líného psa.

Rychlá hnědá liška přeskočil líné psa.

Rychlá hnědá liška přeskočí líného psa.

Každá věta obsahuje jednoduchou chybu. První z nich je chybný překlad. V druhé jsou špatné rody a koncovky. V třetí je špatně slovesný čas.

Hodnotitelé nyní musí rozhodnout, která chyba je důležitější než druhá, a hodnotitelé mohou mít na tuto záležitost opět odlišné názory.

Náročnost post-editingu

Pokud je účelem uživatele systému strojového překladu připravit dokumenty pro následný post-editing, existují také způsoby, jak je vyhodnotit podle náročnosti následného post-editingu.

Základním účelem post-editingu je umožnit překladateli pracovat rychleji, než kdyby překládal text od nuly. Nejjednodušší způsob, jak posoudit systém strojového překladu pro post-editing, je změřit čas, který překladatel potřebuje k opravě strojově přeloženého výstupu.

Dalším způsobem, jak změřit náročnost post-editingu, je tabulka počtu úhozů na klávesnici, kterých by bylo zapotřebí k nahrazení strojově přeloženého textu lidským referenčním překladem. Je nezávislý na časových omezeních, ale také nebere v úvahu možnost více správných překladů.

Hodnocení založené na úkolech

Pak je tu hodnocení založené na úkolech, které, jak název napovídá, hodnotí systém strojového překladu na základě toho, jak moc je vhodný pro daný úkol. Pokud se například používá v nastavení vícejazyčného webináře, mohou být účastníci požádáni, aby ohodnotili své zkušenosti se strojově přeloženým přepisem. To znamená, že hodnotí úspěch systému strojového překladu jako celku.

Problém tohoto přístupu spočívá v tom, že je velmi otevřený zavedení dalších nekontrolovaných prvků, které mohou ovlivnit hodnocení posuzovatelů. Použití hodnocení založeného na úkolech je jako takové velmi situační.

Obecné výzvy v lidském hodnocení

Jak možná chápete, různé typy lidského hodnocení strojového překladu přicházejí se svými vlastními výzvami. Existují také některé všeobecné výzvy, které sdílejí, a ty mají co do činění s konzistencí nebo shodou.

Dohoda mezi anotátory

Toto se týká konzistence skóre různých hodnotitelů. Jak jsme již zmínili dříve, různí hodnotitelé budou mít různé tendence ve způsobu, jakým hodnotí stejné segmenty textu. Někteří je mohou skórovat v extrémech nebo směrem ke středu. Při hodnocení různých nástrojů strojového překladu se jejich názory mohou také lišit. Proto je důležité mít více hodnotitelů, aby bylo rozdělení skóre normalizováno.

Dohoda mezi anotátory

Způsob, jakým jeden hodnotitel hodnotí text, je také měřítkem platnosti. Hodnotitel může poprvé ohodnotit větu jako dobrou nebo špatnou, ale při opakování stejného testu by mohl změnit názor. Vysoké měření shody mezi anotátory zajišťuje, že vybraného hodnotitele lze považovat za konzistentního a spolehlivého.

Automatické vyhodnocení: Škálovatelná možnost

Lidské hodnocení je považováno za zlatý standard, pokud jde o hodnocení kvality strojového překladu. Je to však nákladné, pokud jde o úsilí a čas. Proto výzkumní pracovníci v oboru vyvinuli různé způsoby hodnocení kvality strojového překladu prostřednictvím automatizovaných procesů.

Tyto procesy jsou navrženy tak, aby napodobovaly způsob, jak lidé hodnotí systém strojového překladu. Samozřejmě nejsou zdaleka dokonalé, ale automatické hodnocení má stále velmi důležité případy využití.

Hlavní výhodou automatického hodnocení oproti lidskému hodnocení je jeho škálovatelnost. Je mnohem rychlejší spustit stovky instancí automatického hodnocení než i jedno kolo lidského hodnocení. Díky tomu je ideálním řešením při provádění vylepšení nebo optimalizaci systému strojového překladu, které vyžadují rychlé výsledky.

Výzvy automatického hodnocení

Na rozdíl od lidí nejsou stroje vybaveny k tomu, aby zvládly různé nuance používání jazyka. Automatické vyhodnocovací systémy jsou založeny na tom, že strojový překlad má přesnou shodu s referenčním textem, a drobné rozdíly mohou mít dopad na konečné skóre. Tyto rozdíly mohou zahrnovat odchylky v morfologii, použití synonym a uspořádání slov.

Cokoli, co může lidský hodnotitel považovat za technicky nebo víceméně správné, může být penalizováno automatickým hodnocením. Nicméně počet přesných shod, zejména při zvažování velkého vzorku textu, je často dostačující k tomu, aby automatické vyhodnocení bylo možné použít.

Automatické vyhodnocovací metriky

Dnes je k dispozici řada různých metrik automatického hodnocení. Zde je několik příkladů těch, které se používají:

      BLEU (dvojjazyčné hodnocení doplňkové studie / Bilingual Evaluation Understudy)

      NIST (od Národního institutu standardů a technologie / National Institute of Standards and Technology)

      METEOR (Metrika pro hodnocení překladu s explicitním uspořádáním / Metric for Evaluation of Translation with Explicit Ordering)

      LEPOR (délka - penalizace, přesnost, n-gram pozice, uspořádání, penalizace a odvolání / Length-Penalty, Precision, n-gram Position Difference Penalty and Recall)

       COMET

      PRIS

      TER (Míra chyb překladu / Translation Error Rate)

Každá metrika pracuje na různých algoritmech a jako taková zpracovává proces automatického vyhodnocení odlišně. To znamená, že mají různé silné a slabé stránky a liší se v tom, které druhy chyb penalizují ve vyšší nebo menší míře.

BLEU, nejpopulárnější metrika

Ze všech výše uvedených metrik je BLEU ta, která se nejčastěji používá. Byla to jedna z prvních metrik, která dosáhla vysoké úrovně korelace s lidským hodnocením, a vytvořila mnoho různých variací.

Funguje to tak, že jednotlivé věty jsou hodnoceny proti sadě vysoce kvalitních referenčních překladů. Tato skóre jsou poté zprůměrována a výsledné číslo je konečné skóre BLEU pro tento systém strojového překladu.Toto skóre představuje, jak úzce se výstup systému strojového překladu shoduje s lidským referenčním překladem, což je ukazatel kvality.

Skóre se počítají pomocí jednotek zvaných n-gramy, které odkazují na segmenty po sobě jdoucího textu. Vraťme se k dřívější ukázkové větě, například:

Rychlá hnědá liška přeskočila líného psa.

To lze rozdělit na n-gramy různé délky. Například 2-gram by byl „Rychlá hnědá“ nebo „hnědá liška“.3-gram by byl „Rychlá hnědá liška“.A tak dále.

Je to složitý matematický proces, ale v zásadě algoritmus BLEU vypočítá skóre kontrolou počtu překrytí mezi n-gramy. Vypočítané skóre bude mezi 0 a 1, přičemž 1 představuje zcela identickou shodu mezi referenčním textem a výstupní větou. Nyní vezměte následující variantu vzorové věty:

Rychlá hnědá liška přeskočila líného psa.

Všechny n-gramy se budou shodovat, kromě těch, které obsahují slovo „rychlý“. Další příklad:

Hbitá hnědá liška přeskočila psa.

V tomto příkladu chybí slovo „líného“, takže to také negativně ovlivňuje překrytí. V obou případech by skóre BLEU bylo stále vysoké, ale méně než 1.

V praxi nebude mnoho vět ukazovat tuto vysokou úroveň korelace. Skóre BLEU se jako taková stávají statisticky významnými pouze tehdy, jsou-li brány potaz v rámci kontextu velkého vzorku textu nebo korpusů.

Existují samozřejmě i další faktory, které se podílejí na výpočtu skóre BLEU, jako jsou penalizace za slova navíc nebo velmi krátké věty. Byly vyvinuty i jiné odvozené bodovací systémy, které měly kompenzovat jeho nedostatky, ale BLEU zůstává vysoce hodnoceným a je i nadále nejpoužívanějším systémem hodnocení strojového překladu dnešní doby.

Závěrečná slova k hodnocení strojového překladu

A to by bylo vše k hodnocení strojového překladu. Jak jsme ukázali, hodnocení systému strojového překladu lze provést pomocí lidského hodnocení nebo automatického hodnocení. Oba procesy mají své výhody a nevýhody.

Lidské hodnocení je zlatým standardem z hlediska kvality, ale je drahé a časově náročné. Automatické hodnocení není tak přesné, ale je rychlé a škálovatelné. Jako takové mají oba typy své specifické případy použití, kde vynikají.