13/05/2024

Ocenjevanje strojnega prevajanja: Vrhunski vodnik

Recimo, da ste podjetje, ki se je odločilo vlagati v sistem strojnega prevajanja. Opravili ste nekaj osnovnih raziskav in ugotovili, da obstaja velikoo možnosti, med katerimi lahko izbirate. Vsak trdi, da doseže določeno vrednost na podlagi določenih metrik, vendar ne veste, kaj številke v resnici pomenijo. Kako veste, kateri je najbolj primeren za vas?

Morate razumeti, kako deluje ocenjevanje strojnega prevajanja.

Ta članek poglobljeno obravnava temo ocenjevanja strojnega prevajanja. Pomagal vam bo razumeti, kaj je to, zakaj ga potrebujete, in različne vrste ocenjevanja, kar vam bo pomagalo sprejeti dobro informirano odločitev pri izbiri sistema strojnega prevajanja, v katerega boste vlagali.

Uvod: Kaj je vrednotenje strojnega prevajanja?

Ocenjevanje strojnega prevajanja se nanaša na različne procese merjenja zmogljivosti sistema strojnega prevajanja.

To je način ocenjevanja kakovosti strojnega prevajanja, tako da je mogoče vedeti, kako dober je sistem, in obstaja trdna podlaga za primerjavo, kako učinkoviti so različni sistemi strojnega prevajanja. Za to ocenjevanje strojnega prevajanja uporablja količinsko merljive metrike.

Zakaj so metrike ocenjevanja strojnega prevajanja pomembne?

Obstajata dva pomembna razloga, zakaj je treba oceniti delovanje sistema strojnega prevajanja. Kot prvo je treba preveriti, ali je dovolj dober za uporabo v resničnem svetu. Kot drugo pa mora služiti kot vodilo pri raziskavah in razvoju.

Če želite preveriti, ali je dovolj dober za uporabo v resničnem svetu,.

je seveda treba najprej ugotoviti, ali sistem strojnega prevajanja deluje na ravni, ki je dovolj dobra za dejansko uporabo. To je razlog, ki je najbolj neposreden pomemben za končne uporabnike. Če sistem strojnega prevajanja deluje slabo, je večja verjetnost, da bodo uporabniki izbrali nekaj drugega.

Industrijski sektorji, ki uporabljajo strojno prevajanje, želijo tudi konkretne metrike za odločitev, kateri sistem strojnega prevajanja naj uporabijo. Navsezadnje je strojno prevajanje naložba in podjetja morajo dobiti najboljšo vrednost za svoj denar.

Kot taki morajo razvijalci strojnega prevajanja oceniti, ali je kakovost sistema strojnega prevajanja dovolj dobra, da jo lahko pošljejo strankam.

Da služijo kot vodilo pri raziskavah in razvoju,.

sistemi strojnega prevajanja v idealnem primeru niso statična entiteta. Tehnologija za strojnega prevajanja se nenehno izboljšuje. Smiselno je pričakovati, da se bodo izboljšali tudi sistemi strojnega prevajanja.

Tu pridejo do izraza raziskave in raziskovalci morajo imeti nekaj vodnikov, kje iskati. Merljive metrike omogočajo raziskovalcem, da primerjajo, ali je določen pristop boljši od drugega, kar jim pomaga natančno prilagoditi sistem.

To je še posebej dobro, da vidite, kako sistem obravnava dosledne napake pri prevajanju. Merljive metrike lahko v bolj nadzorovanem okolju pokažejo, ali se je določen pristop sposoben spopasti s tovrstnimi napakami ali ne.

Kako ocenjujete uspeh strojnega prevajanja?

Obstajata dva različna načina za določitev, kako dobro deluje sistem strojnega prevajanja. Človeško ocenjevanje opravijo človeški strokovnjaki, ki opravljajo ročno ocenjevanje, medtem ko samodejno ocenjevanje uporablja metrike, ki temeljijo na umetni inteligenci, in so posebej razvite za ocenjevanje kakovosti prevajanja brez človeškega posredovanja. Vsak ima svoje prednosti in slabosti. Podrobneje bomo obe vrsti ocenjevanja strojnenga prevajanja opisali v kasnejših razdelkih tega članka, najprej pa je tu kratek pregled obeh vrst ocenjevanja strojnega prevajanja, pa tudi pristopov k vrednotenju strojnega prevajanja, ki jih uporabljajo.

Človeško vrednotenje proti samodejnemu vrednotenju

Človeško vrednotenje strojnega prevajanja pomeni, da ocenjevanje kakovosti prevajanja opravljajo profesionalni prevajalci. To je najučinkovitejša možnost, ko gre za določanje kakovosti strojnih prevodov do ravni stavkov. Toda človeška ocena, tako kot človeški prevod, je po naravi dražja in dolgotrajnejša.

Samodejno vrednotenje pa uporablja programe, izdelane posebej za oceno kakovosti strojnega prevajanja po različnih metodah. Ni tako zanesljivo kot človeška ocena na ravni stavka, vendar je dobra razširljiva možnost pri ocenjevanju splošne kakovosti prevajanja na več dokumentih.

Pristopi k vrednotenju strojnega prevajanja

Pristopi k vrednotenju strojnega prevajanja temeljijo na konceptu zrnatosti. Se pravi, na različnih ravneh, na katerih bi lahko točkovanje veljalo za pomembno.

Pristop, ki temelji na stavkih. V skladu s tem pristopom vsak stavek dobi oceno, ki kaže, ali je njegov prevod dober (1) ali ni dober (0), celota pa dobi povprečje. To se najpogosteje izvaja pri človeškem ocenjevanju.

Pristop, ki temelji na dokumentih. Pri tem pristopu, znanem tudi kot korpusni pristop, imajo stavki prav tako ocene, vendar je pomembna ocena celota ali povprečje med večjim naborom dokumentov. To je najmanjša raven, na kateri lahko avtomatizirano vrednotenje strojnega prevajanja štejemo za pomembno, saj je močno odvisno od statistike iz širokega nabora podatkov.

Pristop, ki temelji na kontekstu. Ta pristop se razlikuje od prejšnjih, saj upošteva, kako dobro celotenstrojni prevod ustreza namenom, za katere je uporabljena, in ne povprečnih rezultatov, ki temeljijo na stavkih. Kot takega bi ga lahko šteli za celosten pristop k vrednotenju strojnega prevajanja.

Izzivi pri ocenjevanju strojnega prevajanja

Ocenjevanje strojnega prevajanja je težaven proces. To je zato, ker je jezik sam po sebi zelo zapletena stvar.

Na primer, lahko obstaja več pravilnih prevodov. Vzemimo na primer naslednji stavek:

Hitra rjava lisica je skočila čez lenega psa.

Sistem strojnega prevajanja lahko namesto tega ustvari naslednji prevod:

Hitra rjava lisica je planila nad indolentnega psa.

To je tehnično pravilen prevod in pri človeškem ocenjevanju bi bil običajno označen kot tak. Toda pri avtomatiziranem ocenjevanju bi bil označen kot napačen.

Majhne podrobnosti lahko tudi popolnoma spremenijo pomen stavka.

Hitra rjava lisica je skočila na lenega psa.

Tu se je spremenila samo ena beseda. Toda ta ena beseda popolnoma spremeni pomen stavka. Samodejna ocenjevanja ga bodo verjetno označila višje od prejšnjega primera. Človeški prevajalci bodo verjetno ugotovili napako, vendar bodo nekateri morda menili, da je to pravilno.

To je zato, ker je jezik lahko subjektiven. Tudi človeški ocenjevalci se lahko razlikujejo v svojih presojah glede tega, ali je prevod dober ali ne.

Človeška ocena: Zlati standard

Zdaj, ko smo preučili osnove, si poglobljeno oglejmo dve vrsti ocenjevanja strojnenga prevajanja, začenši s človeškim ocenjevanjem.

Na najosnovnejši ravni je cilj strojnega prevajanja prevajanje besedila iz izvornega jezika v ciljni jezik na ravni, ki jo ljudje lahko razumejo. Zato so ljudje najboljša referenčna točka za ocenjevanje kakovosti strojnega prevajanja.

Vrste človeškega ocenjevanja

Obstaja več različnih načinov človeškega ocenjevanja, ki jih bomo zdaj obravnavali:

Neposredno ocenjevanje

To je najpreprostejša vrsta človeškega ocenjevanja. Rezultat strojnega prevajanja se ocenjuje na ravni stavka.

Izziv pri neposrednem ocenjevanju je, da se bodo različni sodniki zelo razlikovali glede na način ocenjevanja. Nekateri se lahko nagibajo k skrajnosti pri točkovanju in prevode označujejo kot zelo slabe ali zelo dobre. Drugi solahko bolj konzervativni in iste stavke označujejo z ocenami bližje sredini.

Drug izziv je spet subjektivnost. Pri presoji, ali je stavek slabo preveden ali ne, morajo ocenjevalci sprejemati odločitve o dvoumnem jeziku. Vrnimo se k primeru stavka:

Hitra rjava lisica je skočila čez lenega renčača.

Tukaj renčač ni nujno napačno, vendar tudi ni najbolj primerno. Nekateri ocenjevalci morda menijo, da je dovolj dober, drugi pa ga lahko označujejo kot popolnoma napačno. Če se na primer točkovanje opravi na 5-točkovni lestvici, ga lahko nekateri prevajalci označijo s 4, drugi pa le z 2.

Te izzive je mogoče izravnati z zaposlitvijo večjega nabora ocenjevalcev, kar bo omogočilo normalizacijo rezultatov v statističnih pogojih.

Razvrščanje

Drug način ocenjevanja sistemov strojnega prevajanja s človeškim vrednotenjem je razvrščanje.

V tem primeru ocenjevalci ne zagotavljajo posameznih ocen za stavke, temveč primerjajo prevode iz različnih sistemov strojnega prevajanja. Nato se odločijo, kateri je najboljši prevod, kateri je drugi najboljši in tako naprej.

Prednost te metode pred neposrednim ocenjevanjem je, da takoj zagotavlja neposredno primerjavo, v nasprotju s primerjavo rezultatov, ki so jih ustvarili v različnih preskušanjih in morda različni ocenjevalci.

Vendar pa še vedno trpi zaradi izziva subjektivnosti. Različni sistemi strojnega prevajanja bodo verjetno prišli do različnih napak. Na primer:

Hitra zelena lisica je skočila čez lenega psa.

Hitra rjava lisica je skočila čez lenega psa.

Hitra rjava lisica skoči čez lenega psa.

Vsak stavek ima preprosto napako. Prvi ima napačen prevod. Drugi izpusti člene. Tretjemu manjkajo glagolski časi.

Ocenjevalci se morajo zdaj odločiti, katera napaka je pomembnejša od druge, in spet imajo lahko različna mnenja o tej zadevi.

Naknadno urejanje

Če uporabnik sistem strojnega prevajanja uporablja za pripravo dokumentov za naknadno urejanje, obstajajo tudi načini, kako ga oceniti glede na količino truda, potrebnega za naknadno urejanje.

Temeljni namen naknadnega urejanja je omogočiti prevajalcu delo hitreje, kot če bi besedilo prevajal od začetka. Najpreprostejši način za oceno sistema strojnega prevajanja za naknadno urejanje je merjenje časa, potrebnega, da prevajalec popravi strojni prevod.

Drug način merjenja truda za naknadno urejanje je tabeliranje števila potez na tipkovnici, potrebnih za zamenjavo strojno prevedenega besedila s človeškim referenčnim prevodom. To je neodvisno od časovnih omejitev, vendar tudi ne upošteva možnosti več pravilnih prevodov.

Ocenjevanje na podlagi nalog

Nato je tu ocenjevanje na podlagi nalog, ki, kot že ime pove, ocenjuje sistem strojnega prevajanja glede na to, kako dobro je primeren za zadevno nalogo. Če se na primer uporablja v večjezičnem spletnem seminarju, kjer morajo udeleženci oceniti svoje izkušnje s strojno prevedenim prepisom. To pomeni, da ocenjujejo uspešnost sistema strojnega prevajanja kot celote.

Težava tega pristopa je v tem, da je zelo odprt za uvedbo drugih nenadzorovanih elementov, ki lahko vplivajo na oceno ocenjevalcev. Kot taka je uporaba ocenjevanja, ki temelji na nalogah, zelo situacijska.

Splošni izzivi pri človeškem ocenjevanju

Kot lahko vidite, imajo različne vrste človeškega ocenjevanja strojnega prevajanja svoje izzive. Obstajajo tudi nekateri izzivi, ki si jih na splošno delijo, in ti so povezani z doslednostjo ali skladnostjo.

Skladnost ocenjevalcev

To se nanaša na doslednost rezultatov med različnimi ocenjevalci. Kot smo že omenili, bodo različni ocenjevalci imeli različne nagnjenosti pri ocenjevanju istih segmentov besedila. Nekateri jih lahko ocenijo v skrajnostih ali proti sredini. Pri razvrščanju različnih mehanizmov strojnega prevajanja se lahko razlikujejo tudi njihova mnenja. Zato je pomembno imeti več ocenjevalcev, da se bo porazdelitev rezultatov normalizirala.

Skladnost posameznega ocenjevalca

Način, kako en sam ocenjevalec ocenjuje besedilo, je tudi merilo veljavnosti. Ocenjevalec lahko prvič oceni stavek kot dober ali slab, vendar se lahko premisli, ko ponovi isti test. Visoka meritev skladnosti posameznega ocenjevalca zagotavlja, da se izbrani ocenjevalec lahko šteje za doslednega in zanesljivega.

Samodejno ocenjevanje: Prilagodljiva možnost

Človeško ocenjevanje velja za zlati standard, ko gre za ocenjevanje kakovosti strojnega prevajanja. Vendar je to drag podvig v smislu truda in časa. Zato so raziskovalci na tem področju razvili različna sredstva za ocenjevanje kakovosti strojnega prevajanja z avtomatiziranimi procesi.

Ti procesi so zasnovani tako, da posnemajočloveško ocenjevanje strojnega prevajanja. Seveda pri tem še zdaleč niso popolni, vendar ima samodejno ocenjevanje še vedno zelo pomembne primere uporabe.

Glavna prednost samodejnega ocenjevanja pred človeškim je njegova razširljivost. Veliko hitreje je izvesti na stotine primerov samodejnega ocenjevanja kot en sam krog človeškegaocenjevanja. Zaradi tega je idealna rešitev pri prilagajanju ali optimizaciji sistema strojnega prevajanja, ki potrebuje hitre rezultate.

Izzivi pri samodejnem ocenjevanju

Za razliko od ljudi stroji neobvladajo različnih odtenkov jezikovne uporabe. Sistemi samodejnega ocenjevanja temeljijo na tem, da se strojni prevod natančno ujema z referenčnim besedilom, manjše razlike pa lahko vplivajo na končni rezultat. Te razlike lahko vključujejo odstopanja v morfologiji, uporabo sopomenk in slovnični red.

Vse, kar človeški ocenjevalec lahko šteje za tehnično ali bolj ali manj pravilno, se lahko kaznuje pri samodejnem ocenjevanju. Kljub temu je število natančnih ujemanj, zlasti če upoštevamo velik vzorec besedila, pogosto dovolj, da je samodejno ocenjevanje primerno za uporabo.

Metrike samodejnega ocenjevanja

Danes so na voljo številne različne metrike samodejnega ocenjevanja. Tu je nekaj primerov tistih, ki se uporabljajo:

 

      BLEU (dvojezična ocenjevalna študija)

      NIST (z Nacionalnega inštituta za standarde in tehnologijo)

      METEOR (metrika za ocenjevanje prevajanja z eksplicitnim uvrščanjem)

      LEPOR (kazen dolžine, natančnost, kazen z razliko v položaju n-gramov in odpoklic)

      COMET 

      PRIS

      TER (stopnja napak pri prevajanju)

Vsaka metrika deluje na različnih algoritmih in kot taka drugače obravnava postopek samodejnega ocenjevanja. To pomeni, da imajo različne prednosti in slabosti ter se razlikujejo glede tega, za katere vrste napak dajejo višje ali nižje kazni.

BLEU, najbolj priljubljena metrika

Od vseh zgoraj naštetih metrik je BLEU tista, ki se najpogosteje uporablja. Bila je ena prvih metrik, ki je dosegla visoko stopnjo korelacije s človeškim ocenjevanjem, in je povzročila veliko različnih različic.

Deluje tako, da so posamezni stavki ocenjeni glede na nabor visokokakovostnih referenčnih prevodov. Ti rezultati se nato povprečijo in dobljeno število je končna ocena BLEU za ta sistem strojnega prevajanja. Ta ocena predstavlja, kako tesno se rezultat sistema strojnega prevajanja ujema s človeškim referenčnim prevajanjem, ki je oznaka kakovosti.

Rezultati se izračunajo z uporabo enot, imenovanih n-grami, ki se nanašajo na segmente zaporednega besedila. Če se vrnemo na prejšnji vzorčni stavek, na primer:

Ta hitra rjava lisica je skočila čez lenega psa.

To lahko razdelimo na n-grame različne dolžine. 2-gramska, na primer, bi bila »ta hitra«, »hitra rjava« ali »rjava lisica«. 3-gramska bi bila »ta hitra rjava« ali »hitra rjava lisica«. 4-gramska bi bila »Ta hitra rjava lisica«. In tako naprej.

Gre za zapleten matematični postopek, vendar v osnovnem smislu algoritem BLEU izračuna rezultat tako, da preveri število prekrivanj med n-grami. Izračunana ocena bo med 0 in 1, pri čemer 1 predstavlja popolnoma enako ujemanje med referenčnim in prevedenim stavkom. Zdaj poglejte naslednjo različico vzorčnega stavka:

Ta hitra rjava lisica je skočila čez lenega psa.

Vsi n-grami se bodo ujemali, razen tistih, ki imajo besedo »hitro«. Še en primer:

Ta hitra rjava lisica je skočila čez psa.

V tem primeru manjka beseda »lenega«, tako da negativno vpliva tudi na prekrivanje. V obeh primerih bi bil rezultat BLEU še vedno visok, vendar manj kot 1.

V praksi veliko stavkov ne bo pokazalo te visoke stopnje korelacije. Kot taki postanejo rezultati BLEU statistično pomembni le, če jih vzamemo v kontekstu velikega vzorca besedila ali korpusov.

Seveda obstajajo tudi drugi dejavniki, ki vplivajo na izračun ocene BLEU, na primer kazni za dodatne besede ali zelo kratke stavke. Za kompenzacijo njegovih pomanjkljivosti so bili razviti drugi izpeljani sistemi točkovanja, vendar je BLEU še vedno visoko ocenjen in je danes najpogosteje uporabljen sistem ocenjevanja strojnega prevajanja.

Zaključne besede o ocenjevanju strojnega prevajanja

To so osnove ocenjevanja strojnega prevajanja. Kot smo pokazali, je ocenjevanje sistema strojnega prevajanja mogoče opraviti s človeškim ali samodejnim ocenjevanjem. Oba procesa imata svoje prednosti in slabosti.

Človeška ocena je zlati standard glede kakovosti, vendar je draga in dolgotrajna. Samodejni prevod ni tako natančen, vendar je hiter in razširljiv. Kot taki imata obe vrsti posebne primere uporabe, pri katerih se odlikujeta.