10/05/2024

Vrednovanje strojnog prijevoda: Potpuno iscrpan vodič

Počnimo od pretpostavke da ste tvrtka koja je odlučila uložiti u sustav strojnog prijevoda. Napravili ste neka osnovna istraživanja i otkrili da postoji silno mnoštvo opcija koje možete izabrati. Svaki od njih tvrdi da postiže određeni iznos bodova na temelju određenih mjernih podataka, ali ne znate što brojke zapravo znače. Kako znati koji vam najbolje odgovara?

Morate razumjeti kako funkcionira procjena strojnog prijevoda.

Ovaj članak će se detaljno pozabaviti temom vrednovanja strojnog prijevoda. Pomoći će vam da shvatite što je to, zašto vam je to potrebno i različite vrste vrednovanja, kako bi vam pomoglo da donesete dobro informiranu odluku pri odabiru MT sustava u koji ćete ulagati.

Uvod: Što je vrednovanje strojnog prijevoda?

Vrednovanje strojnog prijevoda odnosi se na različite procese mjerenja učinka sustava strojnog prijevoda.

To je način bodovanja kvalitete MT-a koje omogućuje utvrditi koliko je sustav dobar, a time je i čvrsta osnova za usporedbu učinkovitosti različitih MT sustava. Da bi se to postiglo, vrednovanje strojnog prijevoda oslanja se na mjerljive metrike.

Zašto su metrike procjene strojnog prijevoda važne?

Dva su glavna razloga zašto je potrebno provesti procjenu performansi MT sustava. Prvi je provjeriti je li dovoljno dobar za primjenu u stvarnom svijetu. Drugi je služiti kao vodič u istraživanju i razvoju.

Da biste provjerili je li dovoljno dobar za primjenu u stvarnom svijetu

Prvo je, naravno, utvrditi radi li MT sustav na razini koja je dovoljno dobra za stvarnu upotrebu. To je razlog koji je od najizravnije važnosti za krajnje korisnike. Ako sustav strojnog prijevoda radi loše, korisnici imaju veću vjerojatnost da će odabrati nešto drugo.

Industrijski sektori koji koriste MT također bi željeli konkretne metrike za odlučivanje koji MT sustav žele uzeti. Uostalom, MT je investicija, a tvrtke moraju dobiti najbolju vrijednost za svoj novac.

Kao takvi, programeri MT-a moraju procijeniti je li kvaliteta sustava strojnog prijevoda dovoljno dobra da ga mogu poslati klijentima.

Služiti kao vodič u istraživanju i razvoju

MT sustavi, u idealnom slučaju, nisu statički entitet. Tehnologija za MT se s vremenom neprestano poboljšava. Ima smisla da se očekuje i poboljšanje MT sustava.

Tu na scenu stupaju istraživanja, a istraživači trebaju imati neki vodič o tome gdje tražiti. Mjerljive metrike omogućuju istraživačima da usporede je li određeni pristup bolji od drugog, pomažući im da fino podešavaju sustav.

To je posebno dobro za vidjeti kako se sustav nosi s dosljednim pogreškama u prijevodu. Imati mjerljive metrike mogu u kontroliranijem okruženju pokazati je li određeni pristup sposoban nositi se s takvim vrstama pogrešaka ili ne.

Kako ocjenjujete uspjeh strojnog prijevoda?

Postoje dva različita načina da se utvrdi koliko dobro funkcionira MT sustav. Ljudsko vrednovanje obavljaju ljudski stručnjaci koji rade ručno procjenu, dok automatsko vrednovanje koristi mjerne podatke zasnovane na umjetnoj inteligenciji koji su posebno razvijeni za procjenu kvalitete prijevoda bez ljudske intervencije. Svaka ima svoje prednosti i nedostatke. U kasnijim odjeljcima ovog članka ući ćemo detaljnije u obje vrste procjene MT-a, ali prvo, evo kratkog pregleda dviju vrsta vrednovanja strojnog prijevoda, kao i pristupa MT vrednovanju koji ih koriste.

Ljudsko vrednovanje nasuprot automatskom

Ljudska procjena strojnog prijevoda znači da ocjenu kvalitete prijevoda obavljaju profesionalni prevoditelji. Ovo je najučinkovitija opcija kada je u pitanju određivanje kvalitete strojnih prijevoda do razine rečenica. Ali ljudska procjena, kao i kod ljudskog prijevoda, po prirodi je skuplja i dugotrajnija.

Automatska procjena, s druge strane, koristi programe izgrađene posebno za procjenu kvalitete strojnog prijevoda prema različitim metodama. Nije pouzdana kao ljudsko vrednovanje na razini rečenice, ali je dobra skalabilna opcija pri procjeni ukupne kvalitete prijevoda na više dokumenata.

Pristupi procjeni MT

Pristupi vrednovanju strojnog prijevoda temelje se na konceptu granularnosti. Odnosno, na različitim razinama na kojima se bodovanje može smatrati značajnim.

Pristup zasnovan na rečenicama. Prema ovom pristupu, svakoj rečenici se daje ocjena koja govori je li njezin prijevod dobar (1) ili nije dobar (0), a ukupnom se daje prosjek. To se najčešće radi putem ljudske procjene.

Pristup zasnovan na dokumentima. Također poznat kao pristup zasnovan na korpusu, rečenicama se također daju ocjene, ali značajna ocjena je ukupan ili prosjek među većim skupom dokumenata. Ovo je najmanja razina na kojoj se automatizirana procjena MT može smatrati značajnom, jer uvelike ovisi o statistikama iz širokog skupa podataka.

Pristup zasnovan na kontekstu. Ovaj se pristup razlikuje od prethodnih jer ono što uzima u obzir je koliko cjelokupni MT zadatak odgovara svrhama u koje je stavljen, a ne kroz prosječne ocjene temeljene na rečenicama. Kao takav, to bi se moglo smatrati holističkim pristupom vrednovanju MT-a.

Izazovi u procjeni strojnog prijevoda

Procjena strojnog prijevoda težak je proces. To je zato što je sam jezik vrlo složena stvar.

Kao prvo, može postojati više ispravnih prijevoda. Uzmimo, na primjer, sljedeću rečenicu:

Brza smeđa lisica preskočila je lijenog psa.

MT sustav umjesto toga može generirati sljedeći prijevod:

Okretna smeđa lisica skočila je iznad indolentnog psa.

Ovo je tehnički ispravan prijevod i ljudska procjena obično bi ga takvim i označila. Ali u automatiziranoj procjeni to bi bilo označeno kao netočno.

Mali detalji također mogu potpuno promijeniti značenje rečenice.

Brza smeđa lisica skočila je na lijenog psa.

Ovdje je samo jedna riječ koja je promijenjena. Ali ta jedna riječ potpuno mijenja značenje rečenice. Automatske procjene vjerojatno će takav prijevod ocijeniti boljim od prethodnog primjera. Ljudski prevoditelji vjerojatno će primijetiti pogrešku, ali neki bi je mogli smatrati ispravnom.

A to je zato što jezik može biti subjektivan. Čak se i ljudski ocjenjivači mogu razlikovati u svojim prosudbama o tome je li prijevod dobar ili ne.

Ljudska procjena: Zlatni standard

Sada kada smo usvojili osnovno gradivo, pogledajmo detaljnije te dvije vrste procjene MT, počevši od ljudske procjene.

Na najosnovnijoj razini, cilj strojnog prijevoda je prevođenje teksta s izvornog jezika na ciljni jezik na razini koju ljudi mogu razumjeti. Kao takvi, ljudi su najbolja referentna točka za procjenu kvalitete strojnog prijevoda.

Vrste ljudske procjene

Postoji niz različitih načina na koje se provodi ljudska procjena, o čemu ćemo sada detaljnije:

Izravna procjena

Ovo je najjednostavnija vrsta ljudske procjene. Izlaz strojnog prijevoda ocjenjuje se na razini rečenice.

Izazov izravne procjene je taj što će se različiti suci uvelike razlikovati u načinu na koji daju bodove. Neki mogu ići u krajnosti u smislu bodovanja, označavajući prijevode kao vrlo loše ili vrlo dobre. Drugi mogu igrati konzervativnije, označavajući iste rečenice s rezultatima bliže sredini.

Još jedan izazov je, opet, subjektivnost. Prosuđujući je li rečenica loš prijevod ili ne, ocjenjivači moraju donositi odluke o jeziku koji je dvosmislen. Vraćajući se na primjer rečenice:

Brza smeđa lisica preskočila je lijenu džukelu.

Ovdje džukela nije nužno pogrešan izraz, ali nije ni baš najbolji. Neki ocjenjivači to mogu smatrati dovoljno dobrim, dok bi ga drugi mogli označiti kao potpuno pogrešan. Na primjer, ako se bodovanje vrši na ljestvici od 5 bodova, neki prevoditelji mogu ga označiti kao 4, dok bi drugi mogli dati samo 2.

Ti se izazovi mogu nadoknaditi zapošljavanjem većeg skupa ocjenitelja, što će omogućiti normalizaciju rezultata na statističkim uvjetima.

Rangiranje

Drugi način procjene sustava strojnog prijevoda kroz ljudsku procjenu je rangiranje.

U ovom slučaju, ocjenitelji ne daju pojedinačne ocjene za rečenice, već umjesto toga uspoređuju prijevode iz različitih MT sustava. Tada odlučuju koji je najbolji prijevod, koji drugi najbolji i tako dalje.

Prednost ove metode u odnosu na izravnu procjenu je u tome što odmah pruža izravnu usporedbu, za razliku od usporedbe rezultata koji su generirani tijekom različitih ispitivanja, a možda i od strane različitih ocjenitelja.

Međutim, i ta metoda je ugrožena problemom subjektivnosti. Različiti MT sustavi vjerojatno će imati za posljedicu različite pogreške. Na primjer:

Brza zelena lisica preskočila je lijenog psa.

Brza smeđ lisica skočila je preko lijenog psa.

Brza smeđa lisica uskočila preko lijenog psa.

Svaka rečenica ima jednostavnu pogrešku. Prva ima pogrešan prijevod. Druga ima krivi rod pridjeva. Treća ima krivi vid.

Ocjenjivači sada moraju odlučiti koja je pogreška važnija od druge. I u ovom slučaju ocjenjivači mogu imati različita mišljenja o tom pitanju.

Post-editing rad

Ako je svrha korisnika za MT sustav priprema dokumenata za naknadno uređivanje - post-editing - postoje i načini da ga procijenite prema količini rada potrebnog za post-editing.

Temeljna svrha tog naknadnog uređivanja je omogućiti prevoditelju da radi brže nego kad bi tekst prevodio ispočetka. Kao takav, najjednostavniji način procjene MT sustava za post-editing je mjerenje vremena potrebno prevoditelju da ispravi strojno prevedeni izlaz.

Drugi način mjerenja napora nakon uređivanja je tabeliranje broja poteza na tipkovnici koji bi bili potrebni za zamjenu strojno prevedenog teksta ljudskim referentnim prijevodom. To je neovisno o vremenskim ograničenjima, ali također ne uzima u obzir mogućnost višestrukih ispravnih prijevoda.

Vrednovanje zasnovano na zadatku

Zatim tu je vrednovanje zasnovano na zadatku koje, kao što ime govori, procjenjuje MT sustav na temelju toga koliko dobro odgovara zadatku koji se radi. Na primjer, ako se koristi u višejezičnoj postavci webinara, od sudionika se može zatražiti da ocijene kako su prošli sa strojno prevedenim zapisom s webinara. To znači da ocjenjuju uspjeh MT sustava u cjelini.

Problem s ovim pristupom je u tome što je vrlo otvoren za uvođenje drugih nekontroliranih elemenata koji mogu utjecati na ocjenu koju daju ocjenjivači. Kao takva, upotreba vrednovanja zasnovana na zadacima vrlo je situacijska.

Opći izazovi u ljudskom vrednovanju

Kao što možete vidjeti, različite vrste ljudske procjene MT-a imaju i svoje vlastite izazove. Postoje i određene poteškoće koje su im općenito zajedničke, a tiču se konzistencije ili slaganja.

Slaganje među anotatorima

To se odnosi na dosljednost rezultata između različitih ocjenjivača. Kao što smo ranije spomenuli, različiti ocjenjivači imat će različite tendencije u načinu na koji ocjenjuju iste segmente teksta. Neki ih mogu bodovati u ekstremima, a drugi su skloniji sredini. Prilikom rangiranja različitih MT motora, njihova mišljenja također mogu varirati. Zbog toga je važno imati više ocjenjivača, kako bi se raspodjela rezultata normalizirala.

Slaganje samog anotatora

Način na koji jedan ocjenjivač ocjenjuje tekst također je mjera valjanosti. Ocjenjivač bi prvi put mogao ocijeniti rečenicu dobrom ili lošom, ali bi se mogao predomisliti kada bi se isti test ponovio. Visoko mjerenje konzistencije unutar rada jednog te istog anotatora osigurava da se odabrani ocjenjivač može smatrati dosljednim i pouzdanim.

Automatsko ocjenjivanje: Skalabilna opcija

Ljudska procjena smatra se zlatnim standardom kada je u pitanju procjena kvalitete strojnog prijevoda. Međutim, to je skup pothvat budući da iziskuje i truda i vremena. Zbog toga su istraživači u ovom polju razvili različite načine ocjenjivanja kvalitete MT-a automatiziranim procesima.

Ovi procesi osmišljeni su kako bi dobili približnu vrijednost ljudske procijene MT sustava. Naravno, oni nisu ni izdaleka savršeni u tome, ali automatska procjena ipak ima vrlo važne slučajeve u kojima se upotrebljava.

Glavna prednost automatskog vrednovanja u odnosu na ljudsk njegova je skalabilnost. Mnogo je brže pokrenuti stotine slučajeva automatskog vrednovanja nego čak i jedan krug ljudskog. To ga čini idealnim rješenjem za podešavanja ili optimizacije MT sustava, što su situacije u kojima su brzi rezultati imperativ.

Izazovi u automatskoj procjeni

Za razliku od ljudi, strojevi nisu opremljeni za rješavanje različitih nijansi upotrebe jezika. Sustavi automatskog ocjenjivanja temelje se na tome da MT ima točno podudaranje s referentnim tekstom, a manje razlike mogu utjecati na konačni rezultat. Te razlike mogu uključivati odstupanja u morfologiji, upotrebu sinonima i gramatički poredak.

Sve što ljudski ocjenjivač može smatrati tehnički ispravnim ili manje-više ispravnim, automatska procjena može penalizirati. Ipak, broj točnih podudaranja, posebno kada se uzme u obzir veliki uzorak teksta, često je dovoljan da automatsko ocjenjivanje bude izvedivo za upotrebu.

Automatske metrike za vrednovanje

Danas je na raspolaganju niz različitih metrika za automatska vrednovanja. Evo nekoliko primjera onih koje se koriste:

      BLEU (Bilingual Evaluation Understudy)

      NIST (iz ustanove koja se zove National Institute of Standards and Technology)

      METEOR (Metric for Evaluation of Translation with Explicit Ordering - metrika za procjenu prijevoda s eksplicitnim redoslijedom)

      LEPOR (Length-Penalty, Precision, n-gram Position Difference Penalty and Recall kazna dužine, preciznost, kazna za razliku u položaju n-gram i opoziv)

      COMET

      PRIS

      TER (Translation Error Rate - stopa pogreške u prijevodu)

Svaka metrika radi na različitim algoritmima i kao takva različito obrađuje proces automatskog vrednovanja. To znači da imaju različite snage i slabosti te se razlikuju po tome koje vrste pogrešaka više ili niže kažnjavaju.

BLEU, najpopularnija metrika

Od svih gore navedenih mjernih podataka BLEU je ona koja se najčešće koristi. Bila je to jedna od prvih metrika koja je postigla visoku razinu korelacije s ljudskim vrednovanjem i stvorila je mnogo različitih varijacija.

Kako funkcionira: pojedine se rečenice boduju u odnosu na skup visokokvalitetnih referentnih prijevoda. Ti se rezultati zatim stave u prosjeke, a rezultirajući broj je konačni BLEU rezultat za taj MT sustav. Ovaj rezultat predstavlja koliko se izlaz MT sustava podudara s ljudskim referentnim prijevodom, koji je marker kvalitete.

Rezultati se izračunavaju pomoću jedinica zvanih n-grama, koje se odnose na segmente uzastopnog teksta. Vraćajući se na raniji uzorak rečenice, na primjer:

Brza smeđa lisica preskočila je lijenog psa.

To se može podijeliti na n-grame različitih duljina. Na primjer, 2-grami bi bili, „brza smeđa“, „preskočila je“ ili „smeđa lisica“. 3-grami bi bili „Brza smeđa lisica“ ili „je lijenog psa“. 4-gram bi bio „rza smeđa lisica preskočila“. I tako dalje.

To je složen matematički proces, ali u osnovi BLEU-ov algoritam izračunava rezultat provjeravajući broj preklapanja između n-grama. Izračunati rezultat bit će između 0 i 1, pri čemu 1 predstavlja potpuno identično podudaranje između referentne i izlazne rečenice. Sada uzmite sljedeću varijaciju rečenice primjera:

Smeđa brza lisica preskočila je lijenog psa.

Svi n-grami će se podudarati osim onih koji imaju riječ „brza“. Drugi primjer:

Brza smeđa lisica preskočila je psa.

U ovom primjeru nedostaje riječ "lijen", tako da to također negativno utječe na preklapanje. U oba slučaja, rezultat BLEU i dalje bi bio visok, ali manji od 1.

U praksi neće mnogo rečenica pokazati ovu visoku razinu korelacije. Kao takvi, rezultati BLEU postaju statistički značajni samo kada se uzimaju u kontekstu velikog uzorka teksta ili korpusa.

Postoje, naravno, i drugi čimbenici koji ulaze u izračunavanje rezultata BLEU, poput kazni za dodatne riječi ili vrlo kratke rečenice. Razvijeni su i drugi sustavi bodovanja izvedenih proizvoda kako bi se nadoknadili njegovi nedostaci, ali BLEU ostaje visoko ocijenjen i danas je najčešće korišteni sustav ocjenjivanja MT.

Završne riječi o ocjenjivanju MT

I time smo iscrpili osnove vrednovanja strojnog prevođenja. Kao što smo pokazali, procjena MT sustava može se obaviti kroz ljudsku procjenu ili automatsku procjenu. Oba procesa imaju svoje prednosti i nedostatke.

Ljudska procjena zlatni je standard u pogledu kvalitete, ali je skupa i dugotrajna. Automatski prijevod nije toliko precizan, ali je brz i skalabilan. Kao takve, obje vrste imaju svoje specifične slučajeve upotrebe u kojima se iskažu kao sjajne.