10/05/2024

Motori za mašinsko prevođenje Ultimativni vodič

Recimo da ste preduzeće koje je odlučilo da investira u sistem mašinskog prevođenja. Napravili ste neko osnovno istraživanje i otkrili ste da postoji toliko mnogo opcija koje možete izabrati. Svaki od njih tvrdi da postiže određeni iznos na osnovu određenih metrika, ali ne znate šta brojevi zapravo znače. Kako znate koji vam najviše odgovara?

Morate razumjeti kako funkcionira evaluacija mašinskog prevođenja.

Ovaj članak će se detaljnije baviti temom evaluacije mašinskog prevođenja. Pomoći će vam da shvatite šta je to, zašto vam je potrebno i različite vrste evaluacije, kako bi vam pomogli da donesete dobro informisanu odluku pri odabiru MT sistema u koji ćete ulagati.

Uvod: Šta je evaluacija mašinskog prevođenja?

Evaluacija mašinskog prevođenja odnosi se na različite procese merenja performansi sistema za mašinsko prevođenje.

To je način bodovanja kvaliteta MT-a tako da je moguće znati koliko je sistem dobar, a postoji i solidna osnova za upoređivanje koliko su efikasni različiti MT sistemi. Da bi se to postiglo, evaluacija strojnog prijevoda koristi mjerne metrike.

Motori za mašinsko prevođenje

Postoje dva glavna razloga zašto treba izvršiti evaluaciju performansi MT sistema. Prvi je da provjerite da li je dovoljno dobar za primjenu u stvarnom svijetu. Drugi je da služi kao vodič u istraživanju i razvoju.

Da biste provjerili je li dovoljno dobar za primjenu u stvarnom svijetu

Prvo, naravno, treba utvrditi da li MT sistem radi na nivou koji je dovoljno dobar za stvarnu upotrebu. To je razlog koji je najdirektnije relevantan za krajnje korisnike. Ako sistem mašinskog prevođenja radi loše, veća je verovatnoća da će korisnici izabrati nešto drugo.

Industrijski sektori koji koriste MT također bi željeli konkretne metrike za odlučivanje koji MT sistem će dobiti. Na kraju krajeva, MT je investicija, a preduzeća moraju dobiti najbolju vrijednost za svoj novac.

Kao takvi, MT programeri treba da procijene da li je kvalitet sistema za mašinsko prevođenje dovoljno dobar da ga pošalju klijentima.

Da služi kao vodič u istraživanju i razvoju

MT sistemi, u idealnom slučaju, nisu statični entitet. Tehnologija za MT se kontinuirano poboljšava tokom vremena. Logično je da treba očekivati i poboljšanje MT sistema.

Tu dolazi istraživanje i istraživači moraju imati neki vodič o tome gdje da traže. Merljive metrike omogućavaju istraživačima da uporede da li je određeni pristup bolji od drugog, pomažući im da fino podese sistem.

Ovo je posebno dobro da vidite kako se sistem nosi sa doslednim greškama u prevođenju. Posjedovanje mjerljivih metrika može pokazati u kontrolisanijem okruženju da li je određeni pristup u stanju da se nosi sa ovakvim vrstama grešaka.

Kako ocjenjujete uspjeh mašinskog prevođenja?

Postoje dva različita načina da se odredi koliko dobro MT sistem radi. Ljudsku evaluaciju vrše ljudski stručnjaci koji rade ručnu procjenu, dok automatska evaluacija koristi metriku zasnovanu na AI posebno razvijenoj za procjenu kvaliteta prijevoda bez ljudske intervencije. Svaki od njih ima svoje prednosti i nedostatke. Ići ćemo u detalje o obje vrste MT evaluacije u kasnijim dijelovima ovog članka, ali prvo, evo kratkog pregleda dvije vrste evaluacije strojnog prijevoda, kao i pristupa evaluaciji MT-a koji ih koriste .

Ljudska evaluacija naspram automatske evaluacije

Ljudska evaluacija mašinskog prevođenja znači da procenu kvaliteta prevoda vrše ljudi profesionalni prevodioci. Ovo je najefikasnija opcija kada je u pitanju određivanje kvaliteta mašinskog prijevoda do nivoa rečenica. Ali ljudska evaluacija, kao i kod ljudskog prevođenja, po prirodi je skuplja i dugotrajnija.

Automatska evaluacija, s druge strane, koristi programe napravljene posebno za procjenu kvaliteta strojnog prijevoda prema različitim metodama. Nije tako pouzdan kao ljudska evaluacija na nivou rečenice, ali je dobra skalabilna opcija kada se procjenjuje ukupni kvalitet prijevoda na više dokumenata.

Pristupi MT evaluaciji

Pristupi evaluaciji mašinskog prevođenja zasnovani su na konceptu granularnosti. Odnosno, različiti nivoi na kojima se bodovanje može smatrati značajnim.

PristUzmimo, na primjer, sljedeću rečenicu:up zasnovan na Prema ovom pristupu, svakoj rečenici se daje ocjena koja govori da li je njen prijevod dobar (1) ili nije dobar (0), a zbroju se daje prosjek. Ovo se najčešće radi u ljudskoj evaluaciji.

dokumentu.Takođe poznat kao pristup zasnovan na korpusu, rečenicama se takođe daju bodovi, ali značajan rezultat je ukupan ili prosek među većim skupom dokumenata. Ovo je najmanji nivo na kojem se automatska evaluacija MT može smatrati značajnom, jer u velikoj mjeri zavisi od statistike iz širokog skupa podataka.

Pristup zasnovan na kontekstu.Ovaj pristup se razlikuje od prethodnih jer ono što uzima u obzir je koliko dobro ukupni MT zadatak odgovara svrsi u koju je postavljen, a ne kroz prosječne rezultate na osnovu rečenica. Kao takav, može se smatrati holističkim pristupom MT evaluaciji.

Motori za mašinsko prevođenje

Evaluacija mašinskog prevođenja je težak proces. Evaluacija mašinskog prevođenja je težak proces.

Kao prvo, može postojati više ispravnih prijevoda. Uzmimo, na primjer, sljedeću rečenicu:

Uzmimo, na primjer, sljedeću rečenicu:

MT sistem može umjesto toga generirati sljedeći prijevod:

Brza smeđa lisica nasrnula je na indolentnog psa.v

Ovo je tehnički ispravan prijevod i u ljudskoj procjeni bi inače bio označen kao takav. Ali u automatskoj evaluaciji, to bi bilo označeno kao netačno.

Mali detalji također mogu potpuno promijeniti značenje rečenice.

Uzmimo, na primjer, sljedeću rečenicu:

Brza smeđa lisica skočila je na lijenog psa. Ali ta jedna riječ potpuno mijenja značenje rečenice. Automatske evaluacije će vjerovatno to označiti više od prethodnog primjera. Ljudski prevodioci će vjerovatno uhvatiti grešku, ali neki bi je mogli smatrati ispravnom.

A to je zato što jezik može biti subjektivan. Čak se i humani ocjenjivači mogu razlikovati u svojim prosudbama o tome da li je prijevod dobar ili ne.

Humana evaluacija: Zlatni standard

Sada kada smo prošli osnove, pogledajmo detaljnije dvije vrste MT evaluacije, počevši od ljudske evaluacije.

Na najosnovnijem nivou, cilj mašinskog prevođenja je da prevede tekst sa izvornog jezika na ciljni jezik na nivou koji ljudi mogu da razumeju. Kao takvi, ljudi su najbolja referentna tačka za procenu kvaliteta mašinskog prevođenja.

Vrste humane evaluacije

Postoji nekoliko različitih načina na koje se ljudska evaluacija vrši, na koje ćemo sada ići:

Direktna procjena

Ovo je najjednostavnija vrsta ljudske evaluacije. Rezultat strojnog prijevoda se boduje na nivou rečenice.

Izazov sa direktnom ocjenom je da će različite sudije uvelike varirati u načinu na koji ocjenjuju. Neki će možda ići u krajnosti u smislu bodovanja, označavajući prevode kao veoma loše ili veoma dobre. Drugi mogu igrati konzervativnije, označavajući iste rečenice bodom bliže sredini.

Drugi izazov je, opet, subjektivnost. U procjeni da li je rečenica loš prijevod ili ne, evaluatori moraju donijeti odluke o jeziku koji je dvosmislen. Vraćamo se na primjer rečenice:

Ova brza smeđa lisica preskočila je lijenog psa.

Ovdje  pas nije nužno pogrešan prijevod, ali nije ni najbolji. Neki evaluatori to mogu smatrati dovoljno dobrim prijevodom, dok bi drugi mogli označiti kao potpuno pogrešn.a Na primjer, ako se bodovanje vrši na skali od 5 bodova, neki prevodioci bi to mogli označiti s 4, dok bi drugi mogli dati samo 2.

Ovi izazovi se mogu nadoknaditi angažovanjem većeg broja evaluatora, što će omogućiti da se rezultati normalizuju u statističkim uslovima.

Rangiranje

Drugi način za procjenu sistema mašinskog prevođenja putem ljudske evaluacije je rangiranje.

U ovom slučaju, evaluatori ne daju pojedinačne ocjene za rečenice, već umjesto toga upoređuju prijevode iz različitih MT sistema. Zatim odlučuju koji je najbolji prijevod, koji je drugi najbolji, itd.

Prednost ove metode u odnosu na direktnu procjenu je u tome što odmah pruža direktno poređenje, za razliku od poređenja rezultata koji su generisani tokom različitih ispitivanja i eventualno od strane različitih evaluatora.

Međutim, još uvijek pati od problema subjektivnosti. Različiti MT sistemi će verovatno doći do različitih grešaka. Na primjer:

Brza zelena lisica je preskočila lijenog psa.

Brza smeđa lisica je preskočila lijenog psa.

Ova brza smeđa lisica preskočila je lijenog psa.

Svaka rečenica ima jednostavnu grešku. U prvoj je to pogrešan prijevod. U drugoj nedostaje član. U trećoj nedostaje glagolsko vrijeme.

Evaluatori sada moraju odlučiti koja je greška važnija od druge, a opet, ocjenjivači mogu imati različita mišljenja o tome.

Posebna pažnja nakon uređivanja teksta

Ako je namjera korisnika MT sistema da pripremi dokumente za naknadno uređivanje, postoje i načini da se to procijeni prema količini napora potrebnog za naknadno uređivanje.

Osnovna namjera naknadnog uređivanja je omogućiti prevodiocu da radi brže nego kada bi prevodio tekst od nule. Kao takav, najjednostavniji način da se proceni MT sistem za naknadno uređivanje je merenje vremena koje je potrebno prevodiocu da ispravi mašinski prevedeni izlaz.

Drugi način mjerenja napora nakon uređivanja je tabelarno izračunavanje broja udaraca na tipkovnici koji bi bili potrebni da se strojno preveden tekst zamijeni ljudskim referentnim prijevodom. Ovo je neovisno o vremenskim ograničenjima, ali također ne uzima u obzir mogućnost višestrukih ispravnih prijevoda.

Ocjena zasnovana na zadatku:

Ovo je neovisno o vremenskim ograničenjima, ali također ne uzima u obzir mogućnost višestrukih ispravnih prijevoda. Na primjer, ako se koristi u višejezičnom webinaru, od učesnika bi se moglo tražiti da ocijene svoje iskustvo s strojno prevedenim transkriptom. To znači da oni ocenjuju uspeh MT sistema u celini.

Problem sa ovim pristupom je što je veoma otvoren za uvođenje drugih nekontrolisanih elemenata koji mogu uticati na ocjenu koju daju evaluatori. Kao takva, upotreba evaluacije zasnovane na zadacima je vrlo situaciona.

Opšti izazovi u ljudskoj evaluaciji

Kao što možete vidjeti, različite vrste ljudske evaluacije MT dolaze sa svojim izazovima. Postoje i neki izazovi koje oni naširoko dijele, a oni se odnose na dosljednost ili dogovor.

Inter-anotatorski sporazum

Ovo se odnosi na konzistentnost rezultata između različitih evaluatora. Kao što smo ranije spomenuli, različiti evaluatori će imati različite tendencije u načinu na koji boduju iste segmente teksta. Neki ih mogu postići u ekstremima ili prema sredini. Prilikom rangiranja različitih MT motora, njihova mišljenja se također mogu razlikovati. Zbog toga je važno imati više evaluatora, kako bi se distribucija rezultata normalizirala.

Inter-anotatorski sporazum

Način na koji jedan ocjenjivač ocjenjuje tekst je također mjera valjanosti. Ocjenjivač bi prvi put mogao ocijeniti rečenicu dobrom ili lošom, ali se može predomisliti nakon ponavljanja istog testa. Visoko mjerenje slaganja unutar anotatora osigurava da se odabrani evaluator može smatrati dosljednim i pouzdanim.

Automatska evaluacija: Skalabilna opcija

Ljudska evaluacija se smatra zlatnim standardom kada je u pitanju procjena kvaliteta mašinskog prevođenja. Međutim, to je skup poduhvat u smislu truda i vremena. Zbog toga su istraživači u ovoj oblasti razvili različita sredstva za procjenu kvaliteta MT-a putem automatiziranih procesa.

Ovi procesi su dizajnirani da aproksimiraju kako će ljudi procijeniti MT sistem. Naravno, oni su daleko od savršenih u ovome, ali automatska evaluacija i dalje ima vrlo važne slučajeve upotrebe.

Glavna prednost automatske evaluacije nad ljudskom evaluacijom je njena skalabilnost. Mnogo je brže pokrenuti stotine instanci automatske evaluacije nego čak i jedan krug ljudske evaluacije. To ga čini idealnim rješenjem za podešavanje ili optimizaciju MT sistema, kojem su potrebni brzi rezultati.

Izazovi automatske evaluacije

Za razliku od ljudi, mašine nisu opremljene za rukovanje različitim nijansama upotrebe jezika. Automatski sistemi evaluacije su zasnovani na tome da MT ima tačno podudaranje sa referentnim tekstom, a manje razlike mogu uticati na konačni rezultat. Ove razlike mogu uključivati odstupanja u morfologiji, upotrebi sinonima i gramatičkom redu.

Sve što ljudski evaluator može smatrati tehnički ili manje-više ispravnim može biti kažnjeno u automatskoj evaluaciji. Ipak, broj tačnih podudaranja, posebno kada se uzme u obzir veliki uzorak teksta, često je dovoljan da automatsku evaluaciju učini izvodljivom za upotrebu.

Metrika automatske evaluacije

Danas je dostupan niz različitih automatskih metrika evaluacije. Evo nekoliko primjera onih koji se koriste:

 

·         BLEU (dvojezična evaluacijska studija)

·         NIST  (Nacionalnog instituta za standarde i tehnologiju)

·         METEOR (metrika za evaluaciju prijevoda s eksplicitnim redoslijedom)

·         LEPOR (kazna dužine, preciznost, n-gram razlika u poziciji kazna i opoziv)

·         COMET

·         PRIS

·         TER (Stopa greške u prijevodu)


Svaka metrika radi na različitim algoritmima i kao takva različito upravlja procesom automatske evaluacije. To znači da imaju različite prednosti i slabosti, te da se razlikuju po tome za koje vrste grešaka daju veće ili manje kazne.

BLEU, najpopularnija metrika

Od svih gore navedenih metrika BLEU je onaj koji se najčešće koristi. To je bila jedna od prvih metrika koja je postigla visok nivo korelacije sa ljudskom evaluacijom, i iznjedrila je mnoge različite varijacije.

Način na koji to funkcionira je da se pojedinačne rečenice boduju u odnosu na skup visokokvalitetnih referentnih prijevoda. Ovi rezultati se zatim prosečno, a rezultirajući broj je konačni BLEU rezultat za taj MT sistem. Ovaj rezultat predstavlja koliko se izlaz MT sistema podudara sa ljudskim referentnim prevodom, što je marker za kvalitet.

Rezultati se izračunavaju korištenjem jedinica koje se zovu n-grami, koje se odnose na segmente uzastopnog teksta. Vraćajući se na prethodni primjer rečenice, na primjer:

Uzmimo, na primjer, sljedeću rečenicu:

Ovo se može podijeliti na n-grame različite dužine. 2 gram bi, na primjer, bio “Brza”, “brza smeđa” ili “smeđa lisica”. 3 gram bi, na primjer, bio “Brza”, “brza smeđa lisica”. 4 gram bi, na primjer, bio “Ova brza smeđa lisica”. I tako dalje.

To je složen matematički proces, ali u osnovi BLEU-ov algoritam izračunava rezultat provjeravanjem broja preklapanja između n-grama. Izračunati rezultat će biti između 0 i 1, pri čemu 1 predstavlja potpuno identično podudaranje između referentne i izlazne rečenice. Sada uzmite sljedeću varijaciju na uzorku rečenice:

Brza smeđa lisica je preskočila lijenog psa.

Svi n-grami će se podudarati osim onih koji imaju riječ "brzo". Još jedan primjer:

Brza smeđa lisica je preskočila psa.

U ovom primjeru nedostaje riječ "lijeni", tako da to negativno utječe i na preklapanje. U oba slučaja, BLEU rezultat bi i dalje bio visok, ali manji od 1.

U praksi, malo rečenica će pokazati ovaj visok nivo korelacije. Kao takvi, BLEU rezultati postaju statistički značajni samo kada se uzimaju u kontekstu velikog uzorka teksta ili korpusa.

Postoje, naravno, i drugi faktori koji ulaze u izračunavanje BLEU rezultata, kao što su kazne za dodatne riječi ili vrlo kratke rečenice. Razvijeni su i drugi derivativni sistemi bodovanja kako bi se kompenzirali njegovi nedostaci, ali BLEU je i dalje visoko ocijenjen i nastavlja biti najčešće korišteni sistem MT evaluacije danas.

Završne riječi o MT evaluaciji

A to pokriva osnove evaluacije mašinskog prevođenja. Kao što smo pokazali, procena MT sistema se može uraditi putem ljudske evaluacije ili automatske evaluacije. Oba procesa imaju svoje prednosti i nedostatke.

Ljudska evaluacija je zlatni standard u pogledu kvaliteta, ali je skupa i dugotrajna. Automatski prijevod nije toliko precizan, ali je brz i skalabilan. Kao takve, oba tipa imaju svoje specifične slučajeve upotrebe u kojima blistaju.