15/05/2024

Procena mašinskog prevođenja: Kompletan vodič

Recimo da imate preduzeće i da ste odlučili da investirate u sistem mašinskog prevođenja. Uradili ste neka osnovna istraživanja i otkrili da postoji mnogo opcija između kojih možete birati. Za svaki od njih tvrdi se da postiže određeni uspeh na osnovu određenog sistema merenja, ali ne znate šta brojevi zaista znače. Kako znate koji vam najviše odgovara?

Morate razumeti kako funkcioniše procena mašinskog prevođenja.

Ovaj članak se detaljno bavi evaluacijom mašinskog prevođenja. Pomoći će vam da shvatite šta je to, zašto vam je potrebno i koje vrste evaluacije postoje kako biste, prilikom izbora MT sistema u koji ćete ulagati, mogli da donesete odluku na osnovu pravih informacija.

Uvod Šta je procena mašinskog prevođenja?

Procena mašinskog prevođenja odnosi se na različite procese merenja performansi sistema mašinskog prevođenja.

To je način bodovanja kvaliteta MT na osnovu kog je moguće znati koliko je sistem dobar, a postoji čvrsta osnova za upoređivanje koliko su različiti MT sistemi efikasni.Da bi se to postiglo, evaluacija mašinskog prevođenja koristi kvantitativan sistem merenja.

Zašto su sistemi merenja za procenu mašinskog prevođenja važni?

Postoje dva glavna razloga zbog kojih je potrebno izvršiti procenu performansi MT sistema. Prvi je da proverite da li je dovoljno dobar za primenu u stvarnom svetu. Drugi je da služi kao vodič u istraživanju i razvoju.

Da biste proverili da li je dovoljno dobar za primenu u stvarnom svetu

Prvo, naravno, treba utvrditi da li MT sistem radi na nivou koji je dovoljno dobar za stvarnu upotrebu. To je razlog koji je od najdirektnije važnosti za krajnje korisnike. Ako sistem mašinskog prevođenja radi loše, veća je verovatnoća da korisnici izaberu nešto drugo.

Industrijski sektori koji koriste MT takođe bi želeli konkretne sisteme merenja kako bi odlučili koji će MT sistem nabaviti. Na kraju krajeva, MT je investicija, i preduzeća moraju da dobiju najbolju vrednost za svoj novac.

Kao takvi, programeri za MT moraju da procene da li je kvalitet sistema mašinskog prevođenja dovoljno dobar da ga pošalju klijentima.

Da služi kao vodič u istraživanju i razvoju

MT sistemi, u idealnom slučaju, nisu statički entitet. Tehnologija za MT se vremenom neprestano poboljšava. Ima smisla očekivati i poboljšanje MT sistema.

Ovde na red dolazi istraživanje, a istraživači moraju imati neku predstavu o tome gde treba da traže. Kvantitativni sistemi merenja omogućavaju istraživačima da provere da li je određeni pristup bolji od drugog, pomažući im da fino podešavaju sistem.

Ovo je posebno korisno kad treba videti kako se sistem nosi sa doslednim greškama u prevodu. U bolje kontrolisanom okruženju kvantitativni sistem merenja može pokazati da li se određeni pristup može nositi sa ovakvim greškama ili ne.

Kako ocenjujete uspeh mašinskog prevođenja?

Postoje dva različita načina da se utvrdi koliko dobro MT sistem funkcioniše. Ljudsku procenu vrše stručnjaci koji rade ručnu procenu, dok automatska evaluacija koristi sisteme merneja zasnovane na VI, posebno razvijene za procenu kvaliteta prevoda bez ljudske intervencije. Svaka ima svoje prednosti i nedostatke. U narednim odeljcima ovog članka detaljnije ćemo opisati obe vrste procene MT, ali najpre evo kratkog pregleda dve vrste evaluacije mašinskog prevođenja, kao i pristupa proceni MT koji ih koriste.

Ljudska evaluacija nasuprot automatskoj proceni

Ljudska procena mašinskog prevođenja znači da procenu kvaliteta prevoda vrše ljudski profesionalni prevodioci. Ovo je najefikasnija opcija kada je u pitanju određivanje kvaliteta mašinskih prevoda do nivoa rečenica. Ali ljudska procena, kao i kod ljudskog prevođenja, po prirodi je skuplja i dugotrajnija.

Automatska evaluacija, s druge strane, koristi programe napravljene posebno za procenu kvaliteta mašinskog prevođenja prema različitim metodama. Nije tako pouzdana kao ljudska evaluacija na nivou rečenice, ali je dobra skalabilna opcija prilikom procene ukupnog kvaliteta prevoda na više dokumenata.

Pristupi proceni MT

Pristupi evaluaciji mašinskog prevođenja zasnivaju se na konceptu granularnosti. Odnosno, različiti nivoi na kojima se bodovanje može smatrati značajnim.

Pristup zasnovan na rečenicama. Prema ovom pristupu, svakoj rečenici se daje ocena koja govori da li je njen prevod dobar (1), ili nije dobar (0), a za krajnju ocenu uzima se prosek. To se najčešće radi u ljudskoj proceni.

Pristup zasnovan na dokumentima. U ovom pristupu, koji je poznat i kao pristup zasnovan na korpusu, rečenicama se takođe daju ocene, ali se kao značajan rezultat uzima ukupna ili prosečna ocena većeg skupa dokumenata. Ovo je najmanji nivo na kojem se automatizovana procena MT-a može smatrati značajnom, jer u velikoj meri zavisi od statistike širokog skupa podataka.

Pristup zasnovan na kontekstu. Ovaj pristup se razlikuje od prethodnih po tome što uzima u obzir koliko ukupni MT zadatak odgovara svrhama u koje je korišćen, a ne prosečne ocene zasnovane na rečenicama. Zato bi se mogao smatrati holističkim pristupom evaluaciji MT.

Izazovi u proceni mašinskog prevođenja

Procena mašinskog prevođenja je težak proces. To je zato što je sam jezik veoma složen.

Kao prvo, može postojati više ispravnih prevoda. Uzmimo, na primer, sledeću rečenicu:

Brza smeđa lisica skočila je preko lenjog psa.

MT sistem umesto toga može generisati sledeći prevod:

Brza smeđa lisica naletela je na indolentnog psa.

Ovo je tehnički ispravan prevod, i u ljudskoj proceni obično bi bio označen kao takav. Ali u automatizovanoj proceni bio bi označen kao netačan.

Sitni detalji takođe mogu u potpunosti promeniti značenje rečenice.

Brza smeđa lisica skočila je na lenjog psa.

Samo jedna reč je promenjena. Ali ta jedna reč potpuno menja značenje rečenice. Automatske procene će ga verovatno označiti kao bolji od prethodnog primera. Ljudski prevodioci će verovatno primetiti grešku, ali neki bi ga mogli smatrati tačnim.

A to je zato što jezik može biti subjektivan. Čak se i ljudski ocenjivači mogu razlikovati u procenama da li je prevod dobar ili ne.

Ljudska procena: Zlatni standard

Pošto smo objasnili osnove, hajde da detaljno pogledamo dve vrste procene MT-a, počevši od ljudske procene.

Na najosnovnijem nivou, cilj mašinskog prevođenja jeste prevod teksta sa izvornog jezika na odredišni jezik na nivou koji ljudi mogu da razumeju. Kao takvi, ljudi su najbolja referentna tačka za procenu kvaliteta mašinskog prevođenja.

Vrste ljudske procene

Postoji nekoliko različitih načina ljudske evaluacije, koje ćemo sada opisati:

Direktna procena

Ovo je najjednostavnija vrsta ljudske procene. Izlaz mašinskog prevođenja se ocenjuje na nivou rečenice.

Izazov kod direktne procene jeste to što će se različite osobe uveliko razlikovati u načinu ocenjivanja. Neki su u bodovanju skloni krajnostima, pa često označavaju prevode kao veoma loše ili vrlo dobre. Drugi su konzervativniji, pa iste rečenice označavaju ocenama bližim sredini.

Još jedan izazov je, opet, subjektivnost. Prosuđujući da li je rečenica loše prevedena ili nije, evaluatori moraju donositi odluke o jeziku, koji je dvosmislen. Vraćajući se na primer rečenice:

Brza smeđa lisica skočila je preko lenjog psa.

Ovde reč pas nije nužno pogrešna, ali nije ni najbolja. Neki ocenjivači mogu smatrati da je dovoljno dobra, dok bi je drugi mogli označiti kao potpuno pogrešnu. Na primer, ako se bodovanje vrši na skali od 5 poena, neki prevodioci bi je mogli označiti sa 4, a drugi samo sa 2.

Ovi izazovi se mogu nadoknaditi zapošljavanjem većeg skupa evaluatora, što će omogućiti normalizaciju rezultata u statističkim uslovima.

Rangiranje

Drugi način procene sistema mašinskog prevođenja putem ljudske evaluacije jeste rangiranje.

U ovom slučaju evaluatori ne daju pojedinačne ocene za rečenice, već umesto toga upoređuju prevode iz različitih MT sistema. Zatim odlučuju koji je prevod najbolji, koji drugi po redu, i tako dalje.

Prednost ove metode u odnosu na direktnu procenu jeste to što odmah pruža direktno poređenje, za razliku od upoređivanja rezultata koji su generisani tokom različitih ispitivanja, a možda i od strane različitih evaluatora.

Međutim, i dalje pati od izazova subjektivnosti. Različiti MT sistemi verovatno će napraviti različite greške. Na primer:

Brza zelena lisica skočila je preko lenjog psa.

Brza smeđa lisica skočila je lenjog psa.

Brza smeđa lisica skočiti preko lenjog psa.

Svaka rečenica ima jednostavnu grešku. Prva ima pogrešno prevedenu reč. U drugoj je izostavljen predlog. Trećoj nedostaje ispravan glagolski oblik.

Evaluatori sada moraju da odluče koja je greška važnija, i opet, mogu imati različita mišljenja o tome.

Poslovi nakon uređivanja

Ako je korisnikov cilj da MT sistem pripremi dokumente za naknadno uređivanje, postoje načini da se on proceni prema naporu potrebnom za takvo uređivanje.

Osnovna svrha naknadnog uređivanja jeste da omogući prevodiocu da radi brže nego kada prevodi tekst od nule. Kao takav, najjednostavniji način za procenu MT sistema za naknadno uređivanje jeste merenje vremena koje je prevodiocu potrebno da ispravi mašinski prevedeni izlaz.

Drugi način za merenje napora nakon uređivanja jeste tabeliranje broja poteza na tastaturi koji bi bili potrebni da se mašinski preveden tekst zameni referentnim ljudskim prevodom. Ovo je nezavisno od vremenskih ograničenja, ali ne uzima u obzir mogućnost višestrukih ispravnih prevoda.

Evaluacija zasnovana na zadatku

Zatim postoji evaluacija zasnovana na zadatku koja, kao što joj ime govori, procenjuje MT sistem na osnovu toga koliko dobro odgovara zadatku. Na primer, ako se koristi u višejezičnom vebinaru, od učesnika se može tražiti da ocene svoje iskustvo sa mašinski prevedenim transkriptom. To znači da ocenjuju uspeh MT sistema u celini.

Problem sa ovim pristupom jeste to što je veoma otvoren za uvođenje drugih nekontrolisanih elemenata koji mogu uticati na rejting koji ocjenjivači daju. Kao takva, upotreba evaluacije zasnovane na zadacima dosta zavisi od situacije.

Opšti izazovi u ljudskoj evaluaciji

Kao što možete videti, sve vrste ljudske procene MT dolaze sa sopstvenim izazovima. Postoje i neki izazovi koji su im zajednički, a oni imaju veze sa doslednošću ili dogovorom.

Sporazum između komentatora

Ovo se odnosi na konzistentnost rezultata između različitih evaluatora. Kao što smo ranije pomenuli, različiti evaluatori će imati različite tendencije u načinu na koji ocenjuju iste segmente teksta. Neki će u ocenjivanju naginjati krajnostima ili sredini. Prilikom rangiranja različitih MT mehanizama, njihova mišljenja takođe mogu varirati. Zbog toga je važno imati više evaluatora, tako da se distribucija rezultata normalizuje.

Ugovor unutar anotatora

Način na koji jedan evaluator ocenjuje tekst takođe je mera valjanosti. Evaluator može prvi put oceniti rečenicu kao dobru ili lošu, ali bi se mogao predomisliti pri ponavljanju istog testa. Visoko merenje sporazuma unutar anotatora osigurava da se izabrani evaluator može smatrati doslednim i pouzdanim.

Automatska procena: Skalabilna opcija

Ljudska procena smatra se zlatnim standardom za procenu kvaliteta mašinskog prevođenja. Međutim, to je skup poduhvat u smislu truda i vremena. Zbog toga su istraživači u ovoj oblasti razvili različita sredstva za procenu kvaliteta MT kroz automatizovane procese.

Ovi procesi su dizajnirani da procene MT sisteme približno onako kako to rade ljudi. Naravno, oni su daleko od savršenih, ali automatska procena i dalje ima veoma važne slučajeve upotrebe.

Glavna prednost automatske procene u odnosu na ljudsku jeste njena skalabilnost. Mnogo je brže pokrenuti stotine slučajeva automatske procene nego čak i jedan krug ljudske. To ga čini idealnim rešenjem prilikom podešavanja ili optimizacije MT sistema, za koju su potrebni brzi rezultati.

Izazovi u automatskoj evaluaciji

Za razliku od ljudi, mašine nisu opremljene da se nose sa različitim nijansama upotrebe jezika. Sistemi automatske procene zasnovani su na tome da se MT potpuno poduda sa referentnim tekstom, i manje razlike mogu imati uticaja na konačni rezultat. Ove razlike mogu uključivati odstupanja u morfologiji, upotrebu sinonima i gramatički poredak.

Sve što ljudski procenjivač može smatrati tehnički manje ili više ispravnim, u automatskoj proceni se može kažnjavati. Ipak, broj tačnih podudaranja, posebno kada se uzme u obzir veliki uzorak teksta, često je dovoljan da se automatska procena učini izvodljivom za upotrebu.

Sistem merenja za automatsku procenu

Danas je na raspolaganju niz različitih sistema merenja za automatsku procenu. Evo nekoliko primera onih koji se koriste:

 

      BLEU (dvojezična evaluacijska studija) 

      NIST (do Nacionalnog instituta za standarde i tehnologiju)

      METEOR (sistem merenja za procenu prevoda sa eksplicitnim redosledom)

      LEPOR (kazna za dužinu, preciznost, kazna za razliku u položaju u n-gramu i opoziv)

      COMET 

      PRIS

      TER (Stopa greške u prevođenju)

Svaki sistem merenja radi na različitim algoritmima i kao takav različito upravlja procesom automatske procene. To znači da imaju različite snage i slabosti i razlikuju se po tome kojim vrstama grešaka daju veće ili niže kazne.

BLEU, najpopularniji sistem merenja

Od svih gore navedenih sistema merenja, BLEU se najčešće koristi. To je jedan od prvih sistema merenja koji je postigao visok nivo korelacije sa ljudskom procenom, i razvijeno je mnogo njegovih varijacija.

Funkcioniše tako što se pojedinačne rečenice ocenjuju prema skupu visokokvalitetnih referentnih prevoda. Iz ovih rezultata se zatim izvuče prosek, i dobijeni broj je konačni BLEU rezultat za taj MT sistem. Ovaj rezultat govori koliko se izlaz MT sistema podudara sa ljudskim referentnim prevodom, koji je marker kvaliteta.

Rezultati se izračunavaju pomoću jedinica zvanih n-grami, koje se odnose na segmente uzastopnog teksta. Vraćajući se na raniji rečenični primer, na primer:

Brza smeđa lisica skočila je preko lenjog psa.

Ovo se može podeliti na n-grame različite dužine. Na primer, 2-grami bi bili „brza smeđa“, „smeđa lisica“ ili „lenjog psa“. 3-grami bi bili „brza smeđa lisica“ ili „preko lenjog psa“. 5-gram bi bio „skočila je preko lenjog psa“. I tako dalje.

To je složen matematički proces, ali u osnovnim terminima BLEU algoritam izračunava rezultat proveravajući broj preklapanja između n-grama. Izračunati rezultat će biti između 0 i 1, pri čemu 1 predstavlja potpuno podudaranje između referentne i izlazne rečenice. Sada uzmite sledeću varijaciju rečeničnog primera:

Brza smeđa lisica skočila je preko lenjog psa.

Svi n-grami će se podudarati osim onih koji imaju reč „brzo“. Još jedan primer:

Brza smeđa lisica skočila je preko psa.

U ovom primeru nedostaje reč „lenj“, što takođe negativno utiče na preklapanje. U oba slučaja, rezultat BLEU i dalje bi bio visok, ali manji od 1.

U praksi neće mnogo rečenica imati ovaj visok nivo korelacije. Kao takvi, rezultati BLEU postaju statistički značajni samo kada se uzimaju u kontekstu velikog uzorka teksta ili korpusa.

Postoje, naravno, i drugi faktori koji ulaze u izračunavanje BLEU rezultata, kao što su kazne za dodatne reči ili vrlo kratke rečenice. Razvijeni su i drugi sistemi bodovanja derivata kako bi se nadoknadili njegovi nedostaci, ali BLEU ostaje visoko ocenjen i nastavlja da bude najčešće korišćeni sistem ocenjivanja MT.

Završne reči o proceni MT

I to pokriva osnove evaluacije mašinskog prevođenja. Kao što smo pokazali, procena MT sistema može se izvršiti kroz ljudsku procenu ili automatsku procenu. Oba procesa imaju svoje prednosti i nedostatke.

Ljudska procena je zlatni standard u pogledu kvaliteta, ali je skupa i dugotrajna. Automatski prevod nije toliko tačan, ali je brz i skalabilan. Kao takve, obe vrste imaju svoje specifične slučajeve upotrebe, u kojima blistaju.