10/05/2024

masintõlke hindamine: ülim juhend

Oletame, et olete ettevõte, kes on otsustanud investeerida masintõlkesüsteemi. Olete teinud mõned põhiuuringud ja leiate, et on nii palju valikuvõimalusi. Igaüks väidab, et hindab teatud mõõdikute põhjal teatud summa, kuid te ei tea, mida numbrid tegelikult tähendavad. Kuidas te teate, milline neist sobib teile kõige paremini?

Peate mõistma, kuidas masintõlke hindamine töötab.

Selles artiklis käsitletakse põhjalikult masintõlke hindamise teemat. See aitab teil mõista, mis see on, miks te seda vajate ja millised on erinevad hindamistüübid, et aidata teil teha teadliku otsuse MT-süsteemi valimisel, kuhu investeerida.

Sissejuhatus: mis on masintõlke hindamine?

Masintõlke hindamine viitab masintõlkesüsteemi jõudluse mõõtmise erinevatele protsessidele.

See on viis MT kvaliteedi hindamiseks, nii et on võimalik teada, kui hea süsteem on, ja on kindel alus võrrelda, kui tõhusad on erinevad MT-süsteemid. Selleks kasutab masintõlke hindamine kvantifitseeritavaid mõõdikuid.

Miks on masintõlke hindamise mõõdikud olulised?

MT-süsteemi toimivuse hindamiseks on kaks peamist põhjust. Esimene on kontrollida, kas see on reaalseks kasutamiseks piisavalt hea. Teine on olla juhendiks teadus- ja arendustegevuses.

Kontrollida, kas see on piisavalt hea reaalseks kasutamiseks

Esiteks on muidugi kindlaks teha, kas MT-süsteem töötab tasemel, mis on tegelikuks kasutamiseks piisavalt hea. See on põhjus, mis on lõppkasutajate jaoks kõige otsesem tähtusus.Kui masintõlkesüsteem töötab halvasti, valivad kasutajad tõenäolisemalt midagi muud.

MT-d kasutavad tööstussektorid sooviksid ka konkreetseid mõõdikuid otsustamiseks, millist MT-süsteemi soetada. Lõppude lõpuks on MT investeering ja ettevõtted peavad saama oma raha parima hinna ja kvaliteedi suhte.

Seega peavad MT arendajad hindama, kas masintõlkesüsteemi kvaliteet on piisavalt hea, et nad saaksid selle klientidele saata.

Olla juhendiks teadus- ja arendustegevuses

MT-süsteemid ei ole ideaalis staatiline üksus. MT tehnoloogia paraneb aja jooksul pidevalt. On mõistlik, et ka MT-süsteemide paranemist tuleks oodata.

Siinkohal tulevadki appi uuringud ja teadlastel peab olema mingi juhend selle kohta, kust otsida. Mõõdetavad mõõdikud võimaldavad teadlastel võrrelda, kas konkreetne lähenemine on parem kui teine, aidates neil süsteemi täpselt häälestada.

See on eriti hea nägemiseks, kuidas süsteem toimib järjepidevate tõlkevigadega. Mõõdetavate mõõdikute olemasolu võib kontrollitumas keskkonnas näidata, kas konkreetne lähenemisviis suudab seda tüüpi vigadega toime tulla või mitte.

Kuidas hinnata masintõlke edukust?

MT-süsteemi toimimise kindlakstegemiseks on kaks erinevat viisi. Inimhindamist teevad inimeksperdid, kes teevad käsitsi hindamist, samas kui automaatne hindamine kasutab tehisintellektuaalseid mõõdikuid, mis on spetsiaalselt välja töötatud tõlke kvaliteedi hindamiseks ilma inimese sekkumiseta. Igal neist on oma eelised ja puudused. Mõlemat tüüpi MT hindamise kohta käsitleme üksikasjalikumalt selle artikli hilisemates osades, kuid kõigepealt on siin kiire ülevaade kahest masintõlke hindamise tüübist, samuti lähenemisviisidest MT hindamisele, mis neid kasutavad.

Inimhindamine vs automaatne hindamine

Masintõlke inimhindamine tähendab, et tõlke kvaliteeti hindavad professionaalsed tõlkijad. See on kõige tõhusam võimalus masintõlke kvaliteedi määramisel kuni lausete tasemeni. Kuid inimhindamine, nagu ka inimtõlke puhul, on oma olemuselt kulukam ja aeganõudvam.

Automaatne hindamine seevastu kasutab programme, mis on loodud spetsiaalselt masintõlke kvaliteedi hindamiseks vastavalt erinevatele meetoditele. See ei ole nii usaldusväärne kui inimhindamine lause tasandil, kuid on hea skaleeritav võimalus mitme dokumendi tõlke üldise kvaliteedi hindamisel.

Lähenemisviisid MT hindamisele

Masintõlke hindamise lähenemisviisid põhinevad detailsuse kontseptsioonil. See tähendab, et erinevatel tasemetel, võib hindamist pidada oluliseks.

Lausepõhine lähenemine. Selle lähenemisviisi kohaselt antakse igale lausele skoor, mis ütleb, kas selle tõlge on hea (1) või mitte hea (0) ja kogusummale antakse keskmine. Seda tehakse kõige sagedamini inimhindamisel.

Dokumendipõhine lähenemine. Tuntud ka kui korpusepõhine lähenemine. Antakse lausetele ka hindeid, kuid oluline skoor on suuremast dokumendikogumist saadud summa või keskmine. See on väikseim tase, kus automatiseeritud MT hindamist võib pidada oluliseks, kuna see sõltub suuresti laia andmekogumi statistikast.

Kontekstipõhine lähenemine. See lähenemisviis erineb eelmistest, kuna see võtab arvesse pigem seda, kui hästi üldine MT-ülesanne sobib eesmärkidega, milleks see on pandud, mitte lausetel põhinevate keskmiste skooride kaudu. Seega võib seda pidada terviklikuks lähenemisviisiks MT hindamisele.

Masintõlke hindamise väljakutsed

Masintõlke hindamine on keeruline protsess. Seda seetõttu, et keel ise on väga keeruline asi.

Esiteks võib olla mitu õiget tõlget. Võtame näiteks järgmise lause:

kiire pruun rebane hüppas üle laisa koera.

MT-süsteem võib selle asemel luua järgmise tõlke:

kiire pruun rebane hüppas üle ükskõikse koera.

See on tehniliselt õige tõlge ja inimhindamisel märgitakse seda tavaliselt sellisena. Kuid automatiseeritud hindamisel märgitakse see valeks.

Väikesed detailid võivad ka lause tähendust täielikult muuta.

Kiire pruun rebane hüppas laisa koera peale.

Siin on ainult üks sõna, mida on muudetud. Kuid see üks sõna muudab lause tähendust täielikult. Automaatsed hindamised märgivad selle tõenäoliselt kõrgemalt kui eelmises näites. Inimtõlkijad tabavad tõenäoliselt vea, kuid mõned võivad seda õigeks pidada.

Seda seetõttu, et keel võib olla subjektiivne. Isegi inimhindajad võivad erineda oma hinnangutes selle kohta, kas tõlge on hea või mitte.

Inimhindamine: kuldstandard

Nüüd, kui oleme läbinud põhitõed, vaatame põhjalikult kahte tüüpi MT hindamist, alustades inimhindamisest.

Kõige elementaarsemal tasemel on masintõlke eesmärk tõlkida tekst lähtekeelest sihtkeelde tasemel, millest inimesed saavad aru. Seega on inimesed masintõlke kvaliteedi hindamiseks parim võrdlusalus.

Inimhindamise tüübid

Inimhindamiseks on mitmeid erinevaid viise, mida käsitleme nüüd:

Otsene hindamine

See on kõige lihtsam inimhindamine. Masintõlke väljund hinnatakse lause tasemel.

Otsese hindamise väljakutse on see, et erinevad hindajad erinevad hindamise viisist suuresti. Mõni võib hindamise osas kipuda äärmustesse minema, märkides tõlkeid kas väga halvaks või väga heaks. Teised võivad olla konservatiivsemad, tähistades samu lauseid keskmisele lähemal asuvate hinnetega.

Teine väljakutse on jällegi subjektiivsus. Otsustades, kas lause on halb tõlge või mitte, peavad hindajad langetama otsuseid ebaselge keele osas. Tulles tagasi näidislause juurde:

kiire pruun rebane hüppas üle laisa koera.

Siin pole koer tingimata vale, kuid see pole ka kõige paremini sobiv. Mõned hindajad võivad seda pidada piisavalt heaks, teised võivad seda märkida täiesti valeks. Näiteks kui hindamine toimub 5-punktilisel skaalal, võivad mõned tõlkijad selle tähistada 4, teine aga ainult 2.

Neid väljakutseid saab kompenseerida suurema hulga hindajate kasutamisega, mis võimaldab tulemusi statistilistel tingimustel normaliseerida.

Edetabel

Teine viis masintõlkesüsteemide hindamiseks inimhindamise kaudu on järjestamine.

Sel juhul ei anna hindajad lausete jaoks individuaalseid hindeid, vaid võrdlevad selle asemel erinevate MT-süsteemide tõlkeid. Seejärel otsustavad nad, milline neist on parim tõlge, milline on parim teine ja nii edasi.

Selle meetodi eeliseks otsese hindamise ees on see, et see annab kohe otsese võrdluse, erinevalt erinevate katsete ja võib-olla erinevate hindajate tulemuste võrdlemisest.

Siiski kannatab see endiselt subjektiivsuse väljakutse all. Erinevatel MT-süsteemidel esineb tõenäoliselt erinevaid vigu. Näiteks:

kiire roheline rebane hüppas üle laisa koera.

Kiire pruun rebane hüppas üle laisa koera.

Kiire pruun rebane hüppab üle laisa koera.

Igal lausel on lihtne viga. Esimesel on vale tõlge. Teine jätab artiklid välja. Kolmandas puudub tegusõna ajavorm.

Hindajad peavad nüüd otsustama, milline viga on teistest olulisem, ja jällegi võivad hindajatel olla selles küsimuses erinevad arvamused.

Järeltoimetamise jõupingutused

Kui MT-süsteemi kasutaja eesmärk on dokumentide ettevalmistamine järeltoimetamiseks, on olemas ka viise, kuidas seda hinnata vastavalt sellele, kui palju pingutusi järeltoimetamiseks kulub.

Järeltoimetamise põhieesmärk on võimaldada tõlkijal töötada kiiremini kui siis, kui ta peaks teksti nullist tõlkima. Seega on lihtsaim viis MT-süsteemi järeltoimetamise hindamiseks mõõta aega, mis kulub tõlkijal masintõlgitud väljundi parandamiseks.

Teine võimalus järeltoimetamise jõupingutuste mõõtmiseks on tabelite koostamine klaviatuuril olevate löökide arvust, mis kuluks masintõlgitud teksti asendamiseks inimviite tõlkega. See ei sõltu ajapiirangutest, kuid ei võta arvesse ka mitme korrektse tõlke võimalust.

Ülesandepõhine hindamine

Seejärel on ülesandepõhine hindamine, mis, nagu nimigi ütleb, hindab MT-süsteemi selle põhjal, kui hästi see vastava ülesandega sobib. Näiteks kui seda kasutatakse mitmekeelses veebiseminaris, võidakse osalejatel paluda hinnata oma kogemusi masintõlkega. See tähendab, et nad hindavad MT-süsteemi kui terviku edukust.

Selle lähenemisviisi probleem on see, et see on väga avatud muude kontrollimatute elementide kasutuselevõtuks, mis võivad mõjutada hindajate antud hinnangut. Sellisena on ülesandepõhise hindamise kasutamine väga situatsiooniline.

Üldised väljakutsed inimhindamisel

Nagu võite näha, kaasnevad MT erinevat tüüpi inimhindamine oma väljakutsetega. Samuti on mõningaid väljakutseid, mida neil laias osas jagatakse ja need on seotud järjepidevuse või kokkuleppega.

 Annotaatoritevaheline kokkulepe

See viitab skooride järjepidevusele erinevate hindajate vahel. Nagu me varem mainisime, on erinevatel hindajatel erinevad kalduvused samade tekstisegmentide hindamisel. Mõned võivad neid äärmustes või keskel hinnata.Erinevate MT-mootorite järjestamisel võivad ka nende arvamused erineda. Seetõttu on oluline omada mitu hindajat, et tulemuste jaotus normaliseeruks.

 Annotaatoritevaheline kokkulepe

See, kuidas üks hindaja teksti hindab, on ka kehtivuse mõõdupuuks. Hindaja võib esimest korda lause hinnata heaks või halvaks, kuid sama testi kordamisel võib ta meelt muuta.  Annotaatoritevahelise kokkuleppe kõrge mõõtmine tagab, et valitud hindajat saab pidada järjepidevaks ja usaldusväärseks.

Automaatne hindamine: skaleeritav valik

Inimhindamist peetakse masintõlke kvaliteedi hindamisel kuldstandardiks. Kuid, see on pingutuste ja aja osas kulukas ettevõtmine. Seetõttu on valdkonna teadlased välja töötanud erinevad vahendid MT kvaliteedi hindamiseks automatiseeritud protsesside kaudu.

Need protsessid on loodud selleks, et ligikaudselt hinnata, kuidas inimesed MT-süsteemi hindavad. Muidugi pole nad selles kaugeltki täiuslikud, kuid automaatsel hindamisel on endiselt väga olulisi kasutusjuhtumeid.

Automaatse hindamise peamine eelis inimhindamise ees on selle skaleeritavus. Sadu automaatse hindamise juhtumite käivitamine on palju kiirem kui isegi üks inimhindamise voor. See muudab selle ideaalseks lahenduseks muudatuste tegemisel või MT-süsteemi optimeerimisel, mis vajab kiireid tulemusi.

Automaatse hindamise väljakutsed

Erinevalt inimestest pole masinad varustatud keelekasutuse erinevate nüansside käsitlemiseks. Automaatsed hindamissüsteemid põhinevad sellel, et MT vastab täpselt võrdlustekstile ning väikesed erinevused võivad lõpptulemust mõjutada. Need erinevused võivad hõlmata kõrvalekaldeid morfoloogias, sünonüümide kasutamist ja grammatilist järjekorda.

Automaatse hindamisega võib anda penalti kõige eest, mida inimhindaja võib tehniliselt või enam-vähem õigeks pidada. Sellegipoolest piisab täpsete vastete arvust, eriti kui arvestada suure tekstivalimi, sageli automaatse hindamise kasutamiseks teostatavaks.

Automaatsed hindamismõõdikud

Täna on saadaval mitmeid erinevaid automaatseid hindamismõõdikuid. Siin on mõned näited kasutatavatest:

      BLEU (kakskeelne hindamise alusuuring)

      NIST (riiklikust standardite ja tehnoloogiainstituudist)

      METEOR (mõõdik tõlke hindamiseks selgesõnalise järjestusega)

      LEPOR (pikkuskaristus, täpsus, n-grammi positsioonierinevuse karistus ja tagasikutsumine)

      COMET 

      PRICE (hind)

      TER (tõlke veamäär)

Iga mõõdik töötab erinevate algoritmidega ja sellisena käsitleb automaatse hindamise protsessi erinevalt. See tähendab, et neil on erinevad tugevad ja nõrgad küljed ning need erinevad selle poolest, milliste vigade eest nad annavad suuremaid või madalamaid penalteid.

BLEU, kõige populaarsem mõõdik

Kõigist ülaltoodud mõõdikutest kasutatakse kõige sagedamini BLEU. See oli üks esimesi mõõdikuid, mis saavutas kõrge korrelatsiooni inimhindamisega, ja on tekitanud palju erinevaid variatsioone.

See toimib nii, et üksikud laused hinnatakse kvaliteetsete võrdlustõlgetega. Seejärel keskmistatakse need hinded ja saadud arv on selle MT-süsteemi lõplik BLEU-skoor. See skoor näitab, kui tihedalt vastab MT-süsteemi väljund inimviite tõlkele, mis on kvaliteedi marker.

Hinded arvutatakse ühikute abil, mida nimetatakse n-grammideks, mis viitavad järjestikuse teksti segmentidele. Tulles tagasi varasema näidislause juurde, näiteks:

kiire pruun rebane hüppas üle laisa koera.

Selle võib jagada erineva pikkusega n-grammideks. Näiteks 2-grammine oleks „kiire”, „kiire pruun” või „pruun rebane”. 3-grammine oleks „kiire pruun” või „kiire pruun rebane”. 4-grammine oleks „Kiire pruun rebane”. Ja nii edasi.

See on keeruline matemaatiline protsess, kuid põhiliselt arvutab BLEU algoritm skoori, kontrollides n-grammide kattuvuste arvu. Arvutatud skoor jääb vahemikku 0 kuni 1, kusjuures 1 tähistab täiesti identset vastet viite- ja väljundlause vahel. Nüüd võtke näidislause puhul järgmine variatsioon:

kiire pruun rebane hüppas üle laisa koera.

Kõik n-grammid sobivad, välja arvatud need, millel on sõna „kiire”. Teine näide:

kiire pruun rebane hüppas üle koera.

Selles näites puudub sõna „laisk”, nii et see mõjutab ka kattuvust negatiivselt. Mõlemal juhul oleks BLEU-skoor endiselt kõrge, kuid alla 1.

Praktikas ei näita paljud laused seda kõrget korrelatsiooni taset. Sellisena muutuvad BLEU-skoorid statistiliselt oluliseks ainult siis, kui neid võetakse suure tekstivalimi või korpuse kontekstis.

BLEU-skoori arvutamisel on muidugi ka teisi tegureid, näiteks karistused lisasõnade või väga lühikeste lausete eest. Selle puuduste kompenseerimiseks on välja töötatud muid tuletisinstrumentide hindamissüsteeme, kuid BLEU on endiselt kõrgelt hinnatud ja on tänapäeval jätkuvalt kõige laialdasemalt kasutatav MT hindamissüsteem.

Lõppsõnad MT hindamise kohta

Ja see hõlmab masintõlke hindamise põhitõdesid. Nagu oleme näidanud, saab MT-süsteemi hindamist teha inimhindamise või automaatse hindamise kaudu. Mõlemal protsessil on oma eelised ja puudused.

Inimhindamine on kvaliteedi osas kuldstandard, kuid see on kallis ja aeganõudev. Automaatne tõlge pole nii täpne, kuid see on kiire ja skaleeritav. Sellisena on mõlemal tüübil oma spetsiifilised kasutusjuhtumid, kus nad paistavad silma.