10/05/2024

Mašininio vertimo įvertinimas: Galutinis vadovas

Tarkime, kad esate įmonė, nusprendusi investuoti į mašininio vertimo sistemą. Atlikote keletą pagrindinių tyrimų, ir nustatėte , kad turite  tiek daug galimybių pasirinkti. Kiekvienas iš jų teigia surinkęs tam tikrą sumą pagal tam tikrą metriką, tačiau  nežinote, ką skaičiai iš tikrųjų reiškia. Kaip sužinoti, kuris iš jų jums labiausiai tinka?

Turite suprasti, kaip veikia mašininio vertimo įvertinimas.

Šiame straipsnyje bus išsamiai nagrinėjama mašininio vertimo įvertinimo tema. Tai padės jums suprasti, kas tai yra, kodėl jums to reikia, ir skirtingi įvertinimo tipai, kad tai padėtų jums priimti gerai pagrįstą sprendimą renkantis MV sistemą, į kurią investuoti.

Įvadas: Kas yra mašininio vertimo įvertinimas?

Mašininio vertimo įvertinimas reiškia skirtingus mašininio vertimo sistemos našumo matavimo procesus.

Tai būdas įvertinti MV kokybę, kad būtų galima žinoti, kokia yra gera sistema , ir yra tvirtas pagrindas palyginti, kiek veiksmingos yra skirtingos MV sistemos. Siekiant tai padaryti,  mašininio vertimo įvertinimui naudojama kiekybiškai įvertinama metrika.

Kodėl mašininio vertimo įvertinimo metrika yra svarbi?

Yra dvi pagrindinės priežastys, kodėl reikia įvertinti MV sistemos našumą. Pirma reikia  patikrinti, ar ji pakankamai gera ir pritaikyta realiame pasaulyje. Antra,  - tai yra  mokslinių tyrimų ir plėtros vadovas.

Norėdami patikrinti, ar ji pakankamai gera realiam pritaikymui

Pirma, žinoma, yra nustatyti, ar MV sistema veikia tokiu lygiu, kuris yra pakankamai geras praktiniam  naudojimui. Tai yra priežastis, kuri yra ypatingai  svarbi galutiniams vartotojams. Jei mašininio vertimo sistema veikia blogai, vartotojai labiau linkę pasirinkti ką nors kita.

Pramonės sektoriai, kurie naudoja MV, taip pat norėtų konkrečių metrikų, kaip nuspręsti, kokią MV sistemą įsigyti. Galų gale, MV yra investicija, ir įmonėms reikia gauti geriausią vertę už savo pinigus.

Todėl MV kūrėjai turi įvertinti, ar mašininio vertimo sistemos kokybė yra pakankamai gera, kad jie galėtų ją išsiųsti klientams.

Būti mokslinių tyrimų ir plėtros vadovu

Idealiu atveju MV sistemos nėra statinis subjektas. MV technologija laikui bėgant nuolat tobulėja. Tikėtina, kad reikėtų tikėtis, kad MV sistemos taip pat pagerės.

Čia vyksta tyrimai, ir tyrėjai turi turėti tam tikrą vadovą, kur ieškoti. Išmatuojama metrika leidžia tyrėjams palyginti, ar tam tikras požiūris yra geresnis už kitą, padėdamas jiems tiksliai suderinti sistemą.

Tai ypač naudinga norint pamatyti, kaip sistema sprendžia nuoseklias vertimo klaidas. Išmatuojama metrika gali labiau kontroliuojamoje aplinkoje parodyti, ar tam tikras metodas gali išspręsti tokio pobūdžio klaidas, ar ne.

Kaip vertinate mašininio vertimo sėkmę?

Yra du skirtingi būdai nustatyti, kaip gerai veikia MV sistema. Žmogaus įvertinimą atlieka žmonių ekspertai, atliekantys rankinį įvertinimą, o automatiniame įvertinime naudojama AI pagrįsta metrika, specialiai sukurta vertimo kokybei įvertinti be žmogaus įsikišimo. Kiekvienas turi savo privalumų ir trūkumų. Išsamiau aptarsime abiejų rūšių MV įvertinimą vėlesniuose šio straipsnio skyriuose, tačiau pirmiausia pateikiame trumpą dviejų mašininio vertimo įvertinimo tipų apžvalgą, taip pat metodus, susijusius su MV įvertinimu, kurie jais naudojasi.

Žmogaus įvertinimas lyginant  su automatiniu įvertinimui

Žmogiškasis mašininio vertimo įvertinimas reiškia, kad vertimo kokybę įvertina profesionalūs vertėjai. Tai efektyviausias variantas, kai reikia nustatyti mašininių vertimų kokybę  sakinių lygiu. Tačiau žmogaus įvertinimas, kaip ir žmogaus vertimo atveju, iš prigimties yra brangesnis ir reikalauja daug laiko sąnaudų.

Kita vertus, automatinis vertinimas naudoja programas, sukurtas specialiai mašininio vertimo kokybei įvertinti pagal skirtingus metodus. Tai nėra toks patikimas kaip žmogaus įvertinimas sakinio lygmeniu, tačiau yra geras keičiamo dydžio variantas vertinant bendrą vertimo kokybę keliuose dokumentuose.

 MV įvertinimo metodai

Mašininio vertimo įvertinimo metodai grindžiami detalumo samprata. Tai yra skirtingi lygiai, kuriais pateikti balai gali būti laikomi reikšmingais.

Sakiniais pagrįstas požiūris. Pagal šį metodą kiekvienam sakiniui suteikiamas balas, sakantis, ar jo vertimas yra geras (1), ar blogas (0) ir pateikiamas bendrasis  vidurkis. Dažniausiai tai daroma įvertinant žmones.

Dokumentais pagrįstas požiūris. Taip pat žinomas kaip korpusu pagrįstas metodas, sakiniams taip pat suteikiami balai, tačiau reikšmingas balas yra bendras arba vidurkis tarp didesnio dokumentų rinkinio. Tai mažiausias lygis, kuriame automatizuotas MV įvertinimas gali būti laikomas reikšmingu, nes jis labai priklauso nuo plataus duomenų rinkinio statistikos.

Kontekstiniu požiūriu pagrįstas požiūris. Šis požiūris skiriasi nuo ankstesnių, nes atsižvelgiama į tai, kaip bendroji  MV užduotis tinka tikslams, kuriems ji skirta, o ne pagal vidutinius balus, pagrįstus sakiniais. Todėl tai gali būti laikoma holistiniu požiūriu į MV įvertinimą.

Mašininio vertimo įvertinimo iššūkiai

Mašininio vertimo įvertinimas yra sudėtingas procesas. Taip yra todėl, kad pati kalba yra labai sudėtingas dalykas.

Viena vertus, gali būti keli teisingi vertimai. Paimkite, pavyzdžiui, šį sakinį:

Greita ruda lapė peršoko per tingų šunį.

Vietoj to MV sistema gali generuoti šį vertimą:

Greita ruda lapė atsitrenkė ant įnirtingo šuns.

Tai techniškai teisingas vertimas, ir žmogaus įvertinime jis paprastai būtų pažymėtas kaip toks. Tačiau atliekant automatizuotą įvertinimą jis būtų pažymėtas kaip neteisingas.

Mažos detalės taip pat gali visiškai pakeisti sakinio reikšmę.

Greita ruda lapė šoktelėjo ant tingaus šuns.

Čia yra tik vienas žodis, kuris buvo pakeistas. Bet tas vienas žodis visiškai pakeičia sakinio reikšmę. Automatiniai įvertinimai greičiausiai pažymės jį aukščiau nei ankstesniame pavyzdyje. Žmogaus vertėjai greičiausiai suvoks  klaidą, tačiau kai kurie gali manyti, kad tai teisinga.

Taip yra todėl, kad kalba gali būti subjektyvi. Net žmonių vertintojai gali skirtis vertindami, ar vertimas yra geras, ar ne.

Žmogaus įvertinimas: Aukso standartas

Dabar, kai apžvelgėme pagrindus, nuodugniai pažvelkime į du MV vertinimo tipus, pradedant žmogaus įvertinimu.

Labiausiai pagrindiniu lygiu mašininio vertimo tikslas yra išversti tekstą iš šaltinio kalbos į tikslinę kalbą tokiu lygiu, kurį žmonės gali suprasti. Todėl žmonės yra geriausias atskaitos taškas įvertinant mašininio vertimo kokybę.

Žmogaus įvertinimo tipai

Yra keletas skirtingų būdų, kaip atlikti žmogaus įvertinimą, į kuriuos  pažvelgsime dabar:

Tiesioginis įvertinimas

Tai paprasčiausias žmogaus įvertinimo būdas. Mašininio vertimo išvestis įvertinama sakinio lygiu.

Iššūkis, susijęs su tiesioginiu įvertinimu, yra tai, kad skirtingi teisėjai labai skirsis pagal tai, kaip jie skirs balus. Kai kurie gali būti linkę eiti į kraštutinumus, vertindami vertimus kaip labai blogus arba labai gerus. Kiti gal tai atlieka  konservatyviau, tuos pačius sakinius pažymint balais arčiau vidurio.

Kitas iššūkis yra subjektyvumas. Vertindami, ar sakinys yra blogai išverstas , ar ne, vertintojai turi priimti sprendimus dėl dviprasmiškos kalbos. Grįžtant prie pavyzdžio sakinio:

Greita ruda lapė peršoko per tingų šunį.

Čia žodis „canine“ (šuo) nebūtinai yra neteisingas, tačiau jis taip pat nėra pats tinkamiausias. Kai kurie vertintojai gali manyti, kad tai pakankamai gera, o kiti gali tai pažymėti kaip visiškai neteisingą. Pavyzdžiui, jei įvertinimas atliekamas pagal 5 balų skalę, kai kurie vertėjai gali pažymėti jį 4, o kiti gali suteikti tik 2.

Šiuos iššūkius galima kompensuoti įdarbinus didesnį vertintojų skaičių, kuris leis normalizuoti balus statistiniais terminais.

Reitingas

Kitas būdas įvertinti mašininio vertimo sistemas atliekant žmogaus įvertinimą yra reitingavimas.

Šiuo atveju vertintojai neteikia atskirų sakinių balų, o lygina vertimus iš skirtingų MV sistemų. Tada jie nusprendžia, kuris iš jų yra geriausias vertimas, kuris yra antras geriausias ir pan.

Šio metodo pranašumas, palyginti su tiesioginiu vertinimu, yra tas, kad jis iš karto pateikia tiesioginį palyginimą, o ne lyginant balus, kurie buvo gauti atliekant skirtingus bandymus ir galbūt skirtingų vertintojų.

Tačiau ji vis dar kenčia nuo subjektyvumo iššūkio. Tikėtina, kad skirtingos MV sistemos turės skirtingų klaidų. Pavyzdžiui:

Greita žalia lapė peršoko per tingų šunį.

Greita ruda lapė peršoko tingų šunį.

Greita ruda lapė peršoka per tingų šunį.

Kiekvienas sakinys turi paprastą klaidą. Pirmasis klaidingai išverstas. Antrajame trūksta artikelių. Trečiajame nesuderinti  veiksmažodžių laikai.

Vertintojai dabar turi nuspręsti, kuri klaida yra svarbesnė už kitą, ir vėlgi, vertintojai gali turėti skirtingas nuomones šiuo klausimu.

Pastangos po redagavimo

Jei MV sistemos vartotojo tikslas yra paruošti dokumentus po redagavimo, taip pat yra būdų, kaip tai įvertinti pagal pastangų kiekį, kurio reikia norint redaguoti po redagavimo.

Pagrindinis poredagavimo tikslas yra leisti vertėjui dirbti greičiau nei tuo atveju, jei jis verstų tekstą nuo pradžių. Taigi paprasčiausias būdas įvertinti MV sistemą po redagavimo yra išmatuoti laiką, per kurį vertėjas ištaiso mašininiu būdu išverstą tekstą.

Kitas būdas išmatuoti pastangas po redagavimo yra lentelėje pateikiant klaviatūros smūgių skaičių, kurio prireiktų norint pakeisti mašininiu būdu išverstą tekstą žmogaus etaloniniu  vertimu. Tai nepriklauso nuo laiko apribojimų, tačiau taip pat neatsižvelgiama į galimybę atlikti kelis teisingus vertimus.

Užduotimis pagrįstas įvertinimas

Tada yra užduotimis pagrįstas įvertinimas, kuris, kaip rodo pavadinimas, įvertina MV sistemą pagal tai, kaip gerai ji tinka nagrinėjamai užduočiai. Pavyzdžiui, jei jis naudojamas daugiakalbėje internetinio seminaro aplinkoje, dalyvių gali būti paprašyta įvertinti savo patirtį naudojant mašininiu būdu išverstą stenogramą. Tai reiškia, kad jie vertina visos MV sistemos sėkmę.

Problema su šiuo požiūriu yra ta, kad jis labai atviras kitų nekontroliuojamų elementų, kurie gali turėti įtakos  vertintojų suteiktus reitingus . Taigi užduotimis pagrįsto įvertinimo naudojimas yra labai situacinis.

Bendrieji iššūkiai įvertinant vertėjus

Kaip galite pamatyti, skirtingi žmonių MV įvertinimo tipai pasižymi  savo iššūkiais. Taip pat yra keletas iššūkių, kuriuos jie dalijasi plačiai, ir jie susiję su nuoseklumu ar susitarimu.

Interanotatorių susitarimas

Tai reiškia balų nuoseklumą tarp skirtingų vertintojų. Kaip jau minėjome anksčiau, skirtingi vertintojai turės skirtingą tendenciją vertinti tuos pačius teksto segmentus. Kai kurie gali juos įvertinti ekstremaliai ar  vidutiniškai. Reitinguojant skirtingas MV platformas, jų nuomonės taip pat gali skirtis. Štai kodėl svarbu turėti kelis vertintojus, kad balų pasiskirstymas būtų normalizuotas.

Intraanotatoriaus  susitarimas

Tai, kaip vienas vertintojas vertina tekstą, taip pat yra pagrįstumo matas. Vertintojas pirmą kartą gali įvertinti sakinį kaip gerą ar blogą, tačiau pakartodamas tą patį testą jis gali persigalvoti. Atsižvelgiant  į aukštą  intraanotator susitarimą matą, užtikrinama, kad pasirinktas vertintojas gali būti laikomas nuosekliu ir patikimu.

Automatinis įvertinimas: Išmatuojama  parinktis

Žmogaus įvertinimas laikomas auksiniu standartu įvertinant mašininio vertimo kokybę. Tačiau tai brangus darbas pastangų ir laiko atžvilgiu. Štai kodėl šios srities tyrėjai automatizuotais procesais sukūrė skirtingas priemones MV kokybei įvertinti .

Šie procesai skirti apytiksliai apibrėžti, kaip žmonės įvertins MV sistemą. Žinoma, jie toli gražu nėra tobuli, tačiau automatinis įvertinimas vis dar turi labai svarbių naudojimo atvejų.

Pagrindinis automatinio įvertinimo pranašumas, lygiant  su žmogaus įvertinimu, yra jo išmatuojamas rodiklis. Žymiai greičiau galima atlikti  šimtus  automatinių įvertinimų nei  vieną  žmogaus įvertinimą. Tai  idealus sprendimas atliekant patobulinimus arba optimizuojant MV sistemą, kai  reikia pateikti greitus rezultatus.

Automatinio įvertinimo iššūkiai

Skirtingai nuo žmonių, mašinos negali  susidoroti su skirtingais kalbos vartojimo niuansais. Automatinės įvertinimo sistemos grindžiamos tuo, kad MV tiksliai atitinka pamatinį tekstą, o nedideli skirtumai gali turėti įtakos galutiniam balui. Šie skirtumai gali apimti morfologijos nukrypimus, sinonimų vartojimą ir gramatinę tvarką.

Atliekant automatinį įvertinimą, viskas, ką žmogaus vertintojas gali laikyti techniškai  daugiau ar mažiau teisingu, gali būti įvertinta su nuobaudomis . Nepaisant to, tikslių atitikmenų skaičius, ypač svarstant didelį teksto pavyzdį, dažnai pakankankamas, kad būtų galima naudoti automatinį įvertinimą.

Automatinė įvertinimo metrika

Šiandien yra keletas skirtingų automatinio vertinimo metrikų. Štai keletas naudojamų pavyzdžių:

      BLEU (dvikalbis įvertinimo tyrimas)

      NIST (iš Nacionalinio standartų ir technologijų instituto)

      METEOR (vertimo įvertinimo metrika su aiškia tvarka)

      LEPOR (nuobaudos dydis, tikslumas, n-gram pozicijų skirtumo nuobauda ir atšaukimas)

      COMET 

      PRIS

      TER (vertimo klaidų rodiklis)

Kiekviena metrika veikia skirtingais algoritmais ir kaip tokia skirtingai tvarko automatinio įvertinimo procesą. Tai reiškia, kad jos pasižymi  skirtingomis  stipriosiomis  ir silpnosiomis  savybėmis ir skiriasi klaidoms, už kurias skriamos  didesnes ar mažesnes nuobaudas.

BLEU, populiariausia metrika

Iš visų pirmiau išvardytų metrikų BLEU yra  dažniausiai naudojama. Tai buvo viena iš pirmųjų metrikų, pasiekusių aukštą koreliacijos lygį su žmonių įvertinimu, ir sukėlė daug skirtingų variantų.

Ji  veikia,  kai atskiri sakiniai yra įvertinami pagal aukštos kokybės pamatinių vertimų rinkinį. Tada pateikiamas šių balų  vidurkis, o gautas skaičius yra tai MV sistemai skiriamas galutinis BLEU balas . Šis balas parodo, kaip stipriai MV sistemos išvestis atitinka žmogaus etaloninį vertimą, kuris yra kokybės žymuo.

Balai apskaičiuojami naudojant vienetus, vadinamus n-gramais, kurie nurodo iš eilės einančio teksto segmentus. Grįžtant prie ankstesnio pavyzdžio sakinio, pavyzdžiui:

Greita ruda lapė peršoko per tingų šunį.

Tai galima suskirstyti į skirtingo ilgio n-gramus. Pavyzdžiui, 2 gramai būtų „Greita“, „greita ruda” arba „ruda lapė”. 3 gramai būtų „Greita ruda” arba „greita ruda lapė”. 4 gramai būtų „Greita ruda lapė”. Ir taip toliau.

Tai sudėtingas matematinis procesas, tačiau iš esmės BLEU algoritmas apskaičiuoja balą patikrindamas, ar nėra n-gramų sutapimų skaičių. Apskaičiuotas balas bus nuo 0 iki 1, o 1 reiškia visiškai identišką atitikimą tarp pamatinio ir išvesties sakinio. Dabar paimkite šį pavyzdinio sakinio variantą:

Greita ruda lapė peršoko per tingų šunį.

Visi n-gramai sutaps, išskyrus tuos, kuriuose yra žodis „greitas“. Kitas pavyzdys:

Greita ruda lapė šoktelėjo per šunį.

Šiame pavyzdyje trūksta žodžio „tingus”, todėl tai taip pat neigiamai veikia sutapimą.Abiem atvejais BLEU balas vis tiek būtų aukštas, tačiau mažesnis nei 1.

Praktiškai ne daug sakinių parodys šį aukštą koreliacijos lygį. Taigi, BLEU balai tampa statistiškai reikšmingi tik tada, kai jie imami atsižvelgiant į didelę teksto ar korpusų imtį.

Be abejo, yra ir kitų veiksnių, leidžiančių apskaičiuoti BLEU balą, pvz., nuobaudos už papildomus žodžius ar labai trumpus sakinius. Kitos išvestinės įvertinimo sistemos buvo sukurtos siekiant kompensuoti jos trūkumus, tačiau BLEU išlieka aukštai įvertinta ir šiandien tebėra plačiausiai naudojama MV vertinimo sistema.

Baigiamieji žodžiai apie MV įvertinimą

Tai apima mašininio vertimo įvertinimo pagrindus. Kaip parodėme, MV sistemos įvertinimas gali būti atliekamas atliekant žmogaus įvertinimą arba automatinį įvertinimą. Abu procesai turi savo privalumų ir trūkumų.

Žmogaus vertinimas yra auksinis standartas kokybės atžvilgiu, tačiau yra brangus ir reikalauja daug laiko sąnaudų. Automatinis vertimas nėra toks tikslus, tačiau yra greitas ir išmatuojamas. Taigi, abu tipai turi specifinius naudojimo atvejus, kai jie tinka.