10/05/2024

Mašīntulkošanas novērtējums: Galīgais ceļvedis

Pieņemsim, ka esat uzņēmums, kas ir nolēmis ieguldīt mašīntulkošanas sistēmā. Jūs par to esat veicis pamata izpēti un esat atklājis, ka ir tik daudz iespēju, no kurām izvēlēties. Katrā no tām apgalvo, ka pamatojoties uz noteiktiem rādītājiem, var iegūt noteiktu summu, taču jūs nezināt, ko šie skaitļi īsti nozīmē.Kā zināt, kura no iespējām jums ir vispiemērotākā?

Jums jāsaprot, kā darbojas mašīntulkošanas novērtēšana.

Šajā rakstā tiks padziļināti aplūkota mašīntulkošanas novērtēšanas tēma. Tas palīdzēs jums saprast, kas tas ir, kāpēc jums tas ir nepieciešams, kā arī tiks izskaidroti dažādi novērtēšanas veidi, lai palīdzētu jums pieņemt informētu lēmumu, izvēloties MT sistēmu, kurā ieguldīt.

Ievads: Kas ir mašīntulkošanas novērtēšana?

Mašīntulkošanas novērtēšana attiecas uz dažādiem mašīntulkošanas sistēmas veiktspējas mērīšanas procesiem.

Tas ir veids, kā novērtēt MT kvalitāti, lai būtu iespējams uzzināt, cik laba ir sistēma, kā arī tas kalpo kā stabils pamats, lai salīdzinātu, cik efektīvas ir dažādas MT sistēmas. Lai to izdarītu, mašīntulkošanas novērtēšanā tiek izmantoti kvantitatīvi izmērāmi rādītāji.

Kāpēc mašīntulkošanas novērtēšanas metrika ir svarīga?

Ir divi galvenie iemesli, kāpēc jānovērtē MT sistēmas veiktspēja. Vispirms jāpārbauda, vai tā ir pietiekami laba lietošanai reālajā pasaulē. Otrkārt, vai to var izmantot kā ceļvedi pētniecībā un attīstībā.

Lai pārbaudītu, vai tā ir pietiekami laba lietošanai reālajā pasaulē

Pirmkārt, protams, ir jānosaka, vai MT sistēma darbojas tādā līmenī, kas ir pietiekami labs faktiskai lietošanai. Tas ir aspekts, kas vistiešāk attiecas uz galalietotājiem. Ja mašīntulkošanas sistēma darbojas slikti, lietotāji, visticamāk, izvēlēsies kaut ko citu.

Rūpniecības nozares, kas izmanto MT, arī vēlētos konkrētus rādītājus, lai izlemtu, kādu MT sistēmu iegūt. Galu galā MT ir ieguldījums, un uzņēmumiem ir jāiegūst vislabākā cenas un kvalitātes attiecība.

Tādējādi MT izstrādātājiem ir jānovērtē, vai mašīntulkošanas sistēmas kvalitāte ir pietiekami laba, lai viņi to varētu nosūtīt klientiem.

Lai kalpotu kā ceļvedis pētniecībā un attīstībā

MT sistēmas ideālā gadījumā nav statiska vienība. MT tehnoloģija laika gaitā nepārtraukti uzlabojas. Protams, ka MT sistēmas laika gaitā arī uzlabosies.

Šeit ir jāveic izpēte un par to ir jābūt pieejamiem ceļvežiem, kur meklēt informāciju. Izmērāmi rādītāji ļauj pētniekiem salīdzināt, vai konkrēta pieeja ir labāka par citu, palīdzot precīzi noregulēt sistēmu.

Tas ir īpaši labi, lai redzētu, kā sistēma tiek galā ar konsekventām tulkošanas kļūdām. Izmērāmu metriku kontrolētākā vidē var parādīt, vai konkrēta pieeja spēj tikt galā ar šāda veida kļūdām.

Kā jūs novērtējat mašīntulkošanas rezultātus?

Ir divi dažādi veidi, kā noteikt, cik labi darbojas MT sistēma. Cilvēka novērtēšanu veic cilvēku eksperti, kas veic manuālu novērtēšanu, savukārt automātiskajā novērtēšanā tiek izmantota uz mākslīgo intelektu balstīta metrika, kas īpaši izstrādāta tulkošanas kvalitātes novērtēšanai bez cilvēka iejaukšanās. Katram ir savas priekšrocības un trūkumi. Mēs sīkāk iepazīsimies ar abiem MT novērtēšanas veidiem šī raksta vēlākajās sadaļās, taču vispirms šeit sniegsim īsu pārskatu par diviem mašīntulkošanas novērtēšanas veidiem, kā arī pieejamajām metodēm MT novērtēšanai.

Cilvēka veikta novērtēšana pret automātisko novērtēšanu

Cilvēka veikta mašīntulkošanas novērtēšana nozīmē, ka tulkošanas kvalitātes novērtēšanu veic profesionāli tulkotāji. Šī ir visefektīvākā iespēja, ja runa ir par mašīntulkojumu kvalitātes noteikšanu līdz teikumu līmenim. Bet cilvēka veikta novērtēšana, tāpat kā cilvēka veikta tulkošana, pēc būtības ir dārgāka un laikietilpīgāka.

Savukārt automātiskā novērtēšana izmanto programmas, kas ir īpaši izveidotas, lai novērtētu mašīntulkošanas kvalitāti ar dažādām metodēm. Tā nav tik uzticama kā cilvēka veikta novērtēšana teikuma līmenī, bet tā ir laba mērogojama iespēja, novērtējot kopējo tulkošanas kvalitāti vairākos dokumentos.

Pieejas MT novērtēšanai

Mašīntulkošanas novērtēšanas pieejas balstās uz detalizācijas jēdzienu. Tas ir, dažādiem līmeņiem, kuros punktu skaitu var uzskatīt par nozīmīgu.

Uz teikumiem balstīta pieeja. Saskaņā ar šo pieeju katram teikumam tiek piešķirts vērtējums, norādot, vai tā tulkojums ir labs (1) vai nav labs (0), un kopējam skaitam tiek piešķirts vidējais rādītājs. Visbiežāk tas tiek darīts cilvēka veiktā novērtēšanā.

Uz dokumentiem balstīta pieeja. Zināma arī kā uz korpusu balstīta pieeja, tajā teikumiem tiek piešķirti arī rādītāji, bet nozīmīgais rādītājs ir kopējais vai vidējais rādītājs starp lielāku dokumentu kopumu. Šis ir mazākais līmenis, kurā automatizēto MT novērtējumu var uzskatīt par nozīmīgu, jo tas lielā mērā ir atkarīgs no plašas datu kopas statistikas.

Uz kontekstu balstīta pieeja. Šī pieeja atšķiras no iepriekšējām, jo tajā tiek ņemts vērā, cik labi kopējais MT uzdevums atbilst mērķiem, kuriem tas ir izvirzīts, nevis ar vidējiem rādītājiem, kuru pamatā ir teikumi. Tādējādi to varētu uzskatīt par visaptverošu pieeju MT novērtēšanai.

Mašīntulkošanas novērtēšanas izaicinājumi

Mašīntulkošanas novērtēšana ir grūts process. Tas ir tāpēc, ka pati valoda ir ļoti sarežģīta lieta.

Pirmkārt, var būt vairāki pareizi tulkojumi. Aplūkosim, piemēram, šādu teikumu:

Ātrā brūnā lapsa pārlēca pāri slinkajam sunim.

Tā vietā MT sistēma var ģenerēt šādu tulkojumu:

Ātrā brūnā lapsa metās pāri laiskam sunim.

Tas ir tehniski pareizs tulkojums, un cilvēka veiktā novērtējumā tas parasti tiktu atzīmēts kā pareizs.Bet automatizētā novērtēšanā tas tiktu atzīmēts kā nepareizs.

Mazas detaļas var arī pilnībā mainīt teikuma nozīmi.

Ātrā brūnā lapsa uzlēca uz slinka suņa.

Šeit ir tikai viens vārds, kas ir mainīts. Bet šis viens vārds pilnībā maina teikuma nozīmi. Automātiskie novērtējumi, visticamāk, atzīmēs to kā labāku tulkojumu nekā iepriekšējā piemērā. Cilvēki tulkotāji, visticamāk, pamanīs šo kļūdu, taču daži to varētu uzskatīt arī par pareizu.

Un tas ir tāpēc, ka valoda var būt subjektīva. Pat cilvēku vērtētāji var atšķirties savos spriedumos par to, vai tulkojums ir labs vai nē.

Cilvēka veikts novērtējums: Zelta standarts

Tagad, kad esam aplūkojuši pamatus, padziļināti apskatīsim divus MT novērtēšanas veidus, sākot ar cilvēka veiktu novērtēšanu.

Visvienkāršākajā līmenī mašīntulkošanas mērķis ir tulkot tekstu no avota valodas mērķa valodā tādā līmenī, kuru cilvēki var saprast. Tādējādi cilvēka veikts novērtējums ir labākais atskaites punkts mašīntulkošanas kvalitātes novērtēšanai.

Cilvēka veiktas novērtēšanas veidi

Cilvēka veiktai novērtēšanai ir vairāki dažādi veidi, kurus mēs tūlīt aplūkosim:

Tiešais novērtējums

Šis ir visvienkāršākais cilvēka veikta novērtējuma veids. Mašīntulkošanas rezultāts tiek vērtēts teikuma līmenī.

Tiešā novērtējuma izaicinājums ir tāds, ka dažādi vērtētāji ievērojami atšķirsies pēc vērtēšanas veida. Dažiem var būt tendence vērtēšanas ziņā iet galējībās, atzīmējot tulkojumus kā ļoti sliktus vai ļoti labus. Citi to var izvērtēt konservatīvāk, atzīmējot tos pašus teikumus ar viduvējiem rādītājiem.

Vēl viens izaicinājums atkal ir subjektivitāte. Spriežot to, vai teikums ir slikts vai labs tulkojums, vērtētājiem ir jāpieņem lēmumi par daudznozīmīgu valodu. Atgriežoties pie teikuma piemēra:

Ātrā brūnā lapsa pārlēca pāri slinkajam sunim.

Šajā gadījumā suns nav nepareizs tulkojums, taču tas arī nav pareizākais. Daži vērtētāji to var uzskatīt par pietiekami labu, bet citi to var atzīmēt kā pilnīgi nepareizu. Piemēram, ja vērtēšana tiek veikta 5 ballu skalā, daži tulkotāji to var atzīmēt ar 4, bet citi var piešķirt tikai ar 2.

Šīs problēmas var kompensēt, iesaistot lielāku vērtētāju grupu, kas ļaus normalizēt rādītājus statistiskā ziņā.

Reitings

Vēl viens veids, kā novērtēt mašīntulkošanas sistēmas, izmantojot cilvēku novērtēšanu, ir reitingu sniegšana.

Šajā gadījumā vērtētāji nesniedz individuālus teikumu vērtējumus, bet salīdzina tulkojumus no dažādām MT sistēmām. Pēc tam viņi izlemj, kurš no tiem ir labākais tulkojums, kurš ir otrs labākais utt.

Šīs metodes priekšrocība salīdzinājumā ar tiešo novērtējumu ir tā, ka tā nekavējoties nodrošina tiešu salīdzinājumu, nevis rezultātu salīdzināšanu, kas iegūti dažādos izmēģinājumos un, iespējams, ar dažādiem vērtētājiem.

Tomēr arī šajā vērtēšanas metodē trūkst subjektivitātes. Dažādās MT sistēmās, visticamāk, būs dažādas kļūdas. Piemēram:

Ātrā zaļā lapsa pārlēca pāri slinkajam sunim.

Ātra brūna lapsa pārlēca pāri slinkam sunim.

Ātrā brūnā lapsa lec pāri slinkajam sunim.

Katrā teikumā ir vienkārša kļūda. Pirmais ir nepareizs tulkojums. Otrajā ir izlaisti artikuli. Trešajā trūkst darbības vārdu laiki.

Tagad vērtētājiem jāizlemj, kura kļūda ir nozīmīgāka par otru, un atkal vērtētājiem šajā jautājumā var būt atšķirīgs viedoklis.

Pēcrediģēšanas pūles

Ja MT sistēmas lietotāja mērķis ir sagatavot dokumentus pēcrediģēšanai, ir pieejami arī veidi, kā to novērtēt atbilstoši pūļu apjomam, kas nepieciešams pēcrediģēšanai.

Pēcrediģēšanas pamatmērķis ir ļaut tulkotājam strādāt ātrāk nekā tad, ja viņš tulkotu tekstu no nulles. Tādējādi vienkāršākais veids, kā novērtēt MT sistēmu pēcrediģēšanai, ir izmērīt laiku, kas nepieciešams tulkotājam, lai labotu mašīntulkoto izvadi.

Vēl viens veids, kā izmērīt pēcrediģēšanas pūles, ir tabulēt tastatūras sitienu skaitu, kas būtu nepieciešams, lai aizstātu mašīntulkoto tekstu ar cilvēka atsauces tulkojumu. Tas nav atkarīgs no laika ierobežojumiem, bet neņem vērā arī iespēju veikt vairākus pareizus tulkojumus.

Uz uzdevumiem balstīts novērtējums

Ir pieejams arī uz uzdevumiem balstīts novērtējums, kas, kā norāda nosaukums, novērtē MT sistēmu, pamatojoties uz to, cik labi tā ir piemērota attiecīgajam uzdevumam. Piemēram, ja tas tiek izmantots daudzvalodu tīmekļa seminārā, dalībniekiem var lūgt novērtēt savu pieredzi ar mašīntulkotu stenogrammu. Tas nozīmē, ka viņi novērtē MT sistēmas rezultātus kopumā.

Šīs pieejas problēma ir tā, ka tā ir ļoti atvērta citu nekontrolētu elementu ieviešanai, kas var ietekmēt vērtētāju sniegto vērtējumu. Tādējādi uz uzdevumiem balstīta novērtējuma izmantošana ir ļoti atkarīga no konkrētās situācijas.

Vispārīgas problēmas cilvēku novērtēšanā

Kā redzat, dažādiem MT novērtēšanas veidiem cilvēkiem ir savi izaicinājumi. Ir arī daži izaicinājumi, kas viņiem ir kopīgi, un tie ir saistīti ar konsekvenci vai vienprātību.

Vienprātība starp vērtētājiem

Tas attiecas uz punktu konsekvenci starp dažādiem vērtētājiem. Kā jau minējām iepriekš, dažādiem vērtētājiem būs atšķirīgas tendences attiecībā uz to, kā viņi vērtē vienus un tos pašus teksta segmentus. Daži var iet galējībās vai izvēlēties mērenāku novērtējumu. Sarindojot dažādus MT rīkus, viņu viedokļi var atšķirties. Tāpēc ir svarīgi, lai būtu vairāki vērtētāji, lai rādītāju sadalījums tiktu normalizēts.

Viena vērtētāja vērtēšana

Veids, kā viens vērtētājs vērtē tekstu, arī var būt izvērtēšanas kritērijs. Vērtētājs pirmo reizi var novērtēt teikumu kā labu vai sliktu, taču, atkārtojot to pašu testu, tas savas domas var mainīt. Viena vērtētāja konsekventas novērtēšanas sniegšana izvēlēto vērtētāju raksturo ko konsekventu un uzticamu.

Automātiska novērtēšana: Mērogojama opcija

Cilvēka veikta novērtēšana tiek uzskatīta par zelta standartu attiecībā uz mašīntulkošanas kvalitātes novērtēšanu. Tomēr tas ir dārgi darba pūļu un laika ziņā. Tāpēc šīs jomas pētnieki ir izstrādājuši dažādus līdzekļus MT kvalitātes novērtēšanai, izmantojot automatizētus procesus.

Šie procesi ir izstrādāti, lai tuvinātu to, kā cilvēki novērtētu MT sistēmu. Protams, tie šajā ziņā nebūt nav perfekti, taču automātiskai novērtēšanai joprojām ir ļoti nozīmīgi lietošanas gadījumi.

Automātiskās novērtēšanas galvenā priekšrocība salīdzinājumā ar cilvēka veiktu novērtēšanu ir tās mērogojamība. Ir daudz ātrāk izvērtēt simtiem automātiskās novērtēšanas gadījumu nekā vienu cilvēka veiktas novērtēšanas gadījumu. Tas padara to par ideālu risinājumu, veicot pielāgojumus vai optimizējot MT sistēmu, kurai nepieciešami ātri rezultāti.

Izaicinājumi automātiskajā novērtēšanā

Atšķirībā no cilvēkiem, mašīnas nav tā aprīkotas, lai tiktu galā ar dažādām valodas lietošanas niansēm. Automātiskās novērtēšanas sistēmas balstās uz MT precīzu atbilstību atsauces tekstam, un nelielas atšķirības var ietekmēt gala rezultātu. Šīs atšķirības var ietvert novirzes morfoloģijā, sinonīmu lietošanu un gramatisko secību.

Visu, ko cilvēks vērtētājs var uzskatīt par tehniski vai vairāk vai mazāk pareizu, iespējams, var tikt atzīmēts kā kļūdains automātiskajā novērtēšanā. Neskatoties uz to, precīzu atbilstību skaits, it īpaši, ja ņem vērā lielu teksta paraugu, bieži vien ir pietiekams, lai automātisko novērtēšanu būtu iespējams izmantot.

Automātiska novērtēšanas metrika

Mūsdienās ir pieejami vairāki dažādi automātiskās novērtēšanas rādītāji. Šeit ir daži izmantotie piemēri:

      BLEU (divvalodu novērtēšanas apakšpētījums)

      NIST (no Nacionālā standartu un tehnoloģiju institūta)

      METEOR (metrika tulkošanas novērtēšanai ar skaidru pasūtījumu)

      LEPOR (sods par garumu, precizitāte, n gramu pozīcijas starpības sods un atsaukšana)

      COMET 

      PRIS

      TER (tulkošanas kļūdu līmenis)

Katra metrika darbojas ar dažādiem algoritmiem un kā tāda atšķirīgi apstrādā automātiskās novērtēšanas procesu. Tas nozīmē, ka tām ir dažādas stiprās un vājās puses, un tās atšķiras atkarībā no tā, kāda veida kļūdām tās piešķir augstākus vai zemākus sodus.

BLEU, populārākā metrika

No visām iepriekš uzskaitītajām metrikām BLEU ir tā, kas tiek izmantota visbiežāk. Tā bija viena no pirmajām metrikām, kas sasniedza augstu korelācijas līmeni ar cilvēka novērtējumu, un tas ir radījis daudz dažādu variāciju.

Tajā atsevišķi teikumi tiek izvērtēti pret augstas kvalitātes atsauces tulkojumu kopumu. Pēc tam šiem rezultātiem tiek noteikti vidējie rādītāji, un iegūtais skaitlis ir šīs MT sistēmas galīgais BLEU rezultāts. Šis rādītājs atspoguļo, cik cieši MT sistēmas izlaide atbilst cilvēka atsauces tulkojumam, kas ir kvalitātes marķieris.

Rezultāti tiek aprēķināti, izmantojot vienības, ko sauc par n-gramiem, kas attiecas uz secīga teksta segmentiem. Atgriežoties pie iepriekšējā parauga teikuma, piemēram:

Ātrā brūnā lapsa pārlēca pāri slinkajam sunim.

To var iedalīt dažāda garuma n-gramos. Piemēram, 2 grami būtu “Ātrā”, “ātri brūnā” vai “brūnā lapsa”. 3 grami būtu “Ātrā brūna” vai “ātra brūna lapsa”. 4 grami būtu “Ātrā brūnā lapsa”. Un tā tālāk.

Tas ir sarežģīts matemātisks process, taču pamatā BLEU algoritms aprēķina rezultātu, pārbaudot n-gramu pārklāšanās skaitu. Aprēķinātais rezultāts būs no 0 līdz 1, un 1 apzīmē pilnīgi identisku atbilstību starp atsauces un izvades teikumu. Tagad parauga teikumā aplūkosim šādas variācijas:

Ātrā brūnā lapsa pārlēca pāri slinkajam sunim.

Visi n-grami sakrīt, izņemot tos, kuros ir vārds “ātri”. Vēl viens piemērs:

Ātrā brūnā lapsa pārlēca pāri sunim.

Šajā piemērā trūkst vārda “slinks”, tāpēc tas negatīvi ietekmē arī pārklāšanos. Abos gadījumos BLEU rādītājs joprojām būtu augsts, bet mazāks par 1.

Praksē ne daudzi teikumi uzrādīs šo augsto korelācijas līmeni. Tādējādi BLEU rādītāji kļūst statistiski nozīmīgi tikai tad, ja tos ņem vērā liela teksta vai korpusu parauga kontekstā.

Protams, ir arī citi faktori, kas attiecas uz BLEU punktu skaitu, piemēram, sodi par papildu vārdiem vai ļoti īsiem teikumiem. Lai kompensētu tās trūkumus, ir izstrādātas citas atvasināto vērtēšanas sistēmas, taču BLEU joprojām ir augsti novērtēta un joprojām mūsdienās ir visplašāk izmantotā MT novērtēšanas sistēma.

Noslēguma vārdi par MT novērtējumu

Un tas aptver mašīntulkošanas novērtēšanas pamatus. Kā mēs parādījām, MT sistēmas novērtēšanu var veikt, iesaistot cilvēkus vai veicot automātisko izvērtēšanu. Abiem procesiem ir savas priekšrocības un trūkumi.

Cilvēka veikta novērtēšana ir zelta standarts kvalitātes ziņā, taču tā ir dārga un laikietilpīga. Automātiskā tulkošana nav tik precīza, taču tā ir ātra un mērogojama. Tādējādi abiem veidiem ir konkrēti gadījumi, kad to izmantošana ir visnoderīgākā.