10/05/2024

Evalwazzjoni tat-Traduzzjoni Awtomatika: Il-Gwida Aħħarija

Ejja ngħidu li int negozju li ddeċidejt li tinvestu f'sistema ta' traduzzjoni awtomatika. Int għamilt xi riċerka bażika, u sibt li hemm ħafna għażliet minn fejn tagħżel. Kull waħda tiddikjara li għandha ċertu punteġġ skont ċerti metriċi, imma ma tafx x'verament ifissru ċ-ċifri. Kif tkun taf liema waħda hija l-aħjar għalik?

Għandek bżonn tifhem kif taħdem l-evalwazzjoni tat-traduzzjoni awtomatika.

Dan l-artikolu se jidħol fil-fond dwar is-suġġett tal-evalwazzjoni tat-traduzzjoniawtomatika. Se tgħinek tifhem x'inhi, għaliex għandek bżonnha, u t-tipi differenti ta' evalwazzjoni, biex tgħinek tieħu deċiżjoni infurmata sew meta tagħżel sistema tal-MT biex tinvesti fiha.

Introduzzjoni X'inhi l-evalwazzjoni tat-traduzzjoni awtomatika?

L-evalwazzjoni tat-traduzzjoni awtomatika tirreferi għall-proċessi differenti tal-kejl tal-prestazzjoni ta' sistema ta' traduzzjoni awtomatika.

Huwa mod ta' punteġġ tal-kwalità tal-MT sabiex ikun possibbli li tkun taf kemm hija tajba s-sistema, u hemm bażi soda biex tqabbel kemm huma effettivi sistemi tal-MT differenti. Biex tagħmel dan, l-evalwazzjoni tat-traduzzjoni awtomatika tagħmel użu minn metriċi kwantifikabbli.

Għaliex huma importanti l-metriċi tal-evalwazzjoni tat-traduzzjoni awtomatika?

Hemm żewġ raġunijiet ewlenin għaliex teħtieġ li ssir evalwazzjoni tal-prestazzjoni ta' sistema tal-MT. L-ewwel wieħed huwa li tivverifika jekk huwiex tajjeb biżżejjed għall-applikazzjoni tad-dinja reali. It-tieni huwa li sservi bħala gwida fir-riċerka u l-iżvilupp.

Biex tiċċekkja jekk huwiex tajjeb biżżejjed għall-applikazzjoni tad-dinja reali

L-ewwel, ovvjament, huwa li tiddetermina jekk is-sistema tal-MT taħdimx f'livell li huwa tajjeb biżżejjed għall-użu attwali. Din hija r-raġuni li hija ta' rilevanza l-aktar diretta għall-utenti finali. Jekk is-sistema tat-traduzzjoni awtomatika ma taħdimx tajjeb, l-utenti huma aktar probabbli li jagħżlu xi ħaġa oħra.

Setturi industrijali li jużaw l-MT irid ukoll metriċi konkreti biex jiddeċiedu liema sistema tal-MT tikseb. Wara kollox, l-MT huwa investiment, u n-negozji jeħtieġ li jiksbu l-aħjar valur għall-flushom.

Bħala tali, l-iżviluppaturi tal-MT jeħtieġ jevalwaw jekk il-kwalità tas-sistema tat-traduzzjoni awtomatika hijiex tajba biżżejjed biex jibagħtuhom lill-klijenti.

Biex iservu bħala gwida fir-riċerka u l-iżvilupp

is-sistemi tal-MT mhumiex, idealment, entità statika. It-teknoloġija għall-MT qed titjieb kontinwament maż-żmien. Jagħmel sens li s-sistemi tal-MT huma mistennija li jitjiebu wkoll.

Hawnhekk tidħol ir-riċerka, u r-riċerkaturi jeħtieġ li jkollhom xi gwida dwar fejn tfittex. Il-metriċi li jistgħu jitkejlu jippermettu lir-riċerkaturi jqabblu jekk approċċ partikolari huwiex aħjar minn ieħor, u jgħinhom jirfinaw is-sistema.

Dan huwa speċjalment tajjeb biex tara kif is-sistema tindirizza żbalji konsistenti fit-traduzzjoni. Li jkollok metriċi li jistgħu jitkejlu jistgħu juru, f'ambjent aktar ikkontrollat, jekk approċċ partikolari huwiex kapaċi jindirizza dawn it-tip ta' żbalji jew le.

Kif tevalwa s-suċċess tat-traduzzjoni awtomatika?

Hemm żewġ modi differenti biex tiddetermina kemm hi tajba sistema tal-MT. L-evalwazzjoni umana ssir minn esperti umani li jagħmlu valutazzjoni manwali, filwaqt li l-evalwazzjoni awtomatika tuża metriċi bbażati fuq l-AI żviluppati apposta għall-valutazzjoni tal-kwalità tat-traduzzjoni mingħajr intervent uman. Kull wieħed għandu l-vantaġġi u l-iżvantaġġi tiegħu. Aħna ser nidħlu f'aktar dettall dwar iż-żewġ tipi ta' evalwazzjoni tal-MT fit-taqsimiet ta' dan l-artikolu aktar tard, iżda l-ewwel, din hija ħarsa ġenerali malajr taż-żewġ tipi ta' evalwazzjoni tat-traduzzjoni awtomatika, kif ukoll l-approċċi lejn evalwazzjoni tal-MT li jagħmlu użu minnhom.

Evalwazzjoni Umana vs Evalwazzjoni Awtomatika

L-evalwazzjoni umana tat-traduzzjoni awtpmatika tfisser li l-valutazzjoni tal-kwalità tat-traduzzjoni ssir minn tradutturi professjonali umani. Din hija l-għażla l-aktar effettiva meta niġu biex tiddeterminaw il-kwalità tat-traduzzjonijiet awtomatika sal-livell ta' sentenzi. Iżda l-evalwazzjoni umana, bħal fil-każ tat-traduzzjoni tal-bniedem, min-natura tiswa aktar u tieħu ħafna ħin.

L-evalwazzjoni awtomatika, min-naħa l-oħra, tuża programmi mibnija speċifikament biex jivvalutaw il-kwalità tat-traduzzjoni awtomatika skont metodi differenti. Mhijiex affidabbli daqs l-evalwazzjoni umana fil-livell tas-sentenza, iżda hija għażla skalabbli tajba meta tevalwa l-kwalità ġenerali tat-traduzzjoni fuq dokumenti multipli.

Approċċi lejn l-evalwazzjoni tal-MT

L-approċċi lejn l-evalwazzjoni tat-traduzzjoni awtomatika huma bbażati fuq il-kunċett tal-granularità. Jiġifieri, il-livelli differenti li fihom il-punteġġ jista' jitqies bħala sinifikanti.

Approċċ ibbażat fuq is-sentenzi. Skont dan l-approċċ, kull sentenza tingħata punteġġ li jgħid jekk it-traduzzjoni tagħha hijiex tajba (1) jew mhux tajba (0) u t-total jingħata medja. Dan l-aktar komunement isir fl-evalwazzjoni tal-bniedem.

Approċċ ibbażat fuq id-dokumenti. Magħruf ukoll bħala l-approċċ ibbażat fuq il-korpus, is-sentenzi jingħataw ukoll punteġġi iżda l-punteġġ sinifikanti huwa t-total jew il-medja fost sett akbar ta' dokumenti. Dan huwa l-iżgħar livell li fih l-evalwazzjoni awtomatizzata tal-MT tista' titqies bħala sinifikanti, peress li tiddependi ħafna fuq l-istatistika minn sett ta' data wiesgħa.

Approċċ ibbażat fuq il-kuntest. Dan l-approċċ huwa differenti minn dawk preċedenti peress li jikkunsidra kemm il-kompitu ġenerali tal-MT huwa adattat għall-iskopijiet li se jintuża għalihom, aktar milli punteġġi medji bbażati fuq sentenzi. Bħala tali, jista' jitqies bħala approċċ olistiku għall-evalwazzjoni tal-MT.

Sfidi fl-evalwazzjoni tat-traduzzjoni awtomatika

L-evalwazzjoni tat-traduzzjoni awtomatika hija proċess diffiċli. Dan għaliex il-lingwa nnifisha hija ħaġa kumplessa ħafna.

Għal wieħed, jista' jkun hemm traduzzjonijiet korretti multipli. Ħu, pereżempju, is-sentenza li ġejja:

Il-volpi kannella veloċi qabżet minn fuq il-kelb għażżien.

Sistema tal-MT tista' tiġġenera t-traduzzjoni li ġejja minflok:

Il-volpi kannella veloċi qabeż minn fuq il-kelb indolenti.

Din hija traduzzjoni teknikament korretta, u fl-evalwazzjoni umana normalment tkun immarkata bħala tali. Iżda fl-evalwazzjoni awtomatizzata, din tkun immarkata bħala żbaljata.

Dettalji żgħar jistgħu wkoll ibiddlu t-tifsira tas-sentenza kompletament.

Il-volpi kannella veloċi qabeż fuq il-kelb għażżien.

Hawnhekk, hemm kelma waħda biss li nbidlet. Iżda dik il-kelma waħda tibdel it-tifsira tas-sentenza kompletament. L-evalwazzjonijiet awtomatiċi x'aktarx li jimmarkawha ogħla mill-eżempju preċedenti. It-tradutturi umani x'aktarx jaqbdu l-iżball, iżda xi wħud jistgħu jqisuh korrett.

U dan għaliex il-lingwa tista' tkun suġġettiva. Anke l-evalwaturi umani jistgħu jvarjaw fil-ġudizzju tagħhom dwar jekk traduzzjoni hijiex tajba jew le.

Evalwazzjoni umana: L-istandard ta' referenza

Issa li rajna l-bażiċi, ejja nagħtu ħarsa fil-fond lejn iż-żewġ tipi ta' evalwazzjoni tal-MT, li tibda bl-evalwazzjoni tal-bniedem.

Fl-iktar livell bażiku, l-għan tat-traduzzjoni awtomatika huwa li tittraduċi test minn lingwa sors f'lingwa fil-mira f'livell li l-bnedmin jistgħu jifhmu. Bħala tali, il-bnedmin huma l-aħjar punt ta' referenza għall-evalwazzjoni tal-kwalità tat-traduzzjoni awtomatika.

Tipi ta' evalwazzjoni umana

Hemm għadd ta' modi differenti kif issir l-evalwazzjoni tal-bniedem, li se naraw  issa:

Valutazzjoni diretta

Dan huwa l-aktar tip sempliċi ta' evalwazzjoni umana. Il-produzzjoni tat-traduzzjoni awtomatika hija evalwata fuq il-livell tas-sentenza.

L-isfida bil-valutazzjoni diretta hija li l-ġudikanti differenti se jvarjaw ħafna fil-mod li jagħtu l-punteġġ. Xi wħud għandhom tendenza li jmorru għall-estremi f'termini t  'punteġġ, u jimmarkaw traduzzjonijiet bħala jew ħżiena ħafna jew tajbin ħafna. Oħrajn jistgħu jkunu aktar konservattiv, u jimmarkaw l-istess sentenzi bi punteġġi eqreb lejn in-nofs.

Sfida oħra hija, għal darb'oħra, is-suġġettività. Meta jiġġudikaw jekk sentenza hijiex traduzzjoni ħażina jew le, jeħtieġ li l-evalwaturi jieħdu deċiżjonijiet dwar lingwa li hija ambigwa. Immorru lura għas-sentenza tal-eżempju: (this example cannot be used - see below)

Il-volpi kannella veloċi qabżet minn fuq il-klieb għażżien. (this isn't relevant in Maltese as the word for canine remains dog so this example cannot be used)

Hawnhekk, il-klieb mhux neċessarjament żbaljat, iżda lanqas mhuwiex l-aħjar tajjeb. (see above) Xi evalwaturi jistgħu jikkunsidrawh tajjeb biżżejjed, filwaqt li oħrajn jistgħu jqisuha bħala kompletament żbaljata. Pereżempju, jekk il-punteġġ isir fuq skala ta' 5 punti, xi tradutturi jistgħu jimmarkawha 4, filwaqt li ieħor jista' jagħtih biss 2.

Dawn l-isfidi jistgħu jiġu kkumpensati billi timpjega grupp akbar ta' evalwaturi, li jippermetti li l-punteġġi jiġu normalizzati fuq termini statistiċi.

Klassifikazzjoni

Mod ieħor biex tivvaluta s-sistemi tat-traduzzjoni awtomatika permezz tal-evalwazzjoni tal-bniedem huwa l-klassifikazzjoni.

F'dan il-każ, l-evalwaturi ma jipprovdux punteġġi individwali għal sentenzi, iżda minflok iqabblu foma'st traduzzjonijiet minn sistemi tal-MT differenti. Huma mbagħad jiddeċiedu liema waħda hija l-aħjar traduzzjoni, liema hija t-tieni l-aħjar, u l-bqija.

Il-vantaġġ ta' dan il-metodu fuq valutazzjoni diretta huwa li jipprovdi immedjatament paragun dirett, għall-kuntrarju tal-paragun ta' punteġġi li ġew iġġenerati fuq provi differenti u possibilment minn evalwaturi differenti.

Madankollu, xorti hemm l-isfida tas-suġġettività. Sistemi differenti tal-MT x'aktarx li joħorġu b'żbalji differenti. Pereżempju:

Il-volpi aħdar veloċi qabżet minn fuq il-kelb għażżien.

Volpi kannella veloċi qabeż minn fuq kelb għażżien.

Il-volpi kannella veloċi jaqbeż minn fuq il-kelb għażżien.

Kull sentenza għandha żball sempliċi. L-ewwel wieħed għandu traduzzjoni ħażina. It-tieni jħalli barra l-artikoli. It-tielet wieħed huwa nieqes minn tenses tal-verb.

L-evalwaturi issa jeħtieġ li jiddeċiedu liema żball huwa aktar importanti mill-ieħor, u għal darb'oħra, l-evalwaturi jista' jkollhom opinjonijiet differenti dwar il-kwistjoni.

Sforz tal-editjar

Jekk l-iskop tal-utent għal sistema tal-MT huwa li jipprepara dokumenti għall-editjar, hemm ukoll modi kif tevalwah skont l-ammont ta' sforz li tieħu biex biex teditjah.

L-għan fundamentali tal-editjar huwa li jippermetti traduttur jaħdem aktar malajr milli kieku kellu jittraduċu test mill-bidu nett. Bħala tali, l-aktar mod sempliċi biex tivvaluta sistema tal-MT għall-editjar huwa billi jitkejjel iż-żmien li jieħu traduttur biex jikkoreġi l-output tradott awtomatikament.

Mod ieħor biex jitkejjel l-isforz tal-editjar huwa billi tagħmel tabella ta' kemm-il darba t-taptap it-tastiera biex tissostitwixi t-test tradott awtomatikament  bi traduzzjoni ta' referenza umana. Dan huwa indipendenti mir-restrizzjonijiet taż-żmien, iżda wkoll ma jikkunsidrax il-possibbiltà ta' traduzzjonijiet korretti multipli.

Evalwazzjoni bbażata fuq kompiti

Imbagħad hemm evalwazzjoni bbażata fuq kompiti li, kif jissuġġerixxi l-isem, tivvaluta sistema tal-MT ibbażata fuq kemm hija adattata għall-kompitu li għandek quddiemek. Pereżempju, jekk tintuża f'ambjent ta' webinar multilingwi, il-parteċipanti jistgħu jintalbu jikklassifikaw l-esperjenza tagħhom b'traskrizzjoni tradotta awtomatikament. Dan ifisser li huma qed jikklassifikaw is-suċċess tas-sistema tal-MT kollha kemm hi.

Il-problema b'dan l-approċċ hija li hemm possibilità kbira li jiġu introdotti elementi oħra mhux ikkontrollati li jistgħu jaffettwaw il--klassifikazzjoni li jagħtu l-evalwaturi. Bħala tali, l-użu ta' evalwazzjoni bbażata fuq kompiti huwa sitwazzjonali ħafna.

Sfidi ġenerali fl-evalwazzjoni tal-bniedem

Kif tista' tara, it-tipi differenti ta' evalwazzjoni umana tal-MT għandhom l-isfidi tagħhom. Hemm ukoll xi sfidi li huma komuni, u dawn għandhom x'jaqsmu mal-konsistenza jew il-ftehim.

Ftehim bejn l-annotaturi

Dan jirreferi għall-konsistenza tal-punteġġi bejn evalwaturi differenti. Kif semmejna qabel, l-evalwaturi differenti se jkollhom tendenzi li jvarjaw fil-mod kif jikklassifikaw l-istess segmenti tat-test. Xi wħud jistgħu jikklassifikawhom f'estremi jew lejn in-nofs. Meta jikklassifikaw magni tal-MT differenti, l-opinjonijiet tagħhom jistgħu jvarjaw ukoll. Dan huwa għaliex huwa importanti li jkun hemm ħafna evalwaturi, sabiex id-distribuzzjoni tal-punteġġi tiġi normalizzata.

Ftehim intra annotatur

Il-mod kif evalwatur wieħed jikklassifika test huwa wkoll miżura tal-validità. Evalwatur jista' jikklassifika sentenza bħala tajba jew ħażina l-ewwel darba, iżda jista' jibdel fehmtu meta jirrepeti l-istess test. Li jkollok kejl għoli ta' ftehim intra annotatur jiżgura li l-evalwatur magħżul jista' jitqies bħala konsistenti u affidabbli.

Evalwazzjoni awtomatika: L-għażla skalabbli

L-evalwazzjoni umana hija meqjusa bħala l-istandard tal-livell meta niġu għall-evalwazzjoni tal-kwalità tat-traduzzjoni awtomatika. Madankollu, huwa sforz li jiswa ħafna flus f'termini ta' sforz u ħin. Dan huwa għaliex ir-riċerkaturi fil-qasam żviluppaw mezzi differenti biex jevalwaw il-kwalità tal-MT permezz ta 'proċessi awtomatizzati.

Dawn il-proċessi huma mfassla biex japprossimaw kif il-bnedmin se jevalwaw is-sistema tal-MT. Naturalment, huma altru minn perfetti f'dan, iżda l-evalwazzjoni awtomatika għad għandha użu importanti ħafna.

Il-vantaġġ ewlieni tal-evalwazzjoni awtomatika fuq l-evalwazzjoni tal-bniedem huwa l-iskalabbiltà tagħha. Huwa ħafna aktar veloċi li tagħmel mijiet ta'  evalwazzjonijiet awtomatiċi minn sempliċiment sessjoni waħda ta' evalwazzjoni umana. Dan jagħmilha soluzzjoni ideali meta tagħmel tibdiliet żgħar jew tottimizza s-sistema tal-MT, li teħtieġ riżultati malajr.

L-isfidi fl-evalwazzjoni awtomatika

B'differenza mill-bnedmin, il-magni mhumiex mgħammra biex jimmaniġġjaw l-isfumaturi differenti tal-użu tal-lingwa. Is-sistemi ta' evalwazzjoni awtomatiċi huma bbażati fuq li l-MT ikollha taqbila eżatta ma' test ta' referenza, u differenzi minuri jistgħu jkollhom impatt fuq il-punteġġ finali. Dawn id-differenzi jistgħu jinkludu devjazzjonijiet fil-morfoloġija, l-użu ta' sinonimi, u ordni grammatikali.

Kull ħaġa li tista' titqies teknikament jew ftit jew wisq korretta minn evalwatur uman tista' possibilment tiġi penalizzata f'evalwazzjoni awtomatika. Minkejja dan, l-għadd ta' taqbiliet eżatti, speċjalment meta jiġi kkunsidrat kampjun kbir ta' test, ħafna drabi jkun biżżejjed biex l-evalwazzjoni awtomatika ssir fattibbli għall-użu.

Metriċi tal-evalwazzjoni awtomatika

Hemm għadd ta' metriċi differenti ta' evalwazzjoni awtomatika disponibbli llum. Dawn huma xi eżempji ta' dawk li qed jintużaw:

 

      BLEU (Studju ta' Evalwazzjoni Bilingwi)

      NIST (mill-Istitut Nazzjonali tal-Istandards u t-Teknoloġija)

      METEOR (Metrika għall-Evalwazzjoni tat-Traduzzjoni b'Ordni Espliċita)

      LEPOR (Penali għat-tul, Preċiżjoni, Penali u Recall tad-Differenza fil-Pożizzjoni tal-n-gramma)

      KOMETA 

      PRIS

      TER (Rata ta' Żbalji fit-Traduzzjoni)

Kull metrika taħdem fuq algoritmi differenti u bħala tali timmaniġġja l-proċess ta' evalwazzjoni awtomatika b'mod differenti. Dan ifisser li għandhom qawwiet u dgħufijiet differenti, u jvarjaw fuq lil liema tipi ta' żbalji jagħtu penali ogħla jew aktar baxxi.

BLEU, l-aktar metrika popolari

Mill-metriċi kollha elenkati hawn fuq BLEU hija dik li tintuża l-aktar komunement. Kienet waħda mill-ewwel metriċi li kisbet livell għoli ta' korrelazzjoni mal-evalwazzjoni tal-bniedem, u żviluppat bosta varjazzjonijiet differenti.

Din taħdem bili s-sentenzi individwali jiġu kklassifikati kontra sett ta' traduzzjonijiet ta' referenza ta' kwalità għolja. Imbagħad jiġi kkalkulat il- medju ta dawn il-punteġġi, u n-numru li jirriżulta huwa l-punteġġ finali BLEU għal dik is-sistema tal-MT. Dan il-punteġġ jirrappreżenta kemm il-produzzjoni tas-sistema tal-MT taqbel mill-qrib mat-traduzzjoni tar-referenza umana, li hija l-markatur għall-kwalità.

Il-punteġġi huma kkalkulatipermezz ta' unitajiet imsejħa n-grammi, li jirreferu għal segmenti ta' test konsekuttiv. Lura għas-sentenza tal-kampjun preċedenti, pereżempju:

Il-volpi kannella veloċi qabżet minn fuq il-kelb għażżien.

Din tista' tinqasam f'n-grammi ta' tul differenti. 2-gramma, pereżempju, tkun “Il-volpir”, “kannella veloċir”, jew “volpi kannella”. 3 grammi jkunu “Il-volpi veloċi” jew “volpi kannella veloċi”. 4 grammi tkun “Il-volpi kannella veloċi”. U l-bqija.

Huwa proċess matematiku kumpless, iżda f'termini bażiċi l-algoritmu ta' BLEU jikkalkula l-punteġġ billi jiċċekkja n-numru ta' koinċidenzi bejn l-n-grammi. Il-punteġġ ikkalkulat se jkun bejn 0 u 1, b'1 jirrappreżenta taqbila kompletament identika bejn is-sentenza ta' referenza u l-output. Issa ħu l-varjazzjoni li ġejja fuq is-sentenza kampjun:

Il-volpi kannella veloċi qabżet minn fuq il-kelb għażżien.

L-n-grammi kollha se jaqblu ħlief dawk li għandhom il-kelma “veloċi”. Eżempju ieħor:

Il-volpi kannella veloċi qabżet minn fuq il-kelb.

F'dan l-eżempju, il-kelma “għażżien” hija nieqsa, b'tali mod ukoll li għandha impatt fuq il-koinċidenza b'mod negattiv. Fiż-żewġ każijiet, il-punteġġ ta' BLEU xorta jkun għoli, iżda inqas minn 1.

Fil-prattika, mhux ħafna sentenzi se juru dan il-livell għoli ta' korrelazzjoni. Bħala tali, il-punteġġi ta' BLEU jsiru statistikament sinifikanti biss meta jittieħdu fil-kuntest ta 'kampjun kbir ta' test, jew corpora.

Hemm, ovvjament, fatturi oħra li jidħlu fil-kalkolu tal-punteġġ BLEU, bħal penali għal kliem żejjed jew sentenzi qosra ħafna. Sistemi oħra ta' punteġġ derivattivi ġew żviluppati biex jikkumpensaw għan-nuqqasijiet tagħha, iżda BLEU tibqa' kklassifikata għolja u tkompli tkun l-aktar sistema ta' evalwazzjoni tal-MT użata llum.

L-aħħar ħsibijiet dwar l-evalwazzjoni tal-MT

U dan ikopri l-punti bażiċi tal-evalwazzjoni tat-traduzzjoni awtomatikai. Kif urejna, l-evalwazzjoni ta' sistema tal-MT tista' ssir permezz ta' evalwazzjoni umana jew evalwazzjoni awtomatika. Iż-żewġ proċessi għandhom il-vantaġġi u l-iżvantaġġi tagħhom.

L-evalwazzjoni umana hija l-istandard tal-livell f'termini ta' kwalità, iżda hija għalja u tieħu ħafna ħin. It-traduzzjoni awtomatika mhix daqshekk preċiża, iżda hija rapida u skalabbli. Bħala tali, iż-żewġ tipi għandhom ill-użu speċifiku tagħhom fejn jibbrillaw.