13/05/2024

Machine Translation Evaluation: Ang Pinakapayak na Gabay

Sabihin nating isa kang kompanyang nagpasya na mamuhunan sa isang machine translation system. Gumawa ka na ng ilang batayang pananaliksik, at nalaman na maraming mga opsyon ang maaaring pagpilian. Ang bawat isa ay nag-aangkin na may markang tiyak batay sa ilang metrics, ngunit hindi mo alam kung ano talaga ang ibig sabihin ng mga numero. Paano mo malalaman kung alin ang pinakasakto para sa iyo?

Kailangan mong maunawaan kung paano gumagana ang ng machine translation evaluation.

Ang article na ito ay magbibigay ng detalyadong pagsusuri sa paksa ng machine translation evaluation. Tutulungan ka nitong maunawaan kung ano ito, kung bakit kailangan mo ito, at ang iba't ibang uri ng evaluation, upang matulungan kang gumawa ng mabuting desisyon kapag pumipili ng MT system upang mamuhunan.

Introduksyon: Ano ang machine translation evaluation?

Tumutukoy ang machine translation evaluation sa iba't ibang mga proseso ng pagsukat ng performance ng isang translation system.

Ito ay isang paraan ng pag-iskor ng kalidad ng MT upang posibleng malaman kung gaano kahusay ang system, at may matibay na batayan upang maihambing kung gaano kaepektibo ang iba't ibang mga MT system. Upang gawin ito, ginagamit ng machine translation evaluation ang mga metrics na maaaring sukatin..

Bakit mahalaga ang mga metrics ng machine translation evaluation?

May dalawang pangunahing dahilan kung bakit kailangang gawin ang pag-evaluate ng performance ng isang MT system. Ang unang dahilan ay upang suriin kung sapat na ito para sa totoong aplikasyon. Ang pangalawa ay upang magsilbing gabay sa pananaliksik at pag-unlad.

Upang suriin kung sapat na ito para sa totoong aplikasyon

Una, siyempre, ay upang matukoy kung gumagana ang MT system sa isang antas na sapat na para sa aktwal na paggamit. Ito ang dahilan na may pinaka-direktang kaugnayan sa mga end user. Kung hindi maganda ang performance ng machine translation system, mas malamang na pipiliin ng mga user ang ibang bagay.

Ang mga sektor ng industriya na gumagamit ng MT ay gusto din ng mga kongkretong metrics para sa pagpapasya kung anong MT system ang kanilang kukunin. Sa huli, isang investment ang MT, at kailangang makuha ng mga kompanya ang pinakamahusay na value para sa kanilang pera.

Dahil dito, kailangan ng mga developer ng MT na suriin kung sapat na ang kalidad ng machine translation system para maipadala na nila ito sa mga kliyente.

Upang magsilbing gabay sa pananaliksik at pag-unlad

Ang mga MT systems ay, sa pinakamainam, hindi isang static na entidad. Ang teknolohiya para sa MT ay patuloy na napapabuti sa paglipas ng panahon. Makatuwiran na dapat asahan na ang mga MT systems ay mapapabuti din.

Dito pumapasok ang pananaliksik, at kailangang magkaroon ng ilang gabay ang mga mananaliksik kung saan maghahanap. Ang mga masusukat na metrics ay nagbibigay-daan sa mga mananaliksik na ihambing kung ang partikular na pamamaraan ay mas mahusay kaysa sa isa pa, na tumutulong sa kanila na pagbutihin ang system.

Mas lalong mabuti ito para makita kung paano hinaharap ng system ang mga error na laging nangyayari sa pagsasalin. Ang pagkakaroon ng masusukat na mga metrics ay maaaring magpakita sa mas kontroladong setting kung ang partikular na pamamaraan ay kayang harapin ang mga ganitong uri ng mga error.

Paano mo sinusuri ang tagumpay ng machine translation?

May dalawang magkakaibang paraan upang matukoy kung gaano kahusay ang isang MT system. Ang human evaluation ay ginagawa ng mga dalubhasang tao na gumagawa ng manu-manong pagtatasa, habang ang automatic evaluation ay gumagamit ng mga metricsna nakabatay sa AI na espesyal na binuo para sa pagtatasa ng kalidad ng pagsasalin nang walang human intervention. Bawat isa ay may kani-kanilang mga pakinabang at kahinaan. Tatalakayin pa natin ang higit pang detalye sa parehong uri ng MT evaluation sa mga susunod na seksiyon ng article na ito, ngunit una, narito ang isang mabilis na pangkalahatang-ideya ng dalawang uri ng machine translation evaluation, pati na rin ang mga pamamaraan sa MT evaluation na gumagamit ng mga ito.

Human Evaluation vs Automatic Evaluation

Ang human evaluation ng machine translation ay nangangahulugan na ang pagtatasa ng kalidad ng pagsasalin ay ginagawa ng mga propesyonal na tao na tagapagsalin. Ito ang pinaka-epektibong opsyon pagdating sa pagtukoy ng kalidad ng mga machine translation hanggang sa antas ng mga pangungusap. Ngunit ang human evaluation, tulad ng sa human translation, sa likas na katangian ay mas mahal at nakakaubos ng oras.

Ang automatic evaluation, sa kabilang banda, ay gumagamit ng mga programs na binuo ng espesipiko upang masuri ang kalidad ng machine translation ayon sa iba't ibang mga pamamaraan. Hindi ito kasing maaasahan tulad ng human evaluation sa antas ng pangungusap, ngunit ito ay isang mahusay na opsyon kapag sinusuri ang pangkalahatang kalidad ng pagsasalin sa maraming mga dokumento.

Mga pamamaraan sa MT evaluation

Ang mga pamamaraan sa pagsusuri ng machine translation ay batay sa konsepto ng granularity. Iyon ay, ang iba't ibang antas kung saan maaaring ituring na makabuluhan ang pag-iskor.

Pamamaraang nakabatay sa pangungusap. Sa ilalim ng pamamaraang ito, ang bawat pangungusap ay binibigyan ng iskor na nagsasabi kung ang pagsasalin nito ay mabuti (1) o hindi mabuti (0) at ang kabuuan ay binibigyan ng average. Ito ay karaniwang ginagawa sa human translation.

Pamamaraang nakabatay sa dokumento. Kilala rin bilang corpus-based approach, binibigyan din ng mga iskor ang mga pangungusap ngunit ang makabuluhang iskor ay ang kabuuan o average sa isang mas malaking hanay ng mga dokumento. Ito ang pinakamaliit na antas kung saan maaaring ituring na makabuluhan ang automated MT evaluation, dahil lubos itong nakadepende sa mga istatistika mula sa malawak na dataset.

Pamamaraang nakabatay sa konteksto. Naiiba ang pamamaraang ito mula sa mga nauna dahil ang isinasaalang-alang nito ay kung gaano kahusay ang pangkalahatang gawain ng MT na angkop sa mga layunin kung saan ito inilalagay, sa halip na sa pamamagitan ng average na iskor batay sa mga pangungusap. Dahil dito, maaari itong ituring na holistic na pamamaraan sa MT evaluation.

Mga hamon sa machine translation evaluation

Mahirap na proseso ang machine translation evaluation. Ito ay dahil ang wika mismo ay napaka-komplikadong bagay.

Para sa isa, maaaring may maraming tamang pagsasalin. Kunin, halimbawa, ang sumusunod na pangungusap:

Tumalon ang maliksing kayumangging asong-gubat sa tamad na aso.

Ang isang MT system ay maaaring makabuo ng sumusunod na pagsasalin sa halip:

Ang mabilis na kayumangging asong-gubat ay lumundag sa matamlay na aso.

Ito ay teknikal na tamang pagsasalin, at sa pagsusuri ng tao ay karaniwang itong mamarkahan bilang ganoon. Ngunit sa automated evaluation, mamarkahan ito bilang hindi tama.

Maaari ring ganap na baguhin ng maliliit na detalye ang kahulugan ng pangungusap.

Tumalon ang maliksing kayumangging asong-gubat sa tamad na aso.

Dito, mayroon lamang isang salita na nabago. Ngunit ang isang salitang iyon ay lubos na binabago ang kahulugan ng pangungusap. Malamang na mamarkahan ito ng mga automatic evaluations nang mas mataas kaysa sa naunang halimbawa. Malamang na makakita ng mga human translators ang error, ngunit maaaring ituring ito ng ilan na tama.

At dahil ang wika ay maaaring maging subjective. Kahit ang mga human evaluators ay maaaring magkakaiba sa kanilang mga hatol kung ang pagsasalin mabuti o hindi.

Human evaluation: Ang gintong pamantayan

Ngayong tinalakay na natin ang mga pangunahing kaalaman, tingnan natin nang malalim ang dalawang uri ng MT evaluation, simula sa human evaluation.

Sa pinakasimpleng antas, ang layunin ng machine translation ay upang isalin ang teksto mula sa isang wikang pinagmulan sa isang target na wika sa antas na maunawaan ng mga tao. Dahil dito, ang mga tao ang pinakamahusay na sanggunian para sa pagsusuri sa kalidad ng machine translation.

Mga uri ng human evaluation

May maraming iba't ibang paraan kung saan ginagawa ang human evaluation, na tatalakayin natin ngayon:

Direktang Pagtatasa

Ito ang pinakasimpleng uri ng human evaluation. Ang output ng machine translation ay minarkahan sa antas ng pangungusap.

Ang hamon sa direktang pagtatasa ay na magkakaiba ang mga hurado sa paraan ng kanilang pagmamarka. Ang ilan ay maaaring may posibilidad na maging labis-labis sa tuntunin ng pagmamarka, na minamarkahan ang mga pagsasalin bilang napakasama o napakahusay. Ang iba ay maaaring maging mas konserbatibo, minamarkahan ang parehong mga pangungusap na mas malapit sa gitna.

Ang isa pang hamon ay, muli, ang personal na pananaw. Sa paghusga kung ang isang pangungusap ay masamang pagsasalin o hindi, kailangang gumawa ang mga tagapagsuri ng desisyon sa wikang hindi malinaw. Babalik tayo sa halimbawang pangungusap:

Tumalon ang maliksing kayumangging asong-gubat sa tamad na aso.

Dito, ang "canine" ay hindi naman talaga mali, ngunit hindi rin ito ang pinakamainam na pagpipilian. Maaaring ituring ito ng ilang mga tagapagsuri na sapat na ito, habang ang iba ay iisipin ito bilang ganap na mali. Halimbawa, kung ang pag-iskor ay ginagawa sa isang 5-point scale, maaaring markahan ito ng ilang mga tagasalin ng 4, habang ang iba ay maaaring magbigay lamang ng 2.

Ang mga hamong ito ay maaaring i-offset sa pamamagitan ng paggamit ng mas malaking pool ng mga tagapagsuri, na magpapahintulot sa mga marka na maging normal sa mga termino ng istatistika.

Ranking

Ang isa pang paraan upang masuri ang mga machine translation systems sa pamamagitan ng human evaluation ay ang ranking.

Sa kasong ito, hindi nagbibigay ang mga tagapagsuri ng mga indibidwal na marka para sa mga pangungusap, ngunit sa halip ay ihambing ang mga pagsasalin mula sa iba't ibang mga MT systems. Pagkatapos ay nagpapasya sila kung alin ang pinakamahusay na pagsasalin, alin ang pangalawang pinakamahusay, at iba pa.

Ang kalamangan ng pamamaraang ito kaysa sa direktang pagtatasa ay agad itong nagbibigay ng direktang paghahambing, taliwas sa paghahambing ng mga marka na nabuo sa iba't ibang mga pagsubok at posibleng iba't ibang mga tagapagsuri.

Gayunpaman, patuloy pa rin itong nahaharap sa hamon ng personal na pananaw. Ang iba't ibang mga MT systems ay malamang na magkaroon ng iba't ibang mga error. Halimbawa:

Tumalon ang maliksing berdeng asong-gubat sa tamad na aso.

Maliksing kayumangging asong-gubat ay tumalon sa tamad na aso.

Ang maliksing kayumangging asong-gubat tumalon sa tamad na aso.

May simpleng error ang bawat pangungusap. Ang una ay may maling pagsasalin. Iniwan ng pangalawa ang mga articles. Ang pangatlo ay nawawalang pandiwa.

Kailangan ng mga tagapagsuri ngayong magpasya kung aling error ang mas mahalaga kaysa sa iba pa, at muli, ang mga tagapagsuri ay maaaring magkaroon ng iba't ibang mga opinyon sa bagay na ito.

Post-editing na pagpapabuti

Kung ang layunin ng userpara sa isang MT system ay upang ihanda ang mga dokumento sa post-editing, mayroon ding mga paraan upang suriin ito ayon sa dami ng pagpapabuti na kinakailangan sa post-edit.

Ang pangunahing layunin ng post-editing ay upang payagan ang tagasalin na magtrabaho nang mas mabilis kaysa kung isasalin nila ang teksto mula sa simula. Sa gayon, ang pinakasimpleng paraan upang suriin ang isang MT system para sa post-editing ay sa pamamagitan ng pagsukat ng oras na kinakailangan para itama ng tagasalin ang machine-translated output.

Ang isa pang paraan upang sukatin ang pagpapabuti sa post-editing ay sa pamamagitan ng pagtatabula ng bilang ng mga stroke sa keyboard na kakailanganin upang palitan ang machine-translated text ng isang human reference translation. Ito ay independiyente sa mga limitasyon sa oras, ngunit hindi rin isinasaalang-alang ang posibilidad ng maraming tamang pagsasalin.

Task-based evaluation

Pagkatapos ay may task-based evaluation na, tulad ng ipinahihiwatig ng pangalan, sinusuri ang isang MT system batay sa kung gaano ito kaangkop sa gawaing kinakaharap. Halimbawa, kung ginagamit ito sa isang setting ng webinar na multilingual, maaaring hilingin sa mga kalahok na i-rate ang kanilang karanasan sa isang machine-translated transcript. Nangangahulugan ito na nre-rate nila ang tagumpay ng MT system sa kabuuan.

Ang problema sa ganitong pamamaraan ay ang malawakang pagbubukas nito sa pagpasok ng iba pang hindi kontroladong mga elemento na maaaring makaapekto sa rating na ibinibigay ng mga tagapagsuri. Kaya't ang paggamit ng task-based evaluation ay lubos na nakabatay sa sitwasyon o konteksto.

Pangkalahatang hamon sa human evaluation

Tulad ng makikita mo, ang iba't ibang uri ng human evaluation ng MT ay may kani-kanilang mga hamon. Mayroon din ilang hamon na pumapaloob sa pangkalahatan, at ito ay may kinalaman sa pagkakapare-pareho o kasunduan.

Kasunduan sa inter-annotator

Tumutukoy ito sa pagkakapare-pareho ng mga iskor sa pagitan ng iba't ibang mga tagapagsuri. Tulad ng nabanggit natin kanina, magkakaiba ang mga tagapagsuri sa kanilang mga tendensiya sa pagbibigay ng iskor sa parehong mga seksiyon ng teksto. May ilan na maaaring magbigay ng mga iskor na labis o sa gitna. Kapag nira-rank ang iba't ibang mga MT engines, maaari ring mag-iba ang kanilang mga opinyon. Ito ang dahilan kung bakit mahalaga na magkaroon ng maraming mga tagapagsuri, upang maging normal ang distribusyon ng mga marka.

Kasunduan sa intra-Annotator

Ang paraan kung paano binibigyan ng marka ng isang solong tagapagsuri ang isang teksto ay paraan din ng pagtutukoy ng kawastuhan. Maaaring magbigay ang isang tagapagsuri ng marka sa isang pangungusap bilang maganda o hindi maganda sa unang pagkakataon, ngunit maaaring nilang baguhin ang kanilang isip kapag inulit ang parehong pagsusuri. Ang pagkakaroon ng mataas na pagsukat ng kasunduan sa intra-annotator ay nagpapatunay na ang napiling tagapagsuri ay maaaring ituring na may pagkakapare-pareho at maaasahan.

Automatic evaluation: Ang nasusukat na opsyon

Ang human evaluation ay itinuturing na gintong pamantayan pagdating sa pagsusuri sa kalidad ng machine translation. Gayunpaman, ito ay magastos na pagsisikap kaugnaysa pagsisikap at oras. Kaya't ang mga mananaliksik sa larangan ay bumuo ng iba't ibang paraan ng pagsusuri sa kalidad ng MT sa pamamagitan ng mga awtomatikong proseso.

Ang mga prosesong ito ay dinisenyo upang matantya kung paano susuriin ng mga tao ang MT system. Siyempre, malayo pa sila mula sa pagiging perpekto sa ganito, ngunit mayroon pa ring napakahalagang mga pagkakataon ng paggamit ang automatic evaluation.

Ang pangunahing kalamangan ng automatic evaluation kaysa sa human evaluation ay ang kakayahan nitong mag-expand o gamitin ng mabilis. Mas mabilis na gawin ang daan-daang halimbawa ng automatic evaluation kaysa kahit isang round ng human evaluation. Ito ay nagiging isang perpektong solusyon kapag gumagawa ng mga pagbabago o pinapabuti ang MT system, na nangangailangan ng mabilis na mga resulta.

Mga hamon sa automatic evaluation

Hindi tulad ng mga tao, ang mga machines ay hindi handa upang harapin ang iba't ibang mga agwat sa paggamit ng wika. Ang mga automatic evaluation systems ay batay sa pagkakaroon ng eksaktong katugmaan ng MT sa isang teksto ng sanggunian, at ang mga maliit na pagkakaiba ay maaaring magkaroon ng epekto sa huling iskor. Maaaring kabilang sa mga pagkakaiba na ito ang mga pagbabago sa morpolohiya, paggamit ng mga kasingkahulugan, at gramatikang ayos.

Anumang maaaring ituring na teknikal o medyo tama ng isang tagapagsuri na tao ay maaaring tanggapin sa automatic evaluation. Gayunpaman, ang bilang ng mga eksaktong pagtutugma, lalo na kapag isinasaalang-alang ang isang malaking sample ng teksto, ay madalas sapat na upang gawing praktical ang automatic evaluation para sa paggamit.

Mga metrics ng automatic evaluation

May iba't ibang uri ng automatic evaluation metrics na available ngayon. Narito ang ilang mga halimbawa ng mga ginagamit na:

● BLEU (Bilingual Evaluation Understudy)

● NIST (mula sa National Institute of Standards and Technology)

● METEOR (Metric for Evaluation of Translation with Explicit Ordering)

● LEPOR (Length-Penalty, Precision, n-gram Position Difference Penalty and Recall)

● COMET

● PRIS

● TER (Translation Error Rate)

Gumagana ang bawat metric sa iba't ibang mga algorithm kaya't iba-iba ang paraan kung paano tinutugunan ang proseso ng automatic evaluation. Nangangahulugan iyon na mayroon silang iba't ibang lakas at kahinaan, at nagkakaiba sa mga uri ng mga pagkakamali na kanilang binibigyan ng mas mataas o mas mababang mga penalty.

Ang BLEU, ang pinakasikat na metric

Sa lahat ng mga metrics na nakalista sa itaas ang BLEU ay ang pinakakaraniwang ginagamit. Ito ay isa sa mga unang metric na nakamit ang mataas na antas ng ugnayan sa human evaluation, at nagbigay-daan sa maraming iba't ibang pagkakaiba.

Kung paano ito gumagana ay binibigyan ang bawat pangungusap ng marka laban sa isang hanay ng mga mataas na kalidad na mga pagsasaling reperensiya. Pagkatapos ang mga iskor na ito ay ina-average, at ang resultang bilang ay ang panghuling iskor ng BLEU para sa MT system na iyon. Nagpapakita ang iskor na ito kung gaano kalapit ang output ng MT systems human reference translation, na siyang tanda ng kalidad.

Ang mga marka ay kinakalkula gamit ang mga yunit na tinatawag na n-grams, na tumutukoy sa mga segment ng magkakasunod na teksto. Balikan natin ang naunang sampol na pangungusap, halimbawa:

Tumalon ang maliksing kayumangging asong-gubat sa tamad na aso.

Ito ay maaaring hatiin sa mga n-gram ng iba't ibang haba. Ang isang 2-gram, halimbawa, ay “Ang maliksing”, “maliksing kayumanggi”, o “kayumangging asong-gubat”. Ang isang 3-gram ay “Ang maliksing kayumanggi” o “maliksing kayumangging asong-gubat”. Ang isang 4-gram ay magiging “Ang maliksing kayumangging asong-gubat”. At iba pa.

Ito ay isang komplikadong proseso sa matematika, ngunit sa mga pangunahing termino kinakalkula ng algorithm ng BLEU ang iskor sa pamamagitan ng pag-check sa bilang ng mga overlaps sa pagitan ng n-grams. Ang kalkuladong iskor ay magiging nasa pagitan ng 0 at 1, kung saan ang 1 ay kumakatawan sa isang ganap na magkaparehong pagtugma sa pagitan ng reperensiya at ng output na pangungusap. Ngayon tingnan ang sumusunod na pagkakaiba-iba sa sample na pangungusap:

Tumalon ang mabilis na kayumangging asong-gubat sa tamad na aso.

Ang lahat ng mga n-grams ay tutugma maliban sa mga may salitang “mabilis”. Isa pang halimbawa:

Tumalon ang maliksing kayumangging asong-gubat sa ibabaw ng aso.

Sa halimbawang ito, nawawala ang salitang “tamad”, kaya't ito rin ay negatibong epekto sa pagtutugma.. Sa parehong mga kaso, ang iskor ng BLEU ay magiging mataas pa rin, ngunit mas mababa sa 1.

Sa pagsasagawa, hindi maraming mga pangungusap ang magpapakita ng ganitong mataas na antas ng ugnayan. Kaya naman, ang mga iskor ng BLEU ay nagiging makabuluhan lamang sa istatistika kapag kinuha sa konteksto ng isang malaking sampol ng teksto, o corpora.

Mayroon, syempre, na iba pang mga salik na pumapasok sa pagkakalkula ng iskor ng BLEU, tulad ng mga penalty para sa dagdag na mga salita o napakababang mga pangungusap. May iba pang mga scoring system na binuo upang mapunan ang mga kakulangan nito, ngunit nananatili pa ring mataas ang rating ng BLEU at patuloy itong ginagamit bilang pinakamalawakang MT evaluation system ngayon.

Pangwakas na mga salita sa MT evaluation

At iyan ay sumasaklaw sa mga pangunahing kaalaman ng machine translation evaluation. Tulad ng ipinakita namin, maaaring tasahin ang isang MT system sa pamamagitan ng human evaluation o automatic evaluation. Ang parehong mga proseso ay may kani-kanilang mga pakinabang at kahinaan.

Ang human translation ay ang pamantayang ginto sa mga tuntunin ng kalidad, ngunit ito ay mahal at nakakaubos ng oras. Ang automatic translation ay hindi kasing tumpak, ngunit mabilis at maaaring mapalawak. Bilang gayon, ang parehong uri ay may kani-kanilang partikular na mga paggamit kung saan ang mga ito ay nagsisilbing mahusay.