13/05/2024

Evaluarea Traducerii Automate: Ghidul Suprem

Să presupunem că sunteți o afacere care a decis să investească într-un sistem de traducere automată. Ați făcut câteva cercetări de bază și ați descoperit că există atât de multe opțiuni din care să alegeți. Fiecare dintre ele pretinde că obține un anumit scor pe baza anumitor parametri, dar nu știți ce înseamnă cu adevărat acele cifre. Cum știți care este cel mai potrivit pentru dumneavoastră?

Trebuie să înțelegeți cum funcționează evaluarea traducerii automate.

Acest articol va aprofunda subiectul evaluării traducerii automate. Vă va ajuta să înțelegeți ce este, de ce aveți nevoie de acest sistem și diferitele tipuri de evaluare, pentru a vă ajuta să luați o decizie bine informată atunci când alegeți un sistem MT în care să investiți.

Introducere: Ce este evaluarea traducerii automate?

Evaluarea traducerii automate se referă la diferitele procedee de măsurare a performanței unui sistem de traducere automată.

Este o modalitate de a evalua calitatea MT, astfel încât să se poată ști cât de bun este sistemul și să existe o bază solidă pentru a compara cât de eficiente sunt diferite sisteme MT. Pentru a face acest lucru, evaluarea traducerii automate utilizează parametri cuantificabili.

De ce sunt importanți parametrii de evaluare a traducerii automate?

Există două motive principale pentru care trebuie făcută evaluarea performanței unui sistem MT. În primul rând, trebuie verificat dacă este suficient de bun pentru utilizarea sa în în lumea reală. În al doilea rând, pentru a servi drept ghid în cercetare și dezvoltare.

Pentru a verifica dacă este suficient de bun pentru utilizarea în lumea reală

În primul rând, desigur, trebuie să se stabilească dacă sistemul MT funcționează la un nivel suficient de bun pentru utilizarea reală. Acesta este motivul care are cea mai mare relevanță pentru utilizatorii finali. Dacă sistemul de traducere automată are performanțe slabe, utilizatorii mai degrabă vor alege altceva.

Sectoarele industriale care utilizează MT ar dori, de asemenea, parametri concreți pentru a decide ce sistem MT să achiziționeze. La urma urmei, MT este o investiție, iar întreprinderile trebuie să obțină cea mai bună calitate pentru banii lor.

Ca atare, dezvoltatorii MT trebuie să evalueze dacă calitatea sistemului de traducere automată este suficient de bună pentru a-l trimite clienților.

Să servească drept ghid în cercetare și dezvoltare

În mod ideal, sistemele MT nu sunt o entitate statică. Tehnologia pentru MT se îmbunătățește continuu în timp. Este logic ca și sistemele MT să se îmbunătățească.

Aici intervine cercetarea, iar cercetătorii trebuie să aibă un ghid care să le indiceunde să verifice. Parametrii cuantificabili le permit cercetătorilor să compare dacă o anumită abordare este mai bună decât alta, permițându-le să ajusteze sistemul.

Acest lucru este în special folositor pentru a vedea modul în care sistemul se descurcă cuerorile constante de traducere. Parametri cuantificabili pot arăta într-un cadru mai controlat dacă o anumită abordare este capabilă sau nu să facă față acestor tipuri de erori.

Cum evaluați succesul traducerii automate?

Există două moduri diferite de a determina cât de bine funcționează un sistem MT. Evaluarea umană este realizată de experți umani care efectuează o evaluare manuală, în timp ce evaluarea automată folosește parametri bazați pe AI special stabiliți pentru evaluarea calității traducerii fără intervenția umană. Fiecare are propriile avantaje și dezavantaje. Vom discuta mai în detaliu despre ambele tipuri de evaluare MT în secțiunile ulterioare ale acestui articol, dar mai întâi, iată o prezentare rapidă a celor două tipuri de evaluare a traducerii automate, precum și a abordărilor deevaluare a MT care le utilizează.

Evaluarea Umană vs Evaluarea Automată

Evaluarea umană a traducerii automate înseamnă că evaluarea calității traducerii este efectuată de traducători profesioniști umani. Aceasta este cea mai eficientă opțiune atunci când vine vorba de determinarea calității traducerilor automate până la nivelul propozițiilor. Dar evaluarea umană, ca și traducerea umană, este prin natura sa mai costisitoare și necesită mai mult timp.

Evaluarea automată, pe de altă parte, utilizează programe concepute special pentru a evalua calitatea traducerii automate în conformitate cu diferite metode. Nu este la fel de fiabilă ca evaluarea umană la nivel de propoziție, dar este o opțiune cuantificabilă bună atunci când se evaluează calitatea generală a traducerii pe mai multe documente.

Abordări pentru evaluarea MT

Abordările privind evaluarea traducerii automate se bazează pe conceptul de granularitate. Adică diferitele niveluri la care punctajul poate fi considerat semnificativ.

Abordarea bazată pe propoziții. Această abordare constă în atribuirea unui scor fiecărei propoziții, care indică dacă traducerea sa este bună (1) sau nu (0), iar totalul este evaluat pe baza mediei. Acest lucru se face în principal în cadrul evaluării umane.

Abordarea bazată pe documente. Cunoscută și sub denumirea de abordare bazată pe corpus, propozițiile primesc, de asemenea, scoruri, dar scorul relevant este totalul sau media unui set mai mare de documente. Acesta este cel mai mic nivel la care evaluarea automată a MT poate fi considerată semnificativă, deoarece depinde foarte mult de statisticile dintr-un set amplu de date.

Abordarea bazată pe context. Această abordare diferă de cele anterioare, deoarece ia în considerare cât de bine se potrivește cerința generală MT cu scopurile pe care le are de îndeplinit, mai degrabă decât prin scoruri medii bazate pe propoziții. Ca atare, ar putea fi considerată o abordare holistică a evaluării MT.

Provocări în evaluarea traducerii automate

Evaluarea traducerii automate este un proces dificil. Acest lucru se datorează faptului că limba în sine este un concept foarte complex.

În primul rând, pot exista mai multe traduceri corecte. Luați, de exemplu, următoarea propoziție:

Vulpea maro rapidă a sărit peste câinele leneș.

Un sistem MT ar putea genera în schimb următoarea traducere:

Vulpea maro rapidă s-a aruncat peste câinele indolent.

Aceasta este o traducere corectă din punct de vedere tehnic, iar în evaluarea umană ar fi în mod normal marcată ca atare. Dar în evaluarea automată, ar fi marcată ca incorectă.

Detaliile mici pot schimba, de asemenea, complet semnificația unei propoziții.

Vulpea maro rapidă a sărit pe câinele leneș.

Aici, există un singur cuvânt care a fost schimbat. Dar acel cuvânt schimbă complet sensul propoziției. Este posibil ca evaluările automate să îi acorde o notă mai mare decât în cazul exemplului anterior. Este foarte probabil ca traducătorii umani să detecteze eroarea, dar unii ar putea să o considere corectă.

Și asta pentru că limba poate fi subiectivă. Chiar și evaluatorii umani pot avea păreri diferite dacă o traducere este bună sau nu.

Evaluarea umană: Standardul de aur

Acum că am parcurs elementele de bază, să analizăm în profunzime cele două tipuri de evaluare MT, începând cu evaluarea umană.

La nivelul cel mai elementar, scopul traducerii automate este de a traduce textul dintr-o limbă sursă într-o limbă țintă la un nivel pe care oamenii îl pot înțelege. Ca atare, oamenii sunt cel mai bun punct de referință pentru evaluarea calității traducerii automate.

Tipuri de evaluare umană

Există câteva moduri diferite în care se face evaluarea umană, pe care le vom aborda acum:

Evaluare directă

Acesta este cel mai simplu tip de evaluare umană. Rezultatul traducerii automate este evaluat la nivel de propoziției.

Provocarea în cazul evaluării directe constă în faptul că diferiți judecători vor varia foarte mult în ceea ce privește modul în care acordă punctajul. Unii pot tinde spre extreme în ceea ce privește notarea, marcând traducerile ca fiind fie foarte proaste, fie foarte bune. Alții pot fi mai conservatori, notând aceleași propoziții cu scoruri mai spre mediu.

O altă provocare este, din nou, subiectivitatea. Pentru a judeca dacă o propoziție este o traducere greșită sau nu, evaluatorii trebuie să ia decizii cu privire la limbajul ambiguu. Revenind la propoziția exemplu:

Vulpea maro rapidă a sărit peste caninul leneș.

Aici, caninul nu este neapărat greșit, dar nici nu este cel mai potrivit termen. Unii evaluatori îl pot considera suficient de bun, în timp ce alții l-ar putea semnala ca fiind complet greșit. De exemplu, dacă notarea se face pe o scară de 5 puncte, unii traducători ar putea să îi dea nota 4, în timp ce altul i-ar putea da doar nota 2.

Aceste provocări pot fi contracarate prin angajarea unui grup mai mare de evaluatori, ceea ce va permite normalizarea notelor în termeni statistici.

Clasament

Un alt mod de a evalua sistemele de traducere automată prin evaluarea umană este clasarea.

În acest caz, evaluatorii nu oferă scoruri individuale pentru propoziții, ci compară traducerile din diferite sisteme MT. Apoi decid care este cea mai bună traducere, care este a doua cea mai bună și așa mai departe.

Avantajul acestei metode față de evaluarea directă este că oferă imediat o comparație directă, spre deosebire de compararea scorurilor care au fost generate în decursul diferitelor teste și, eventual, de diferiți evaluatori.

Cu toate acestea, și această metodă suferă de provocarea subiectivității. Este probabil ca diferite sisteme MT să genereze erori diferite. De exemplu:

Vulpea verde rapidă a sărit peste câinele leneș.

Vulpe maro rapidă a sărit peste câine leneș.

Vulpea maro rapidă a sări peste câinele leneș.

Fiecare propoziție are o eroare simplă. Prima are o traducere greșită. A doua omite articolele. Din a treia lipsesc timpurile verbale.

Evaluatorii trebuie acum să decidă care eroare este mai importantă decât alta și, din nou, evaluatorii pot avea opinii diferite în această privință.

Efortul post-editare

Dacă scopul utilizatorului unui sistem MT este pregătirea documentelor pentru post-editare, există, de asemenea, modalități de evaluare a acestuia în funcție de efortul necesar pentru post-editare.

Scopul fundamental al post-editării este de a permite unui traducător să lucreze mai repede decât dacă ar traduce un text de la zero. Ca atare, cel mai simplu mod de a evalua un sistem MT pentru post-editare este măsurarea timpului necesar traducătorului pentru a corecta rezultatul tradus automat.

O altă modalitate de a măsura efortul post-editare este de a înregistra numărul de apăsări pe tastatură care ar fi necesare pentru a înlocui textul tradus automat cu o traducere de referință umană. Acest lucru nu depinde de restricțiile de timp, dar, de asemenea, nu ia în considerare posibilitatea existenței mai multor traduceri corecte.

Evaluare bazată pe sarcini

Apoi, există o evaluare bazată pe sarcini care, după cum sugerează și numele, evaluează un sistem MT în funcție de cât de bine se potrivește cu sarcina în cauză. De exemplu, dacă este utilizat într-unwebinar multilingv, participanții pot fi rugați să își evalueze experiența cu ajutorul unei transcrieri traduse automat. Acest lucru înseamnă că ei evaluează succesul sistemului MT în ansamblu.

Problema cu această abordare este că permite introducerea altor elemente incontrolabile care pot afecta scorul oferit de evaluatori. Ca atare, utilizarea evaluării bazate pe sarcini este foarte circumstanțială.

Provocări generale în evaluarea umană

După cum puteți vedea, diferitele tipuri de evaluare umană a MT vin cu propriile provocări. Există, de asemenea, unele provocări pe care le împărtășesc în general, și acestea au legătură cu coerența sau concordanța.

Concordanța între evaluatori

Aceasta se referă la consecvența punctajelor între diferiți evaluatori. După cum am menționat mai devreme, diferiți evaluatori vor avea tendințe diferite în ceea ce privește modul în care notează aceleași segmente de text. Unii le pot nota la extreme sau spre mediu. Atunci când clasează diferite motoare MT, opiniile lor pot, de asemenea, varia. De aceea este important să avem mai mulți evaluatori, astfel încât distribuția punctajelor să fie normalizată.

Concordanța între evaluările unei singure persoane

Modul în care un singur evaluator punctează un text este, de asemenea, o măsură a validității. Un evaluator ar putea nota o propoziție ca fiind corectă sau greșită la prima vedere, dar s-ar putea să se răzgândească la o repetare a aceluiași test. Existența unui nivel ridicat de concordanță între evaluările unei persoane asigură că evaluatorul ales poate fi considerat consecvent și fiabil.

Evaluare automată: Opțiunea cuantificabilă

Evaluarea umană este considerată standardul de aur atunci când vine vorba de evaluarea calității traducerii automate. Cu toate acestea, este un proces costisitor din punct de vedere al efortului și al timpului. Din acest motiv, cercetătorii din domeniu au dezvoltat diferite mijloace de evaluare a calității MT prin procese automatizate.

Aceste procese sunt concepute pentru a se apropia de modul în care oamenii ar evalua sistemul MT. Desigur, acestea nu sunt nici pe departe perfecte în acest sens, dar evaluarea automată are totuși situații foarte importante în care este utilizată.

Principalul avantaj al evaluării automate față de evaluarea umană este că poate fi cuantificată. Este mult mai rapid să rulezi sute de cazuri de evaluare automată decât fie și o sesiune de evaluare umană. Astfel ea devine soluția ideală atunci când se fac modificări sau se optimizează sistemul MT, cazuri în care e nevoie de rezultate rapide.

Provocări în evaluarea automată

Spre deosebire de oameni, mașinăriile nu sunt echipate pentru a gestiona diferitele nuanțe ale limbii. Sistemele automate de evaluare se bazează pe faptul că MT trebuie să aibă o corespondență exactă cu un text de referință, iar diferențele minore pot avea un impact asupra scorului final. Aceste diferențe pot include abateri în morfologie, utilizarea sinonimelor și ordinea gramaticală.

Orice lucru care poate fi considerat teoretic sau mai mult sau mai puțin corect de către un evaluator uman poate fi penalizat în evaluarea automată. Cu toate acestea, numărul de potriviri exacte, mai ales atunci când se ia în considerare un eșantion mare de text, este adesea suficient pentru a face evaluarea automată fezabilă.

Parametri în evaluarea automată

În prezent există o serie de parametri diferiți în evaluarea automată. Iată câteva exemple dintre cei utilizați:

 

      BLEU (Studiu de Evaluare Bilingvă)

      NIST (de la Institutul Național de Standarde și Tehnologie)

      METEOR (Parametru pentru Evaluarea Traducerii cu Ordonare Explicită)

      LEPOR (Penalizare pentru Lungime, Precizie, Penalizare pentru Poziționarea Diferită a n-gramelor și Rechemare)

      COMET 

      PRIS

      TER (Rata de Eroare de Traducere)

Fiecare parametru funcționează pe baza unor algoritmi diferiți și, ca atare, gestionează diferit procesul de evaluare automată. Asta înseamnă că ei au puncte forte și puncte slabe diferite și variază în ceea ce privește tipurile de erori cărora le acordă penalități mai mari sau mai mici.

BLEU, cel mai popular parametru

Dintre toți parametrii enumerați mai sus, BLEU este cel mai frecvent utilizat. A fost unul dintre primii parametri care au atins un nivel ridicat de corelație cu evaluarea umană și a generat multe alte variante diferite.

Funcționează astfel: propozițiile individuale sunt evaluate în raport cu un set de traduceri de referință de înaltă calitate. Este apoi făcută media acestor note, iar numărul rezultat este scorul BLEU final pentru acel sistem MT. Acest scor reprezintă cât de mult se potrivește rezultatul sistemului MT cu traducerea de referință umană, care este standardul calității.

Scorurile sunt calculate folosind unități numite n-grame, care se referă la segmente de text consecutiv. Revenind la modelul de propoziție anterior, de exemplu:

Vulpea maro rapidă a sărit peste câinele leneș.

Aceasta poate fi împărțită în n-grame de lungime diferită. Un exemplu de 2-grame ar fi „rapidă”, „maro rapidă” sau „vulpea maro”. Un exemplu de 3-grame ar fi „rapidă maro” sau „vulpea maro rapidă”. Un exemplu de 4-grame ar fi „Vulpea maro rapidă”. Și așa mai departe.

Este un proces matematic complex, dar în termeni simpli algoritmul BLEU calculează scorul verificând numărul de corespondențe între n-grame. Scorul calculat va fi între 0 și 1, 1 reprezentând o potrivire completă între propoziția de referință și propoziția generată. Acum avem următoarea variantă a modelului de propoziție:

Vulpea maro iute a sărit peste câinele leneș.

Toate n-gramele se vor potrivi, cu excepția celor care au cuvântul „iute”. Un alt exemplu:

Vulpea maro rapidă a sărit peste câine.

În acest exemplu, cuvântul „leneș” lipsește, iar acest lucru are un impact negativ asupra corespondenței. În ambele cazuri, scorul BLEU ar fi în continuare ridicat, dar mai mic de 1.

În practică, nu multe propoziții vor avea acest nivel ridicat de corelație. Ca atare, scorurile BLEU devin semnificative statistic numai atunci când sunt luate în contextul unui eșantion mare de text sau corpusuri.

Există, desigur, și alți factori care determină calcularea scorului BLEU, cum ar fi penalitățile pentru cuvinte suplimentare sau propoziții foarte scurte. Alte sisteme de notare derivate au fost dezvoltate pentru a compensa deficiențele sale, dar BLEU rămâne foarte apreciat și continuă să fie în prezent cel mai utilizat sistem de evaluare MT.

Concluzii privind evaluarea MT

Și acestea sunt elementele de bază ale evaluării traducerii automate. După cum am arătat, evaluarea unui sistem MT se poate face prin evaluare umană sau evaluare automată. Ambele procese au avantajele și dezavantajele lor.

Evaluarea umană este standardul de aur în ceea ce privește calitatea, dar este costisitoare și necesită mult timp. Traducerea automată nu este la fel de precisă, dar este rapidă și cuantificabilă. Ca atare, ambele tipuri au situații de utilizare specifice în care excelează.