10/05/2024

Avaluació de la traducció automàtica: La guia definitiva

Diguem que ets un negoci que ha decidit invertir en un sistema de traducció automàtica. Has fet investigacions bàsiques, i trobes que hi ha moltes opcions per triar. Cadascuna de les opcions afirma aportar una qualificació determinada en funció de certes mètriques, però no saps què signifiquen realment els números. Com saps quin és el més adequat per a tu?

Has d'entendre com funciona l'avaluació de la traducció automàtica.

Aquest article aprofundirà en el tema de l'avaluació de la traducció automàtica. T'ajudarà a entendre què és, per què ho necessites, i els diferents tipus d'avaluació, per ajudar-te a prendre una decisió ben informada a l'hora d'escollir un sistema MT en què invertir.

Introducció: Què és l'avaluació de la traducció automàtica?

L'avaluació de la traducció automàtica fa referència als diferents processos de mesura del rendiment d'un sistema de traducció automàtica.

És una manera de puntuar la qualitat de la MT de manera que sigui possible saber com de bo és el sistema, i hi ha una base sòlida per comparar l'eficàcia dels diferents sistemes de MT. Per a això, l'avaluació de la traducció automàtica fa ús de mètriques quantificables.

Per què són importants les mètriques d'avaluació de la traducció automàtica?

Hi ha dues raons principals per les quals cal avaluar el rendiment d'un sistema MT. El primer és comprovar si és prou bo per aplicar-lo al món real. La segona és servir de guia en la recerca i el desenvolupament.

Per comprovar si és prou bo per a l'aplicació al món real

En primer lloc, per descomptat, s'ha de determinar si el sistema MT funciona a un nivell que és prou bo per a l'ús real. Aquesta és la raó amb més rellevància directa per als usuaris finals. Si el sistema de traducció automàtica funciona malament, els usuaris tenen més probabilitats de triar una altra opció.

Els sectors industrials que utilitzen MT també voldrien mètriques concretes per decidir quin sistema de MT obtenir. Al cap i a la fi, és una inversió, i les empreses necessiten obtenir la millor relació qualitat-preu.

Com a tal, els desenvolupadors de MT han d'avaluar si la qualitat del sistema de traducció automàtica és prou bona per enviar-se als clients.

Servir com a guia en la recerca i el desenvolupament

Els sistemes MT no són, idealment, una entitat estàtica. La tecnologia de MT millora contínuament amb el pas del temps. Té sentit que s'esperi que els sistemes MT també millorin.

Aquí és on entra la investigació, i els investigadors han de tenir alguna guia sobre on buscar. Les mètriques mesurables permeten als investigadors comparar si un enfocament concret és millor que un altre, ajudant-los a afinar el sistema.

Això és especialment bo per veure com el sistema s'ocupa dels errors consistents de traducció. Tenir mètriques mesurables pot mostrar, en un entorn més controlat, si un enfocament en particular és capaç o no de fer front a aquest tipus d'errors.

Com es valora l'èxit de la traducció automàtica?

Hi ha dues maneres diferents de determinar el bon rendiment d'un sistema de MT. L'avaluació humana és la realitzada per experts humans fent avaluació manual, mentre que l'avaluació automàtica utilitza mètriques basades en IA especialment desenvolupades per avaluar la qualitat de la traducció sense intervenció humana. Cadascuna de les opcions té els seus avantatges i desavantatges. Entrarem en més detalls sobre els dos tipus d'avaluació de MT a les seccions posteriors d'aquest article, però primer, aquí teniu una visió general ràpida dels dos tipus d'avaluació de traducció automàtica, així com els enfocaments de què fan ús.

Avaluació humana vs. avaluació automàtica

L'avaluació humana de la traducció automàtica significa que l'avaluació de la qualitat de la traducció la fan traductors professionals humans. Aquesta és l'opció més eficaç a l'hora de determinar la qualitat de les traduccions automàtiques a nivell de les frases. Però l'avaluació humana, com passa amb la traducció humana, és per naturalesa més costosa i consumeix temps.

L'avaluació automàtica, en canvi, utilitza programes construïts específicament per avaluar la qualitat de la traducció automàtica segons diferents mètodes. No és tan fiable com l'avaluació humana a nivell de frase, però és una bona opció expansible a l'hora d'avaluar la qualitat general de la traducció en diversos documents.

Enfocaments cap a l'avaluació de MT

Els enfocaments cap a l'avaluació de la traducció automàtica es basen en el concepte de granularitat, que vol dir "per nivells". És a dir, en cada enfocament es tria quin es el nivell mínim que cal puntuar perquè es significatiu.

Enfocament basat en frases. Sota aquest enfocament, a cada frase se li dona una puntuació dient si la seva traducció és bona (1) o no bona (0) i al total se li dóna una mitjana. Això es fa més habitualment en l'avaluació humana.

Enfocament basat en documents. També conegut com l'enfocament basat en el cos, a les oracions també se'ls donen puntuacions però la puntuació significativa és la total o mitjana entre un conjunt més gran de documents. Aquest és el nivell més petit en el qual l'avaluació automatitzada de MT es pot considerar significativa, ja que depèn en gran mesura d'estadístiques d'un ampli conjunt de dades.

Enfocament basat en el context. Aquest enfocament difereix dels anteriors ja que té en compte com s'adapta la tasca global als propòsits plantejats, en lloc de centrar-se en puntuacions basades en frases. Com a tal, es podria considerar un enfocament holístic de l'avaluació de MT.

Reptes en l'avaluació de la traducció automàtica

L'avaluació de la traducció automàtica és un procés difícil. Això es deu al fet que el llenguatge en si és molt complexe.

Per una part, pot haver-hi diverses traduccions correctes. Prenem, per exemple, la següent frase:

El gat marró i ràpid va saltar per damunt del gos mandrós.

En canvi, un sistema MT podria generar la traducció següent:

El gat marró i ràpid va llançar-se sobre el gos mandròs.

Es tracta d'una traducció tècnicament correcta, i en l'avaluació humana normalment estaria marcada com a tal. Però en l'avaluació automatitzada, es marcaria com a incorrecta.

Els petits detalls també poden canviar completament el significat d'una frase.

El gat marró i ràpid va atacar el gos mandròs.

Només hi ha una paraula que s'ha canviat. Però aquesta paraula canvia completament el significat de la frase. És probable que les avaluacions automàtiques el marquin més alt que l'exemple anterior. És probable que els traductors humans captin l'error, però alguns podrien considerar-lo correcte.

I això és perquè el llenguatge pot ser subjectiu. Fins i tot els avaluadors humans poden diferir en els seus judicis sobre si una traducció és bona o no.

Avaluació humana: L'estàndard d'or

Ara que hem repassat els conceptes bàsics, farem un repàs en profunditat als dos tipus d'avaluació de MT, començant per l'avaluació humana.

En el nivell més bàsic, l'objectiu de la traducció automàtica és traduir un text d'una llengua d'origen a una llengua d'arribada a un nivell que els humans puguin entendre. Com a tal, els humans són el millor punt de referència per avaluar la qualitat de la traducció automàtica.

Tipus d'avaluació humana

Hi ha una sèrie de maneres diferents de fer l'avaluació humana, que ara coneixerem:

Avaluació directa

Aquest és el tipus d'avaluació humana més simple. La sortida de traducció automàtica es puntua a nivell de frase.

El repte amb l'avaluació directa és que els diferents jutges variaran àmpliament en la forma en què puntuen. Alguns poden tendir a anar als extrems pel que fa a puntuació, marcant les traduccions com a molt dolentes o molt bones. Altres potser la jutgen de manera més conservadora, marcant les mateixes frases amb qualificacions més neutrals

Un altre repte és, de nou, la subjectivitat. En jutjar si una frase és una mala traducció o no, els avaluadors han de prendre decisions sobre llenguatge ambigu. Tornant a la frase d'exemple:

El gat marró i ràpid va llançar-se sobre el caní mandròs.

Aquí, el caní no és necessàriament equivocat, però tampoc és el millor ajust. Alguns avaluadors poden considerar-lo prou bo, mentre que altres podrien assenyalar-lo com completament equivocat. Per exemple, si la puntuació es fa en una escala de 5 punts, alguns traductors podrien marcar-la amb un 4, mentre que altre podria dir que és un 2.

Aquests reptes es poden compensar emprant un grup més gran d'avaluadors, cosa que permetrà normalitzar les puntuacions en termes estadístics.

Rànquing

Una altra manera d'avaluar els sistemes de traducció automàtica a través de l'avaluació humana és el rànquing.

En aquest cas, els avaluadors no proporcionen puntuacions individuals per a les oracions, sinó que comparen entre traduccions de diferents sistemes MT. Llavors decideixen quina és la millor traducció, quina és la segona millor, i així successivament.

L'avantatge d'aquest mètode sobre l'avaluació directa és que proporciona immediatament una comparació directa, en contraposició a comparar puntuacions que s'han generat al llarg de diferents assajos i possiblement per diferents avaluadors.

No obstant això, encara hi trobem el repte de la subjectivitat. És probable que diferents sistemes MT tinguin diferents errors. Per exemple:

El gat negre i ràpid va llançar-se sobre el gos mandròs.

Un gat marró i ràpid va llançar-se sobre un gos mandròs.

El gat marró i ràpid es llançarà sobre el gos mandròs.

Cada frase té un simple error. La primera té una traducció errònia del color del gat. La segona canvia els articles. A la tercera canvia el temps verbal.

Els avaluadors ara han de decidir quin error és més important que l'altre, i de nou, els avaluadors poden tenir opinions diferents sobre la matèria.

Esforç a la post-edició

Si la finalitat de l'usuari per a un sistema MT és preparar documents per a la post-edició, també hi ha maneres d'avaluar-lo segons la quantitat d'esforç que es necessitarà per post-editar.

El propòsit fonamental de la post-edició és permetre que un traductor humà funcioni més ràpid que si tractés de traduir un text des de zero. Com a tal, la manera més senzilla d'avaluar un sistema MT per a la post-edició és mesurant el temps que triga el traductor a corregir la sortida traduïda per la màquina.

Una altra manera de mesurar l'esforç de la post-edició és comptant el nombre de tabulacions de teclat que són necessàries per corregir el text traduït per la màquina per una traducció final humana. Això és independent de les restriccions temporals, però tampoc té en compte la possibilitat de múltiples traduccions correctes.

Avaluació basada en tasques

A continuació, hi ha l'avaluació basada en tasques que, com el seu nom indica, avalua un sistema MT en funció de com s'adapta a la tasca que tracta. Per exemple, si s'utilitza en el marc d'un webinari multilingüe, es podria demanar als participants que valorin la seva experiència amb una transcripció traduïda per la màquina. Això vol dir que estan valorant l'èxit del sistema MT en el seu conjunt i en el context.

El problema d'aquest enfocament és que està molt obert a la introducció d'altres elements incontrolats que puguin afectar la qualificació que donen els avaluadors. Com a tal, l'ús de l'avaluació basada en tasques és molt situacional.

Reptes generals en l'avaluació humana

Com hem vist, els diferents tipus d'avaluació humana de MT vénen amb els seus propis reptes. També hi ha alguns reptes que comparteixen tots, i aquests tenen a veure amb la coherència o l'acord.

Acord entre anotadors

Això fa referència a la coherència de les puntuacions entre els diferents avaluadors. Com hem esmentat anteriorment, els diferents avaluadors tindran tendències variables en la manera de puntuar els mateixos segments de text. Poden anar més als extrems o ser més neutrals. En classificar diferents motors MT, les seves opinions també poden variar. Per això és important comptar amb múltiples avaluadors, de manera que la distribució de les puntuacions es normalitzarà.

Coincidència del mateix avaluador

La forma en què un sol avaluador puntua un text també és una mesura de validesa. Un avaluador pot qualificar una frase com a bona o dolenta la primera vegada, però podria canviar d'opinió en repetir la mateixa prova. Fer una segona prova al mateix avaluador i veure si la puntuació coincideix garanteix que l'avaluador escollit es pugui considerar coherent i fiable.

Avaluació automàtica: L'opció expansible

L'avaluació humana es considera l'estàndard d'or a l'hora d'avaluar la qualitat de la traducció automàtica. No obstant això, és un esforç costós en termes d'esforç i temps. És per això que els investigadors del camp han desenvolupat diferents mitjans d'avaluació de la qualitat MT mitjançant processos automatitzats.

Aquests processos estan dissenyats per aproximar com els humans avaluaran el sistema MT. Per descomptat, estan lluny de ser perfectes, però l'avaluació automàtica encara té casos d'ús molt importants.

El principal avantatge de l'avaluació automàtica sobre l'avaluació humana és la seva expansibilitat. És molt més ràpid executar centenars d'instàncies d'avaluació automàtica que fins i tot una ronda d'avaluació humana. Això la converteix en una solució ideal a l'hora de fer retocs o optimitzar el sistema MT, que necessita resultats ràpids.

Reptes en l'avaluació automàtica

A diferència dels humans, les màquines no estan equipades per gestionar els diferents matisos de l'ús del llenguatge. Els sistemes d'avaluació automàtica es basen en que la MT tingui una coincidència exacta amb un text de referència, i les diferències menors poden tenir un impacte en la puntuació final. Aquestes diferències poden incloure desviacions en la morfologia, l'ús de sinònims, i l'ordre gramatical.

Coses que podrien ser considerades tècnicament o més o menys correctes per un avaluador humà poden ser penalitzades en l'avaluació automàtica. No obstant això, el nombre de coincidències exactes, especialment quan es considera una gran mostra de text, sovint és suficient per fer viable l'avaluació automàtica per al seu ús.

Mètriques d'avaluació automàtica

Hi ha diverses mètriques d'avaluació automàtica disponibles avui en dia. Aquests són alguns exemples dels que s'utilitzen:

 

     BLEU (Subestudi d'Avaluació Bilingüe)

     NIST (de l'Institut Nacional d'Estàndards i Tecnologia)

     METEOR (Mètrica per a l'avaluació de la traducció amb ordenació explícita)

     LEPOR (Penalització de longitud, precisió, diferència de posició i memòria)

     COMET (Mètrica Interlingüística Optimitzada per a l'Avaluació de la Traducció)

     PRIS 

     TER (taxa d'errors de traducció)

Cada mètrica treballa en diferents algoritmes i, com a tal, processen l'avaluació automàtica de manera diferent. Això vol dir que tenen diferents punts forts i febles, i difereixen quant a quin tipus d'errors donen penes superiors o inferiors.

BLEU, la mètrica més popular

De totes les mètriques enumerades anteriorment, BLEU és la que s'utilitza més habitualment. Va ser una de les primeres mètriques a aconseguir un alt nivell de correlació amb l'avaluació humana, i ha engendrat moltes variacions diferents.

Les frases individuals es puntuen en relació amb un conjunt de traduccions de referència d'alta qualitat. Amb aquestes puntuacions es fan mitjanes, i el nombre resultant és la puntuació final BLEU per a aquest sistema MT. Aquesta puntuació representa fins a quin punt la sortida del sistema MT coincideix amb la traducció de referència humana, que és l'indicadora de qualitat.

Les puntuacions es calculen utilitzant unitats anomenades n-grams, que fan referència a segments de text consecutiu. Tornant a la frase d'exemple anterior, per exemple:

El gat marró i ràpid va saltar per damunt del gos mandrós.

Això es pot dividir en n-grams de diferent longitud. Un 2-gram, per exemple, seria “El gat”, “gat marró, o “gos mandròs”. Un 3-gram seria “El gat marró” o “marró i ràpid”. Un 4-gram seria “gat marró i ràpid”. I així, successivament.

És un procés matemàtic complex, però en termes bàsics l'algorisme de BLEU calcula la puntuació comprovant el nombre de superposicions entre n-grams. La puntuació calculada estarà entre 0 i 1, amb 1 representant una coincidència completament idèntica entre l'oració de referència (humana) i la sortida de la màquina. Ara agafarem la següent variació sobre la frase d'exemple:

El gat marró i veloç va saltar per damunt del gos mandrós.

Tots els n-grams coincidiran excepte els que tenen la paraula “veloç”. Un altre exemple:

El gat marró i ràpid va saltar per damunt del gos.

En aquest exemple, falta la paraula “mandrós”, de manera que també impacta negativament en la superposició. En tots dos casos, la puntuació del BLEU seguiria sent alta, però inferior a 1.

A la pràctica, no moltes frases mostraran aquest alt nivell de correlació. Com a tal, les puntuacions de BLEU només esdevenen estadísticament significatives quan es prenen en el context d'una gran mostra de text o corpus.

Hi ha, per descomptat, altres factors que entren en calcular la puntuació del BLEU, com les penalitzacions per paraules extres o frases molt curtes. S'han desenvolupat altres sistemes de puntuació derivats per compensar les seves deficiències, però BLEU segueix sent altament valorat i continua sent el sistema d'avaluació MT més utilitzat actualment.

Reflexions finals sobre l'avaluació de MT

Hem abastat els conceptes bàsics de l'avaluació de la traducció automàtica. Com hem demostrat, avaluar un sistema MT es pot fer mitjançant l'avaluació humana o l'avaluació automàtica. Tots dos processos tenen els seus avantatges i desavantatges.

L'avaluació humana és l'estàndard d'or en termes de qualitat, però és cara i requereix molt de temps. La traducció automàtica no és tan precisa, però és ràpida i expansible. Com a tal, els dos tipus tenen els seus casos d'ús específics on destaquen.