10/05/2024

Valutazione della traduzione automatica: la guida definitiva

Supponiamo che la tua azienda abbia deciso di investire in un sistema di traduzione automatica. Hai fatto alcune ricerche di base e hai scoperto che ci sono davvero tante opzioni tra cui scegliere. Ognuno afferma di ottenere un determinato punteggio in base a determinate metriche, ma non sai cosa significano realmente i numeri. Come fai a sapere qual è la soluzione migliore per te?

Devi capire come funziona la valutazione della traduzione automatica.

Questo articolo approfondirà il tema della valutazione della traduzione automatica,ti aiuterà a capire cos’è, perché ne hai bisogno e i diversi tipi di valutazione, per aiutarti a prendere una decisione informata nella scelta di un sistema di traduzione automatica in cui investire.

Introduzione: Cos’è la valutazione della traduzione automatica?

La valutazione della traduzione automatica si riferisce ai diversi processi di misurazione delle prestazioni di un sistema di traduzione automatica.

È un modo per valutare la qualità della traduzione automatica, in modo da poter sapere quanto è buono il sistema, e c’è una solida base per confrontare l’efficacia dei diversi sistemi di traduzione automatica. A tale scopo, la valutazione della traduzione automatica si avvale di metriche quantificabili.

Perché le metriche di valutazione della traduzione automatica sono importanti?

Ci sono due ragioni principali per cui è necessario valutare le prestazioni di un sistema di traduzione automatica. Il primo è verificare se è sufficiente per l’applicazione nel mondo reale. Il secondo è quello di fungere da guida per la ricerca e lo sviluppo.

Per verificare se è sufficiente per l’applicazione nel mondo reale

La prima cosa da fare, ovviamente, è determinare se il sistema MT funziona a un livello sufficientemente buono per l’uso effettivo. Questo è il motivo che ha una rilevanza più diretta per gli utenti finali. Se il sistema di traduzione automatica funziona male, è più probabile che gli utenti ne scelgano un altro.

I settori industriali che utilizzano la traduzione automatica richiederebbero anche metriche concrete per decidere quale sistema di traduzione automatica utilizzare. Dopotutto, la traduzione automatica è un investimento e le aziende devono ottenere il miglior rapporto qualità-prezzo.

Pertanto, gli sviluppatori di traduzione automatica devono valutare se la qualità del sistema di traduzione automatica è sufficiente per inviarlo ai clienti.

Servire da guida nella ricerca e sviluppo

I sistemi di traduzione automatica, idealmente, non sono un’entità statica. La tecnologia per la traduzione automatica migliora continuamente nel tempo. È logico che ci si debba aspettare che anche i sistemi di traduzione automatica migliorino.

È qui che entra in gioco la ricerca e i ricercatori devono avere una guida su dove cercare. Le metriche misurabili consentono ai ricercatori di confrontare se un particolare approccio è migliore di un altro, aiutandoli a mettere a punto il sistema.

Ciò è particolarmente utile per vedere come il sistema gestisce gli errori di traduzione consistenti. La disponibilità di metriche misurabili può mostrare in un ambiente più controllato se un particolare approccio è in grado o meno di gestire questo tipo di errori.

Come valutate il successo della traduzione automatica?

Esistono due modi diversi per determinare le prestazioni di un sistema di traduzione automatica. La valutazione umana viene svolta da esperti umani che eseguono una valutazione manuale, mentre la valutazione automatica utilizza metriche basate sull’intelligenza artificiale sviluppate appositamente per valutare la qualità della traduzione senza intervento umano. Ognuna ha i suoi vantaggi e svantaggi. Approfondiremo ulteriormente entrambi i tipi di valutazione della traduzione automatica nelle sezioni successive di questo articolo, ma prima una rapida panoramica dei due tipi di valutazione della traduzione automatica, nonché degli approcci alla valutazione della traduzione automatica che li utilizzano.

Valutazione umana vs. valutazione automatica

La valutazione umana della traduzione automatica significa che la valutazione della qualità della traduzione viene effettuata da traduttori professionisti umani. Questa è l’opzione più efficace per determinare la qualità delle traduzioni automatiche fino al livello delle frasi. Ma la valutazione umana, come la traduzione umana, è per sua natura più costosa e richiede più tempo.

La valutazione automatica, invece, utilizza programmi creati appositamente per valutare la qualità della traduzione automatica secondo diversi metodi. Non è affidabile quanto la valutazione umana a livello di frase, ma è una buona opzione scalabile per valutare la qualità complessiva della traduzione su più documenti.

Approcci alla valutazione della traduzione automatica

Gli approcci alla valutazione della traduzione automatica si basano sul concetto di granularità,ovvero i diversi livelli ai quali il punteggio potrebbe essere considerato significativo.

Approccio basato sulla frase:a ciascuna frase viene assegnato un punteggio che indica se la sua traduzione è buona (1) o non buona (0) e al totale viene data una media. Questo viene fatto più comunemente nella valutazione umana.

Approccio basato sui documenti:conosciuto anche come approccio basato sul corpus, dove alle frasi vengono assegnati anche dei punteggi, ma il punteggio significativo è il totale o la media tra una serie più ampia di documenti. Questo è il livello più basso al quale la valutazione automatica della traduzione automatica può essere considerata significativa, poiché dipende in larga misura dalle statistiche provenienti da un ampio set di dati.

Approccio basato sul contesto:è diverso da quelli precedenti in quanto prende in considerazione il grado di adattamento complessivo dell’attività di traduzione automatica agli scopi a cui è stata assegnata, piuttosto che attraverso i punteggi medi basati sulle frasi. In quanto tale, potrebbe essere considerato un approccio olistico alla valutazione della traduzione automatica.

Sfide nella valutazione della traduzione automatica

La valutazione della traduzione automatica è un processo difficile,perché il linguaggio stesso è una cosa molto complessa.

Innanzitutto, possono esserci più traduzioni corrette. Prendiamo, ad esempio, la seguente frase:

La veloce volpe bruna saltò sul cane pigro.

Un sistema di traduzione automatica potrebbe invece generare la seguente traduzione:

La veloce volpe bruna si avventò sul cane indolente.

Si tratta di una traduzione tecnicamente corretta e nella valutazione umana sarebbe normalmente contrassegnata come tale. Ma nella valutazione automatica, verrebbe contrassegnata come errata.

Anche piccoli dettagli possono cambiare completamente il significato di una frase.

La celere volpe bruna saltò sul cane pigro.

Qui è stata cambiata solo una parola,ma quella parola cambia completamente il significato della frase. È probabile che le valutazioni automatiche la classifichino più in alto rispetto all’esempio precedente. È probabile che i traduttori umani rilevino l’errore, ma alcuni potrebbero considerarla corretta.

E questo perché la lingua può essere soggettiva. Anche i valutatori umani possono differire nei loro giudizi sul fatto che una traduzione sia buona o meno.

Valutazione umana: lo standard d’oro

Ora che abbiamo esaminato le basi, diamo un’occhiata approfondita ai due tipi di valutazione della traduzione automatica, a cominciare dalla valutazione umana.

Al livello più elementare, l’obiettivo della traduzione automatica è tradurre il testo da una lingua di origine in una lingua di destinazione a un livello comprensibile per gli esseri umani. Pertanto, gli esseri umani sono il miglior punto di riferimento per valutare la qualità della traduzione automatica.

Tipi di valutazione umana

Esistono diversi modi in cui viene eseguita la valutazione umana, che ora esamineremo:

Valutazione diretta

Questo è il tipo più semplice di valutazione umana:il risultato della traduzione automatica viene valutato a livello di frase.

La sfida della valutazione diretta è che i diversi giudici varieranno notevolmente il modo in cui assegneranno i punteggi. Alcuni tendono ad andare all’estremo in termini di punteggio, contrassegnando le traduzioni come pessime o molto buone. Altri possono interpretarle in modo più conservativo, contrassegnando le stesse frasi con punteggi più vicini alla metà.

Un’altra sfida è, ancora una volta, la soggettività. Nel giudicare se una frase è una traduzione errata o meno, i valutatori devono prendere decisioni su un linguaggio che è ambiguo. Tornando alla frase di esempio:

La veloce volpe bruna saltò sopra il pigro canide.

Qui, canide non è necessariamente sbagliato, ma non è nemmeno la soluzione migliore. Alcuni valutatori potrebbero considerarlo sufficiente, mentre altri potrebbero contrassegnarlo come completamente sbagliato. Ad esempio, se il punteggio viene stabilito su una scala a 5 punti, alcuni traduttori potrebbero contrassegnarlo con 4, mentre altri potrebbero assegnargli solo 2.

Queste sfide possono essere compensate impiegando un pool più ampio di valutatori, che consentirà di normalizzare i punteggi in termini statistici.

Classifica

Un altro modo per valutare i sistemi di traduzione automatica attraverso la valutazione umana è la classificazione.

In questo caso, i valutatori non forniscono punteggi individuali per le frasi, ma confrontano invece le traduzioni di diversi sistemi di traduzione automatica. Quindi decidono qual è la traduzione migliore, qual è la seconda migliore e così via.

Il vantaggio di questo metodo rispetto alla valutazione diretta è che fornisce immediatamente un confronto diretto, anziché confrontare i punteggi generati in diversi studi e possibilmente da diversi valutatori.

Tuttavia, soffre ancora della sfida della soggettività. È probabile che sistemi di traduzione automatica diversi generino errori diversi. Ad esempio:

La veloce volpe verde saltò sul cane pigro.

Veloce volpe bruna saltò sul cane pigro.

La veloce volpe bruna salta sul cane pigro.

Ogni frase contiene un semplice errore. La prima ha un errore di traduzione. La seconda omette l’articolo. La terza sbaglia il tempo verbale.

I valutatori ora devono decidere quale errore è più importante dell’altro e, ancora una volta, i valutatori possono avere opinioni diverse in merito.

Impegno di post-editing

Se lo scopo dell’utente di un sistema di traduzione automatica è preparare i documenti per il post-editing, ci sono anche modi per valutarli in base alla quantità di impegno necessario per il post-editing.

Lo scopo fondamentale del post-editing è consentire a un traduttore di lavorare più velocemente che se traducesse un testo da zero. Pertanto, il modo più semplice per valutare un sistema di traduzione automatica per il post-editing è misurare il tempo impiegato dal traduttore per correggere l’esito della traduzione automatica.

Un altro modo per misurare lo sforzo di post-editing è tabulare il numero di battute sulla tastiera necessarie per sostituire il testo tradotto automaticamente con una traduzione di riferimento umana. Ciò è indipendente dai vincoli temporali, ma non prende in considerazione la possibilità di più traduzioni corrette.

Valutazione basata sull‘attività

Poi c’è la valutazione basata sull’attività che, come suggerisce il nome, valuta un sistema di traduzione automatica in base alla sua idoneità all’attività da svolgere. Ad esempio, se viene utilizzata in un’impostazione di webinar multilingue, ai partecipanti potrebbe essere chiesto di valutare la propria esperienza con una trascrizione tradotta automaticamente. Ciò significa che stanno valutando il successo del sistema di traduzione automatica nel suo complesso.

Il problema di questo approccio è che è molto aperto all’introduzione di altri elementi incontrollati che possono influenzare il punteggio assegnato dai valutatori. Pertanto, l’uso della valutazione basata sull’attività è molto situazionale.

Sfide generali nella valutazione umana

Come si può vedere, i diversi tipi di valutazione umana della traduzione automatica presentano le proprie sfide. Ci sono anche alcune sfide che condividono ampiamente, e queste hanno a che fare con la coerenza o l’accordo.

Accordo tra annotatori

Si riferisce alla coerenza dei punteggi tra diversi valutatori. Come accennato in precedenza, valutatori diversi avranno tendenze diverse nel modo in cui assegnano un punteggio agli stessi segmenti di testo. Alcuni possono segnarli agli estremi o verso la metà. Quando si classificano diversi motori di traduzione automatica, anche le loro opinioni possono variare. Ecco perché è importante avere più valutatori, in modo che la distribuzione dei punteggi sia normalizzata.

Accordo interno dell’annotatore

Anche il modo in cui un singolo valutatore assegna un punteggio a un testo è una misura della validità. Un valutatore potrebbe valutare una frase come buona o cattiva la prima volta, ma potrebbe cambiare idea ripetendo lo stesso test. Avere un’elevata misurazione dell’accordo interno dell’annotatore garantisce che il valutatore scelto possa essere considerato coerente e affidabile.

Valutazione automatica: l’opzione scalabile

La valutazione umana è considerata lo standard d’oro quando si tratta di valutare la qualità della traduzione automatica. Tuttavia, è un impegno costoso in termini di impegno e tempo. Ecco perché i ricercatori del settore hanno sviluppato diversi metodi per valutare la qualità della traduzione automatica attraverso processi automatizzati.

Questi processi sono progettati per approssimare il modo in cui gli esseri umani valuteranno il sistema di traduzione automatica. Naturalmente, sono tutt’altro che perfetti, ma la valutazione automatica ha ancora casi d’uso molto importanti.

Il principale vantaggio della valutazione automatica rispetto alla valutazione umana è la sua scalabilità. È molto più veloce eseguire centinaia di istanze di valutazione automatica rispetto a un solo ciclo di valutazione umana. Questo la rende una soluzione ideale per apportare modifiche od ottimizzare il sistema di traduzione automatica, che richiede risultati rapidi.

Sfide nella valutazione automatica

A differenza degli umani, le macchine non sono attrezzate per gestire le diverse sfumature dell’uso della lingua. I sistemi di valutazione automatica si basano sul presupposto che la traduzione automatica abbia una corrispondenza esatta con un testo di riferimento e piccole differenze possono avere un impatto sul punteggio finale. Queste differenze possono includere deviazioni nella morfologia, nell’uso di sinonimi e nell’ordine grammaticale.

Tutto ciò che può essere considerato tecnicamente o più o meno corretto da un valutatore umano può essere penalizzato dalla valutazione automatica. Tuttavia, il numero di corrispondenze esatte, soprattutto se si considera un ampio campione di testo, è spesso sufficiente per rendere possibile l’uso della valutazione automatica.

Metriche di valutazione automatiche

Oggi sono disponibili diverse metriche di valutazione automatica. Ecco alcuni esempi di quelle in uso:

 

      BLEU (Bilingual Evaluation Understudy, sottostudio di valutazione bilingue) 

      NIST (dal National Institute of Standards and Technology)

      METEOR (Metric for Evaluation of Translation with Explicit Ordering, metrica per la valutazione della traduzione con ordinamento esplicito)

      LEPOR (Length-Penalty, Precision, n-gram Position Difference Penalty and Recall, penalità di lunghezza, precisione, penalità di differenza di posizione in n-gram e richiamo)

      COMET 

      PRIS

      TER (Translation Error Rate, tasso di errore di traduzione)

Ogni metrica funziona su algoritmi diversi e come tale gestisce il processo di valutazione automatica in modo diverso. Ciò significa che hanno punti di forza e di debolezza diversi e differiscono in base al tipo di errore a cui assegnano penalità più o meno elevate.

BLEU, la metrica più popolare

Di tutte le metriche sopra elencate, BLEU è quella più comunemente utilizzata. È stata una delle prime metriche a raggiungere un alto livello di correlazione con la valutazione umana e ha generato molte varianti diverse.

Il modo in cui funziona è che le singole frasi vengono valutate rispetto a una serie di traduzioni di riferimento di alta qualità. Questi punteggi vengono quindi mediati e il numero risultante è il punteggio BLEU finale per quel sistema di traduzione automatica. Questo punteggio indica quanto l’esito del sistema di traduzione automatica corrisponda alla traduzione di riferimento umana, che è l’indicatore della qualità.

I punteggi vengono calcolati utilizzando unità chiamate n-gram, che si riferiscono a segmenti di testo consecutivi. Tornando alla frase di esempio precedente, ad esempio:

La veloce volpe bruna saltò sul cane pigro.

Questa può essere divisa in n-gram di diversa lunghezza. Un 2-gram, ad esempio, sarebbe ”La veloce”, ”veloce volpe” o ”volpe bruna”. Un 3-grami sarebbe ”La veloce volpe” o ”veloce volpe bruna”. Un 4-gram sarebbe ”La veloce volpe bruna”. E così via.

È un processo matematico complesso, ma in termini di base l’algoritmo di BLEU calcola il punteggio controllando il numero di sovrapposizioni tra n-gram. Il punteggio calcolato sarà compreso tra 0 e 1, dove 1 rappresenta una corrispondenza completamente identica tra la frase di riferimento e quella di esito. Ora prendiamo la seguente variazione sulla frase di esempio:

La celere volpe bruna saltò sul cane pigro.

Tutti gli n-gram corrisponderanno tranne quelli che hanno la parola clere”. Un altro esempio:

La veloce volpe bruna saltò sopra il cane.

In questo esempio, manca la parola ”pigro”, quindi anche questo ha un impatto negativo sulla sovrapposizione. In entrambi i casi, il punteggio BLEU sarebbe comunque alto, ma inferiore a 1.

In pratica, non molte frasi mostreranno questo alto livello di correlazione. Pertanto, i punteggi BLEU diventano statisticamente significativi solo se presi nel contesto di un ampio campione di testo, o corpora.

Ci sono, ovviamente, altri fattori che contribuiscono al calcolo del punteggio BLEU, come penalità per parole extra o frasi molto brevi. Altri sistemi di punteggio derivati sono stati sviluppati per compensare le sue carenze, ma BLEU rimane molto apprezzato e continua a essere il sistema di valutazione della traduzione automatica più utilizzato al giorno d’oggi.

Ultime considerazioni sulla valutazione della traduzione automatica

Questo copre le basi della valutazione della traduzione automatica. Come abbiamo dimostrato, la valutazione di un sistema di traduzione automatica può essere effettuata tramite valutazione umana o valutazione automatica. Entrambi i processi presentano vantaggi e svantaggi.

La valutazione umana è lo standard d’oro in termini di qualità, ma è costosa e richiede tempo. La traduzione automatica non è altrettanto accurata, ma è rapida e scalabile. Pertanto, entrambe le tipologie hanno i loro casi d’uso specifici in cui eccellono.