10/05/2024

Evaluering af maskinoversættelse: Den ultimative guide

Lad os sige, at du er en virksomhed, der har besluttet at investere i et maskinoversættelsessystem. Du har foretaget nogle grundlæggende undersøgelser, og finder ud af, at der er så mange muligheder at vælge imellem. Hver enkelt hævder at score et bestemt beløb baseret på bestemte målinger, men du ved ikke, hvad tallene virkelig betyder. Hvordan ved du, hvilken der passer bedst til dig?

Du skal forstå, hvordan evaluering af maskinoversættelse fungerer.

Denne artikel vil gå i dybden med emnet evaluering af maskinoversættelse. Det hjælper dig med at forstå, hvad det er, hvorfor du har brug for det, og de forskellige typer evaluering, for at hjælpe dig med at træffe en velinformeret beslutning, når du vælger et MT-system at investere i.

Introduktion Hvad er evaluering af maskinoversættelse?

Evaluering af maskinoversættelse refererer til de forskellige processer, hvor man måler et maskinoversættelsessystems ydeevne.

Det er en måde at score kvaliteten af MT på, så det er muligt at vide, hvor godt systemet er, og der er et solidt grundlag for at sammenligne, hvor effektive forskellige MT-systemer er. For at gøre dette bruger evaluering af maskinoversættelse kvantificerbare metrikker.

Hvorfor er målinger til evaluering af maskinoversættelse vigtige?

Der er to hovedårsager til, at evaluering af ydeevnen af et MT-system skal udføres. Først skal man tjekke, om den er god nok til at blive brugt i den virkelige verden. Den anden er at tjene som en guide inden for forskning og udvikling.

For at kontrollere, om det er godt nok til anvendelse i den virkelige verden

Det første er selvfølgelig at finde ud af, om MT-systemet fungerer på et niveau, der er godt nok til at blive brugt i praksis. Det er den mest direkte begrundelse for slutbrugerne. Hvis maskinoversættelsessystemet fungerer dårligt, er brugerne mere tilbøjelige til at vælge noget andet.

Industrielle sektorer, der bruger MT, vil også gerne have konkrete parametre til at beslutte, hvilket MT-system de skal købe. MT er trods alt en investering, og virksomheder har brug for at få den bedste værdi for deres penge.

Som sådan skal MT-udviklere vurdere, om maskinoversættelsessystemets kvalitet er god nok til, at de kan sende det ud til kunderne.

At tjene som en guide i forskning og udvikling

MT-systemer er ideelt set ikke en statisk enhed. Teknologien til MT forbedres løbende over tid. Det giver mening, at MT-systemer også forventes at blive bedre.

Det er her, forskningen kommer ind i billedet, og forskerne har brug for en guide til, hvor de skal lede. Målbare målinger giver forskere mulighed for at sammenligne, om en bestemt tilgang er bedre end en anden, hvilket hjælper dem med at finjustere systemet.

Dette er især godt for at se, hvordan systemet håndterer konsekvente oversættelsesfejl. At have målbare målinger kan i en mere kontrolleret indstilling vise, om en bestemt tilgang er i stand til at håndtere denne slags fejl eller ej.

Hvordan vurderer du, om maskinoversættelse er en succes?

Der er to forskellige måder at afgøre, hvor godt et MT-system fungerer. Menneskelig evaluering udføres af menneskelige eksperter, der udfører manuel vurdering, mens automatisk evaluering bruger AI-baserede målinger, der er specielt udviklet til vurdering af oversættelseskvalitet uden menneskelig indgriben. Hver har sine egne fordele og ulemper. Vi vil komme nærmere ind på begge former for MT-evaluering i de efterfølgende afsnit af denne artikel, men først får du her et hurtigt overblik over de to former for evaluering af maskinoversættelse samt de tilgange til MT-evaluering, der gør brug af dem.

Menneskelig evaluering vs automatisk evaluering

Menneskelig evaluering af maskinoversættelse betyder, at vurderingen af oversættelsens kvalitet udføres af professionelle oversættere. Det er den mest effektive løsning, når det gælder om at bestemme kvaliteten af maskinoversættelser helt ned på sætningsniveau. Men menneskelig evaluering, som med menneskelig oversættelse, er af natur dyrere og tidskrævende.

Automatisk evaluering bruger på den anden side programmer, der er bygget specifikt til at vurdere kvaliteten af maskinoversættelse i henhold til forskellige metoder. Det er ikke så pålideligt som menneskelig evaluering på sætningsniveau, men er en god skalerbar mulighed, når man vurderer den overordnede kvalitet af oversættelsen på flere dokumenter.

Tilgange til MT-evaluering

Tilgangene til evaluering af maskinoversættelse er baseret på begrebet granularitet. Det vil sige de forskellige niveauer, hvor scoringen kan betragtes som signifikant.

Sætningsbaseret tilgang. Under denne tilgang får hver sætning en score, der siger, om dens oversættelse er god (1) eller ikke god (0), og det samlede antal får et gennemsnit. Dette gøres oftest i menneskelig evaluering.

Dokumentbaseret tilgang. Også kendt som den korpusbaserede tilgang, får sætninger også en karakter, men den signifikante karakter er det samlede eller gennemsnittet blandt et større sæt dokumenter. Dette er det mindste niveau, hvor automatiseret MT-evaluering kan betragtes som signifikant, da det afhænger meget af statistikker fra et bredt datasæt.

Kontekstbaseret tilgang. Denne tilgang adskiller sig fra de foregående, da det, den tager højde for, er, hvor godt den overordnede MT-opgave passer til de formål, den er sat til, snarere end gennem gennemsnitlige scoringer baseret på sætninger. Som sådan kan det betragtes som en holistisk tilgang til MT-evaluering.

Udfordringer ved evaluering af maskinoversættelse

Evaluering af maskinoversættelse er en vanskelig proces. Dette skyldes, at sproget i sig selv er en meget kompleks ting.

For det første kan der være flere korrekte oversættelser. Tag for eksempel følgende sætning:

Den hurtige brune ræv sprang over den dovne hund.

Et MT-system kan generere følgende oversættelse i stedet:

Den hurtige brune ræv kastede sig over den sløve hund.

Dette er en teknisk korrekt oversættelse, og i menneskelig evaluering ville den normalt blive markeret som sådan. Men i automatiseret evaluering ville det blive markeret som forkert.

Små detaljer kan også ændre en sætnings betydning fuldstændigt.

Den hurtige brune ræv sprang på den dovne hund.

Her er der kun et ord, der er blevet ændret. Men det ene ord ændrer betydningen af sætningen fuldstændigt. Automatiske evalueringer vil sandsynligvis give den en højere karakter end det foregående eksempel. Menneskelige oversættere vil sandsynligvis fange fejlen, men nogle anser det måske for korrekt.

Og det er fordi sprog kan være subjektivt. Selv menneskelige evaluatorer kan afvige i deres vurderinger om, hvorvidt en oversættelse er god eller ej.

Menneskelig evaluering: Guldstandarden

Nu, hvor vi har gennemgået det grundlæggende, skal vi se nærmere på de to typer MT-evaluering. Vi begynder med den menneskelige evaluering.

På det mest basale niveau er målet med maskinoversættelse at oversætte tekst fra et kildesprog til et målsprog på et niveau, som mennesker kan forstå. Som sådan er mennesker det bedste referencepunkt til at evaluere kvaliteten af maskinoversættelse.

Typer af menneskelig evaluering

Der er en række forskellige måder, hvorpå menneskelig evaluering udføres, som vi vil gå ind på nu:

Direkte vurdering

Dette er den mest enkle form for menneskelig evaluering. Maskinoversættelsesoutput scores på sætningsniveau.

Udfordringen med direkte vurdering er, at forskellige dommere vil variere meget i den måde, de scorer på. Nogle kan have en tendens til at gå efter ekstremerne med hensyn til score og markere oversættelser som enten meget dårlige eller meget gode. Andre er måske mere konservative og markerer de samme sætninger med en score, der ligger tættere på midten.

En anden udfordring er igen subjektivitet. For at bedømme, om en sætning er en dårlig oversættelse eller ej, skal evaluatorerne træffe beslutninger om sprog, der er tvetydigt. Tilbage til eksempelsætningen:

Den hurtige brune ræv sprang over den dovne hund.

Her er hund ikke nødvendigvis forkert, men det er heller ikke den bedste løsning. Nogle evaluatorer kan betragte det som godt nok, mens andre måske markerer det som helt forkert. For eksempel, hvis scoringen udføres på en 5-punkts skala, kan nogle oversættere markere den som 4, mens en anden måske kun giver den 2.

Disse udfordringer kan opvejes ved at ansætte en større pulje af evaluatorer, hvilket gør det muligt at normalisere scoringerne på statistiske vilkår.

Rangering

En anden måde at vurdere maskinoversættelsessystemer gennem menneskelig evaluering er rangering.

I dette tilfælde giver evaluatorer ikke individuelle scoringer for sætninger, men sammenligner i stedet mellem oversættelser fra forskellige MT-systemer. De beslutter derefter, hvilken der er den bedste oversættelse, hvilken er den næstbedste, og så videre.

Fordelen ved denne metode frem for direkte vurdering er, at den straks muliggør en direkte sammenligning i modsætning til at sammenligne scorer, der er genereret over forskellige forsøg og muligvis af forskellige evaluatorer.

Det lider dog stadig under udfordringen med subjektivitet. Forskellige MT-systemer vil sandsynligvis komme med forskellige fejl. For eksempel:

Den hurtige grønne ræv sprang over den dovne hund.

Hurtig brun ræv sprang over doven hund.

Den hurtige brune ræv hopper over den dovne hund.

Hver sætning har en simpel fejl. Den første har en fejloversættelse. Den anden udelader artikler. Den tredje mangler verbtider.

Evaluatorerne skal nu beslutte, hvilken fejl der er vigtigere end den anden, og igen kan evaluatorer have forskellige meninger om sagen.

Efterredigeringsindsats

Hvis brugerens formål med et MT-system er at forberede dokumenter til efterredigering, er der også måder at evaluere det på i forhold til den indsats, det kræver at efterredigere.

Det grundlæggende formål med efterredigering er at give en oversætter mulighed for at arbejde hurtigere, end hvis de skulle oversætte en tekst fra bunden. Den enkleste måde at vurdere et MT-system til efterredigering er derfor at måle den tid, det tager for oversætteren at rette det maskinoversatte output.

En anden måde at måle efterredigeringsindsatsen på er ved at opgøre antallet af anslag på tastaturet, som det ville tage at erstatte den maskinoversatte tekst med en menneskelig referenceoversættelse. Dette er uafhængigt af tidsbegrænsninger, men tager heller ikke hensyn til muligheden for flere korrekte oversættelser.

Opgavebaseret evaluering

Så er der opgavebaseret evaluering, der, som navnet antyder, vurderer et MT-system baseret på, hvor godt det passer til den aktuelle opgave. For eksempel, hvis det bruges i en flersproget webinar-indstilling, kan deltagerne blive bedt om at bedømme deres oplevelse med en maskinoversat udskrift. Det betyder, at de vurderer succesen med MT-systemet som helhed.

Problemet med denne tilgang er, at den er meget åben for indførelsen af andre ukontrollerede elementer, der kan påvirke evaluatorernes bedømmelse. Som sådan er brugen af opgavebaseret evaluering meget situationsbetinget.

Generelle udfordringer i menneskelig evaluering

Som du måske kan se, harr de forskellige typer af menneskelig evaluering af MT deres egne udfordringer. Der er også nogle udfordringer, som de deler bredt, og disse har at gøre med konsistens eller enighed.

Inter-annotatoraftale

Dette refererer til konsistensen af scoringer mellem forskellige evaluatorer. Som vi nævnte tidligere, vil forskellige evaluatorer have forskellige tendenser i den måde, de bedømmer de samme tekstsegmenter på. Nogle scorer dem måske i yderpunkterne eller i midten. Når man rangordner forskellige MT-motorer, kan deres meninger også variere. Det er derfor vigtigt at have flere evaluatorer, så fordelingen af scoringer bliver normaliseret.

Intra-annotatoraftale

Den måde, en enkelt bedømmer vurderer en tekst på, er også et udtryk for gyldighed. En vurderingsperson kan vurdere en sætning som god eller dårlig første gang, men han kan ændre mening, når han gentager den samme test. En høj måling af den interne enighed mellem evaluatorerne sikrer, at den valgte evaluator kan anses for at være konsekvent og pålidelig.

Automatisk evaluering: Den skalerbare mulighed

Menneskelig evaluering betragtes som guldstandarden, når det kommer til evaluering af kvaliteten af maskinoversættelse. Men det er en bekostelig affære i form af indsats og tid. Derfor har forskere på området udviklet forskellige metoder til at evaluere MT-kvalitet ved hjælp af automatiserede processer.

Disse processer er designet til at tilnærme, hvordan mennesker vil evaluere MT-systemet. Selvfølgelig er de langt fra perfekte til dette, men automatisk evaluering er stadig et meget vigtigt værktøj.

Den største fordel ved automatisk evaluering i forhold til menneskelig evaluering er dens skalerbarhed. Det er meget hurtigere at køre hundredvis af eksempler på automatisk evaluering end selv én runde med menneskelig evaluering. Dette gør det til en ideel løsning, når der skal foretages justeringer eller optimering af MT-systemet, som kræver hurtige resultater.

Udfordringer ved automatisk evaluering

I modsætning til mennesker er maskiner ikke udstyret til at håndtere sprogets forskellige nuancer. Automatiske evalueringssystemer forudsætter, at MT'en matcher nøjagtigt med en referencetekst, og at mindre forskelle kan have indflydelse på den endelige vurdering. Disse forskelle kan omfatte afvigelser i morfologi, brugen af synonymer og grammatisk rækkefølge.

Alt, der kan betragtes som teknisk eller mere eller mindre korrekt af en menneskelig evaluering, kan muligvis straffes i automatisk evaluering. Ikke desto mindre er antallet af nøjagtige matches, især når man overvejer en stor tekstprøve, ofte nok til at gøre automatisk evaluering mulig til brug.

Automatiske evalueringsmålinger

Der er en række forskellige automatiske evalueringsmålinger tilgængelige i dag. Her er nogle eksempler på dem, der er i brug:

● BLEU (Bilingual Evaluation Understudy)

● NIST (fra National Institute of Standards and Technology)

● METEOR (Metrisk til evaluering af oversættelse med eksplicit rækkefølge)

● LEPOR (længde-straf, præcision, n-gram positionsdifferensstraf og tilbagekaldelse)

● COMET

● PRIS

● TER (Oversættelsesfejlrate)

Hver metrik arbejder på forskellige algoritmer og håndterer som sådan processen med automatisk evaluering forskelligt. Det betyder, at de har forskellige styrker og svagheder og adskiller sig med hensyn til, hvilke slags fejl de giver højere eller lavere straffe.

BLEU, den mest populære metrik

Af alle de ovenfor nævnte målinger er BLEU den, der er mest almindeligt anvendt. Det var en af de første målinger, der opnåede en høj grad af korrelation med menneskelig evaluering, og den har givet anledning til mange forskellige variationer.

Det fungerer på den måde, at de enkelte sætninger bliver vurderet i forhold til et sæt referenceoversættelser af høj kvalitet. Derefter beregnes gennemsnittet af disse scores, og det resulterende tal er den endelige BLEU-score for det pågældende MT-system. Denne score repræsenterer, hvor tæt MT-systemets output matcher den menneskelige referenceoversættelse, som er markøren for kvalitet.

Scoringen beregnes ved hjælp af enheder, der kaldes n-grammer, som henviser til segmenter af fortløbende tekst. Går tilbage til den tidligere prøvesætning, for eksempel:

Den hurtige brune ræv sprang over den dovne hund.

Dette kan opdeles i n-gram af forskellig længde. Et 2 gram ville for eksempel være „Den hurtige“, „hurtige brune“ eller „brune ræv“. Et 3 gram ville være „Den hurtige brune“ eller „hurtig brun ræv“. En 4 gram ville være „Den hurtige brune ræv“. Osv.

Det er en kompleks matematisk proces, men i grundlæggende termer beregner BLEU's algoritme scoren ved at kontrollere antallet af overlapninger mellem n-gram. Den beregnede score vil være mellem 0 og 1, hvor 1 repræsenterer et helt identisk match mellem referencen og outputsætningen. Tag nu følgende variation på eksempelsætningen:

Den hurtige brune ræv sprang over den dovne hund.

Alle n-gram vil matche undtagen dem, der har ordet „hurtig“. Et andet eksempel:

Den hurtige brune ræv sprang over hunden.

I dette eksempel mangler ordet „doven“, så det påvirker også overlapningen negativt. I begge tilfælde ville BLEU-scoren stadig være høj, men mindre end 1.

I praksis er det ikke mange sætninger, der viser så høj en korrelation. Som sådan bliver BLEU-scoringer kun statistisk signifikante, når de ses i sammenhæng med en stor tekstprøve eller korpus.

Der er selvfølgelig andre faktorer, der indgår i beregningen af BLEU-scoren, såsom straffor ekstra ord eller meget korte sætninger. Andre afledte scoringssystemer er blevet udviklet for at kompensere for dets mangler, men BLEU er fortsat højt vurderet og er fortsat det mest anvendte MT-evalueringssystem i dag.

Afsluttende ord om MT-evaluering

Og det dækker det grundlæggende i evaluering af maskinoversættelse. Som vi har vist, kan vurdering af et MT-system ske gennem menneskelig evaluering eller automatisk evaluering. Begge processer har deres fordele og ulemper.

Menneskelig evaluering er guldstandarden med hensyn til kvalitet, men er dyr og tidskrævende. Automatisk oversættelse er ikke så nøjagtig, men den er hurtig og skalerbar. Som sådan har begge typer deres specifikke brugsscenarier, hvor de brillerer