10/05/2024

Evaluatie van machinevertaling: De ultieme gids

Stel dat u een bedrijf bent dat heeft besloten te investeren in een automatisch vertaalsysteem. U heeft wat onderzoek gedaan en ontdekt dat er vele mogelijkheden zijn om uit te kiezen. Ze claimen allemaal een specifiekee waardering te scoren op basis van bepaalde statistieken, maar u weet niet wat de cijfers echt inhouden. Hoe weet u nu welke het beste bij u past?

U dient te begrijpen hoe de evaluatie van machinevertalingen werkt.

In dit artikel wordt dieper ingegaan op het onderwerp evaluatie van machinevertalingen. Het zal u helpen om te begrijpen wat het is, waarom u het nodig heeft en de verschillende soorten evaluaties, zodat u een weloverwogen beslissing kunt nemen bij de keuze van de investering in een MT-systeem.

Inleiding: Wat is evaluatie van machinevertaling?

Evaluatie van machinevertalingen verwijst naar de verschillende processen voor het meten van de prestaties van een automatisch vertaalsysteem.

Het is een manier om de kwaliteit van MT te beoordelen, zodat het mogelijk is om te weten hoe goed het systeem is, en er is een solide basis om de effectiviteit van verschillende MT-systemen te vergelijken. Hiervoor maakt de evaluatie van automatische vertalingen gebruik van kwantificeerbare statistieken.

Waarom zijn evaluatiestatistieken voor machinevertalingen belangrijk?

Er zijn twee belangrijke redenen waarom de prestaties van een MT-systeem moeten worden geëvalueerd. De eerste is om te controleren of het goed genoeg is voor toepassingen in de praktijk. De tweede is om als leidraad te dienen voor onderzoek en ontwikkeling.

Om te controleren of het goed genoeg is voor toepassingen in de praktijk

Allereerst moet natuurlijk worden vastgesteld of het MT-systeem werkt op een niveau dat goed genoeg is voor daadwerkelijk gebruik. Dit is voor eindgebruikers de reden die het meest relevant is. Als het automatische vertaalsysteem slecht presteert, is de kans groter dat gebruikers voor iets anders kiezen.

Industriële sectoren die MT gebruiken, zouden ook concrete statistieken willen hebben om te bepalen welk MT-systeem ze willen gebruiken. MT is immers een investering en bedrijven moeten de beste prijs-kwaliteitverhouding krijgen.

Daarom moeten MT-ontwikkelaars beoordelen of de kwaliteit van het automatische vertaalsysteem goed genoeg is om het naar klanten te sturen.

Om als leidraad te dienen bij onderzoek en ontwikkeling

MT-systemen zijn idealiter geen statische entiteit. De technologie voor MT wordt in de loop van de tijd voortdurend verbeterd. Het is logisch dat de MT-systemen naar verwachting ook zullen verbeteren.

Dit is waar onderzoek om de hoek komt kijken, en onderzoekers hebben wat aanwijzingen nodig om te weten waar ze moeten zoeken. Met meetbare statistieken kunnen onderzoekers vergelijken of een bepaalde aanpak beter is dan een andere, waardoor ze het systeem kunnen verfijnen.

Dit is vooral goed om te zien hoe het systeem omgaat met consistente vertaalfouten. Het hebben van meetbare statistieken kan in een meer gecontroleerde omgeving aantonen of een bepaalde aanpak al dan niet in staat is om met dit soort fouten om te gaan.

Hoe evalueert u het succes van machinevertaling?

Er zijn twee verschillende manieren om te bepalen hoe goed een MT-systeem presteert. Menselijke evaluatie wordt uitgevoerd door menselijke experts die handmatige beoordelingen uitvoeren, terwijl automatische evaluatie gebruikmaakt van op AI gebaseerde statistieken die speciaal zijn ontwikkeld voor het beoordelen van de vertaalkwaliteit zonder menselijke tussenkomst. Elk heeft zijn eigen voor- en nadelen. In de latere secties van dit artikel gaan we dieper in op beide soorten MT-evaluatie, maar eerst volgt hier een kort overzicht van de twee soorten evaluatie van automatische vertalingen, evenals de benaderingen voor MT-evaluatie die hiervan gebruik maken.

Menselijke evaluatie versus automatische evaluatie

Menselijke evaluatie van machinevertaling houdt in dat de beoordeling van de vertaalkwaliteit wordt uitgevoerd door menselijke professionele vertalers. Dit is de meest effectieve optie als het gaat om het bepalen van de kwaliteit van machinevertalingen tot op het niveau van de zinnen. Maar menselijke evaluatie is, net als bij menselijke vertaling, van nature duurder en tijdrovender.

Automatische evaluatie maakt daarentegen gebruik van programma's die speciaal zijn ontwikkeld om de kwaliteit van de automatische vertaling te beoordelen op basis van verschillende methoden. Het is niet zo betrouwbaar als menselijke evaluatie op zinsniveau, maar het is een goede schaalbare optie voor het evalueren van de algehele kwaliteit van de vertaling van meerdere documenten.

Benaderingen voor MT-evaluatie

De benaderingen voor de evaluatie van machinevertalingen zijn gebaseerd op het concept van granulariteit. Dat wil zeggen, de verschillende niveaus waarop de score als significant kan worden beschouwd.

Op zinnen gebaseerde aanpak. Bij deze benadering krijgt elke zin een score die aangeeft of de vertaling goed is (1) of niet goed (0) en voor het totaal wordt een gemiddelde gegeven. Dit wordt meestal gedaan bij menselijke evaluatie.

Op documenten gebaseerde aanpak. Bij deze benadering, die ook wel bekend staat als de corpusgebaseerde benadering, krijgen zinnen ook scores, maar de significante score is het totaal of het gemiddelde van een grotere set documenten. Dit is het kleinste niveau waarop geautomatiseerde MT-evaluatie als significant kan worden beschouwd, aangezien deze sterk afhankelijk is van statistieken uit een brede dataset.

Context-gebaseerde aanpak. Deze benadering verschilt van de vorige, omdat hierbij rekening wordt gehouden met hoe goed de algemene MT-taak past bij de doelen waarvoor ze is bedoeld, in plaats van op basis van gemiddelde scores op basis van zinnen. Als zodanig kan deze worden beschouwd als een holistische benadering van MT-evaluatie.

Uitdagingen bij de evaluatie van automatische vertalingen

Evaluatie van machinevertalingen is een moeilijk proces. Dat komt omdat taal zelf heel complex is.

Ten eerste kunnen er meerdere correcte vertalingen zijn. Neem bijvoorbeeld de volgende zin:

De vlugge bruine vos sprong over de luie hond.

Een MT-systeem kan in plaats daarvan de volgende vertaling genereren:

De snelle bruine vos sprong over de trage hond heen.

Dit is een technisch correcte vertaling, en bij menselijke evaluatie zou deze normaal gesproken als zodanig worden gemarkeerd. Maar bij geautomatiseerde evaluatie zou dit als onjuist worden gemarkeerd.

Kleine details kunnen ook de betekenis van een zin volledig veranderen.

De vlugge bruine vos sprong op de luie hond.

Hier is er maar één woord dat is veranderd. Maar dat ene woord verandert de betekenis van de zin volledig. Automatische evaluaties zullen dit waarschijnlijk hoger zetten dan in het vorige voorbeeld. Menselijke vertalers zullen de fout waarschijnlijk opmerken, maar sommigen vinden het misschien juist.

En dat komt omdat taal subjectief kan zijn. Zelfs menselijke beoordelaars kunnen van mening verschillen in hun oordeel over de vraag of een vertaling goed is of niet.

Menselijke evaluatie: de gouden standaard

Laten we, nu we de basisprincipes hebben doorgenomen, de twee soorten MT-evaluaties eens diepgaand bekijken, te beginnen met menselijke evaluatie.

Op het meest basale niveau is het doel van machinevertaling om tekst van een brontaal naar een doeltaal te vertalen op een niveau dat mensen kunnen begrijpen. Als zodanig zijn mensen het beste referentiepunt voor het beoordelen van de kwaliteit van machinevertaling.

Soorten menselijke evaluatie

Er zijn een aantal verschillende manieren waarop menselijke evaluatie wordt uitgevoerd, die we nu zullen bespreken:

Directe beoordeling

Dit is de meest eenvoudige menselijke evaluatie. De output van machinevertalingen wordt gescoord op het niveau van de zin.

De uitdaging bij directe beoordeling is dat verschillende beoordelaars sterk zullen verschillen in de manier waarop ze scoren. Sommigen hebben de neiging om tot uitersten te gaan als het gaat om scoren, waarbij ze vertalingen als zeer slecht of juist zeer goed markeren. Anderen spelen het misschien conservatiever en markeren dezelfde zinnen met scores die meer in het midden liggen.

Een andere uitdaging is, nogmaals, subjectiviteit. Om te beoordelen of een zin een slechte vertaling is of niet, moeten beoordelaars beslissingen nemen over taal die dubbelzinnig is. Om terug te gaan naar de voorbeeldzin:

De vlugge bruine vos sprong over de luie hondachtige heen.

Hier is de hondachtige niet noodzakelijk verkeerd, maar het past ook niet goed. Sommige beoordelaars vinden het misschien goed genoeg, terwijl anderen het misschien helemaal verkeerd vinden. Als er bijvoorbeeld op een 5-puntsschaal wordt gescoord, kunnen sommige vertalers een score van 4 geven, terwijl een andere slechts een 2 geeft.

Deze uitdagingen kunnen worden gecompenseerd door een grotere pool van beoordelaars in dienst te nemen, waardoor de scores statistisch kunnen worden genormaliseerd.

Rangschikking

Een andere manier om systemen voor machinevertaling te beoordelen door middel van menselijke evaluatie is rangschikking.

In dit geval geven beoordelaars geen individuele scores voor zinnen, maar vergelijken ze in plaats daarvan vertalingen uit verschillende MT-systemen. Vervolgens beslissen ze wat de beste vertaling is, wat de op een na beste is, enzovoort.

Het voordeel van deze methode ten opzichte van directe beoordeling is dat ze onmiddellijk een directe vergelijking oplevert, in tegenstelling tot het vergelijken van scores die zijn gegenereerd tijdens verschillende onderzoeken en mogelijk door verschillende beoordelaars.

Het wordt echter nog steeds beïnvloed door subjectiviteit. Verschillende MT-systemen zullen waarschijnlijk verschillende fouten bevatten. Bijvoorbeeld:

De vlugge groene vos sprong over de luie hond heen.

Vlugge bruine vos sprong over luie hond.

De vlugge bruine vos springen over de luie hond.

Elke zin bevat een simpele fout. De eerste bevat een vertaalfout. In de tweede worden lidwoorden weggelaten. In de derde ontbreken de werkwoordsvormen.

Beoordelaars moeten nu beslissen welke fout belangrijker is dan de andere, en ook hier kunnen beoordelaars over verschillen van mening.

Post-editing inspanning

Als het doel van een MT-systeem is om documenten klaar te maken voor nabewerking, zijn er ook manieren om dit te evalueren op basis van de inspanning die nodig is om ze te bewerken.

Het fundamentele doel van post-editing is om een vertaler sneller te laten werken dan wanneer hij een tekst helemaal opnieuw zou vertalen. Als zodanig is de eenvoudigste manier om een MT-systeem voor nabewerking te beoordelen, door te meten hoeveel tijd de vertaler nodig heeft om de automatisch vertaalde uitvoer te corrigeren.

Een andere manier om de inspanningen na de bewerking te meten, is door het aantal aanslagen op het toetsenbord te tellen dat nodig is om de machinaal vertaalde tekst te vervangen door een menselijke vertaling. Dit is onafhankelijk van tijdsbeperkingen, maar houdt ook geen rekening met de mogelijkheid van meerdere correcte vertalingen.

Taakgebaseerde evaluatie

Dan is er nog een taakgebaseerde evaluatie die, zoals de naam al doet vermoeden, een MT-systeem beoordeelt op basis van hoe geschikt het is voor de taak die moet worden uitgevoerd. Als het bijvoorbeeld wordt gebruikt in een meertalige webinaromgeving, kunnen deelnemers worden gevraagd hun ervaring te beoordelen met een automatisch vertaald transcript. Dit betekent dat ze het succes van het MT-systeem als geheel beoordelen.

Het probleem met deze aanpak is dat ze erg open staat voor de introductie van andere ongecontroleerde elementen die van invloed kunnen zijn op de waardering die beoordelaars geven. Daarmee is het gebruik van taakgebaseerde evaluatie erg situationeel.

Algemene uitdagingen op het gebied van menselijke evaluatie

Zoals u misschien wel kunt zien, hebben de verschillende soorten menselijke evaluatie van MT hun eigen uitdagingen. Er zijn ook enkele uitdagingen die ze in grote lijnen gemeen hebben, en deze hebben te maken met consistentie of overeenstemming.

Overeenkomst tussen de annotatoren

Dit verwijst naar de consistentie van scores tussen verschillende beoordelaars. Zoals we eerder al zeiden, zullen verschillende beoordelaars verschillende tendensen hebben wat betreft de manier waarop ze dezelfde tekstsegmenten scoren. Sommigen scoren ze misschien in de uitersten of in het midden. Bij het rangschikken van verschillende MT-engines kunnen hun meningen ook verschillen. Daarom is het belangrijk om meerdere beoordelaars te hebben, zodat de verdeling van de scores genormaliseerd wordt.

Intra-annotator-overeenkomst

De manier waarop een enkele beoordelaar een tekst scoort, is ook een maatstaf voor de validiteit. Een beoordelaar kan de eerste keer een zin even goed of slecht scoren, maar hij kan van gedachten veranderen als hij dezelfde test herhaalt. Een hoge mate van intra-annotator overeenkomst zorgt ervoor dat de gekozen beoordelaar als consistent en betrouwbaar kan worden beschouwd.

Automatische evaluatie: De schaalbare optie

Menselijke evaluatie wordt beschouwd als de gouden standaard als het gaat om het evalueren van de kwaliteit van machinevertaling. Het is echter een kostbare onderneming qua inspanning en tijd. Daarom hebben onderzoekers in het veld verschillende manieren ontwikkeld om de kwaliteit van MT te evalueren door middel van geautomatiseerde processen.

Deze processen zijn ontworpen om bij benadering te bepalen hoe mensen het MT-systeem zullen evalueren. Natuurlijk zijn ze daar verre van perfect in, maar automatische evaluatie heeft nog steeds zeer belangrijke gebruiksscenario's.

Het belangrijkste voordeel van automatische evaluatie ten opzichte van menselijke evaluatie is de schaalbaarheid ervan. Het is veel sneller om honderden automatische evaluaties uit te voeren dan zelfs maar één menselijke evaluatieronde. Dit maakt het een ideale oplossing voor het maken van aanpassingen of het optimaliseren van het MT-systeem, waarvoor snelle resultaten nodig zijn.

Uitdagingen bij automatische evaluatie

In tegenstelling tot mensen zijn machines niet uitgerust om de verschillende nuances van taalgebruik aan te kunnen. Automatische evaluatiesystemen gaan ervan uit dat het MT exact overeenkomt met een referentietekst, en kleine verschillen kunnen van invloed zijn op de eindscore. Deze verschillen kunnen bestaan uit afwijkingen in de morfologie, het gebruik van synoniemen en grammaticale volgorde.

Alles wat door een menselijke beoordelaar technisch of min of meer correct kan worden geacht, kan mogelijk worden bestraft bij automatische evaluatie. Desalniettemin is het aantal exacte overeenkomsten, vooral wanneer rekening wordt gehouden met een grote hoeveelheid tekst, vaak voldoende om automatische evaluatie bruikbaar te maken.

Automatische evaluatiestatistieken

Er zijn tegenwoordig een aantal verschillende automatische evaluatiestatistieken beschikbaar. Hier zijn enkele voorbeelden die in gebruik zijn:

● BLEU (tweetalige evaluatie, understudy)

● NIST (van het National Institute of Standards and Technology)

● METEOR (metriek voor de evaluatie van vertalingen met expliciete ordening)

● LEPOR (Length-Penalty, Precision, n-gram Position Difference Penalty and Recall)

● COMET

● PRIS

● TER (percentage vertaalfouten)

Elke statistiek werkt op verschillende algoritmen en gaat als zodanig anders om met het proces van automatische evaluatie. Dat betekent dat ze verschillende sterke en zwakke punten hebben, en verschillen wat betreft het soort fouten waarvoor ze hogere of lagere strafpunten geven.

BLEU, de meest populaire metriek

Van alle hierboven genoemde meetmethoden wordt BLEU het meest gebruikt. Het was een van de eerste maatstaven die een hoge mate van correlatie bereikte met menselijke evaluatie, en heeft geleid tot veel verschillende variaties.

Hoe het werkt, is dat individuele zinnen worden beoordeeld op basis van een reeks referentievertalingen van hoge kwaliteit. Deze scores worden vervolgens gemiddeld, en het resulterende getal is de uiteindelijke BLEU-score voor dat MT-systeem. Deze score geeft aan hoe nauwkeurig de output van het MT-systeem overeenkomt met de menselijke referentievertaling, de maatstaf voor kwaliteit.

De scores worden berekend met eenheden die n-grammen worden genoemd en die verwijzen naar segmenten van opeenvolgende tekst. Om terug te gaan naar de eerdere voorbeeldzin, bijvoorbeeld:

De vlugge bruine vos sprong over de luie hond.

Dit kan worden onderverdeeld in n-grammen van verschillende lengte. Een 2-gram is bijvoorbeeld „De vlugge”, „vlugge bruine” of „bruine vos”. Een 3-gram zou „Fr vlugge bruine” of „vlugge bruine vos” zijn. Een 4-gram zou „De vlugge bruine vos” zijn. En ga zo maar door.

Het is een complex wiskundig proces, maar in basistermen berekent het algoritme van BLEU de score door te kijken naar het aantal overlappingen tussen n-grammen. De berekende score ligt tussen 0 en 1, waarbij 1 een volledig identieke overeenkomst vertegenwoordigt tussen de referentie en de uitvoerzin. Neem nu de volgende variatie op de voorbeeldzin:

De snelle bruine vos sprong over de luie hond heen.

Alle n-grammen komen overeen, behalve degene met het woord „snel”. Nog een voorbeeld:

De vlugge bruine vos sprong over de hond heen.

In dit voorbeeld ontbreekt het woord „lui”, dus dat heeft ook een negatieve invloed op de overlap. In beide gevallen zou de BLEU-score nog steeds hoog zijn, maar minder dan 1.

In de praktijk zullen niet veel zinnen zo'n hoge mate van correlatie vertonen. Als zodanig worden BLEU-scores alleen statistisch significant wanneer ze worden genomen in de context van een grote steekproef van tekst, of corpora.

Er zijn natuurlijk nog andere factoren die een rol spelen bij het berekenen van de BLEU-score, zoals strafpunten voor extra woorden of zeer korte zinnen. Andere scoresystemen voor derivaten zijn ontwikkeld om de tekortkomingen ervan te compenseren, maar BLEU blijft hoog gewaardeerd en is nog steeds het meest gebruikte MT-evaluatiesysteem van vandaag.

Slotwoorden over MT-evaluatie

Tot zover de basisprincipes van evaluatie van machinevertalingen. Zoals we hebben aangetoond, kan het beoordelen van een MT-systeem worden gedaan door middel van menselijke evaluatie of automatische evaluatie. Beide processen hebben hun voor- en nadelen.

Menselijke evaluatie is de gouden standaard voor wat kwaliteit betreft, maar is duur en tijdrovend. Automatische vertaling is niet zo nauwkeurig, maar wel snel en schaalbaar. Beide typen hebben dus hun specifieke toepassingen waarin ze uitblinken.