10/05/2024

Zur Bewertung maschineller Übersetzungen: Der ultimative Leitfaden

Nehmen wir an, Sie sind ein Unternehmen, das beschlossen hat, in ein maschinelles Übersetzungssystem zu investieren. Sie haben erste Recherchen durchgeführt und festgestellt, dass die Auswahl groß ist. Alle Anbieter behaupten, dass sie bestimmte Kennzahlen erreichen und Metriken verwenden, aber Sie können mit diesen Zahlen nichts anfangen. Woher wissen Sie, welches System am besten zu Ihnen passt?

Es ist deshalb gut zu wissen, wie maschinelle Übersetzungen bewertet werden.

In diesem Artikel befassen wir uns ausführlich mit dem Thema der Bewertung maschineller Übersetzungen. Er soll Ihnen helfen zu verstehen, worum es dabei geht, warum es für Sie wichtig ist und welche Arten der Bewertung es gibt. Mit diesem Wissen können Sie eine fundierte Entscheidung treffen, wenn Sie ein MT-System auswählen, in das Sie investieren möchten.

Einführung: Was ist die Bewertung maschineller Übersetzungen?

Die Bewertung maschineller Übersetzungen bezieht sich auf die verschiedenen Verfahren zur Messung der Leistung eines Systems der maschinellen Übersetzung.

Sie bewertet die Qualität und Leistung maschineller Übersetzung und bildet eine solide Grundlage für den Vergleich der Effektivität verschiedener MT-Systeme. Zu diesem Zweck werden maschineller Übersetzungen mit quantifizierbaren Kennzahlen und Metriken bewertet.

Warum sind Bewertungskennzahlen für maschinelle Übersetzungen wichtig?

Es gibt zwei gewichtige Gründe, warum die Leistung eines MT-Systems bewertet werden muss. Erstens muss geprüft werden, ob das System in der realen Praxis gut genug ist. Zweitens dient die Bewertung als Leitfaden für Forschung und Entwicklung.

Überprüfung der Tauglichkeit in der realen Welt

Zunächst wird festgestellt, ob das MT-System auf einem Niveau funktioniert, das für den praktischen Gebrauch in der Realität geeignet ist. Das hat für den Benutzer größte Relevanz. Wenn das maschinelle Übersetzungssystem schlecht funktioniert, werden die Benutzer wahrscheinlich eine andere Option wählen.

Auch Industriesektoren, die Maschinenübersetzungen verwenden, benötigen konkrete Kennzahlen, wenn sie sich für ein MT-System entscheiden. Schließlich ist MT eine Investition, und die Unternehmen wollen das beste Preis-Leistungs-Verhältnis erzielen.

Daher müssen MT-Entwickler beurteilen, ob die Qualität von Maschinenübersetzungen ausreichend ist und sie an die Kunden gesendet werden können.

Leitfaden für Forschung und Entwicklung

MT-Systeme sind im Idealfall keine statische Einheit. Die Technologie der maschinellen Übersetzung verbessert sich ständig. Das führt logischerweise dazu, dass sich auch die MT-Systeme ständig weiterentwickeln.

Hier kommt die Forschung ins Spiel, denn die Forscher benötigen eine Richtschnur für neue Erfindungen. Hier kommt die Forschung ins Spiel, denn die Forscher benötigen eine Richtschnur für neue Erfindungen. Mit messbaren Metriken können sie vergleichen, ob ein bestimmter Ansatz besser ist als andere und das System verfeinern.

Die Metriken zeigen in einer kontrollierten Umgebung, wie ein Übersetzungssystem mit konsistenten Übersetzungsfehlern umgeht und ob es in der Lage ist, diese Fehlern zu beheben. Messbare Kennzahlen zeigen in einer kontrollierten Umgebung, ob ein bestimmter Ansatz in der Lage ist, diese Fehlern zu beheben.

Wie wird der Erfolg maschineller Übersetzungen bewertet?

Wie gut ein MT-System funktioniert, kann mit zwei Methoden überprüft werden, menschlich und automatisch. Bei der menschlichen Bewertung führen die Fachleute eine manuelle Untersuchung durch. Die automatische Bewertung verwendet KI-gestützte Metriken für die Bewertung der Übersetzungsqualität ohne menschliches Eingreifen. Diese Methoden haben ihre Vor- und Nachteile. In den späteren Abschnitten dieses Artikels werden wir ausführlich darauf eingehen. Zunächst jedoch ein kurzer Überblick über diese Bewertungsmethoden maschineller Übersetzungen und die unterschiedlichen Herangehensweisen.

Menschliche Bewertung versus automatische Bewertung

Menschliche Bewertung maschineller Übersetzungen bedeutet, dass die Übersetzungsqualität von professionellen Übersetzern bewertet wird. Das ist eine sehr effektive Methode, wenn es darum geht, die Qualität maschineller Übersetzungen bis auf die Satzebene zu bestimmen. Die menschliche Bewertung ist jedoch, genau wie die menschlichen Übersetzung, von Natur aus kostspieliger und zeitaufwändiger.

Bei der automatischen Bewertung werden Programme verwendet, die speziell für die Bewertung der Qualität maschineller Übersetzungen entwickelt werden. Sie ist auf Satzebene nicht so zuverlässig wie eine menschliche Bewertung, aber gut skalierbar, wenn die Gesamtqualität mehrerer übersetzter Dokumente bewertet werden soll.

Herangehensweisen an die MT-Bewertung

Die Ansätze zur Bewertung maschineller Übersetzungen beruhen auf dem Konzept der Granularität. Es geht dabei um die verschiedenen Ebenen für eine signifikante Bewertung.

Satzbasierter Ansatz. Bei diesem Ansatz erhält jeder Satz eine Bewertung, die angibt, ob die Übersetzung gut (1) oder nicht gut (0) ist, und der Gesamtwert wird als Durchschnitt angegeben. Das ist die gängigste Methode der menschlichen Bewertung.

Dokumentenbasierter Ansatz. Dokumentenbasierter Ansatz. Bekannt als korpusbasierter Ansatz. Auch hier erhalten Sätze Punkte, aber die signifikante Punktzahl ist die Summe oder der Durchschnitt einer umfangreicheren Dokumentengruppe. Das ist die kleinste Signifikanz-Ebene einer automatischen MT-Bewertung, die stark von Statistiken eines großen Datensets abhängt.

Kontextbasierter Ansatz. Dieser Ansatz unterscheidet sich von den vorherigen dadurch, er die Eignung einer gesamten MT-Aufgabe für bestimmte Zwecke berücksichtigt und nicht die satzbasierten Durchschnittswerte. Deshalb kann dieses Herangehen als ganzheitlicher Ansatz der Bewertung von Maschinenübersetzungen betrachtet werden.

Herausforderungen bei der Bewertung maschineller Übersetzungen

Die Bewertung maschineller Übersetzungen ist ein schwieriger Prozess. Das liegt daran, dass die Sprache selbst eine sehr komplexe Angelegenheit ist.

Zum einen kann es mehrere richtige Übersetzungen geben. Nehmen wir zum Beispiel den folgenden Satz:

The quick brown fox jumped over the lazy dog.

Ein MT-System könnte stattdessen die folgende Übersetzung generieren:

The fast brown fox pounced over the indolent dog.

Die Übersetzung ist technisch korrekt und die menschlicher Bewertung würde sie normalerweise als solche kennzeichnen. Eine automatische Bewertung würde das jedoch als falsch bewerten.

Kleine Details können die Bedeutung eines Satzes komplett verändern.

The quick brown fox jumped on the lazy dog.

Hier hat sich nur ein Wort geändert. Aber dieses eine Wort verändert die Bedeutung des Satzes völlig. Bei automatischen Bewertungen ist die Wahrscheinlichkeit, dass der Fehler erkannt wird, höher als im vorherigen Beispiel. Übersetzer werden den Fehler wahrscheinlich erkennen, sie würden ihn aber möglicherweise für richtig erklären.

Das liegt an der Subjektivität der Sprache. Selbst Fachgutachter können die Qualität einer Übersetzung unterschiedlich beurteilen.

Bewertung durch Menschen: Der Goldstandard

Nachdem wir uns nun mit den Grundlagen befasst haben, wollen wir uns die zwei Methoden der MT-Bewertung genauer ansehen, beginnend mit der menschlichen Bewertung.

Das Ziel der maschinellen Übersetzung besteht grundlegend darin, Text für Menschen verständlich von der Ausgangssprache in eine Zielsprache zu übersetzen. Daher sind Menschen der beste Bezugspunkt für die Bewertung der Qualität maschineller Übersetzungen.

Menschliche Bewertungsmethoden

Es gibt eine Reihe von Methoden der menschliche Bewertungen, auf die wir jetzt eingehen werden:

Direkte Bewertung

Das ist die einfachste Methode der menschlichen Bewertung. Die Ergebnisse der maschinellen Übersetzung werden auf Satzebene bewertet.

Das Problem bei der direkten Bewertung besteht darin, dass die Gutachten variieren und unterschiedlich ausfallen. Manche Gutachter wählen bei der Bewertung gern Extreme und stufen Übersetzungen entweder als sehr schlecht oder sehr gut ein. Andere sind konservativer und bewerten die Sätze auf der Punktskala eher in der Mitte.

Eine weitere Herausforderung ist wiederum die Subjektivität. Bei der Beurteilung, ob ein Satz eine schlechte Übersetzung ist, treffen Gutachter oft mehrdeutige Entscheidungen. Zurück zum Beispielsatz:

The quick brown fox jumped over the lazy canine.

Hier ist canine nicht unbedingt falsch, aber er ist auch nicht die beste Lösung. Einige Gutachter werden es für gut genug halten, während andere es als völlig falsch einstufen.  Wenn die Bewertung beispielsweise auf einer 5-Punkte-Skala erfolgt, bewerten einige Übersetzer sie mit 4, während andere zur 2 tendieren.

Diese Herausforderungen können durch den Einsatz eines größeren Gutachterpools ausgeglichen werden, wodurch sich die Ergebnisse statistisch normalisieren.

Rangfolge

Eine weitere Möglichkeit, maschinelle Übersetzungssysteme menschlich zu bewerten, sind Rangfolgen.

In diesem Fall vergeben die Gutachter keine Punkte für die Qualität der Sätze, sondern vergleichen stattdessen Übersetzungen von verschiedenen MT-Systemen. Sie entscheiden, welche Übersetzung die beste ist, welche die zweitbeste ist und so weiter.

Diese Methode hat gegenüber der direkten Bewertung den Vorteil, dass sie sofort einen direkten Vergleich ermöglicht, im Gegensatz zum Vergleich von Ergebnissen, die in verschiedenen Studien und möglicherweise von verschiedenen Gutachtern erzielt wurden.

Sie leidet jedoch immer noch unter der Herausforderung der Subjektivität. Bei verschiedenen MT-Systemen treten unterschiedliche Fehler auf. Zum Beispiel:

Der schnelle grüne Fuchs sprang über den faulen Hund.

Schneller brauner Fuchs ist über den faulen Hund gesprungen.

Der schnelle braune Fuchs springt über den faulen Hund.

Jeder Satz hat einen einfachen Fehler. Der erste enthält eine falsche Übersetzung. Im zweiten Satz wurden Artikel weggelassen. Im dritten Satz fehlen die Zeitformen.

Jetzt entscheiden die Gutachter, welcher Fehler schwerwiegender ist, und auch dabei können die Meinungen der Gutachter unterschiedlich sein.

Aufwand der Nachbearbeitung

Der Benutzer bereitet mit einem MT-System in der Regel Dokumente vor, die nachbearbeitet werden. Die Qualität kann deshalb auch anhand des Aufwands der Nachbearbeitung bewertet werden.

Die Hauptaufgabe der Nachbearbeitung besteht darin, die Arbeit des Übersetzers zu beschleunigen, weil er einen Text nicht von Grund auf neu übersetzen muss. Der Aufwand der Nachbereitung eines MT-Systems lässt sich am besten durch das Messen der Zeit beurteilen, die der Übersetzer benötigt, um die maschinell übersetzte Ausgabe zu korrigieren.

Eine weitere Möglichkeit, den Aufwand nach der Bearbeitung zu messen, besteht darin, die Anzahl der Tastenanschläge während der erforderlichen Nachbearbeitung in menschlicher Qualität tabellarisch zu erfassen. Das ist unabhängig von zeitlichen Einschränkungen, berücksichtigt aber auch nicht die Möglichkeit mehrerer korrekter Übersetzungen.

Aufgabenbasierte Bewertung

Es gibt außerdem noch die aufgabenbasierte Bewertung, bei der, wie der Name schon sagt, ein MT-System danach bewertet, wie gut es für die jeweilige Aufgabe geeignet ist. Wenn es beispielsweise in einem mehrsprachigen Webinar verwendet wird, können die Teilnehmenden ihre Erfahrung mit einem maschinell übersetzten Transkript bewerten. Das bedeutet, dass sie den Erfolg des MT-Systems als Ganzes bewerten.

Das Problem bei diesem Ansatz ist, dass er andere nicht kontrollierte Elemente der Bewertung zulässt, die sich auf die Gutachterbewertung auswirken. Daher ist der Einsatz der aufgabenbasierten Bewertung sehr situationsabhängig.

Allgemeine Herausforderungen bei der menschlichen Bewertung

Die verschiedenen Methoden der menschlichen Bewertung von maschineller Intelligenz bringen ihre ganz eigenen Herausforderungen mit sich. Es gibt aber auch gemeinsame Herausforderungen, die mit Kohärenz oder Übereinstimmung zu tun haben.

Vereinbarung zwischen den Annotatoren

Das bezieht sich auf die Konsistenz der Ergebnisse der verschiedenen Bewerter. Wie bereits erwähnt, haben die Gutachter unterschiedliche Neigungen bei der Bewertung derselben Textsegmente. Manche bewerten eher extrem, andere ausgewogen. Auch bei der Bewertung von MT-Engines können die Meinungen auseinandergehen. Deshalb ist es wichtig, mehrere Gutachter zu haben, damit sich die Verteilung der Ergebnisse normalisiert.

Intra-Annotator-Vereinbarung

Wie ein einzelner Gutachter einen Text bewertet, ist auch ein Maß für die Validität. Ein Gutachter kann einen Satz beim ersten Mal als gut oder schlecht bewerten, dann jedoch seine Meinung ändern, wenn er denselben Test wiederholt. Ein hohes Maß an Übereinstimmung innerhalb des Annotators gewährleistet, dass der gewählte Gutachter als konsistent und zuverlässig angesehen werden kann.

Automatische Bewertung ist die skalierbare Option

Die menschliche Bewertung gilt als Goldstandard, wenn es um die Bewertung der Qualität maschineller Übersetzungen geht. Es ist jedoch ein kostspieliges Unterfangen in Bezug auf Aufwand und Zeit. Aus diesem Grund haben Forscher auf diesem Gebiet verschiedene Methoden zur Bewertung der MT-Qualität mithilfe automatischer Prozesse entwickelt.

Diese Prozesse sollen in etwa der Art und Weise entsprechen, wie Menschen das MT-System bewerten würden. Natürlich sind sie darin alles andere als perfekt, aber die automatische Bewertung wird in wichtigen Anwendungsfällen eingesetzt.

Der Hauptvorteil der automatischen Bewertung gegenüber der menschlichen Bewertung ist die Skalierbarkeit. Sie ist viel schneller und kann unzählige automatische Evaluierungsinstanzen durchführen, mehr als jede menschliche Bewertung. Das macht es zu einer idealen Lösung, wenn Sie Änderungen vornehmen oder das MT-System optimieren möchten und schnelle Ergebnisse wünschen.

Herausforderungen der automatischen Bewertung

Im Gegensatz zu Menschen sind Maschinen nicht in der Lage, mit den feinen Nuancen des Sprachgebrauchs umzugehen. Automatische Bewertungssysteme gehen davon aus, dass das MT genau mit einem Referenztext übereinstimmt, geringfügige Unterschiede haben deshalb große Auswirkungen auf das Endergebnis. Zu diesen Unterschieden können Abweichungen in der Morphologie, der Verwendung von Synonymen und der grammatikalischen Satzfolge gehören.

Was ein menschlicher Gutachter als technischen Fehler oder mehr oder weniger korrekt ansehen würde, wird bei der automatischen Bewertung bestraft. Nichtsdestotrotz reicht die Anzahl der exakten Treffer, insbesondere bei einer großen Textprobe, oft aus, um eine automatische Bewertung durchführen zu können.

Metriken der automatischen Bewertung

Heute sind eine Reihe automatischer Bewertungsmetriken verfügbar. Dazu gehören unter anderem:

 

      BLEU (Bilingual Evaluation Understudy)

      NIST (National Institute of Standards and Technology)

      METEOR (Metrik zur Bewertung von Übersetzungen mit expliziter Reihenfolge)

      LEPOR (Length-Penalty, Precision, n-gram Position Difference Penalty and Recall)

      KOMET 

      PRIS

      TER (Übersetzungsfehlerrate)

Jede Metrik basiert auf unterschiedlichen Algorithmen und behandelt daher den Prozess der automatischen Bewertung unterschiedlich. Das bedeutet, dass sie unterschiedliche Stärken und Schwächen haben und sich darin unterscheiden, für welche Art von Fehlern sie mehr oder weniger bestrafen.

Die beliebteste Metrik ist BLEU

BLEU ist unter den oben aufgeführten Metriken die gängigste Methode. Es war eine der ersten Metriken, die ein hohes Maß an Korrelation mit der menschlichen Bewertung erreichte, und hat viele verschiedene Varianten hervorgebracht.

Bei BLEU werden die Sätze mit einer Reihe hochwertiger Referenzübersetzungen verglichen. Diese Ergebnisse werden dann gemittelt, und die resultierende Zahl ist der endgültige BLEU-Wert für dieses MT-System. Dieser Wert gibt an, wie genau die Ergebnisse des MT-Systems mit der menschlichen Referenzübersetzung übereinstimmen, die das Qualitätsmerkmal darstellt.

Die Punkte werden in Einheiten berechnet, die als N-Gramm bezeichnet werden und sich auf aufeinanderfolgende Textsegmente beziehen. Zurück zum vorherigen Beispielsatz:

The quick brown fox jumped over the lazy dog.

Der Satz kann in n-Gramm unterschiedlicher Länge unterteilt werden. 2 Gramm wären zum Beispiel „The quick“, „quick brown“ oder „brown fox“. 3 Gramm wären „The quick brown“ oder „quick brown fox“. 4 Gramm wären „The quick brown fox“ usw.

Es ist ein komplexer mathematischer Prozess, aber im Grunde genommen berechnet der Algorithmus von BLEU die Punktzahl, indem er die Anzahl der Überlappungen zwischen N-Gramm überprüft. Die berechnete Punktzahl liegt zwischen 0 und 1, wobei 1 eine völlig identische Übereinstimmung zwischen der Referenz und dem maschinelle erstellten Text darstellt. Nehmen Sie die folgende Variante des Beispielsatzes an:

The fast brown fox jumped over the lazy dog.

Alle N-Gramme stimmen überein, außer denen, die das Wort „quick“ enthalten. Ein anderes Beispiel:

The quick brown fox jumped over the dog.

In diesem Beispiel fehlt das Wort „lazy“, was sich auch negativ auf die Überlappung auswirkt. In beiden Fällen wäre der BLEU-Score immer noch hoch, aber weniger als 1.

In der Praxis werden nicht viele Sätze ein so hohes Maß an Korrelation aufweisen. Deshalb sind BLEU-Werte nur dann statistisch signifikant, wenn sie im Zusammenhang mit einer großen Textstichprobe oder Korpora erhoben werden.

Es gibt jedoch noch andere Faktoren, die in die Berechnung des BLEU-Scores einfließen, wie zum Beispiel Strafen für zusätzliche Wörter oder sehr kurze Sätze. Es wurden abgeleitete Bewertungssysteme entwickelt, um diese Mängel auszugleichen, aber BLEU ist nach wie vor das am weitesten verbreitete und am höchsten bewertete MT-Bewertungssystem.

Letzte Worte zur MT-Bewertung

Damit schließen wir die Grundlagen der Bewertung maschineller Übersetzungen ab. Wie wir gezeigt haben, kann ein MT-Systems menschlich oder automatisch bewertet werden. Beide Verfahren haben Vor- und Nachteile.

Die menschliche Bewertung ist der Goldstandard in Bezug auf Qualität, aber sie ist teuer und zeitaufwändig. Die automatische Übersetzung ist nicht so genau, aber schnell und skalierbar. Deshalb sind beide Methoden hervorragend für ganz spezifische Anwendungsfälle geeignet.