10/05/2024

Gépi fordítás értékelése: A legjobb útmutató

Tegyük fel, hogy olyan vállalkozás vagy, amely úgy döntött, hogy befektet egy gépi fordítási rendszerbe. Végeztél néhány alapkutatást, és megállapítottad, hogy rengeteg lehetőség közül választhatsz. Mindegyik azt állítja, hogy bizonyos mutatók alapján bizonyos pontszámot szerez, de nem tudod, mit jelentenek valójában a számok. Honnan tudhatod, melyik a legmegfelelőbb a számodra?

Meg kell értened, hogyan működik a gépi fordítás értékelése.

Ez a cikk mélyrehatóan mutatja be a gépi fordítás értékelését. Segít megérteni, mi is a gépi fordítás, miért van szükséged rá, és ismerteti a különböző típusú értékeléseket, hogy jól megalapozott döntést hozhass, amikor kiválasztod az MT rendszert, amibe befektetsz.

Bevezetés: Mit jelent a gépi fordítás értékelése?

A gépi fordítás értékelése a gépi fordítási rendszer teljesítményét mérő különböző folyamatokat jelenti.

Ez egyfajta MT minőségi pontozás, amelyből tudni lehet, mennyire jó a rendszer, és szilárd alapot nyújt a különböző MT rendszerek hatékonyságának összehasonlítására. Ehhez a gépi fordítás értékelése számszerűsíthető mutatókat használ.

Miért fontosak a gépi fordítás értékelési mutatói?

Két fő oka van annak, hogy miért kell értékelni az MT rendszer teljesítményét. Az első az, hogy ellenőrizzük, hogy elég jó-e az életszerű alkalmazáshoz. A második, hogy útmutatóként szolgál a kutatás és fejlesztés számára.

Annak ellenőrzése, hogy elég jó-e az életszerű alkalmazáshoz

Az első feladat természetesen annak meghatározása, hogy az MT rendszer olyan szinten működik-e, amely elég jó a tényleges használatra. Ez az az ok, ami a legközvetlenebb jelentőséggel bír a végfelhasználók számára. Ha a gépi fordító rendszer rosszul teljesít, a felhasználók nagyobb valószínűséggel választanak valami mást.

Az MT-t használó ipari ágazatok konkrét mutatókat is szeretnének annak eldöntéséhez, hogy milyen MT rendszert kapjanak. Végtére is, az MT befektetés, és a vállalkozásoknak a legjobb ár-érték arányt kell elérniük.

E tekintetben az MT fejlesztőknek értékelniük kell, hogy a gépi fordítási rendszer minősége megfelelő-e ahhoz, hogy elküldjék az ügyfeleknek.

Útmutatóként szolgál a kutatás és fejlesztés számára

Az MT rendszerek ideális esetben nem statikus dolog. Az MT technológiája folyamatosan fejlődik az idő előrehaladtával. Nem csoda, hogy elvárjuk az MT rendszerek javulását is.

Itt jön be a kutatás, és a kutatóknak kell valamilyen útmutató, hogy hol keresgéljenek. A mérhető mutatók lehetővé teszik a kutatók számára, hogy összehasonlítsák, hogy egy adott megközelítés jobb-e a másiknál, ami segíti őket a rendszer finomhangolásában.

Különösen hasznos annak megállapításához, hogy a rendszer hogyan kezeli a következetes fordítási hibákat. A mérhető mutatók jobban ellenőrzött környezetben mutathatják meg, hogy egy adott megközelítés képes-e kezelni az ilyen típusú hibákat.

Hogyan tudjuk értékelni, sikeres-e a gépi fordítás?

Kétféle módon lehet meghatározni, hogy egy MT rendszer milyen jól teljesít. Az emberi értékelést humán szakértők végzik manuálisan, míg az automatikus értékelés mesterséges intelligencia alapú méréseket használ, amelyeket kifejezetten a fordítás minőségének emberi beavatkozás nélküli értékelésére fejlesztettek. Mindegyiknek megvannak a maga előnyei és hátrányai. A cikk későbbi szakaszaiban részletesebben ismertetjük mindkét típusú MT értékelést, de először itt van egy gyors áttekintés a gépi fordítási értékelés két típusáról, valamint az MT-értékelés megközelítéseiről, amelyek ezeket használják.

Emberi értékelés és automatikus értékelés

A gépi fordítás emberi értékelése azt jelenti, hogy a fordítás minőségének értékelését humán szakfordítók végzik. Ez a leghatékonyabb lehetőség a gépi fordítások minőségének meghatározására a mondatok szintjéig. De az emberi értékelés, akárcsak az emberi fordítás, természeténél fogva költségesebb és időigényesebb.

Az automatikus értékelés viszont kifejezetten a gépi fordítás minőségének különböző módszerek szerinti értékelésére alkotott programokat használ. Nem olyan megbízható, mint az emberi értékelés a mondat szintjén, de jó és méretezhető lehetőség a fordítás általános minőségének több dokumentumon történő értékelésére.

Megközelítések az MT értékeléséhez

A gépi fordítás értékelésének megközelítései a részletesség fogalmán alapulnak. Vagyis azokon a különböző szinteken, amelyeken a pontozás jelentősnek tekinthető.

Mondatalapú megközelítés. E megközelítés szerint minden mondat pontszámot kap, amely megmondja, hogy a fordítása jó-e (1) vagy nem jó-e (0), és az összesítésből átlagot számít. Ez leggyakrabban emberi értékelés során történik.

Dokumentumalapú megközelítés. Akorpusz alapú megközelítésként is ismert rendszerben a mondatok is kapnak pontszámokat, de a szignifikáns pontszám a nagyobb dokumentumkészlet egésze vagy az átlag. Ez a legkisebb szint, amelyen az automatizált MT értékelés jelentőséggel bírónak tekinthető, mivel ez az értékelés nagymértékben függ attól, mennyire kiterjedt adatkészlettel végzik a statisztikát.

Kontextusalapú megközelítés. Ez a megközelítés különbözik az előzőektől, mivel azt veszi figyelembe, hogy az MT feladat összességében mennyire felel meg az általa kitűzött céloknak, nem pedig a mondatokon alapuló átlagos pontszámokat. Mint ilyen, az MT értékelés holisztikus megközelítésének tekinthető.

Kihívások a gépi fordítás értékelésében

A gépi fordítás értékelése nehéz folyamat. Ez azért van, mert maga a nyelv nagyon összetett dolog.

Egyrészt több helyes fordítás is lehet. Vegyük például a következő mondatot:

A gyors barna róka átugrott a lusta kutyán.

Egy MT rendszer ehelyett a következő fordítást generálhatja:

A gyors barna róka átpattant az indolens kutya fölött.

Ez egy technikailag helyes fordítás, és az emberi értékelés során általában ilyennek kell megjelölni. Az automatizált értékelés során azonban helytelennek lenne jelölve.

A kis részletek is teljesen megváltoztathatják a mondat jelentését.

A gyors barna róka ugrott a lusta kutyára.

Itt csak egy szó változott meg. De ez az egyetlen szó teljesen megváltoztatja a mondat jelentését. Az automatikus értékelés valószínűleg magasabb pontszámot adna rá, mint az előző példára. A humán fordítók valószínűleg észreveszik a hibát, de egyesek helyesnek tarthatják.

És ez azért van, mert a nyelv szubjektív is lehet. Még az emberi értékelők is eltérhetnek megítélésükben arról, hogy jó-e a fordítás vagy sem.

Emberi értékelés: Az etalon

Most, hogy áttekintettük az alapokat, vessünk egy pillantást az MT értékelés két típusára, kezdve az emberi értékeléssel.

A legalapvetőbb szinten a gépi fordítás célja, hogy a szöveget egy forrásnyelvről célnyelvre fordítsa olyan szinten, amelyet az emberek megértenek. Mint ilyen, az ember a legjobb referenciapont a gépi fordítás minőségének értékeléséhez.

Az emberi értékelés típusai

Az emberi értékelés számos különböző módja van, amelyekre most megvizsgálunk:

Közvetlen értékelés

Ez a legegyszerűbb emberi értékelés. A gépi fordítási kimenetet a mondat szintjén pontozzák.

A közvetlen értékelés kihívása az, hogy a különböző bírák nagymértékben eltérnek a pontozás módjában. Vannak, akik hajlamosak a pontozás szempontjából a szélsőségekre, és a fordításokat nagyon rossznak vagy nagyon jónak értékelik. Mások konzervatívabb eljárást választhatnak, ugyanazokat a mondatokat a közepéhez közelebb eső pontszámokkal jelölve.

A másik kihívás ismét a szubjektivitás. Annak megítéléséhez, hogy egy mondat rossz fordítás-e vagy sem, az értékelőknek döntéseket kell hozniuk a nyelvről, ami nem egyértelmű. Visszatérve a példamondathoz:

A gyors barna róka átugrott a lusta kutyafélén.

Itt a kutyaféle nem feltétlenül téves, de nem is a legmegfelelőbb. Egyes értékelők eléggé jónak tarthatják, míg mások teljesen helytelennek jelölhetik. Például, ha a pontozás 5 pontos skálán történik, egyes fordítók 4-re, míg mások csak 2-re értékelhetik.

Ezeket a kihívásokat ellensúlyozhatjuk az értékelők nagyobb csoportjának alkalmazásával, amely lehetővé teszi a pontszámok statisztikai szempontból történő normalizálását.

Rangsorolás

A gépi fordítási rendszerek emberi értékeléssel történő felmérésének másik módja a rangsorolás.

Ebben az esetben az értékelők nem adnak egyedi pontszámokat a mondatokhoz, hanem összehasonlítják a különböző MT rendszerek fordításait. Ezután döntik el, melyik a legjobb fordítás, melyik a második legjobb, stb.

Ennek a módszernek az előnye a közvetlen értékeléssel szemben, hogy azonnal közvetlen összehasonlítást nyújt, szemben a különböző kísérletek során és esetleg különböző értékelők által generált pontszámok összehasonlításával.

Ugyanakkor még mindig szenved a szubjektivitás kihívásától. A különböző MT rendszerek valószínűleg különböző hibákkal jelentkeznek. Például:

A gyors zöld róka átugrott a lusta kutyán.

Gyors barna róka átugrott a lusta kutyán.

A gyors barna róka ugrik át a lusta kutyán.

Minden mondatnak egyszerű hibája van. Az elsőben van egy félrefordítás. A második kihagyja a névelőt. A harmadik az igeidőt véti el.

Az értékelőknek most el kell dönteniük, melyik hiba fontosabb, mint a másik, és az értékelőknek ismét eltérő véleményük lehet ebben az ügyben.

Utószerkesztési erőfeszítés

Ha egy MT rendszer felhasználójának célja a dokumentumok utólagos szerkesztésre való előkészítése, akkor vannak módszerek annak értékelésére is, hogy mennyi erőfeszítést igényel az utólagos szerkesztés.

Az utólagos szerkesztés alapvető célja, hogy a fordító gyorsabban dolgozzon, mint ha egy szöveget a semmiből fordítana le. Mint ilyen, az MT rendszer utólagos szerkesztésre történő értékelésének legegyszerűbb módja az, hogy mérjük azt az időt, amely a fordítónak a géppel lefordított kimenet javításához szükséges.

Az utószerkesztési erőfeszítés mérésének másik módja az, hogy táblázatban vetjük össze hány leütés szükséges a billentyűzeten ahhoz, hogy a géppel lefordított szöveget emberi referenciafordításra cseréljék. Ez független az időkorláttól, de a több helyes fordítás lehetőségét sem sem veszi figyelembe.

Feladat alapú értékelés

Aztán van a feladat alapú értékelés, amely, amint a neve is sugallja, annak alapján értékeli az MT rendszert, hogy mennyire felel meg az adott feladatnak. Például, ha többnyelvű webináriumon használják, a résztvevőket meg lehet kérni, hogy értékeljék a gépi fordítással készített átirattal kapcsolatos tapasztalataikat. Ez azt jelenti, hogy az MT rendszer egészének sikerét értékelik.

Ennek a megközelítésnek az a problémája, hogy nagyon nyitott más ellenőrizetlen elemek bevezetésére, amelyek befolyásolhatják az értékelők által adott minősítést. Mint ilyen, a feladatalapú értékelés használata nagyon szituációfüggő.

Általános kihívások az emberi értékelésben

Mint láthatod, az MT emberi értékelésének különböző típusai mind sajátos kihívásokkal járnak. Vannak olyan kihívások is, amelyek általában közösek bennük, és ezek a következetességhez vagy az egyetértéshez kapcsolódnak.

Az annotátorok közötti egyezés

Ez a különböző értékelők pontszámai közötti következetességére utal. Mint korábban említettük, a különböző értékelők eltérő tendenciát mutatnak abban, ahogyan ugyanazokat a szövegszegmenseket pontozzák. Néhányan szélsőségekben, mások a középső régióban értékelnek. A különböző MT motorok rangsorolásakor is változó lehet a véleményük. Ezért fontos, hogy több értékelő legyen, így a pontszámok eloszlása normalizálódik.

Annotátoron belüli egyezés

Az, ahogyan egyetlen értékelő értékeli a szöveget, szintén minősíti az érvényességet. Valamely értékelő első alkalommal jónak vagy rossznak értékelhet egy mondatot, de ugyanazon teszt megismétlésekor meggondolhatja magát. Csak az egy annotátoron belüli egyezés magas szintje esetén tekinthető következetesnek és megbízhatónak a kiválasztott értékelő.

Automatikus értékelés: A méretezhető opció

Az emberi értékelést tekintik etalonnak a gépi fordítás minőségének értékelésében. Ez azonban költséges mind erőfeszítés, mind pedig idő szempontjából. Ez az oka annak, hogy a terület kutatói különféle eszközöket fejlesztettek ki az MT minőségének automatizált folyamatok révén történő értékelésére.

Ezeket a folyamatokat úgy tervezték, hogy azt közelítsék meg, hogyan fogják értékelni az emberek az MT rendszert. Természetesen korántsem tökéletesek ebben, de az automatikus értékelésnek mégis vannak nagyon fontos felhasználási esetei.

Az automatikus értékelés fő előnye az emberi értékeléssel szemben a méretezhetősége. Sokkal gyorsabb több száz automatikus értékelést lefuttatni, mint akár egy emberi értékelési fordulót is. Ez ideális megoldást jelent az MT rendszer módosításakor vagy optimalizálásakor, amely gyors eredményeket igényel.

Kihívások az automatikus értékelésben

Az emberekkel ellentétben a gépek nem rendelkeznek fegyvertárral a nyelvhasználat különböző árnyalatainak kezelésére. Az automatikus értékelési rendszerek azon alapulnak, hogy az MT pontosan megfelel a referenciaszövegnek, és a kisebb különbözéshatározza meg a végső pontszámot. Ezek akülönbözőségek magukban foglalhatják a morfológiai eltéréseket, a szinonimák használatát és a nyelvtani rendet.

Bármit, amit az emberi értékelő technikailag vagy többé-kevésbé helyesnek tekinthet, az automatikus értékelés valószínűleg büntetni fog. Mindazonáltal, a pontos egyezések száma, különösen ha nagy szövegmintát veszünk figyelembe, gyakran elegendő ahhoz, hogy az automatikus értékelés megvalósítható legyen.

Automatikus értékelési mutatók

Ma számos különböző automatikus értékelési mutató érhető el. Íme néhány használatban lévő példa:

 

      BLEU (kétnyelvű értékelési alvizsgálat) 

      NIST (a Nemzeti Szabványügyi és Technológiai Intézettől)

      METEOR (A fordítás kifejezett rendezéssel történő értékelésének mutatója)

      LEPOR (hosszbüntetés, pontosság, n-gram szórendi eltérés büntetés és visszahívás)

      COMET 

      PRIS

      TER (fordítási hibaarány)

Minden mutató más algoritmusokkal működik, ezért másképp kezeli az automatikus értékelés folyamatát. Ez azt jelenti, hogy különböző erősségekkel és gyengeségekkel rendelkeznek, és különböznek abban, hogy milyen típusú hibák esetén adnak magasabb vagy alacsonyabb büntetéseket.

BLEU, a legnépszerűbb mutató

A fent felsorolt mutatók közül a BLEU-t használják leggyakrabban. Ez volt az egyik első mutató, amely magas szintű korrelációt ért el az emberi értékeléssel, és amelynek sokféle variációja jött létre.

Úgy működik, hogy az egyes mondatokat kiváló minőségű referenciafordítások halmazához képest pontozzák. Ezeket a pontszámokat ezután átlagolják, és az így kapott szám az adott MT rendszer végső BLEU pontszáma. Ez a pontszám azt mutatja, hogy az MT rendszer kimenete mennyire egyezik az emberi referencia-fordítással, amely a minőség jelzője.

A pontszámokat n-gramnak nevezett egységek segítségével számítják ki, amelyek a szöveg egymást követő szegmenseire utalnak. Visszatérve a korábbi mintamondathoz, például:

A gyors barna róka átugrott a lusta kutyán.

Ez különböző hosszúságú n-grammokra osztható. Egy 2 gram lenne például az „a gyors”, a „gyors barna” vagy a „barna róka”. Egy 3 gram lenne: „A gyors barna” vagy „gyors barna róka”. Egy 4 gram lenne: „A gyors barna róka”. És így tovább.

Ez egy komplex matematikai folyamat, de alapvetően a BLEU algoritmusa kiszámítja a pontszámot az n-gramm közötti átfedések számának ellenőrzésével. A számított pontszám 0 és 1 között lesz, és az 1 jelent teljesen azonos egyezést a referencia és a kimeneti mondat között. Most vegye figyelembe a következő variációt a mintamondatról:

A fürge barna róka átugrott a lusta kutyán.

Az összes n-gram megegyezik, kivéve azokat, amelyekbennek a „fürge” szó van. Egy másik példa:

A gyors barna róka átugrott a kutyán.

Ebben a példában hiányzik a „lusta” szó, így ez negatívan befolyásolja az átfedést is. Mindkét esetben a BLEU pontszám továbbra is magas lenne, de kevesebb, mint 1.

A gyakorlatban nem sok mondat mutatja ezt a magas szintű korrelációt. Mint ilyen, a BLEU pontszámok csak akkor válnak statisztikailag szignifikánssá, ha egy nagy szövegminta vagy korpusz összefüggésében vesszük őket figyelembe.

Természetesen vannak más tényezők is, amelyek a BLEU pontszám kiszámításához szükségesek, például büntetések extra szavakért vagy nagyon rövid mondatokért. Más belőle származó pontozási rendszereket fejlesztettek ki a hiányosságok kompenzálására, de a BLEU továbbra is magas besorolású, és ma is a legszélesebb körben használt MT értékelési rendszer.

Végső szó az MT értékeléséről

És ez érinti a gépi fordítás értékelésének alapjait. Ahogy bemutattuk, az MT rendszer értékelése emberi vagy automatikus értékeléssel történhet. Mindkét folyamatnak vannak az előnyei és hátrányai.

Az emberi értékelés a minőség szempontjából az etalon, de drága és időigényes. Az automatikus fordításértékelés nem olyan pontos, de gyors és méretezhető. Mindkét típusnak megvannak a sajátos felhasználási esetei, amikor ragyogóan működnek.