10/05/2024

Evaluasi Terjemahan Mesin: Panduan Utama

Misalkan Anda adalah seorang pemilik bisnis yang telah memutuskan untuk berinvestasi dalam sistem terjemahan mesin. Anda telah melakukan sejumlah penelitian dasar, dan menemukan bahwa ada begitu banyak opsi yang dapat dipilih. Tiao opsi mengklaim menghasilkan nilai tertentu berdasarkan sejumlah metrik, akan tetapi Anda tidak tahu makna sesungguhnya dari angka-angka tersebut.Bagaimana cara mengetahui yang paling cocok untuk Anda?

Anda harus memahami cara kerja evaluasi terjemahan mesin.

Artikel ini akan membahas topik evaluasi terjemahan mesin secara mendalam. Ini akan membantu Anda memahami apa itu evaluasi terjemahan mesin, mengapa Anda membutuhkannya, dan berbagai jenis evaluasi, untuk membantu Anda mengambil  keputusan yang tepat saat memilih sistem MT untuk diinvestasikan.

Pendahuluan: Apa yang dimaksud dengan evaluasi terjemahan mesin?

Evaluasi terjemahan mesin mengacu pada serangkaian proses berbeda untuk mengukur kinerja sistem terjemahan mesin.

Ini merupakan cara menilai kualitas terjemahan mesin sehingga kita dapat mengetahui seberapa baik sistem tersebut, dan memiliki dasar yang kuat untuk membandingkan efektifitas berbagai sistem terjemahan mesin.Untuk melakukan hal ini, evaluasi terjemahan mesin menggunakan metrik yang terukur.

Mengapa metrik evaluasi terjemahan mesin begitu penting?

Ada dua alasan utama mengapa evaluasi kinerja sistem terjemahan mesin perlu dilakukan. Yang pertama adalah memeriksa apakah terjemahan mesin cukup baik untuk digunakan di dunia nyata. Yang kedua adalah berfungsi sebagai panduan dalam penelitian dan pengembangan.

Untuk memeriksa apakah terjemahan mesin cukup baik untuk digunakan di dunia nyata

Pertama, tentu saja, adalah menentukan apakah sistem terjemahan mesin bekerja cukup baik untuk digunakan secara nyata.Inilah alasan yang paling relevan dengan pengguna akhir. Jika kinerja sistem terjemahan mesin kurang memuaskan, pengguna lebih cenderung alternatif lain.

Sektor industri yang menggunakan terjemahan mesin juga menginginkan metrik/tolok ukr yang jelas untuk memutuskan sistem terjemahan mesin apa yang akan digunakan.Lagipula, terjemahan mesin adalah sebuah investasi, dan bisnis ingin mendapatkan hasil terbaik dari uang yang mereka keluarkan.

Karena itu, pengembang terjemahan mesin harus mengevaluasi apakah kualitas sistem terjemahan mesin mereka cukup baik untuk dikirim ke klien.

Berfungsi sebagai panduan dalam penelitian dan pengembangan

Sistem terjemahan mesin, idealnya, bukan merupakan hal yang statis. Teknologi terjemahan mesin terus berkembang dari waktu ke waktu. Karena itu, sistem terjemahan mesin tentu akan terus meningkat.

Di sinilah pentingnya penelitian, dan peneliti harus memiliki arah untuk fokus pada peningkatan terseubt.Metrik yang terukur memungkinkan peneliti untuk membandingkan kualitas berbagai pendekatan, dan membantu untuk menyempurnakan sistem tersebut.

Hal ini sangat berguna untuk melihat seberapa baik kualitas sistem dalam menangani kesalahan terjemahan yang terus terjadi. Memiliki metrik yang terukur dapat menentukan, dalam lingkup yang lebih terkontrol, apakah pendekatan tertentu mampu menangani kesalahan seperti ini atau tidak.

Bagaimana cara mengevaluasi keberhasilan terjemahan mesin?

Ada dua cara berbeda untuk menentukan kualitas kinerja sistem terjemahan mesin.Evaluasi manusia dilakukan oleh pakar manusia yang melakukan penilaian manual, sementara evaluasi otomatis menggunakan metrik berbasis AI yang dikembangkan khusus untuk menilai kualitas terjemahan tanpa campur tangan manusia. Masing-masing memiliki kelebihan dan kekurangannya sendiri. Kami akan membahas lebih detail tentang kedua jenis evaluasi terjemahan mesin tersebut di bagian selanjutnya dari artikel ini. Tapi sebelumnya, berikut rangkuman singkat dari kedua jenis evaluasi terjemahan mesin tersebut, serta pendekatan terhadap evaluasi terjemahan mesin  MT yang menggunakan metide tersebut.

Evaluasi Manusia vs Evaluasi Otomatis

Evaluasi manusia terhadap terjemahan mesin berarti bahwa penilaian kualitas terjemahan dilakukan oleh penerjemah profesional manusia. Ini merupkan opsi yang paling efektif dalam menentukan kualitas terjemahan mesin hingga tingkat kalimat. Akan tetapi, evaluasi manusia, seperti halnya terjemahan manusia, pada dasarnya lebih mahal dan memakan waktu.

Evaluasi otomatis, di sisi lain, menggunakan program yang dikembangkan khusus untuk menilai kualitas terjemahan mesin sesuai dengan metode yang berbeda. Evaluasi ini tidak dapat diandalkan seperti evaluasi manusia pada tingkat kalimat, namun merupakan opsi yang efektif dan efisien saat mengevaluasi kualitas keseluruhan terjemahan pada beberapa dokumen.

Pendekatan terhadap evaluasi terjemahan mesin

Pendekatan terhadap evaluasi terjemahan mesin didasarkan pada konsep granularitas. Ini mengacu pada berbagai tingkatan di mana penilaian dapat dianggap signifikan.

Pendekatan berbasis kalimat. Dalam pendekatan ini, tiap kalimat diberi skor yang menyebutkan apakah terjemahannya baik (1) atau tidak baik (0) dan totalnya diberi nilai rata-rata. Ini yang paling sering dilakukan dalam evaluasi manusia.

Pendekatan berbasis dokumen. Juga dikenal sebagai pendekatan berbasis korpus, kalimat juga diberi skor namun skor signifikannya adalah skor total atau rata-rata pada kumpulan dokumen yang lebih besar. Ini merupakan tingkatan terkecil di mana evaluasi terjemahan mesin otomatis dapat dianggap signifikan, karena ia sangat bergantung pada statistik dari kumpulan data yang besar.

Pendekatan berbasis konteks. Pendekatan ini berbeda dari yang sebelumnya karena lebih fokus pada adalah seberapa cocok tugas terjemahan mesin secara keseluruhan dengan tujuan penggunaannya, alih-alih melalui skor rata-rata berdasarkan kalimat. Karena itu, ini mungkin dianggap sebagai pendekatan holistik untuk evaluasi terjemahan mesin.

Tantangan dalam evaluasi terjemahan mesin

Evaluasi terjemahan mesin merupakan proses yang sulit. Hal ini karena bahasa merupakan hal yang sangat kompleks.

Pertama, bisa ada beberapa terjemahan yang benar. Misalnya untuk kalimat berikut:

The quick brown fox jumped over the lazy dog.

Sistem terjemahan mesin mungkin menghasilkan terjemahan berikut sebagai gantinya:

The fast brown fox pounced over the indolent dog.

Ini adalah terjemahan yang benar secara teknis, dan biasanya dinilai demikian dalam evaluasi manusia.Namun dalam evaluasi otomatis, ini akan ditandai sebagai terjemahan yang salah.

Detail kecil juga dapat mengubah makna kalimat secara keseluruhan.

The quick brown fox jumped on the lazy dog.

Di sini, hanya ada satu kata yang telah diubah. Namun satu kata tersebut mengubah makan kalimat secara keseluruhan. Evaluasi otomatis cenderung menandainya lebih tinggi dari contoh sebelumnya. Penerjemah manusia mungkin menemukan kesalahan tersebut, namun mungkin ada yang  menganggapnya benar.

Dan itu karena bahasa bisa bersifat subjektif. Bahkan evaluator manusia dapat berbeda dalam menilai apakah suatu terjemahan sudah baik atau tidak.

Evaluasi manusia: Standar emas

Karena kita telah membahas dasar-dasarnya, sekarang mari kita bahas secara mendalam dua jenis evaluasi terjemahan mesin, dimulai dengan evaluasi manusia.

Pada tingkat yang paling dasar, tujuan dari terjemahan mesin adalah untuk menerjemahkan teks dari bahasa sumber ke bahasa target pada tingkat yang dapat dipahami oleh manusia. Karena itu, manusia merupakan standar terbaik untuk mengevaluasi kualitas terjemahan mesin.

Jenis-jenis evaluasi manusia

Ada beberapa cara untuk melakukan evaluasi manusia, yang akan kita bahas sekarang:

Penilaian Langsung

Ini merupakan jenis evaluasi manusia yang paling sederhana. Hasil terjemahan mesin dinilai pada tingkat kalimat.

Masalah dari penilaian langsung adalah bahwa penilai yang berbeda akan memberi nilai yang snagat berbeda. Ada yang mungkin cenderung memberikan penilaian yang sangat ekstrem, misalnya melabel terjemahan sebagai sangat buruk atau sangat baik. Yang lain mungkin lebih berhati-hati, misalnya memberi skor yang tidak terlalu tinggi atau terlalu rendah untuk kalimat yang sama.

Masalah lainnya adalah, sekali lagi, subjektivitas. Dalam menilai apakah sebuah kalimat merupakann terjemahan yang baik atau buruk, evaluator harus membuat keputusan tentang bahasa yang ambigu. Kembali ke contoh kalimat:

The quick brown fox jumped over the lazy canine.

Di sini, canine belum tentu salah, tetapi juga bukan yang paling cocok. Sejumlah evaluator mungkin menganggapnya cukup baik, sementara yang lain mungkin menganggapnya sebagai sepenuhnya salah. Misalnya, jika penilaian dilakukan pada skala 5 poin, sejummlah penerjemah mungkin memberi nilai 4, sementara yang lain mungkin hanya memberi nilai 2.

Untuk mengatasi hal ini, kita dapat menggunakan evaluator dalam jumlah yang lebih besar, sehingga nilainya dapat dapat lebih normal secara statistik.

Peringkat

Cara lain untuk menilai sistem terjemahan mesin melalui evaluasi manusia adalah dengan peringkat.

Dalam hal ini, evaluator tidak memberikan nilai terpisah untuk kalimat, melainkan membandingkan hasil terjemahan dari sistem terjemahan mesin yang berbeda. Mereka lalu memutuskan mana yang merupakan terjemahan terbaik, mana yang terbaik kedua, dan seterusnya.

Kelebihan dari metode ini dibanding dengan penilaian langsung adalah bahwa metode ini langsung memberi perbandingan langsung, bukan dengan  membandingkan skor yang telah dihasilkan selama uji coba yang berbeda dan mungkin oleh evaluator yang berbeda.

Akan tetapi, cara ini masih memiliki masalah subjektivitas. Sistem terjemahan mesin yang berbeda cenderung menghasilkan kesalahan yang berbeda. Misalnya:

The quick green fox jumped over the lazy dog.

Quick brown fox jumped over lazy dog.

The quick brown fox jump over the lazy dog.

Setiap kalimat memiliki kesalahan sederhana. Yang pertama memiliki kesalahan penerjemahan. Yang kedua menghilangkan artikel. Yang ketiga tidak memiliki bentuk kata kerja.

Sekarang, evaluator harus memutuskan kesalahan mana yang lebih penting dibanding yang lain, dan  evaluator tentu saja bisa memiliki pendapat yang berbeda tentang masalah ini.

Upaya post-editing

Jika pengguna menggunakan sistem terjemahan mesin untuk menyiapkan dokumen untuk post-editing, ada juga cara untuk mengevaluasinya berdasarkan lama waktu yang diperlukan untuk melakukan post-edit.

Tujuan dasar dari post-editing adalah agar penerjemah dapat bekerja lebih cepat dibanding jika mereka menerjemahkan teks dari awal. Karena itu, cara paling sederhana untuk menilai sistem terjemahan mesin untuk post-editing adalah dengan menghitung waktu yang diperlukan oleh penerjemah untuk mengoreksi hasil yang diterjemahkan oleh mesin.

Cara lain untuk menghitung upaya post-editing adalah dengan menabulasikan jumlah ketukan pada keyboard yang diperlukan untuk mengganti teks yang diterjemahkan oleh mesin dengan terjemahan dari manusia. Ini tidak dipengaruhi oleh waktu yang tersedia, tetapi juga tidak mempertimbangkan kemungkinan beberapa terjemahan yang benar.

Evaluasi berbasis tugas

Ada pula evaluasi berbasis tugas yang, seperti namanya, menilai sistem terjemahan mesin berdasarkan seberapa cocok hasilnya dengan tugas yang harus dikerjakan.Misalnya, jika digunakan dalam lingkup webinar multibahasa, peserta dapat diminta untuk menilai pengalaman mereka dengan transkrip yang diterjemahkan oleh mesin. Artinya, mereka menilai keberhasilan sistem terjemahan mesin secara keseluruhan.

Masalah dari pendekatan ini adalah ada banyak faktor lain yang tidak dapat dikontrol yang dapat mempengaruhi penilaian yang diberikan evaluator. Karena itu, penggunaan evaluasi berbasis tugas tergantung dengan situasinya.

Tantangan umum dalam evaluasi manusia

Seperti yang mungkin dapat Anda lihat, berbagai jenis evaluasi manusia terhadap terjemahan mesin memiliki masalahnya sendiri. Berbagai evaluasi ini memiliki kesulitan yang sama, dan ini berkaitan dengan konsistensi atau kesepakatan.

Kesepakatan antar-anotator

Ini mengacu pada konsistensi skor atau nilai antara evaluator yang berbeda. Seperti yang disebutkan sebelumnya, evaluator yang berbeda akan memiliki kecenderungan yang berbeda dalam menilai segmen teks yang sama. Ada yang mungkin memberi penilaian ekstrem, ada pula yang tidak terlalu tinggi atau terlalu rendah.Saat memberi peringkat untuk sistem terjemahan mesin yang berbeda, pendapat mereka juga dapat berbeda. Inilah alasan mengapa kita harus memiliki beberapa evaluator, sehingga distribusi nilainya dapat lebih normal.

Kesepakatan intra-annotator

Cara seorang evaluator dalam menilai teks juga merupakan tolok ukur validitas. Seorang evaluator mungkin menilai suatu kalimat sebagai baik atau buruk untuk pertama kalinya, namun mungkin berubah pikiran setelah mengulang tes yang sama. Memiliki tingkat kesepakatan intra-annotator yang tinggi memastikan bahwa evaluator yang dipilih dapat dianggap konsisten dan dapat diandalkan.

Evaluasi otomatis: Opsi yang dapat diskalakan (efektif & efisien)

Evaluasi manusia dianggap sebagai standar emas dalam hal mengevaluasi kualitas terjemahan mesin. Namun, ini merupakan upaya yang mahal dalam hal usaha dan waktu. Itulah sebabnya para peneliti di bidang ini mengembangkan cara yang berbeda untuk mengevaluasi kualitas terjemahan mesin melalui proses otomatis.

Proses ini dirancang untuk meniru cara manusia dalam mengevaluasi sistem terjemahan mesin.Tentu saja, hasilnya masih jauh dari sempurna, akan tetapi evaluasi otomatis masih memiliki aplikasi penggunaan yang sangat penting.

Kelebihan utama dari evaluasi otomatis dibanding evaluasi manusia adalah skalabilitasnya. Menjalankan ratusan contoh evaluasi otomatis jauh lebih cepat dibandingsatu contoh evaluasi manusia. Ini menjadikannya sebagai solusi ideal saat melakukan penyesuaian atau mengoptimalkan sistem terjemahan mesin yang membutuhkan hasil cepat.

Masalah dalam evaluasi otomatis

Berbeda halnya dengan manusia, mesin tidak dirancang untuk menangani nuansa penggunaan bahasa yang berbeda. Sistem evaluasi otomatis bergantung pada hasil terjemahan mesin yang memiliki exact match (teks yang sama persis) dengan teks sumber, dan perbedaan kecil dapat berdampak pada nilai akhirnya. Perbedaan ini dapat mencakup penyimpangan dalam hal morfologi, penggunaan sinonim, dan urutan tata bahasa.

Apa pun yang dapat dianggap secara teknis atau kurang lebih benar oleh evaluator manusia mungkin dapat diberi penalti (pengurangan poin) dalam evaluasi otomatis. Meskipun demikian, jumlah exact match (teks yang sama persis) yang signifikan, khususnya saat menangani jumlah teks yang besar, sudah cukup untuk membuat evaluasi otomatis layak untuk digunakan.

Metrik evaluasi otomatis

Ada sejumlah metrik evaluasi otomatis yang tersedia saat ini. Berikut beberapa contoh yang digunakan:

      BLEU (Bilingual Evaluation Understudy)

      NIST (dari National Institute of Standards and Technology)

      METEOR (Metric for Evaluation of Translation with Explicit Ordering)

      LEPOR (Length-Penalty, Precision, n-gram Position Difference Penalty and Recall)

      COMET 

      PRIS

      TER (Translation Error Rate)

Setiap metrik bekerja pada algoritma yang berbeda dan karenanya menangani proses evaluasi otomatis secara berbeda. Itu berarti bahwa mereka memiliki kelebihan dan kekurangan yang berbeda, dan berbeda terkait jenis kesalahan yang mereka beri penalti lebih tinggi atau lebih rendah.

BLEU, metrik paling populer

Dari semua metrik yang tercantum di atas, BLEU merupakan salah satu yang paling umum digunakan. BLEU merupakan salah satu metrik pertama yang mencapai tingkat korelasi yang tinggi dengan evaluasi manusia, dan telah melahirkan banyak variasi berbeda.

Cara kerjanya adalah dengan menilai tiap kalimat dengan serangkaian terjemahan yang berkualitas tinggi. Nilai ini kemudian dirata-ratakan, dan angka yang dihasilkan adalah nilai BLEU akhir untuk sistem terjemahan mesin tersebut.Nilai ini menunjukkan seberapa mirip hasil sistem terjemahan mesin dengan terjemahan manusia, yang merupakan penanda kualitas.

Nilai ini dihitung menggunakan satuan yang disebut n-gram, yang merupakan segmen teks yang berurutan. Kembali ke contoh kalimat sebelumnya, misalnya:

The quick brown fox jumped over the lazy dog.

Ini dapat dibagi menjadi n-gram dengan panjang yang berbeda. 2 gram, misalnya, adalah “The quick”, “quick brown”, atau “brown fox”. 3 gram adalah “The quick brown” atau “quick brown fox”. 4 gram adalah “The quick brown fox”. Dan seterusnya.

Ini merupkaan proses matematika yang kompleks, namun pada dasarnya, algoritma BLEU menghitung nilainya dengan memeriksa berapa banyak kelompok kata yang sama di antara n-gram. Nilai yang dihitung adalah antara 0 dan 1, di mana 1 menunjukkan kecocokan yang sepenuhnya identik antara teks sumber dengan kalimat hasil.Sekarang perhatikan variasi berikut pada contoh kalimat:

The fast brown fox jumped over the lazy dog.

Semua n-gram akan cocok kecuali yang memiliki kata “fast".. Contoh lain:

The quick brown fox jumped over the dog.

Dalam contoh ini, kata “lazy” hilang, sehingga mengurangi kemiripan dalam terjemahan.Dalam kedua hal  tersebut, skor BLEU akan tetap tinggi, namun kurang dari 1.

Dalam praktiknya, tidak banyak kalimat yang akan menunjukkan tingkat korelasi yang tinggi ini. Karena itu, skor BLEU hanya signifikan secara statistik ketika diambil dalam konteks sampel teks yang besar, atau korpus.

Tentu saja ada faktor-faktor lain yang dipertimbangkan dalam menghitung nilai BLEU, misalnya penalti untuk kata-kata tambahan atau kalimat yang sangat pendek. Sistem penilaian lainnya telah dikembangkan untuk mengatasi kekurangannya, akan tetapi BLEU tetap menduduki peringkat tinggi dan terus menjadi sistem evaluasi terjemahan mesin yang paling banyak digunakan hingga saat ini.

Pandangan terakhir tentang evaluasi terjemahan mesinMT

Seperti itulah dasar-dasar dari evaluasi terjemahan mesin. Seperti yang telah kami tunjukkan, menilai sistem terjemahan mesin dapat dilakukan melalui evaluasi manusia atau evaluasi otomatis. Kedua proses ini memiliki kelebihan dan kekurangannya masing-masing.

Evaluasi manusia merupakan standar emas dalam hal kualitas, namun cukup mahal dan memakan waktu. Terjemahan otomatis tidak seakurat terjemahan manusia, namun sangat cepat dan dapat diskalakan (efektif & efisien). Karena itu, kedua jenis evaluasi ini memiliki skenario penggunaan khusus di mana mereka berfungsi dengan baik.