10/05/2024

Penilaian Terjemahan Mesin: Panduan Terunggul

Katakan anda sebuah perniagaan yang telah memutuskan untuk melabur dalam sistem terjemahan mesin. Anda telah melakukan sedikit penyelidikan asas, dan mendapati bahawa terdapat begitu banyak pilihan untuk dipilih. Masing-masing mendakwa mendapat jumlah tertentu berdasarkan metrik tertentu, tetapi anda tidak memahami maksud nombor tersebut. Bagaimana anda tahu mana yang paling sesuai untuk anda?

Anda perlu memahami cara fungsi penilaian terjemahan mesin.

Artikel ini akan menghuraikan topik penilaian terjemahan mesin secara mendalam. Ini akan membantu anda memahaminya, mengapa anda memerlukannya, dan pelbagai jenis penilaian, untuk membantu anda membuat keputusan yang tepat ketika memilih sistem MT untuk melabur.

Pengenalan Apakah penilaian terjemahan mesin?

Penilaian terjemahan mesin merujuk kepada proses yang berbeza untuk mengukur prestasi sistem terjemahan mesin.

Ini adalah cara untuk menilai kualiti MT supaya dapat mengetahui seberapa baik sistem itu, dan ada asas yang kukuh untuk membandingkan keberkesanan sistem MT yang berbeza. Untuk melakukan ini, penilaian terjemahan mesin menggunakan metrik yang boleh diukur.

Mengapa metrik penilaian terjemahan mesin adalah penting?

Terdapat dua sebab utama mengapa menilai prestasi sistem MT perlu dilakukan. Yang pertama adalah untuk memeriksa sama ada ia cukup baik untuk aplikasi dunia sebenar. Yang kedua adalah untuk berfungsi sebagai panduan dalam penyelidikan dan pembangunan.

Untuk memeriksa sama ada ia cukup baik untuk aplikasi dunia sebenar

Pertama, tentunya, adalah untuk menentukan sama ada sistem MT berfungsi pada tahap yang cukup baik untuk kegunaan sebenar. Inilah sebab yang paling berkait langsung dengan pengguna akhir. Sekiranya sistem terjemahan mesin berfungsi dengan teruk, pengguna lebih cenderung memilih sesuatu yang lain.

Sektor perindustrian yang menggunakan MT juga mahukan metrik konkrit untuk menentukan sistem MT yang akan diperolehi. Lagipun, MT adalah pelaburan, dan perniagaan perlu mendapatkan nilai terbaik untuk wang mereka.

Oleh itu, pemaju MT perlu menilai sama ada kualiti sistem terjemahan mesin cukup baik untuk mereka menghantarnya kepada pelanggan.

Berfungsi sebagai panduan dalam penyelidikan dan pembangunan

Sistem MT, secara ideal, bukan entiti statik. Teknologi untuk MT terus bertambah baik dari masa ke masa. Ia masuk akal bahawa sistem MT harus dijangka untuk bertambah baik juga.

Di sinilah penyelidikan masuk, dan penyelidik perlu mempunyai sesuatu panduan mengenai tempat untuk mencari. Metrik yang boleh diukur membolehkan penyelidik membandingkan sama ada pendekatan tertentu lebih baik daripada yang lain, yang membantu mereka menyesuaikan sistem.

Ia amat bagus untuk melihat bagaimana sistem menangani kesilapan terjemahan yang konsisten. Mempunyai metrik boleh ukur yang dapat menunjukkan sama ada pendekatan tertentu dapat menangani kesilapan seperti ini atau tidak dalam suasana yang lebih terkawal.

Bagaimanakah anda menilai kejayaan terjemahan mesin?

Terdapat dua cara berbeza untuk menentukan seberapa baik sistem MT berfungsi. Penilaian manusia dilakukan oleh pakar manusia yang melakukan penilaian manual, sementara penilaian automatik menggunakan metrik berasaskan AI yang dibangunkan khas untuk menilai kualiti terjemahan tanpa campur tangan manusia. Masing-masing mempunyai kelebihan dan kekurangan sendiri. Kami akan lebih memperincikan kedua-dua jenis penilaian MT di bahagian lanjut artikel ini, tetapi pertama sekali, berikut adalah gambaran ringkas mengenai dua jenis penilaian terjemahan mesin, serta pendekatan terhadap penilaian MT yang menggunakannya.

Penilaian Manusia lwn Penilaian Automatik

Penilaian manusia terhadap terjemahan mesin bermaksud bahawa penilaian kualiti terjemahan dilakukan oleh penterjemah manusia profesional. Ini adalah pilihan yang paling berkesan apabila menentukan kualiti terjemahan mesin hingga tahap ayat. Tetapi penilaian manusia, seperti terjemahan manusia, adalah secara semula jadi lebih mahal dan memakan masa.

Penilaian automatik, sebaliknya, menggunakan program yang dibina khusus untuk menilai kualiti terjemahan mesin mengikut kaedah yang berbeza. Ia tidak boleh dipercayai seperti penilaian manusia pada tahap ayat, tetapi merupakan pilihan berskala yang baik ketika menilai kualiti keseluruhan terjemahan pada pelbagai dokumen.

Pendekatan ke arah penilaian MT

Pendekatan ke arah penilaian terjemahan mesin adalah berdasarkan konsep butiran. Iaitu, tahap yang berbeza di mana pemarkahan mungkin dianggap penting.

Pendekatan berasaskan ayat. Di bawah pendekatan ini, setiap ayat diberi markah yang menyatakan sama ada terjemahannya baik (1) atau tidak baik (0) dan jumlahnya diberikan purata. Ini paling biasa dilakukan dalam penilaian manusia.

Pendekatan berasaskan dokumen. Juga dikenali sebagai pendekatan berasaskan korpus, ayat juga diberi markah tetapi markah yang signifikan adalah jumlah atau purata di antara satu set dokumen yang lebih besar. Ini adalah tahap terkecil di mana penilaian MT automatik boleh dianggap penting, kerana ia amat bergantung pada statistik dari set data yang luas.

Pendekatan berasaskan konteks. Pendekatan ini berbeza dengan yang sebelumnya kerana apa yang diambil kira adalah seberapa baik kesesuaian keseluruhan tugas MT dengan tujuan yang ditetapkan, dan bukannya melalui markah purata berasaskan ayat. Oleh itu, ia mungkin dianggap pendekatan holistik untuk penilaian MT.

Cabaran dalam penilaian terjemahan mesin

Penilaian terjemahan mesin adalah proses yang sukar. Ini kerana bahasa itu sendiri adalah perkara yang sangat kompleks.

Pertama sekali, mungkin terdapat banyak terjemahan yang betul. Ambil, sebagai contoh, ayat berikut:

Rubah coklat tangkas melompat atas anjing malas itu.

Sistem MT mungkin menghasilkan terjemahan berikut sebagai gantinya:

Rubah coklat yang laju melonjak atas anjing penat itu.

Ini adalah terjemahan yang betul secara teknikal, dan dalam penilaian manusia biasanya ditandakan sedemikian. Tetapi dalam penilaian automatik, ia akan ditandakan sebagai salah.

Butiran kecil juga boleh mengubah makna ayat sepenuhnya.

Rubah coklat tangkas melompat ke atas anjing malas itu.

Di sini, hanya ada satu perkataan yang telah diubah. Tetapi satu perkataan itu mengubah makna ayat sepenuhnya. Penilaian automatik mungkin menandakannya lebih tinggi daripada contoh sebelumnya. Penterjemah manusia mungkin menangkap kesilapan itu, tetapi ada yang mungkin menganggapnya betul.

Ia kerana bahasa boleh menjadi subjektif. Malah penilai manusia mungkin berbeza dalam penilaian mereka sama ada terjemahan itu baik atau tidak.

Penilaian manusia: Piawai emas

Sekarang setelah kita membincangkan asasnya, mari kita lihat dua jenis penilaian MT secara mendalam, bermula dengan penilaian manusia.

Pada tahap yang paling asas, matlamat terjemahan mesin adalah untuk menterjemahkan teks dari bahasa sumber ke dalam bahasa sasaran pada tahap yang dapat difahami oleh manusia. Jadi, manusia adalah tahap rujukan terbaik untuk menilai kualiti terjemahan mesin.

Jenis penilaian manusia

Terdapat beberapa cara yang berbeza untuk melakukan penilaian manusia, yang akan kita perhatikan sekarang:

Penilaian Terus

Ini adalah jenis penilaian manusia yang paling mudah. Hasil terjemahan mesin dinilai pada tahap ayat.

Cabaran dengan penilaian langsung adalah bahawa hakim berlainan mempunyai cara pemarkahan yang amat berbeza. Ada yang cenderung untuk mencapai tahap yang melampau dari segi pemarkahan, menandakan terjemahan sebagai sangat buruk atau sangat baik. Yang lain mungkin lebih konservatif, menandakan ayat yang sama dengan skor lebih dekat ke tengah.

Cabaran lain adalah, sekali lagi, subjektiviti. Dalam menilai sama ada ayat adalah terjemahan yang buruk atau tidak, penilai perlu membuat keputusan mengenai bahasa kurang jelas. Kembali ke ayat contoh:

Rubah coklat tangkas melompat ke atas anjing yang malas.

Di sini, anjing tidak semestinya salah, tetapi ia juga bukan istilah yang paling sesuai. Sesetengah penilai mungkin menganggapnya cukup baik, sementara yang lain mungkin menandakannya sebagai salah sepenuhnya. Sebagai contoh, jika pemarkahan dilakukan pada skala 5 mata, sesetengah penterjemah mungkin menandakannya sebagai 4, sementara yang lain mungkin hanya memberikannya 2.

Cabaran ini dapat diimbangi dengan menggunakan kumpulan penilai yang lebih besar, yang akan membolehkan markah dinormalisasi berdasarkan istilah statistik.

Kedudukan

Cara lain untuk menilai sistem terjemahan mesin melalui penilaian manusia adalah kedudukan.

Dalam kes ini, penilai tidak memberikan markah individu untuk ayat, tetapi sebaliknya membandingkan antara terjemahan dari sistem MT yang berbeza. Mereka kemudian memutuskan terjemahan terbaik, yang kedua terbaik, dan seterusnya.

Kelebihan kaedah ini berbanding penilaian langsung adalah bahawa ia segera memberikan perbandingan terus, daripada membandingkan markah yang telah dihasilkan dalam percubaan yang berbeza dan mungkin oleh penilai yang berbeza.

Walau bagaimanapun, ia masih mengalami cabaran subjektiviti. Sistem MT yang berbeza mungkin mempunyai kesilapan yang berbeza. Contohnya:

Rubah hijau tangkas melompat ke atas anjing malas itu.

Rubah coklat tangkas melompat ke atas anjing malas.

Rubah coklat tangkas melompat ke atas anjing malas itu.

Setiap ayat mempunyai ralat mudah. Yang pertama mempunyai salah tafsiran. Yang kedua tidak memasukkan artikel. Yang ketiga tidak ada ayat kata kerja.

Penilai kini perlu memutuskan ralat mana yang lebih penting daripada yang lain, dan sekali lagi, penilai mungkin mempunyai pendapat yang berbeza tentang perkara itu.

Usaha pasca penyuntingan

Sekiranya tujuan pengguna menggunakan sistem MT adalah untuk menyediakan dokumen bagi pasca penyuntingan, ada juga cara untuk menilai mengikut jumlah usaha yang diperlukan untuk pasca penyuntingan.

Tujuan asas pasca penyuntingan adalah untuk membolehkan penterjemah bekerja lebih cepat berbanding daripada menterjemahkan teks dari awal. Jadi, cara paling mudah untuk menilai sistem MT untuk pasca penyuntingan adalah dengan mengukur masa yang diperlukan untuk penterjemah membetulkan hasil yang diterjemahkan mesin.

Cara lain untuk mengukur usaha pasca penyuntingan adalah dengan menjadualkan bilangan tekanan pada papan kekunci yang diperlukan untuk menggantikan teks yang diterjemahkan mesin dengan terjemahan rujukan manusia. Ia bebas daripada kekangan masa, tetapi juga tidak mengambil kira kemungkinan pelbagai terjemahan yang betul.

Penilaian berasaskan tugasan

Kemudian terdapat penilaian berasaskan tugasan yang, seperti namanya, menilai sistem MT berdasarkan kesesuaian dengan tugasan yang sedia ada. Sebagai contoh, jika ia digunakan dalam tetapan webinar berbilang bahasa, peserta mungkin diminta untuk menilai pengalaman mereka dengan transkrip terjemahan mesin. Ini bermakna mereka menilai kejayaan sistem MT secara keseluruhan.

Masalah dengan pendekatan ini ialah ia sangat terbuka kepada pengenalan unsur-unsur lain tidak terkawal yang mungkin mempengaruhi penilaian oleh penilai. Jadi, penggunaan penilaian berasaskan tugasan amat bersituasi.

Cabaran umum dalam penilaian manusia

Seperti yang anda lihat, pelbagai jenis penilaian manusia terhadap MT datang dengan cabaran tersendiri. Terdapat juga beberapa cabaran yang mereka kongsi secara meluas, dan ini berkaitan dengan konsistensi atau perjanjian.

Perjanjian antara annotator

Ini merujuk kepada konsistensi markah antara penilai yang berbeza. Seperti yang telah kami sebutkan sebelum ini, penilai yang berbeza akan mempunyai kecenderungan yang berlainan dalam cara mereka memenilai segmen teks yang sama. Ada yang mungkin menilai pada tahap ekstrem atau ke arah tengah. Apabila menilai enjin MT yang berlainan, pendapat mereka juga mungkin berbeza. Inilah sebabnya ia penting bagi adanya banyak penilai, supaya taburan skor akan dinormalisasi.

Perjanjian intra-annotator

Cara penilai tunggal menilai teks juga merupakan ukuran kesahihan. Seorang penilai mungkin menilai ayat sebagai baik atau buruk pada kali pertama, tetapi mereka mungkin berubah fikiran apabila mengulangi ujian yang sama. Dengan adanya pengukuran perjanjian intra-anotator yang tinggi akan memastikan bahawa penilai yang dipilih dapat dianggap konsisten dan boleh dipercayai.

Penilaian automatik: Pilihan berskala

Penilaian manusia dianggap sebagai piawai emas ketika menilai kualiti terjemahan mesin. Walau bagaimanapun, ia adalah ikhtiar yang mahal dari segi usaha dan masa. Inilah sebabnya penyelidik di lapangan telah mengembangkan cara yang berbeza untuk menilai kualiti MT melalui proses automatik.

Proses-proses ini direka untuk menganggarkan bagaimana manusia akan menilai sistem MT. Sudah tentu, mereka jauh dari sempurna dalam hal ini, tetapi penilaian automatik masih mempunyai kes penggunaan yang sangat penting.

Kelebihan utama penilaian automatik berbanding penilaian manusia adalah skalabiliti. Ia jauh lebih cepat untuk menjalankan beratus-ratus contoh penilaian automatik berbanding dengan satu pusingan penilaian manusia. Ini menjadikannya penyelesaian yang ideal apabila membuat perubahan atau mengoptimumkan sistem MT, yang memerlukan hasil yang cepat.

Cabaran dalam penilaian automatik

Bukan seperti manusia, mesin tidak dilengkapi untuk menangani nuansa penggunaan bahasa yang berbeza. Sistem penilaian automatik adalah berasaskan pada MT mempunyai padanan yang tepat dengan teks rujukan, dan perbezaan kecil mungkin memberi kesan pada markah terakhir. Perbezaan ini mungkin merangkumi penyimpangan dalam morfologi, penggunaan sinonim, dan susunan tatabahasa.

Apa-apa yang boleh dianggap secara teknikal atau lebih kurang betul oleh penilai manusia mungkin boleh dihukum dalam penilaian automatik. Walau bagaimanapun, bilangan padanan yang tepat, terutamanya apabila mempertimbangkan sampel teks yang besar, sering kali cukup untuk mewajarkan penggunaan penilaian automatik .

Metrik penilaian automatik

Terdapat beberapa metrik penilaian automatik berbeza yang tersedia hari ini. Berikut adalah beberapa contoh yang digunakan:

● BLEU (Kajian bawah Penilaian Dwibahasa)

● NIST (dari Institut Piawaian dan Teknologi Nasional)

● METEOR (Metrik untuk Penilaian Terjemahan dengan Susunan Eksplisit)

● LEPOR (Penalti Panjang, Ketepatan, Penalti Perbezaan Kedudukan n-gram dan Penalti Penalti)

● COMET

● PRIS

● TER (Kadar Ralat Terjemahan)

Setiap metrik berfungsi pada algoritma berlainan dan dengan demikian mengendalikan proses penilaian automatik secara berbeza. Ini bermaksud bahawa mereka mempunyai kekuatan dan kelemahan berlainan, dan berbeza apabila menghukum jenis kesalahan dengan memberikan penalti yang lebih tinggi atau lebih rendah.

BLEU, metrik yang paling popular

Daripada semua metrik yang disenaraikan di atas BLEU adalah yang paling biasa digunakan. Ini adalah salah satu metrik pertama untuk mencapai tahap korelasi yang tinggi dengan penilaian manusia, dan telah menghasilkan banyak variasi berbeza.

Ia berfungsi melalui ayat individu yang dinilai dengan satu set terjemahan rujukan berkualiti tinggi. Markah ini kemudian dipuratakan, dan nombor yang dihasilkan adalah skor BLEU terakhir untuk sistem MT itu. Markah ini mewakili seberapa dekat hasil sistem MT padan dengan terjemahan rujukan manusia, yang merupakan penanda kualiti.

Markah dikira menggunakan unit yang dipanggil n-gram, yang merujuk kepada segmen teks berturut-turut. Kembali ke ayat sampel sebelumnya, sebagai contoh:

Rubah coklat tangkas melompat atas anjing malas itu.

Ini boleh dibahagikan kepada n-gram panjang yang berbeza. Sebagai contoh, 2-gram adalah “tangkas”, “coklat tangkas”, atau “rubah coklat”. Satu 3-gram adalah “Coklattangkas” atau “rubah coklat tangkas”. Satu 4-gram akan menjadi “Rubah coklat tangkas”. Dan seterusnya.

Ini adalah proses matematik yang kompleks, tetapi dalam istilah asas, algoritma BLEU mengira skor dengan memeriksa bilangan pertindihan antara n-gram. Skor yang dikira akan antara 0 dan 1, dengan 1 mewakili padanan yang sama sekali sama antara rujukan dan ayat hasil. Sekarang ambil variasi berikut pada ayat sampel:

Rubah coklat yang tangkas melompat ke atas anjing malas itu.

Semua n-gram akan padan kecuali yang mempunyai perkataan “tangkast”. Contoh lain:

Rubah coklat tangkas melompat ke atas anjing itu.

Dalam contoh ini, perkataan “malas” hilang, sehingga memberi kesan negatif kepada pertindihan. Dalam kedua-dua kes, skor BLEU masih tinggi, tetapi kurang daripada 1.

Dalam praktis, tidak banyak ayat akan menunjukkan tahap korelasi yang tinggi ini. Jadi, markah BLEU menjadi signifikan secara statistik hanya apabila diambil dalam konteks sampel besar teks, atau korpora.

Sudah tentu ada faktor lain yang perlu dikira dalam skor BLEU, seperti penalti untuk kata-kata tambahan atau ayat yang sangat pendek. Sistem pemarkahan derivatif lain telah dibangunkan untuk mengimbangi kekurangannya, tetapi BLEU tetap dinilai tinggi dan terus menjadi sistem penilaian MT yang paling kerap digunakan hari ini.

Kata-kata terakhir mengenai penilaian MT

Jadi itu merangkumi asas-asas penilaian terjemahan mesin. Seperti yang telah kami tunjukkan, menilai sistem MT boleh dilakukan melalui penilaian manusia atau penilaian automatik. Kedua-dua proses mempunyai kelebihan dan kekurangannya.

Penilaian manusia adalah piawai emas dari segi kualiti, tetapi mahal dan memakan masa. Terjemahan automatik tidak begitu tepat, tetapi cepat dan berskala. Oleh itu, kedua-dua jenis mempunyai kes penggunaan khusus di mana ia berkesan