13/05/2024
İşletmenizin bir makine çeviri sistemine yatırım yapmaya karar verdiğini varsayalım. Bazı temel araştırmalar yaptınız ve çok fazla seçenek olduğunu gördünüz. Her biri belirli metriklere göre iyi olduğunu iddia ediyor ancak verilen sayıların gerçekte ne anlama geldiğini bilmiyorsunuz. Hangisinin sizin için en uygun olduğunu nasıl anlarsınız?
Makine çevirisi değerlendirmesinin nasıl çalıştığını anlamanız gerekir.
Bu makalede makine çevirisi değerlendirmesi konusu derinlemesine ele alınacaktır.Yatırım yapacağınız MT sistemini seçerken bilinçli karar vermenize, ne olduğunu, neden ihtiyacınız olduğunu ve farklı değerlendirme türlerini anlamanız yardımcı olacaktır.
Makine çevirisi değerlendirmesi, bir makine çeviri sisteminin performansını ölçmenin farklı süreçlerini ifade eder.
MT'nin kalitesini puanlamanın bir yoludur. Böylece sistemin ne kadar iyi olduğunu bilmek mümkündür ve farklı MT sistemlerinin de ne kadar etkili olduğunu karşılaştırmak için sağlam bir temeldir. Bu karşılaştırma için, makine çevirisi değerlendirmesi ölçülebilir metrikler kullanır.
Bir MT sisteminin performansını değerlendirme gerekliliğinin başlıca iki nedeni olabilir.Birincisi, gerçek dünyada uygulama için yeterince iyi olup olmadığını kontrol etmektir. İkincisi, araştırma ve geliştirmede rehber görevi görmesidir.
Birincisi, elbette, MT sisteminin gerçekte kullanım için yeterince iyi bir seviyede çalışıp çalışmadığını belirlemektir. Bu, son kullanıcıları en doğrudan ilgilendiren nedendir. Bir makine çeviri sistemi kötü performans gösterirse kullanıcıların başka birini seçme olasılığı daha yüksektir.
MT kullanan sanayi sektörleri, hangi MT sisteminin alınacağına karar vermek için somut metrikler de isteyecektir. Sonuçta, MT bir yatırımdır ve işletmelerin paralarının karşılığını en iyi şekilde almaları gerekir.
Bu nedenle, MT geliştiricilerinin, makine çeviri sisteminin kalitesinin müşterilere gönderilebilecek kadar iyi olup olmadığını değerlendirmeleri gerekir.
MT sistemleri ideal olarak statik varlıklar değildir. MT teknolojisi zamanla sürekli gelişmektedir. MT sistemlerinin de gelişmesini beklemek mantıklıdır.
Araştırma da burada devreye girer ve araştırmacıların nereye bakacakları konusunda bazı rehberlere ihtiyaçları olur. Ölçülebilir metrikler, araştırmacıların belirli bir yaklaşımın diğerinden daha iyi olup olmadığını karşılaştırmasına olanak tanıyarak sisteme ince ayar yapmalarına yardımcı olur.
Bu, sistemin tutarlı çeviri hatalarıyla nasıl başa çıktığını görmek için özellikle iyidir. Ölçülebilir metriklerin olması, belirli bir yaklaşımın bu tür hatalarla başa çıkıp çıkamayacağını daha kontrollü bir ortamda gösterebilir.
Bir MT sisteminin ne kadar iyi çalıştığını belirlemenin iki farklı yolu vardır. İnsan değerlendirmesi manuel değerlendirme yapan insan tarafından yapılırken, otomatik değerlendirme, insan müdahalesi olmadan çeviri kalitesini değerlendirmek için özel olarak geliştirilmiş yapay zeka tabanlı metrikler kullanır. Her birinin kendi avantajları ve dezavantajları vardır. Bu makalenin sonraki bölümlerinde iki MT değerlendirmesi türü hakkında daha fazla ayrıntıya gireceğiz ancak önce burada iki tür makine çevirisi değerlendirmesine ve bunlardan yararlanan MT değerlendirmesi yaklaşımlarına hızlıca bir göz atacağız.
Makine çevirisinde insan değerlendirmesi, çeviri kalitesinin insan olan profesyonel çevirmenler tarafından değerlendirildiği anlamına gelir. Makine çevirilerinin kalitesini cümle düzeyine kadar belirlemek söz konusu olduğunda en etkili seçenektir. Ancak insan çevirisinde olduğu gibi insan değerlendirmesi doğası gereği daha maliyetli ve zaman alıcıdır.
Otomatik değerlendirme ise makine çevirisinin kalitesini farklı yöntemlere göre değerlendirmek için özel olarak oluşturulmuş programları kullanır. Cümle düzeyinde insan değerlendirmesi kadar güvenilir değildir ancak birden fazla belgede çevirinin genel kalitesini değerlendirirken iyi bir ölçeklenebilir seçenektir.
Makine çevirisi değerlendirmesi yaklaşımları, ayrıntı seviyesi kavramına dayanmaktadır. Yani, puanlamanın önemli kabul edilebileceği farklı seviyeler olmasıdır.
Cümle tabanlı yaklaşım. Bu yaklaşımda, her cümleye çevirisinin iyi (1) olduğunu veya iyi olmadığını (0) belirten bir puan verilir ve toplamı için de ortalama alınır. Bu yöntem, en yaygın olarak insan değerlendirmesinde yapılır.
Belge tabanlı yaklaşım. Korpus tabanlı yaklaşım olarak da bilinen bu yöntemde cümlelere de puan verilir ancak anlamlı olan puan, toplam puan ya da daha büyük bir belge kümesinin ortalamasıdır. Bu, büyük ölçüde geniş bir veri kümesinden elde edilen istatistiklere bağlı olduğundan, otomatik MT değerlendirmesinin anlamlı kabul edilebileceği en düşük düzeydir.
Bağlam tabanlı yaklaşım. Bu yaklaşım öncekilerden farklıdır çünkü dikkate aldığı şey, genel MT görevinin cümlelere dayalı ortalama puanlardan ziyade, belirlenen amaçlara ne kadar iyi uyduğudur. Bu nedenle, bütünsel bir MT değerlendirmesi yaklaşımı olarak düşünülebilir.
Makine çevirisi değerlendirmesi zor bir süreçtir. Bunun nedeni, dilin kendisinin çok karmaşık bir şey olmasıdır.
Birincisi, birden fazla doğru çeviri olabilir. Örneğin aşağıdaki cümleyi ele alalım:
Hızlı kahverengi tilki, tembel köpeğin üzerine atladı.
Bir MT sistemi bunun yerine aşağıdaki çeviriyi üretebilir:
Süratli kahverengi tilki, miskin köpeğin üstüne atıldı.
Bu teknik olarak doğru bir çeviridir ve insan değerlendirmesinde de normalde bu şekilde işaretlenir. Ancak otomatik değerlendirmede yanlış olarak işaretlenecektir.
Küçük detaylar bir cümlenin anlamını tamamen de değiştirebilir.
Hızlı kahverengi tilki, tembel köpeğin üzerinden atladı.
Burada, değiştirilen tek bir kelime var. Ancak bu tek kelime cümlenin anlamını tamamen değiştiriyor. Otomatik değerlendirmelerin buna önceki örnekten daha yüksek puan vermesi muhtemeldir. İnsan çevirmenler hatayı yakalayabilirler ancak bazıları da doğru olduğunu düşünebilir.
Çünkü dil öznel olabilir. İnsan değerlendiriciler bile bir çevirinin iyi olup olmadığına dair farklı kararlar verebilirler.
Şimdi temelleri gözden geçirdiğimize göre, insan değerlendirmesinden başlayarak iki tür MT değerlendirmesini derinlemesine ele alalım.
En temel düzeyde, makine çevirisinin amacı, metni kaynak dilinden hedef dile insanların anlayabileceği bir düzeyde çevirmektir. Bu nedenle, insanlar makine çevirisinin kalitesini değerlendirmek için en iyi referans noktasıdır.
İnsan değerlendirmesinin yapılmasının birkaç farklı yolu vardır. Bunlar:
Bu, insan değerlendirmesinin en basit türüdür. Makine çevirisi çıktısı cümle düzeyinde puanlanır.
Doğrudan değerlendirmede zorluk, farklı değerlendiricilerin puanlama biçimlerinin büyük ölçüde farklılık göstermesidir.Bazıları puanlama açısından aşırılıklara gitme eğiliminde olabilir ve çevirileri ya çok kötü ya da çok iyi olarak işaretleyebilir. Bazıları ise daha ölçülü bir şekilde aynı cümlelere ılımlı düzeyde puanlar verebilirler.
Başka bir zorluk da öznelliktir. Bir cümlenin kötü bir çeviri olup olmadığına karar verirken, değerlendiricilerin belirsiz dil konusunda karar vermeleri gerekir. Örnek cümleye geri dönersek:
Hızlı kahverengi tilki, tembel kaninin üzerine atladı.
Burada kanin tam olarak yanlış değildir ancak en uygun kelime de değildir. Bazı değerlendiriciler yeterince iyi olduğunu düşünebilir, bazıları ise tamamen yanlış olarak işaretleyebilir. Örneğin puanlama 5 puanlık bir ölçekteyse bazı çevirmenler buna 4 puan verirken, bazıları sadece 2 puan verebilir.
Bu zorluklar, puanların istatistiksel anlamda normalize edilmesini sağlayacak daha büyük bir değerlendirici havuzu kullanılarak dengelenebilir.
Makine çeviri sistemlerini insan değerlendirmesi yoluyla değerlendirmenin bir başka yolu da sıralamadır.
Bu durumda, değerlendiriciler her cümle için tek tek puan vermeyip farklı MT sistemlerinden çeviriler arasında karşılaştırma yaparlar. Daha sonra hangisinin en iyi çeviri olduğuna, hangisinin ikinci en iyi olduğuna vs. karar verirler.
Bu yöntemin doğrudan değerlendirmeye göre avantajı, farklı denemelerden ve muhtemelen farklı değerlendiricilerden gelen puanları karşılaştırmanın aksine hemen doğrudan bir karşılaştırma sağlamasıdır.
Bununla birlikte, öznellik burada da karşımıza çıkar. Farklı MT sistemlerinde farklı hataların olması muhtemeldir. Örneğin:
Hızlı yeşil tilki, tembel köpeğin üzerine atladı.
Hızlı kahverengi tilki tembel köpek üzerine atladı.
Hızlı kahverengi tilki, tembel köpeğin üzerine atlar.
Her cümlede basit bir hatası var. İlkinde yanlış çeviri var. İkincisinde ek ihmal edilmiş. Üçüncüsünde fiil zamanı eksik.
Bu durumda değerlendiricilerin hangi hatanın diğerinden daha önemli olduğuna karar vermeleri gerekir ve yine değerlendiricilerin konuyla ilgili farklı görüşleri olabilir.
Kullanıcının bir MT sistemini kullanma amacı, belgeleri makine çevirisi sonrası düzeltme için hazırlamaksa makine çevirisi sonrası düzeltme çalışmasında harcanan emeğe göre değerlendirme yolları da vardır.
Makine çevirisi sonrası düzeltmenin temel amacı, bir çevirmenin bir metni sıfırdan çevirmekten daha hızlı çalışmasını sağlamaktır. Bu nedenle, bir MT sistemini makine çevirisi sonrası düzeltme açısından değerlendirmenin en basit yolu, çevirmenin makine tarafından çevrilmiş çıktıyı düzeltmesi sırasında geçen süreyi ölçmektir.
Makine çevirisi sonrası düzeltme emeğini ölçmenin bir başka yolu da makine tarafından çevrilmiş metni insan çevirisiyle değiştirmek için gereken klavye vuruş sayısını tablo haline getirmektir. Bu, zaman kısıtlamalarından bağımsızdır ve birden fazla doğru çeviri olması olasılığını da dikkate almaz.
Adından da anlaşılacağı gibi, bir MT sistemini eldeki göreve ne kadar uygun olduğuna göre değerlendiren görev tabanlı değerlendirme vardır. Örneğin çok dilli bir web semineri ortamında kullanılıyorsa katılımcılardan makine tarafından çevrilmiş deşifre metni deneyimlerini değerlendirmeleri istenebilir. Bu, MT sisteminin başarısını bir bütün olarak derecelendirdikleri anlamına gelir.
Bu yaklaşımdaki sorun, değerlendiricilerin verdiği puanı etkileyebilecek başka kontrolsüz unsurlara çok açık olmasıdır. Bu nedenle, görev tabanlı değerlendirmenin kullanımı, duruma bağlıdır.
Görebileceğiniz gibi, MT için farklı insan değerlendirmesi türlerinin her birinin kendi zorlukları vardır. Genel olarak ortak bazı zorluklar da söz konusudur. Bunlar tutarlılık veya uyuşma ile ilgilidir.
Bu, farklı değerlendiricilerin puanlarının tutarlılığını ifade eder. Daha önce de belirttiğimiz gibi, farklı değerlendiriciler aynı metin bölümlerini puanlama biçimlerinde farklı eğilimlere sahip olacaklardır. Bazıları aşırı uçlarda, bazıları ılımlı düzeylerde puanlama yapabilir. Farklı MT motorlarını sıralarken de görüşleri değişebilir. Bu nedenle, puanların dağılımının normalize edilmesi için birden fazla değerlendiricinin olması önemlidir.
Tek bir değerlendiricinin bir metni puanlama şekli de geçerlilik ölçüsüdür. Bir değerlendirici ilk seferde bir cümleyi iyi veya kötü olarak puanlasa da testi tekrarladıktan sonra fikrini değiştirebilir. Değerlendiricinin kendisiyle uyuşması alanında yüksek bir değer, seçilen değerlendiricinin tutarlı ve güvenilir kabul edilmesini sağlar.
Makine çevirisinin kalitesini değerlendirmek söz konusu olduğunda insan değerlendirmesi altın standardı olarak kabul edilir. Ancak, emek ve zaman açısından maliyetli bir süreçtir. Bu nedenle, alanın araştırmacıları, MT kalitesini otomatik süreçler aracılığıyla değerlendirmek için farklı araçlar geliştirmişlerdir.
Bu süreçler, insanların MT sistemini değerlendirme şekillerine yakın tasarlanmıştır. Tabii ki bu konuda mükemmel olmaktan uzaklar ancak otomatik değerlendirmenin yine de çok önemli kullanım durumları var.
Otomatik değerlendirmenin insan değerlendirmesine göre temel avantajı ölçeklenebilirliğidir. Yüzlerce otomatik değerlendirme örneği çalıştırmak, tek bir tur insan değerlendirmesinden çok daha hızlıdır. Bu da onu, hızlı sonuçlar gerektiren MT sisteminde ince ayar yaparken veya sistemi optimize ederken ideal bir çözüm haline getirir.
İnsanlardan farklı olarak, makineler dil kullanımının farklı nüanslarını ele alacak donanıma sahip değildir. Otomatik değerlendirme sistemleri, MT'nin referans metinle tam olarak uyuşması üzerine kuruludur ve küçük farklılıklar nihai puan üzerinde etkili olabilir. Bu farklılıklar morfolojideki sapmaları, eş anlamlıların kullanımını ve kelime sıralamasını içerebilir.
Bir insan değerlendiricisi tarafından teknik olarak veya aşağı yukarı doğru kabul edilebilecek bir durum, otomatik değerlendirmede ceza puanı olabilir. Bununla birlikte, tam eşleşmelerin sayısı, özellikle büyük bir metin örneklemi düşünüldüğünde, otomatik değerlendirmeyi yeterince uygun hale getirmek için genellikle yeterlidir.
Günümüzde farklı otomatik değerlendirme metrikleri mevcuttur. Kullanılanlar arasından bazı örnekler:
●
●
●
●
●
●
●
Her metrik farklı algoritmalarla çalışır ve bu nedenle otomatik değerlendirme sürecini farklı şekilde ele alır. Bu, farklı güçlü ve zayıf yönlere sahip oldukları ve hangi tür hatalara daha yüksek veya daha düşük ceza puanı verdikleri konusunda farklılık gösterdikleri anlamına gelir.
Yukarıda listelenen tüm metrikler arasında BLEU en yaygın olarak kullanılandır. İnsan değerlendirmesi ile yüksek düzeyde korelasyon sağlayan ilk metriklerden biri olup birçok farklı varyasyon doğurmuştur.
Tek tek cümleler, bir dizi yüksek kaliteli referans çeviriye göre puanlanır.Bu puanların ortalaması alınır ve elde edilen sayı, o MT sistemi için nihai BLEU puanıdır. Bu puan, MT sisteminin çıktısının, kalitenin belirteci olan insan referans çevirisiyle ne kadar uyuştuğunu gösterir.
Puanlar, ardışık metin bölümlerine atıfta bulunan n-gram adı verilen birimler kullanılarak hesaplanır. Önceki örnek cümleye geri dönersek örneğin:
Hızlı kahverengi tilki, tembel köpeğin üzerine atladı.
Bu, farklı uzunlukta n-gram'lara bölünebilir. Örneğin “Hızlı kahverengi” veya “kahverengi tilki” 2-gram olur.“Hızlı kahverengi tilki” 3-gram olur. “tembel köpeğin üzerine atıldı” 4-gram olur. Böyle devam eder.
Bu karmaşık bir matematiksel süreçtir ancak temel anlamda BLEU'nun algoritması, n-gram'lık kısımlar arasındaki örtüşme sayısını kontrol ederek puanı hesaplar. Hesaplanan puan 0 ile 1 arasında olur ve 1, referans cümle ile çıktı cümlesi arasındaki tamamen uyuşma demektir. Şimdi örnek cümlede aşağıdaki varyasyonu ele alalım:
Süratli kahverengi tilki, tembel köpeğin üzerine atladı.
“Süratli” kelimesini barındıranlar hariç tüm n-gram'lar uyuşur. Başka bir örnek:
Hızlı kahverengi tilki, köpeğin üzerine atladı.
Bu örnekte, “tembel” kelimesinin eksikliği örtüşmeyi olumsuz etkiler. Her iki durumda da, BLEU puanı yüksek olsa da 1'den az olur.
Uygulamada, pek çok cümle bu yüksek korelasyon seviyesini göstermeyecektir. Bu nedenle, BLEU puanları yalnızca büyük bir metin veya korpus örneklemi bağlamında istatistiksel olarak anlamlı hale gelir.
Elbette, ekstra kelimeler veya çok kısa cümleler için cezalar gibi, BLEU puanı hesabına giren başka faktörler de olur. Eksikliklerini telafi etmek için diğer türev puanlama sistemleri geliştirilmiş olsa da BLEU beğenilmeye ve bugün en yaygın kullanılan MT değerlendirme sistemi olmaya devam ediyor.
Makine çevirisi değerlendirmesinin temellerini ele aldık.Gösterdiğimiz gibi, bir MT sisteminin değerlendirilmesi insan değerlendirmesi veya otomatik değerlendirme yoluyla yapılabilir. Her iki işlemin de avantajları ve dezavantajları vardır.
İnsan değerlendirmesi kalite açısından altın standardı olsa da maliyetlidir ve zaman alır. Otomatik çeviri onun kadar doğru olmaz ama hızlı ve ölçeklenebilirdir. Bu nedenle, her iki türün de öne çıktığı özel kullanım durumları vardır.