10/05/2024

მანქანური თარგმანის შეფასება ძირითადი გზამკვლევი

ვთქვათ, რომ თქვენ ხართ ბიზნესი, რომელმაც გადაწყვიტა ინვესტიცია ჩადოს მანქანური თარგმანის სისტემაში. თქვენ ჩაატარეთ რამდენიმე ძირითადი კვლევა და აღმოაჩინეთ, რომ ბევრი ასარჩევი  ვარიანტი არსებობს. თითოეული მათგანი აცხადებს, რომ გარკვეული ქულა აქვს რაღაც მეტრიკის საფუძველზე, მაგრამ თქვენ არ იცით, თუ რას ნიშნავს ეს რიცხვი. როგორ უნდა გაიგოთ, თუ  რომელია  თქვენთვის საუკეთესო?

თქვენ უნდა გესმოდეთ, თუ როგორ მუშაობს მანქანური თარგმანის შეფასების სისტემა

ეს სტატია სიღრმისეულად განიხილავს მანქანური თარგმანის შეფასების თემას. ეს დაგეხმარებათ გაიგოთ, რა არის ეს, რატომ გჭირდებათ და განიხილავს სხვადასხვა სახის შეფასებას, რაც დაგეხმარებათკარგად ინფორმირებული გადაწყვეტილების მიღებაში მანქანური თარგმანის სისტემის არჩევისას, რომელში ინვესტიციის ჩადებასაც აპირებთ.

შესავალი რა არის მანქანური თარგმანის შეფასება?

მანქანური თარგმანის შეფასება ეხება მანქანური თარგმანის სისტემის მუშაობის შეფასების  სხვადასხვა პროცესებს.

ეს არის მანქანური თარგმანის  ხარისხის შეფასებაისე, რომ შეძლოთ, იცოდეთ,თუ  რამდენად კარგია სისტემა და არსებობს მყარი საფუძველი იმის შესადარებლად, თუ რამდენად ეფექტურია სხვადასხვა მანქანური თარგმანის სისტემები. ამისათვის მანქანური თარგმანის შეფასება იყენებს რაოდენობრივად განსაზღვრულ მეტრიკას.

რატომ არის მნიშვნელოვანი მანქანური თარგმანის შეფასების მეტრიკა

არსებობს ორი ძირითადი მიზეზი, თუ რატომაა  საჭირო მანქანური თარგმანის სისტემის მუშაობის შეფასება. პირველი მოიცავს იმას, რომ  შეამოწმოთ, არის თუ არა ის საკმარისად კარგი რეალური სამყაროში გამოყენებისთვის. მეორე არის კვლევისა და განვითარების გზამკვლევი.

იმის შესამოწმებლად, საკმარისად კარგია თუ არა რეალური სამყაროში გამოყენებისთვის

პირველი, რა თქმა უნდა, არის იმის დადგენა, მუშაობს თუ არა მანქანური თარგამანის სისტემა იმ დონეზე, რომელიც საკმარისად კარგია რეალური გამოყენებისთვის. ეს არის მიზეზი, რომელიც ყველაზე  აქტუალურია რეალური  მომხმარებლებისთვის. თუ მანქანური თარგმანის სისტემა ცუდად მუშაობს, მომხმარებლები სავარაუდოდ  აირჩევენ სხვა რაიმეს.

სამრეწველო სექტორებს, რომლებიც იყენებენ მანქანურ თარგმანს, ასევე სურთ კონკრეტული მეტრიკა, რომ გადაწყვიტონ, თუ რომელი მანქანური თარგმანის სისტემა აირჩიონ. ბოლოს და ბოლოს, მანქანური თარგმანი არის ინვესტიცია და ბიზნესმა უნდა მიიღოს საუკეთესო თავისი ფულით.

ამისათვის,მანქანური თარგმანის დეველოპერებმა უნდა შეაფასონ, არის თუ არა მანქანური თარგმანის სისტემის ხარისხი საკმარისად კარგი იმისთვის, რომ კლიენტს გაეგზავნოს.

კვლევისა და განვითარების გზამკვლევი  გახდეს

მანქანური თარგმანის  სისტემები იდეალურ შემთხვევაში არ არის სტატიკური ერთეული. მანქანური თარგმანის  ტექნოლოგია მუდმივად უმჯობესდება დროთა განმავლობაში. ლოგიკურია , რომ მანქანური თარგმანის სისტემებიც უნდა გაუმჯობესდეს.

სწორედ აქ ხდება კვლევა და მკვლევარებს უნდა ჰქონდეთ გარკვეული სახელმძღვანელო იმის შესახებ, თუ რას უნდა დააკვირდნენ. გაზომვადი მეტრიკა საშუალებას აძლევს მკვლევარებს, შეადარონ არის თუ არა კონკრეტული მიდგომა უკეთესი, ვიდრე მეორე, რაც მათ სისტემის დახვეწაში ეხმარება.

ეს განსაკუთრებით კარგია იმის დასანახავად, თუ როგორ უმკლავდება სისტემა თანმიმდევრულ თარგმანის შეცდომებს. გაზომვადი მეტრიკის არსებობამ შეიძლება უფრო კონტროლირებულ გარემოში აჩვენოს, შეუძლია თუ არა კონკრეტულ მიდგომას გაუმკლავდეს ამ სახის შეცდომებს.

როგორ აფასებთ მანქანური თარგმანის წარმატებას?

არსებობს ორი განსხვავებული მეთოდი  იმის დასადგენად, თუ რამდენად კარგად მუშაობს მანქანური თარგმანის სისტემა. არა-მანქანური შეფასება ხორციელდება ექსპერტების მიერ, რომლებიც მანუალურად აფასებენ, ხოლო ავტომატური შეფასება იყენებს AI- ზე დაფუძნებულ მეტრიკას, რომელიც რომელიც სპეციალურად არის შემუშავებული თარგმანის ხარისხის შესაფასებლად, ადამიანის ჩარევის გარეშე. თითოეულს აქვს თავისი  დადებითი და უარყოფითი მხარეები. ჩვენ უფრო დეტალურად განვიხილავთ მანქანური თარგმანის შეფასების ორივე მეთოდს  ამ სტატიის შემდგომ ნაწილებში, მაგრამ, პირველ რიგში, აქ მოცემულია მანქანური თარგმანის შეფასების ორი ტიპის მოკლე  მიმოხილვა, ასევე მანქანური თარგმანის შეფასებისადმი მიდგომები.

ადამიანის მიერ შეფასება და ავტომატური შეფასება

მანქანური თარგმანის ადამიანის მიერ  შეფასება ნიშნავს, რომ თარგმანის ხარისხის შეფასებას აკეთებენ პროფესიონალი მთარგმნელები. ეს არის ყველაზე ეფექტური ვარიანტი, როდესაც საქმე ეხება მანქანური თარგმანების ხარისხის განსაზღვრას წინადადებების დონემდე. მაგრამ ადამიანის მიერ შეფასება, ისევე როგორც ადამიანის მიერ თარგმანის შემთხვევაში, თავისთავად  უფრო ძვირია და შრომატევადია.

ავტომატური შეფასება, მეორეს მხრივ, იყენებს სპეციალურად შექმნილ პროგრამებს მანქანური თარგმანის ხარისხის შესაფასებლად სხვადასხვა მეთოდის მიხედვით. ეს არ არის ისეთი საიმედო, როგორც ადამიანის მიერ შეფასება წინადადების დონეზე, მაგრამ კარგი ვარიანტია, როდესაც საქმე არაერთი  დოკუმენტის  თარგმანის საერთო ხარისხის შეფასებას ეხება.

მანქანური თარგმანის შეფასებისადმი მიდგომები

მანქანური თარგმანის შეფასების მიდგომები ეფუძნება მარცვლოვნების  კონცეფციას. ანუ, სხვადასხვა დონეები, რომლებზეც  ქულა შეიძლება მნიშვნელოვანად ჩაითვალოს.

წინადადებაზე  დაფუძნებული მიდგომა. ამ მიდგომის თანახმად, თითოეულ წინადადებას ეძლევა ქულა, სადაც ნათქვამია, კარგია  (1) თუ ცუდია  (0) მისი თარგმანი და ჯამში მოცემულია საშუალო ქულა.ეს ყველაზე ხშირად კეთდება ადამიანის მიერ შეფასების მიცემის დროს.

დოკუმენტებზე დაფუძნებული მიდგომა. ასევე ცნობილია, როგორც კორპუსზე დაფუძნებული მიდგომა, წინადადებებსაც ეძლევა ქულები, მაგრამ მნიშვნელოვანია საერთო ქულა ან საშუალო ქულა დოკუმენტების უფრო დიდინაკრების შემთხვევაში. ეს არის ყველაზე პატარა დონე, რომელზეც ავტომატიზირებულიმანქანური თარგმანის შეფასება შეიძლება მნიშვნელოვანად ჩაითვალოს, რადგან ის დიდწილად დამოკიდებულია ფართო მონაცემთა ბაზის სტატისტიკაზე.

კონტექსტზე დაფუძნებული მიდგომა. ეს მიდგომა განსხვავდება წინა მიდგომებისგან, რადგან იგი ითვალისწინებს, თუ  რამდენად შეესაბამება საერთო მანქანური თარგმანის ამოცანა იმ მიზნებს, რომლებისთვისაც  იგი  განკუთვნილია, და არა წინადადებებზე დაფუძნებულ საშუალო ქულას. ამგვარად, ეს შეიძლება ჩაითვალოს  მანქანური თარგმანის  შეფასებისადმი ჰოლისტიკურ მიდგომად.

მანქანური თარგმანის შეფასების გამოწვევები

მანქანური თარგმანის შეფასება რთული პროცესია. იმიტომ, , რომ თავად ენა  ძალიან რთულია.

პირველ რიგში, შეიძლება არსებობდეს მრავალი სწორი თარგმანი. მაგალითად, ავიღოთ შემდეგი წინადადება:

სწრაფი ყავისფერი მელა ზარმაც ძაღლს გადაახტა.

მანქანური თარგმანის  სისტემამ შეიძლება შექმნას ასეთი თარგმანი:

სწრაფი ყავისფერი მელა გადახტა ზანტ  ძაღლზე.

ეს არის ტექნიკურად სწორი თარგმანი და ადამიანის მიერ გაკეთებულ შეფასებაში ის ჩვეულებრივ ასე მოინიშნება. მაგრამ ავტომატიზირებულ შეფასებაში ის მოინიშნება,  როგორც არასწორი.

მცირე დეტალებს ასევე შეუძლიათ სრულად შეცვალონ წინადადების მნიშვნელობა.

სწრაფი ყავისფერი მელა დახტა ზარმაც ძაღლზე.

აქ მხოლოდ ერთი სიტყვაშეიცვალა. მაგრამ ეს ერთი სიტყვა მთლიანად ცვლის წინადადების მნიშვნელობას. ავტომატური შეფასებები სავარაუდოდ მას უფრო მაღალი შეფასება ექნება, ვიდრე წინა მაგალითს.ადამიანი მთარგმნელები სავარაუდოდ დააფიქსირებენ შეცდომას, მაგრამ ზოგიერთმა შეიძლება ეს სწორადაც მიიჩნიოს.

და ეს იმიტომ ხდება, რომ ენა შეიძლება იყოს სუბიექტური. ადამიანია შეფასებლების შეფასებებიც  კი შეიძლება განსხვავდებოდეს  იმის შესახებ, კარგია თუ არა თარგმანი.

ადამიანის მიერ გაკეთებული შეფასება: ოქროს სტანდარტი

ახლა, როდესაც ჩვენ გადავხედეთ საფუძვლებს, მოდი, სიღრმისეულად შევხედოთ მანქანური თარგმანის  შეფასების ორ მეთოდს. დავიწყოთ  ადამიანის მიერ გაკეთებული შეფასებით.

ყველაზე საწყის  დონეზე, მანქანური თარგმანის მიზანია ტექსტის თარგმნა წყარო ენიდან სამიზნე ენაზე იმგვარად, რომ ადამიანებს გაგება შეეძლოთ. ამგვარად, , ადამიანებს საუკეთესოდ შეუძლიათ მანქანური თარგმანის შეფასება.

ადამიანის მიერ გაკეთებული შეფასების ტიპები

ადამიანის მიერ გაკეთებული შეფასების მრავალი სხვადასხვა გზა არსებობს, რომელთაც  ახლა განვიხილავთ:

პირდაპირი შეფასება

ეს არის ადამიანის მიერ გაკეთებული შეფასების ყველაზე მარტივი ტიპიმანქანური თარგმანის შედეგი  შეფასებულია წინადადების დონე

პირდაპირი შეფასების გამოწვევა ის არის, რომ სხვადასხვა შემფასების მიერ მინიჭენული ქულები  მნიშვნელოვნად განსხვავდება ერთმანეთისგან. ზოგი შეიძლება რადიკალიზმისკენ იყოს მიდრეკილი  ქულების დაწერის  თვალსაზრისით  და თარგმანებს ძალიან ცუდ ან ძალიან კარგ ქულას უწერდეს. სხვებმა შეიძლება უფრო კონსერვატიული მიდგომა აირჩიონ, იგივე წინადადებებს მიანიჭონ საშუალოსთან მიახლოებული ქულა.

კიდევ ერთი გამოწვევა, ისევ, სუბიექტურობაა. იმის განსაზღვრისას, არის თუ არა წინადადება ცუდი თარგმანი, შეფასებლებმა უნდა მიიღონ გადაწყვეტილებები ენაზე, რომელიც ორაზროვანია. დავუბრუნდეთ მაგალითად მოყვანილ წინადადებას:

სწრაფი ყავისფერი მელა ზარმაც მწევარს  გადაახტა

აქ ,,მწევარი'' სულაც არ არის არასწორი, მაგრამ არც საუკეთესო შესაბამისობაა. ზოგიერთმა შეფასებელმა შეიძლება ეს საკმარისად კარგად მიიჩნოს, ზოგმა კი - სრულიად არასწორად.მაგალითად, თუ შეფასება  ხდება 5-ქულიან სკალაზე, ზოგიერთმა მთარგმნელმა შეიძლება 4 მიანიჭოს, ხოლო მეორემ - მხოლოდ 2.

ამ გამოწვევების კომპენსირება შესაძლებელია შემფასებელთა უფრო დიდი ჯგუფის გამოყენებით, რაც, სტატისტიკული თვალსაზრისით, ქულების ნორმალიზების საშუალებას მოგვცემს.

რეიტინგი

ადამიანის მიერ მანქანური თარგმანის სისტემების შეფასების კიდევ ერთი მეთოდი  არის

ამ შემთხვევაში, შეფასებლები არ წერენ  ინდივიდუალურ ქულებს წინადადებებისთვის, არამედ ადარებენ  სხვადასხვა მანქანური თარგმანის  სისტემის თარგმანებსშემდეგ ისინი გადაწყვეტენ, რომელი არის საუკეთესო თარგმანი, რომელი მეორე საუკეთესო და ა. შ.

ამ მეთოდის უპირატესობა პირდაპირ შეფასებასთან შედარებით ის არის, რომ ის დაუყოვნებლივ უზრუნველყოფს პირდაპირ შედარებას, რაც განასხვავებს სხვადასხვა მცდელობის მიერ შედგენილი ქულისგან, რომელიც შესაძლოა სხვადასხვა შემფასებლების მიერ იყოს დაწერილი.

თუმცა, ის კვლავ განიცდის სუბიექტურობის გამოწვევას. სხვადასხვა მანქანური დასწავლის სისტემებს, სავარაუდოდ, აქვთ სხვადასხვა შეცდომები. მაგალითად:

სწრაფი მწვანე მელა ზარმაცს ძაღლს გადაახტა.

სწრაფი ყავისფერი მელა ზარმაც ძაღლს გადაახტა.

სწრაფი ყავისფერი მელა ზარმაცს ძაღლს ახტება.

თითოეულ წინადადება აქვს მარტივი შეცდომა. პირველს აქვს არასწორი ტრანსლირება. მეორეში გამოტოვებულია  არტიკლები . მესამეს აკლია ზმნის დროები .

შეფასებლებმა ახლა უნდა გადაწყვიტონ რომელი შეცდომა უფრო მნიშვნელოვანია,  და ისევ, შეფასებლებს შეიძლება ჰქონდეთ განსხვავებული მოსაზრებები ამ საკითხზე.

რედაქტირების შემდგომი ძალისხმევა

თუ მანქანური თარგმანის სისტემის მომხმარებლის მიზანია  რედაქტირების შემდეგ დოკუმენტების მომზადება , ასევე არსებობს მისი შეფასების მეთოდები იმის მიხედვით, თუ რამდენი ძალისხმევაა საჭირო რედაქტირების შემდეგ

რედაქტირების შემდგომი პროცესის ს ფუნდამენტური მიზანია, მთარგმნელის საშუალება იმუშაოს უფრო სწრაფად, ვიდრე იმ შემთხვევაში იმუშავებდა, როცატექსტის ნულიდან თარგმნა მოუწევდა. რედაქტირების შემდგომი პროცესის შემთხვევაში, , მანქანური თარგმანის სისტემის შეფასების უმარტივესი გზა არის, თუ  რა დრო სჭირდება  მთარგმნელს მანქანურად თარგმნილი ტექსტის გასასწორებლად.

რედაქტირების შემდგომი ძალისხმევის გაზომვის კიდევ ერთი გზაა კლავიატურაზე დარტყმების რაოდენობის დათვლა, , თუ რამდენი დასჭირდება მთარგმნელს მანქანური თარგმანის ჩასასწორებლად.ეს დამოუკიდებელია დროის შეზღუდვებისგან, მაგრამ ასევე არ ითვალისწინებს მრავალი სწორი თარგმანის არსებობის შესაძლებლობას.

ამოცანებზე დაფუძნებული შეფასება

შემდეგია  ამოცანებზე დაფუძნებული შეფასება, რომელიც, როგორც სახელიდან ჩანს,  მანქანური თარგმანის სისტემას აფასებს იმის მიხედვით, თუ რამდენად კარგად შეესაბამება იგი ამოცანას. მაგალითად, თუ ის გამოიყენება მრავალენოვანი ვებინარის გარემოში, მონაწილეებს შეიძლება სთხოვონ შეაფასონ   მანქანურად თარგმნილი ტრანსკრიპტი. ეს ნიშნავს, რომ ისინი აფასებენ მთლიანად  მანქანური თარგმანის სისტემის წარმატებას.

ამ მიდგომის პრობლემა ის არის, რომ ის ძალიან ღიაა სხვა უკონტროლო ელემენტების დანერგვისთვის, რამაც შეიძლება გავლენა მოახდინოს შემფასებლების მიერ მიცემულ რეიტინგზე. ასე რომ , ამოცანებზე დაფუძნებული შეფასების გამოყენება ძალიან სიტუაციურია.

ზოგადი გამოწვევები ადამიანის მიერ მიცემულ შეფასებაში

როგორც  ხედავთ, ადამიანის მიერ მანქანური თარგმანის სისტემის შეფასების თითოეულ მეთოდს  აქვს საკუთარი გამოწვევები. ასევე არსებობს გარკვეული გამოწვევები, რომლებსაც ისინი ფართოდ იზიარებენ და ეს უკავშირდება თანმიმდევრულობას ან შეთანხმებას.

ანოტატორთაშორისი ხელშეკრულება

ეს ეხება ქულების თანმიმდევრულობას სხვადასხვა შემფასებლებს შორის. როგორც ადრე აღვნიშნეთ, სხვადასხვა შემფასებლები განსხვავებული ტენდენციებით შეაფასებენ  ტექსტის ერთი და იგივე სეგმენტს. ზოგი შეიძლება რადიკალური ქულისკენ გადაიხაროს, ზოგი - საშუალოსკენ.  მათი მოსაზრებებიასევე შეიძლება განსხვავდებოდეს მანქანური თარგმანის მოწყობილობების შეფასების დროსაც.  სწორედ ამიტომ მნიშვნელოვანია, რომ  მრავალი შემფასებელი ჰყავდეს, რათა ქულების განაწილება ნორმალიზებული იქნას.

ანოტატორებში შეთანხმება

ის, თუ როგორ შეაფასებს ერთი შეფასებელი ტექსტს, ასევე ვალიდობის საზომია. შემფასებელმა შეიძლება პირველად შეაფასოს წინადადება როგორც კარგი ან ცუდი, მაგრამ მათ შეიძლება შეიცვალონ აზრი იმავე ტესტის გამეორების შემდეგ. ანოტატორებში  ხელშეკრულების მაღალი ხარისხის გაზომვის არსებობა უზრუნველყოფს, რომ არჩეული შეფასებელი შეიძლება ჩაითვალოს თანმიმდევრულად და სანდოდ.

ავტომატური შეფასება: მასშტაბური ვარიანტი

ადამიანის მიერ მიცემული შეფასება ითვლება ოქროს სტანდარტად, როდესაც საქმე ეხება მანქანური თარგმანის ხარისხის შეფასებას.  თუმცა, ეს ძვირადღირებული საქმეა ძალისხმევისა და დროის თვალსაზრისით. სწორედ ამიტომ, ამ დარგის მკვლევარებმა შეიმუშავეს სხვადასხვა საშუალებები მანქანური თარგმანის შესაფასებლად ავტომატიზირებული პროცესების მეშვეობით.

ეს პროცესები შექმნილია იმასთან მიახლოებით, , თუ როგორ შეაფასებდნენ  ადამიანები მანქანური თარგმანის  სისტემას. რა თქმა უნდა, ისინი  შორს არიან სრულყოფილებისგან, მაგრამ ავტომატურ შეფასებას კვლავ აქვს ძალიან მნიშვნელოვანი გამოყენების შემთხვევები.

ავტომატური შეფასების მთავარი უპირატესობა ადამიანის მიერ მიცემულ შეფასებასთან შედარებით არის მისი მასშტაბურობა.  ავტომატური პროცესით  ასობით შემთხვევის შეფასება  ბევრად უფრო სწრაფია, ვიდრე ადამიანის მიერ შეფასების მიცემის ერთი რაუნდიც კი. ეს მას იდეალურ გამოსავალად აქცევს მანქანური თარგმანის  სისტემის შესწორებების ან ოპტიმიზაციის დროს, რასაც სწრაფი შედეგები სჭირდება.

ავტომატური შეფასების გამოწვევები

ადამიანებისგან განსხვავებით, მანქანებს არ შეუძლიათ  ენის გამოყენების სხვადასხვა ნიუანსების  დამუშავება.  ავტომატური შეფასების სისტემები დაფუძნებულია  იმაზე, რომ მანქანური თარგმანს  აქვს ზუსტი შესაბამისობა საცნობარო ტექსტთან,  მცირე განსხვავებებმა კი შეიძლება გავლენა იქონიოს საბოლოო ქულაზე. ეს განსხვავებები შეიძლება მოიცავდეს მორფოლოგიის გადახრებს, სინონიმების გამოყენებას და გრამატიკულ წესს.

ყველაფერი, რაც ადამიანი შემფასებლების მიერ ტექნიკურად ან მეტ-ნაკლებად სწორად შეიძლება ჩაითვალოს, შესაძლოა ქულა დააკლდეს  ავტომატური შეფასებით. მიუხედავად ამისა, ზუსტი შესაბამისობების  რაოდენობა, განსაკუთრებით ტექსტის დიდი ნიმუშის გათვალისწინებისას, ხშირად საკმარისია იმისთვის, რომ ავტომატური შეფასება გამოიყენო.

ავტომატური შეფასების მეტრიკა

დღეს ხელმისაწვდომია მრავალი განსხვავებული ავტომატური შეფასების მეტრიკა. აქ მოცემულია გამოყენების რამდენიმე მაგალითი:

 

      BLEU (ორენოვანი შეფასების შემცვლელი)

      NIST (სტანდარტებისა და ტექნოლოგიების ეროვნული ინსტიტუტიდან)

      METEOR (მკაფიო დაკვეთით  თარგმანის შეფასების მეტრიკა)

      LEPOR (სიგრძის-ჯარიმა, სიზუსტე, n-გრამის პოზიციის სხვაობის ჯარიმა და გახსენება

      კომეტა 

      ფრისი

      TER (თარგმანის შეცდომის მაჩვენებელი)

თითოეული მეტრიკა მუშაობს სხვადასხვა ალგორითმებზე და, აქედან გამომდინარე , განსხვავებულად ახორციელებს ავტომატურ შეფასებას. ეს ნიშნავს, რომ მათ აქვთ სხვადასხვა ძლიერი და სუსტი მხარეები და განსხვავდებიან იმით, თუ რა სახის შეცდომებს აძლევენ უფრო მაღალ ან დაბალ საჯარიმო ქულას.

BLEU, ყველაზე პოპულარული მეტრიკა

ზემოთ ჩამოთვლილი ყველა მეტრიკიდან, BLEU  ყველაზე ხშირად გამოიყენება. ეს იყო ერთ-ერთი პირველი მეტრიკა, რომელმაც მიაღწია კორელაციის მაღალ დონეს ადამიანის შეფასებასთან და წარმოქმნა  მრავალი განსხვავებული ვარიაცია.

მისი მუშაობის პრინციპი  ის არის, რომ ცალკეული წინადადებები შეფასებულია მაღალი ხარისხის საცნობარო თარგმანების კომპლექტთან მიმართებაში. შემდეგ ანგარიშდება ამ ქულების საშუალო  და შედეგად მიღებული რიცხვი არის საბოლოო BLEU ქულა ამ მანქანური თარგმანის  სისტემისთვის. ეს ქულა აჩვენებს, თუ , რამდენად კარგად ემთხვევა მანქანური თარგმანის  სისტემის შედეგი  ადამიანის მიერ შესრულებულ საცნობარო თარგმანს, რაც ხარისხის მარკერია.

ქულები გამოითვლება ერთეულების გამოყენებით, რომელსაც ეწოდება n-გრამი და ისინი მიემართება  თანმიმდევრული ტექსტის სეგმენტებს.  დაუბრუნდით ადრინდელ ნიმუშურ წინადადებას, მაგალითად:

სწრაფი ყავისფერი მელა ზარმაც ძაღლს გადაახტა.

ეს შეიძლება დაიყოს სხვადასხვა სიგრძის n-გრამებად. მაგალითად, 2-გრამი იქნება „სწრაფი“, „სწრაფი ყავისფერი“ ან „ყავისფერი მელა“. 3-გრამი იქნება „სწრაფი ყავისფერი“ ან „სწრაფი ყავისფერი მელა“. 4 გრამი იქნებოდა „სწრაფი ყავისფერი მელა“. და ასე შემდეგ.

ეს რთული მათემატიკური პროცესია, მაგრამ, ძირითად თვალსაზრისით, BLEU-ს ალგორითმი ითვლის ქულას n-გრამებს შორის გადაფარვების  რაოდენობის შემოწმებით. გამოთვლილი ქულა იქნება 0-დან 1-მდე, ხოლო 1 წარმოადგენს სრულიად იდენტურ შესაბამისობას  მითითებასა და შედგენილ  წინადადებას შორის. ახლა კი ვნახოთ  შემდეგი ვარიანტი სანიმუშო  წინადადებაზე:

სწრაფი ყავისფერი მელა ზარმაც ძაღლს გადაახტა.

ყველა n-გრამი შეესაბამება, გარდა იმ შემთხვევებისა, რომელთაც აქვთ სიტყვა „სწრაფი“. კიდევ ერთი მაგალითი:

ჩქარი  ყავისფერი მელა ძაღლს გადაახტა.

ამ მაგალითში, სიტყვა „ზარმაცი“ გამოტოვებულია, ასე რომ, ეს ასევე უარყოფითად მოქმედებს გადაფარვაზე. ორივე შემთხვევაში, BLEU ქულა მაინც მაღალი იქნებოდა, მაგრამ 1-ზე ნაკლები.

პრაქტიკაში, ბევრი წინადადება არ აჩვენებს კორელაციის ამ მაღალ დონეს. ასე რომ, BLEU ქულები სტატისტიკურად მნიშვნელოვანი ხდება მხოლოდ მაშინ, როდესაც გამოყენებულია  ტექსტის დიდი ნიმუშის ან კორპუსისკონტექსტში.

რა თქმა უნდა, არსებობს სხვა ფაქტორები, რომლებიც ეხება BLEU ქულის გაანგარიშებას, როგორიცაა ჯარიმები დამატებითი სიტყვებისთვის ან ძალიან მოკლე წინადადებებისთვის. მისი ხარვეზების კომპენსაციის მიზნით შემუშავებულია სხვა დერივატიული ქულების დაწერის სისტემები, მაგრამ BLEU-ს კვლავ მაღალი შეფასება აქვს  და დღეს კვლავ ყველაზე ფართოდ გამოყენებული მანქანური თარგმანის  შეფასების სისტემაა.

დასკვნითი ნაწილი   მანქანური თარგმანის შეფასების შესახებ

ეს მოიცავს მანქანური თარგმანის შეფასების საფუძვლებს. როგორც  ვაჩვენეთ, მანქანური თარგმანის  სისტემა შეიძლე ა  შეფასდეს ადამიანის მიერ  ან ავტომატური შეფასების მეშვეობით. ორივე პროცესს აქვს თავისი დადებითი და უარყოფითი მხარეები.

ადამიანის შეფასება ხარისხის თვალსაზრისით ოქროს სტანდარტია, მაგრამ ძვირია და დიდ დროს მოითხოვს. . ავტომატური თარგმანი არც ისე ზუსტია, მაგრამ სწრაფი და მასშტაბურია. აქედან გამომდინარე, ორივე ტიპს აქვს სპეციფიკური გამოყენების შემთხვევები, როდესაც ისინი საუკეთესოა.