13/05/2024
สมมุติว่าคุณเป็นธุรกิจที่ตัดสินใจลงทุนในระบบการแปลด้วยเครื่อง คุณได้ทำการศึกษาเบื้องต้นมาแล้วและพบว่ามีตัวเลือกมากมายให้เลือก แต่ละคนอ้างว่าได้คะแนนจำนวนหนึ่งตามตัวชี้วัดบางอย่าง แต่คุณไม่รู้ว่าตัวเลขหมายถึงอะไรจริงๆ คุณจะรู้ได้อย่างไรว่าอันไหนเหมาะกับคุณที่สุด?
คุณต้องเข้าใจว่าการประเมินการแปลด้วยเครื่องแปลภาษาทำงานอย่างไร
บทความนี้จะอธิบายเชิงลึกเกี่ยวกับหัวข้อการประเมินการแปลด้วยเครื่องแปลภาษา ซึ่งจะช่วยให้คุณเข้าใจว่ามันคืออะไร ทำไมคุณถึงต้องการ และการประเมินประเภทต่างๆ เพื่อช่วยให้คุณตัดสินใจได้อย่างมีข้อมูลที่ครบถ้วน เมื่อต้องเลือกระบบ MT ที่จะลงทุน
การประเมินการแปลด้วยเครื่องแปลภาษาหมายถึงกระบวนการต่างๆ ในการวัดประสิทธิภาพของระบบการแปลด้วยเครื่องแปลภาษา
เป็นวิธีในการให้คะแนนคุณภาพของ MT เพื่อให้ทราบว่า ระบบดีแค่ไหน และมีพื้นฐานที่ชัดเจนในการเปรียบเทียบระบบ MT ที่แตกต่างกัน มีประสิทธิภาพมากน้อยเพียงใด ในการทำเช่นนี้ การประเมินการแปลด้วยเครื่องแปลภาษาจะใช้การวัดผลเชิงปริมาณ
มีเหตุผลหลักสองประการว่าทำไมต้องทำการประเมินประสิทธิภาพของระบบ MT ประการแรกคือตรวจสอบว่าดีพอสำหรับการใช้งานในโลกแห่งความเป็นจริงหรือไม่ ประการที่สองคือทำหน้าที่เป็นแนวทางในการวิจัยและพัฒนา
ประการแรก แน่นอนว่าคือการพิจารณาว่าระบบ MT ทำงานในระดับที่ดีพอสำหรับการใช้งานจริงหรือไม่ นี่คือเหตุผลที่มีความเกี่ยวข้องโดยตรงกับผู้ใช้ปลายทางมากที่สุด หากระบบการแปลด้วยเครื่องทำงานได้ไม่ดี ผู้ใช้มีแนวโน้มที่จะเลือกสิ่งอื่นมากขึ้น
ภาคอุตสาหกรรมที่ใช้ MT ยังต้องการตัวชี้วัดที่เป็นรูปธรรมสำหรับการตัดสินใจเลือกใช้ระบบ MTท้ายที่สุด MT คือการลงทุน และธุรกิจจำเป็นต้องได้รับความคุ้มค่าสูงสุดจากเงินที่เสียไป
ดังนั้น นักพัฒนา MT จึงต้องประเมินว่าคุณภาพของระบบการแปลด้วยเครื่องแปลภาษานั้นดีพอที่จะส่งไปยังลูกค้าหรือไม่
ตามหลักการแล้วระบบ MT ไม่ใช่เอนทิตีแบบคงที่ เทคโนโลยีสำหรับ MT กำลังปรับปรุงอย่างต่อเนื่องเมื่อเวลาผ่านไป มันสมเหตุสมผลแล้วที่ระบบ MT ควรถูกคาดหวังให้ปรับปรุงคุณภาพเช่นกัน
นี่คือที่มาของการวิจัย และนักวิจัยจำเป็นต้องมีคำแนะนำเกี่ยวกับสิ่งที่ควรมองหา ตัวชี้วัดได้ช่วยให้นักวิจัยสามารถเปรียบเทียบได้ว่าแนวทางใดแนวทางหนึ่งดีกว่าวิธีอื่นหรือไม่ ซึ่งช่วยให้พวกเขาปรับแต่งระบบได้อย่างละเอียด
สิ่งนี้เป็นสิ่งที่ดีอย่างยิ่งสำหรับการดูว่าระบบจัดการกับข้อผิดพลาดในการแปลที่สอดคล้องกันอย่างไร การมีเมตริกที่วัดได้สามารถแสดงให้เห็นในการตั้งค่าที่ควบคุมได้มากขึ้นว่าวิธีการใดวิธีหนึ่งสามารถจัดการกับข้อผิดพลาดประเภทนี้ได้หรือไม่
มีสองวิธีที่แตกต่างกันในการตรวจสอบว่าระบบ MT ทำงานได้ดีเพียงใด การประเมินด้วยมนุษย์ทำโดยผู้เชี่ยวชาญที่เป็นมนุษย์ที่ทำการประเมินด้วยตนเอง ในขณะที่การประเมินอัตโนมัติใช้ตัวชี้วัด AI ที่พัฒนาขึ้นเป็นพิเศษสำหรับการประเมินคุณภาพการแปลโดยไม่ต้องมีการแทรกแซงจากมนุษย์ แต่ละอย่างมีข้อดีและข้อเสียเราจะดูรายละเอียดเพิ่มเติมเกี่ยวกับการประเมิน MT ทั้งสองประเภทในส่วนต่อมาของบทความนี้ แต่ก่อนอื่น นี่คือภาพรวมโดยย่อของการประเมินการแปลด้วยเครื่องแปลภาษาทั้งสองประเภท รวมถึงแนวทางในการประเมิน MT ที่ใช้ประโยชน์การจาการประเมินนั้น
การประเมินการแปลด้วยเครื่องแปลภาษาด้วยมนุษย์หมายถึงการประเมินคุณภาพการแปลโดยนักแปลมืออาชีพที่เป็นมนุษย์์ นี่เป็นตัวเลือกที่มีประสิทธิภาพมากที่สุดเมื่อพูดถึงการกำหนดคุณภาพของการแปลด้วยเครื่องแปลภาษาจนถึงระดับประโยค แต่การประเมินของมนุษย์ก็เหมือนกับการแปลโดยมนุษย์ โดยปกติแล้วจะมีราคาแพงกว่าและใช้เวลานานกว่า
ในทางกลับกันการประเมินอัตโนมัติจะใช้โปรแกรมที่สร้างขึ้นโดยเฉพาะเพื่อประเมินคุณภาพของการแปลด้วยเครื่องแปลภาษาตามวิธีการต่างๆ ซึ่งไม่น่าเชื่อถือเท่ากับการประเมินด้วยมนุษย์ในระดับประโยค แต่เป็นตัวเลือกสำหรับปริมาณงานจำนวนมากเมื่อต้องประเมินคุณภาพโดยรวมของการแปลในเอกสารหลายฉบับ
แนวทางในการประเมินการแปลด้วยเครื่องแปลภาษานั้นขึ้นอยู่กับแนวคิดของรายละเอียด นั่นคือระดับต่างๆ ที่การให้คะแนนอาจถือว่ามีนัยสำคัญ
แนวทางตามประโยค ภายใต้แนวทางนี้ แต่ละประโยคจะได้รับคะแนนบอกว่าการแปลนั้นดี (1) หรือไม่ดี (0) และรวมเป็นค่าเฉลี่ย โดยทั่วไปมักทำในการประเมินด้วยมนุษย์
แนวทางตามเอกสาร หรือที่เรียกว่าแนวทางการใช้คลังข้อมูล ประโยคต่างๆ จะได้รับคะแนนเช่นกัน แต่คะแนนที่มีนัยสำคัญคือคะแนนรวมหรือค่าเฉลี่ยของเอกสารชุดใหญ่ นี่เป็นระดับที่เล็กที่สุดที่การประเมิน MT แบบอัตโนมัติถือได้ว่ามีความสำคัญเนื่องจากขึ้นอยู่กับสถิติจากชุดข้อมูลจำนวนมาก
แนวทางตามบริบท แนวทางนี้แตกต่างจากแนวทางก่อนหน้านี้ เนื่องจากสิ่งที่ต้องคำนึงถึงคืองาน MT โดยรวมนั้นเหมาะกับวัตถุประสงค์ที่นำไปใช้ได้ดีเพียงใด แทนที่จะใช้คะแนนเฉลี่ยตามประโยค ดังนั้น จึงอาจถือเป็นแนวทางแบบองค์รวมในการประเมิน MT
การประเมินการแปลด้วยเครื่องแปลภาษาเป็นกระบวนการที่ยากลำบาก เนื่องจากภาษาเป็นสิ่งที่ซับซ้อนมาก
ประการแรก สามารถมีคำแปลที่ถูกต้องได้หลายคำแปล ยกตัวอย่างเช่นประโยคต่อไปนี้:
จิ้งจอกสีน้ำตาลที่รวดเร็วกระโดดข้ามสุนัขที่เกียจคร้าน
ระบบ MT อาจสร้างการแปลต่อไปนี้แทน:
จิ้งจอกสีน้ำตาลที่รวดเร็วกระโจนเข้าหาสุนัขที่เกียจคร้าน
นี่เป็นการแปลที่ถูกต้องทางเทคนิค และในการประเมินด้วยมนุษย์โดยปกติแล้วจะมีการทำเครื่องหมายไว้เช่นนั้นแต่ในการประเมินอัตโนมัต ิมันจะถูกทำเครื่องหมายว่าไม่ถูกต้อง
รายละเอียดเล็กๆ น้อยๆ สามารถเปลี่ยนความหมายของประโยคได้อย่างสมบูรณ์
จิ้งจอกสีน้ำตาลที่รวดเร็วกระโดดขึ้นมาบนสุนัขที่เกียจคร้าน
มีเพียงคำเดียวที่เปลี่ยนไปแต่คำเดียวนั้นเปลี่ยนความหมายของประโยคอย่างสมบูรณ์ การประเมินอัตโนมัติมีแนวโน้มที่จะทำเครื่องหมายได้สูงกว่าตัวอย่างก่อนหน้า นักแปลที่เป็นมนุษย์มีแนวโน้มที่จะตรวจพบข้อผิดพลาด แต่บางคนอาจคิดว่าถูกต้องแล้ว
และนั่นเป็นเพราะภาษาอาจเป็นเรื่องของแต่ละบุคคลได้ แม้แต่ผู้ประเมินที่เป็นมนุษย์ก็สามารถตัดสินว่าการแปลนั้นดีหรือไม่ได้แตกต่างกัน
ตอนนี้เราได้อธิบายพื้นฐานไปแล้ว เรามาดูการประเมิน MT สองประเภทในเชิงลึกกันดีกว่า โดยเริ่มจากการประเมินด้วยมนุษย์
ในระดับพื้นฐานที่สุด เป้าหมายของการแปลด้วยเครื่องแปลภาษา คือการแปลข้อความจากภาษาต้นฉบับเป็นภาษาเป้าหมายในระดับที่มนุษย์สามารถเข้าใจได้ ด้วยเหตุนี้ มนุษย์จึงเป็นจุดอ้างอิงที่ดีที่สุดสำหรับการประเมินคุณภาพของการแปลด้วยเครื่องแปลภาษา
การประเมินของมนุษย์มีหลายวิธีที่แตกต่างกันซึ่งเราจะพิจารณาตอนนี้:
นี่คือการประเมินด้วยมนุษย์ที่ง่ายที่สุด ผลลัพธ์การแปลด้วยเครื่องแปลภาษาจะถูกให้คะแนนในระดับประโยค
ความท้าทายในการประเมินโดยตรงคือผู้ประเมินจะใช้วิจารณาณในการให้คะแนนที่แตกต่างกันอย่างมากบางคนอาจมีแนวโน้มในการใช้เกณฑ์ที่เข้มงวดในการให้คะแนน โดยทำเครื่องหมายการแปลว่าแย่มากหรือดีมาก คนอื่นๆ อาจใช้แบบอนุรักษ์นิยมมากขึ้น โดยทำเครื่องหมายประโยคเดียวกันด้วยคะแนนใกล้กับตรงกลาง
ความท้าทายอีกประการหนึ่งคือเรื่องของแต่ละบุคคลในการตัดสินว่าประโยคนั้นเป็นการแปลที่แย่หรือไม่ ผู้ประเมินจำเป็นต้องตัดสินใจเกี่ยวกับภาษาที่คลุมเครือ กลับไปที่ประโยคตัวอย่าง:
จิ้งจอกสีน้ำตาลที่รวดเร็วกระโดดข้ามหมาที่เกียจคร้าน
ในที่นี้ หมาไม่จำเป็นต้องผิด แต่ก็ไม่เหมาะสมที่สุดเช่นกัน ผู้ประเมินบางคนอาจคิดว่าการแปลนี้ดีแล้ว ในขณะที่บางคนอาจระบุว่าผิดโดยสิ้นเชิง ตัวอย่างเช่น หากการให้คะแนนเป็น 5 คะแนน นักแปลบางคนอาจให้ 4 คะแนน ในขณะที่อีกคนอาจให้เพียงแค่ 2 คะแนน
ความท้าทายเหล่านี้สามารถชดเชยได้ด้วยการจ้างกลุ่มผู้ประเมินจำนวนมากขึ้น ซึ่งจะช่วยให้คะแนนได้รับการปรับให้เป็นมาตรฐานตามเงื่อนไขทางสถิติ
อีกวิธีหนึ่งในการประเมินระบบการแปลด้วยเครื่องแปลภาษาผ่านการประเมินด้วยมนุษย์คือการจัดอันดับ
ในกรณีนี้ ผู้ประเมินไม่ได้ให้คะแนนเป็นรายประโยค แต่จะเปรียบเทียบระหว่างการแปลจากระบบ MT ที่แตกต่างกันแทน จากนั้นพวกเขาจะตัดสินใจว่าการแปลแบบไหนดีที่สุด แบบไหนดีเป็นอันดับสอง และอื่นๆ
ข้อดีของวิธีนี้ที่เหนือกว่าการประเมินโดยตรง คือให้การเปรียบเทียบโดยตรงในทันที ซึ่งตรงกันข้ามกับการเปรียบเทียบคะแนนที่สร้างขึ้นจากการทดลองที่แตกต่างกันและอาจเป็นไปได้โดยผู้ประเมินที่แตกต่างกัน
อย่างไรก็ตาม ยังคงประสบปัญหาจากความท้าทายในเรื่องของแต่ละบุคคล ระบบ MT ที่แตกต่างกันมีแนวโน้มที่จะเกิดข้อผิดพลาดที่แตกต่างกัน ตัวอย่างเช่น
จิ้งจอกสีเขียวที่รวดเร็วกระโดดข้ามสุนัขที่เกียจคร้าน
จิ้งจอกน้ำตาลที่รวดเร็วกระโดดข้ามสุนัขที่เกียจคร้าน
จิ้งจอกสีน้ำตาลที่รวดเร็วกระโดดเหนือสุนัขที่เกียจคร้าน
แต่ละประโยคมีข้อผิดพลาดง่ายๆ ข้อแรกคือการแปลผิด ข้อที่สองคือละเว้นคำข้อที่สามคือคำกริยาเรื่องกาลเวลาขาดหายไป
ตอนนี้ผู้ประเมินต้องตัดสินใจว่าข้อผิดพลาดใดมีความสำคัญกว่าข้อผิดพลาดอื่น และอีกครั้งผู้ประเมินอาจมีความคิดเห็นที่แตกต่างกันในเรื่องนี้
หากวัตถุประสงค์ของผู้ใช้ระบบ MT คือการเตรียมเอกสารสำหรับการแก้ไขการแปลด้วยมนุษย์ ยังมีวิธีการประเมินตามปริมาณความพยายามที่ต้องใช้ในการแก้ไขการแปลด้วยมนุษย์
วัตถุประสงค์พื้นฐานของการแก้ไขการแปลด้วยมนุษย์คือเพื่อให้นักแปลสามารถทำงานได้เร็วกว่าการแปลข้อความตั้งแต่เริ่มต้น ด้วยเหตุนี้ วิธีที่ง่ายที่สุดในการประเมินระบบ MT สำหรับการแก้ไขการแปลด้วยมนุษย์ คือการวัดเวลาที่นักแปลใช้ในการแก้ไขผลลัพธ์ที่แปลด้วยเครื่องแปลภาษา
อีกวิธีในการวัดความพยายามการแก้ไขการแปลด้วยมนุษย์คือการรวบรวมจำนวนจังหวะบนแป้นพิมพ์ที่ต้องใช้ในการแทนที่ข้อความที่แปลด้วยเครื่องแปลภาษาด้วยการแปลโดยอ้างอิงการแปลของมนุษย์ สิ่งนี้เป็นอิสระจากข้อจำกัดด้านเวลา แต่ยังไม่คำนึงถึงความเป็นไปได้ของการแปลที่ถูกต้องหลายรายการ
จากนั้นจะมีการประเมินตามงาน ซึ่งตามชื่อ จะมีการประเมินระบบ MT ตามความเหมาะสมกับงานที่มีอยู่ตัวอย่างเช่น หากมีการใช้ในการตั้งค่าการสัมมนาผ่านเว็บหลายภาษา ผู้เข้าร่วมอาจถูกขอให้คะแนนประสบการณ์ของพวกเขาเกี่ยวกับข้อความถอดเสียงที่แปลด้วยเครื่องแปลภาษา ซึ่งหมายความว่าพวกเขากำลังประเมินความสำเร็จของระบบ MT โดยรวม
ปัญหาเกี่ยวกับแนวทางนี้คือเปิดให้มีการนำองค์ประกอบอื่นๆ ที่ไม่สามารถควบคุมได้มาใช้ ซึ่งอาจส่งผลต่อคะแนนที่ผู้ประเมินให้คะแนน ด้วยเหตุนี้ การใช้การประเมินตามงานจึงขึ้นอยู่กับสถานการณ์
อย่างที่คุณอาจเห็น การประเมิน MT ด้วยมนุษย์ประเภทต่างๆ มาพร้อมกับความท้าทายในตัวเอง นอกจากนี้ยังมีความท้าทายบางอย่างที่พวกเขาแบ่งปันในวงกว้าง และเกี่ยวข้องกับความสอดคล้องหรือข้อตกลง
นี่หมายถึงความสอดคล้องของคะแนนระหว่างผู้ประเมินที่แตกต่างกัน ดังที่เราได้กล่าวไว้ก่อนหน้านี้ ผู้ประเมินที่แตกต่างกันจะมีแนวโน้มที่แตกต่างกันในวิธีที่พวกเขาให้คะแนนข้อความเดียวกัน บางคนอาจให้คะแนนที่สุดขั้วหรือไปทางสายกลาง เมื่อจัดอันดับเครื่องแปลภาษา MT ที่แตกต่างกัน ความคิดเห็นของพวกเขาอาจแตกต่างกันไปด้วยเช่นกัน นี่คือสาเหตุว่าทำไมการมีผู้ประเมินหลายคนจึงเป็นเรื่องสำคัญ เพื่อให้การกระจายคะแนนเป็นมาตรฐาน
วิธีที่ผู้ประเมินคนเดียวให้คะแนนข้อความก็เป็นตัววัดความถูกต้องเช่นกัน ผู้ประเมินอาจให้คะแนนประโยคดีหรือไม่ดีในครั้งแรก แต่พวกเขาอาจเปลี่ยนใจเมื่อทำการทดสอบเดิมซ้ำอีกรอบ การมีข้อตกลงภายในผู้อธิบายประกอบที่มีการวัดผลสูงทำให้มั่นใจได้ว่าผู้ประเมินที่เลือกสามารถจะถือว่ามีความสอดคล้องและเชื่อถือได้
การประเมินด้วยมนุษย์ถือเป็นมาตรฐานทองคำเมื่อพูดถึงการประเมินคุณภาพของการแปลด้วยเครื่องแปลภาษา อย่างไรก็ตาม มันเป็นความพยายามที่มีค่าใช้จ่ายสูงทั้งในด้านของความพยายามและเวลา นี่คือเหตุผลที่นักวิจัยในสาขานี้ได้พัฒนาวิธีการต่างๆ ในการประเมินคุณภาพ MT ผ่านกระบวนการอัตโนมัติ
กระบวนการเหล่านี้ได้รับการออกแบบมาเพื่อประมาณวิธีที่มนุษย์จะประเมินระบบ MTแน่นอนว่ายังห่างไกลจากความสมบูรณ์แบบในเรื่องนี้ แต่การประเมินอัตโนมัติยังคงมีกรณีการใช้งานที่สำคัญมาก
ข้อได้เปรียบหลักของการประเมินอัตโนมัติที่เหนือกว่าการประเมินของมนุษย์คือความสามารถในการทำงานในปริมาณงานจำนวนมาก การประเมินอัตโนมัติทีละหลายร้อยตัวอย่างมีความเร็วกว่าการประเมินด้วยมนุษย์หนึ่งรอบ ซึ่งทำให้การประเมินรูปแบบนี้เป็นโซลูชันในอุดมคติสำหรับการปรับแต่งหรือเพิ่มประสิทธิภาพระบบ MT ซึ่งต้องการผลลัพธ์ที่รวดเร็ว
ซึ่งแตกต่างจากการประเมินโดยมนุษย์ เครื่องแปลภาษาไม่ได้ถูกออกแบบมาเพื่อจัดการกับความแตกต่างของการใช้ภาษา ระบบการประเมินอัตโนมัติขึ้นอยู่กับ MT ที่มีการจับคู่กับข้อความอ้างอิงอย่างแน่นอน และความแตกต่างเล็กน้อยอาจส่งผลกระทบต่อคะแนนสุดท้าย ความแตกต่างเหล่านี้อาจรวมถึงการเบี่ยงเบนในสัณฐานวิทยา การใช้คำพ้องความหมาย และลำดับไวยากรณ์
อะไรก็ตามที่การประเมินด้วยมนุษย์ถือว่าถูกต้องทางเทคนิคอาจถูกลงโทษในการประเมินอัตโนมัติไม่มากก็น้อย อย่างไรก็ตาม จำนวนการจับคู่ที่แน่นอน โดยเฉพาะอย่างยิ่งเมื่อพิจารณาตัวอย่างข้อความขนาดใหญ่ มักเพียงพอที่จะทำให้การประเมินอัตโนมัติสามารถนำมาใช้งานได้จริง
มีเมตริกการประเมินอัตโนมัติที่แตกต่างกันจำนวนมากในปัจจุบัน นี่คือตัวอย่างของบางเมตริกที่ใช้:
●
●
●
●
●
●
●
แต่ละเมตริกทำงานบนอัลกอริทึมที่แตกต่างกันและมีกระบวนการประเมินอัตโนมัติที่แตกต่างกัน นั่นหมายความว่า แต่ละเมตริกมีจุดแข็งและจุดอ่อนที่แตกต่างกัน และมีความแตกต่างกันในแง่ของการให้บทลงโทษที่สูงขึ้นหรือต่ำกว่าสำหรับประเภทของข้อผิดพลาดที่ต่างกันด้วย
ในบรรดาเมตริกทั้งหมดที่ระบุไว้ข้างต้น BLEU เป็นตัวชี้วัดที่นิยมใช้กันอย่างแพร่หลายเป็นหนึ่งในเมตริกแรกที่สามารถเชื่อมโยงความสัมพันธ์ระดับสูงในการประเมินด้วยมนุษย์ ซึ่งก่อให้เกิดรูปแบบการแปลภาษาที่แตกต่างกันมากมาย
วิธีการทำงานคือ แต่ละประโยคจะได้รับคะแนนเมื่อเทียบกับชุดคำแปลอ้างอิงที่มีคุณภาพสูง จากนั้นคะแนนเหล่านี้จะถูกประเมินเฉลี่ย และจำนวนผลลัพธ์คือคะแนน BLEU สุดท้ายสำหรับระบบ MT นั้นๆคะแนนนี้แสดงถึงผลลัพธ์ของระบบ MT ว่าตรงกับการแปลอ้างอิงของมนุษย์มากน้อยเพียงใด ซึ่งเป็นสิ่งที่บ่งบอกถึงคุณภาพ
คะแนนถูกคำนวณโดยใช้หน่วยที่เรียกว่า n-gram ซึ่งหมายถึงส่วนของข้อความติดต่อกัน กลับไปที่ประโยคตัวอย่างก่อนหน้า ตัวอย่างเช่น:
จิ้งจอกสีน้ำตาลที่รวดเร็วกระโดดข้ามสุนัขที่เกียจคร้าน
ซึ่งสามารถแบ่งออกเป็น n-gram ที่มีความยาวต่างกัน ตัวอย่างเช่น 2-gram จะเป็น “ที่รวดเร็ว”, “สีน้ำตาลที่รวดเร็ว” หรือ “จิ้งจอกสีน้ำตาล” 3-gram จะเป็น “สีน้ำตาลที่รวดเร็ว” หรือ “จิ้งจอกสีน้ำตาลที่รวดเร็ว” 4-gram จะเป็น “จิ้งจอกสีน้ำตาลที่รวดเร็ว” และอื่นๆ
เป็นกระบวนการทางคณิตศาสตร์ที่ซับซ้อน แต่ในแง่พื้นฐาน อัลกอริทึมของ BLEU จะคำนวณคะแนนโดยตรวจสอบจำนวนการทับซ้อนระหว่าง n-grams คะแนนที่คำนวณจะอยู่ระหว่าง 0 ถึง 1 โดยที่ 1 แสดงถึงการจับคู่ที่เหมือนกันอย่างสมบูรณ์ระหว่างประโยคอ้างอิงและประโยคผลลัพธ์การแปลลองใช้รูปแบบต่อไปนี้ในประโยคตัวอย่าง:
จิ้งจอกสีน้ำตาลที่รวดเร็วกระโดดข้ามสุนัขที่เกียจคร้าน
n-grams ทั้งหมดจะตรงกันยกเว้นที่มีคำว่า “รวดเร็ว” อีกตัวอย่างหนึ่ง:
จิ้งจอกสีน้ำตาลที่รวดเร็วกระโดดข้ามสุนัข
ในตัวอย่างนี้คำว่า “เกียจคร้าน” หายไปดังนั้นจึงส่งผลต่อการทับซ้อนกันในทางลบ ในทั้งสองกรณี คะแนน BLEU จะยังคงสูง แต่ก็ยังน้อยกว่า 1
ในทางปฏิบัติ มักไม่ค่อยมีประโยคจำนวนมากนักที่จะแสดงความสัมพันธ์ในระดับสูงแบบนี้ ดังนั้น คะแนน BLEU จึงมีความสำคัญทางสถิติเฉพาะเมื่อนำมาใช้ในบริบทของตัวอย่างข้อความหรือคลังข้อความขนาดใหญ่เท่านั้น
แน่นอนว่ามีปัจจัยอื่น ๆ ที่ใช้ในการคำนวณคะแนน BLEU เช่นบทลงโทษสำหรับคำพิเศษหรือประโยคที่สั้นมาก ระบบการให้คะแนนแบบอนุพันธ์อื่น ๆ ได้รับการพัฒนาเพื่อชดเชยข้อบกพร่อง แต่ BLEU ยังคงได้รับการประเมินในระดับสูงและยังคงเป็นระบบประเมินผล MT ที่ใช้กันอย่างแพร่หลายที่สุดในปัจจุบัน
และครอบคลุมพื้นฐานของการประเมินการแปลด้วยเครื่องแปลภาษา ดังที่เราได้แสดงให้เห็นการประเมินระบบ MT สามารถทำได้ผ่านการประเมินด้วยมนุษย์หรือการประเมินอัตโนมัติ กระบวนการทั้งสองมีทั้งข้อดีและข้อเสีย
การประเมินด้วยมนุษย์เป็นมาตรฐานที่ควรยึดถือไว้ในแง่ของคุณภาพ แต่มีราคาแพงและใช้เวลานาน การแปลอัตโนมัติมักไม่ถูกต้อง แต่รวดเร็วและเหมาะกับปริมาณงานจำนวนมากดังนั้นการประเมินทั้งสองประเภทจึงเหมาะสมกับงานที่เฉพาะเจาะจงที่แตกต่างกันเพื่อให้มีประสิทธิภาพการทำงานสูงสุด