10/05/2024

הערכת תרגום מכונה: המדריך האולטימטיבי

נניח שאתם עסק שהחליט להשקיע במערכת תרגום מכונה. עשיתם קצת מחקר בסיסי ומצאתם שיש כל כך הרבה אפשרויות בחירה. כל אחד טוען לאיכות מסוימת בהתבסס על מדדים מסוימים, אך אינכם יודעים מה המשמעות של המספרים באמת. אז איך תדעו איזה מהם יתאים לכם ביותר?

עליכם להבין כיצד עובדת הערכת תרגום מכונה.

מאמר זה יסקור לעומק את נושא הערכת תרגום מכונה. הוא יעזור לכם להבין מה זה, למה אתם צריכים את זה, ואת סוגי ההערכה השונים, כדי לעזור לכם לקבל החלטה מושכלת בבחירת מערכת MT להשקיע בה.

הקדמהמהי הערכת תרגום מכונה?

הערכת תרגום מכונה מתייחסת לתהליכים השונים של מדידת הביצועים של מערכת תרגום מכונה.

זוהי דרך לבחון את איכות תרגום המכונה כך שניתן לדעת עד כמה המערכת טובה, ויש בסיס איתן להשוות עד כמה מערכות MT שונות יעילות. לשם כך, הערכת תרגום מכונה עושה שימוש במדדים הניתנים לכימות.

מדוע מדדי הערכת תרגום מכונה חשובים?

ישנן שתי סיבות עיקריות מדוע יש לבצע הערכת ביצועים למערכת MT. הראשונה היא לבדוק אם התרגום מספיק טוב ליישום בעולם האמיתי. השניה היא לשמש כמדריך למחקר ופיתוח.

כדי לבדוק אם זה מספיק טוב ליישום בעולם האמיתי

ראשית, כמובן, יש לקבוע אם מערכת MT עובדת ברמה טובה מספיק לשימוש בפועל. סיבה זו היא בעלת הרלוונטיות הישירה ביותר למשתמשי הקצה. אם מערכת התרגום המכונה מתפקדת בצורה גרועה, סביר יותר שמשתמשים יבחרו במשהו אחר.

מגזרים תעשייתיים המשתמשים ב-MT ירצו לקבל גם מדדים קונקרטיים כדי להחליט איזו מערכת MT לקבל. אחרי הכל, MT היא השקעה, ועסקים צריכים לקבל את התמורה הטובה ביותר לכספם.

ככזו, מפתחי MT צריכים להעריך אם איכות מערכת תרגום המכונה טובה מספיק כדי שיוכלו לשלוח אותה ללקוחות.

לשמש כמדריך במחקר ופיתוח

מערכות MT אינן, באופן אידיאלי, ישות סטטית. הטכנולוגיה עבור MT משתפרת ללא הרף עם הזמן. הגיוני שיש לצפות שגם מערכות MT ישתפרו.

כאן נכנס המחקר, והחוקרים צריכים לקבל מדריך היכן לחפש. מדדים הניתנים למדידה מאפשרים לחוקרים להשוות האם גישה מסוימת טובה יותר מגישה אחרת, ועוזרים להם לכוונן את המערכת.

התהליך טוב במיוחד כדי לראות כיצד המערכת מתמודדת עם שגיאות תרגום עקביות. קיום מדדים מדידים יכול להראות במסגרת מבוקרת יותר אם גישה מסוימת מסוגלת להתמודד עם שגיאות מסוג זה או לא.

איך אתם מעריכים את רמת ההצלחה של תרגום מכונה?

ישנן שתי דרכים שונות לקבוע עד כמה מערכת MT מתפקדת. הערכה אנושית נעשית על ידי מומחים אנושיים העושים הערכה ידנית, בעוד הערכה אוטומטית משתמשת במדדים מבוססי AI שפותחו במיוחד להערכת איכות התרגום ללא התערבות אנושית. לכל אחת מהדרכים יש יתרונות וחסרונות משלה. נעבור לפרטים נוספים על שני סוגי הערכת MT בחלקים המאוחרים יותר של מאמר זה, אך ראשית, להלן סקירה מהירה של שני סוגי הערכת תרגום מכונה, כמו גם הגישות להערכת MT העושות בהן שימוש.

הערכה אנושית לעומת הערכה אוטומטית

הערכה אנושית של תרגום מכונה פירושה שהערכת איכות התרגום נעשית על ידי מתרגמים אנושיים מקצועיים. זוהי האפשרות היעילה ביותר בכל הנוגע לקביעת איכות תרגומי מכונה עד לרמת המשפטים. אבל הערכה אנושית, כמו בתרגום אנושי, מטבעה יקרה יותר וגוזלת זמן.

הערכה אוטומטית, לעומת זאת, משתמשת בתוכניות שנבנו במיוחד כדי להעריך את איכות התרגום המכונה על פי שיטות שונות. הערכה זו אינה אמינה כמו הערכה אנושית ברמת המשפט, אבל היא אפשרות ניתנת להרחבה טובה בעת הערכת האיכות הכוללת של התרגום במספר מסמכים.

גישות להערכת MT

הגישות להערכת תרגום מכונה מבוססות על קונספט הפירוט. כלומר, הרמות השונות בהן הציון על האיכות עשוי להיחשב משמעותי.

גישה מבוססת משפט. בגישה זו, לכל משפט ניתן ציון האומר אם התרגום שלו טוב (1) או לא טוב (0) והסך הכולל מחושב לממוצע. זה נעשה לרוב על ידי הערכה אנושית.

גישה מבוססת מסמכים. משפטים, הידועים גם בשם גישה מבוססת-קבצים, מקבלים גם ציונים אך הציון המשמעותי הוא הסך או הממוצע בקרב קבוצה גדולה יותר של מסמכים. זוהי הרמה הקטנה ביותר שבה הערכת MT אוטומטית יכולה להיחשב משמעותית, מכיוון שהיא תלויה במידה רבה בסטטיסטיקה ממערך נתונים רחב.

גישה מבוססת-הקשר. גישה זו שונה מהקודמות בכך שהיא לוקחת בחשבון עד כמה משימת ה-MT הכוללת מתאימה למטרות אליהן היא מכוונת, ולא באמצעות ציונים ממוצעים המבוססים על משפטים. ככזן, היא עשויה להיחשב כגישה הוליסטית להערכת MT.

אתגרים בהערכת תרגום מכונה

הערכת תרגום מכונה היא תהליך קשה. הסיבה לכך היא שהשפה עצמה היא דבר מורכב מאוד.

ראשית, יכולים להיות מספר תרגומים נכונים. קחו, למשל, את המשפט הבא:

השועל החום המהיר קפץ מעל הכלב העצלן.

מערכת MT עשויה ליצור במקום זאת את התרגום הבא:

השועל החום המהיר התנפץ על הכלב העלוב.

זהו תרגום נכון מבחינה טכנית, ובהערכה אנושית הוא בדרך כלל יסומן ככזה. אבל בהערכה אוטומטית, זה יסומן כלא נכון.

פרטים קטנים יכולים גם לשנות לחלוטין את משמעות המשפט.

השועל החום המהיר קפץ על הכלב העצלן.

הנה, יש רק מילה אחת שהשתנתה. אבל מילה אחת זו משנה את משמעות המשפט לחלוטין. הערכות אוטומטיות עשויות לסמן את התרגום הזה בציון גבוה יותר מהדוגמה הקודמת. מתרגמים אנושיים צפויים לתפוס את השגיאה, אך חלקם עשויים לחשוב שהיא נכונה.

וזה בגלל ששפה יכולה להיות סובייקטיבית. אפילו מעריכים אנושיים יכולים להיות שונים בשיפוט שלהם לגבי האם תרגום הוא טוב או לא.

הערכה אנושית: סטנדרט הזהב

כעת, לאחר שעברנו על היסודות, בואו נסתכל לעומק על שני סוגי הערכת MT, נתחיל בהערכה אנושית.

ברמה הבסיסית ביותר, המטרה של תרגום מכונה היא לתרגם טקסט משפת מקור לשפת יעד ברמה שבני אדם יכולים להבין. ככזה, בני אדם הם נקודת ההתייחסות הטובה ביותר להערכת איכות תרגום מכונה.

סוגי הערכה אנושית

ישנן מספר דרכים שונות שבהן מתבצעת הערכה אנושית, עליהן נעבור כעת:

הערכה ישירה

זהו הסוג הפשוט ביותר של הערכה אנושית. פלט תרגום מכונה מקבל ציון ברמת המשפט.

האתגר בהערכה ישירה הוא השונות הגבוהה באופן מתן הציון בין שופטים שונים. חלקם עשויים לנטות לקיצוניות מבחינת הציון, ולסמן תרגומים כרעים מאוד או כטובים מאוד. אחרים עשויים לדרג את זה בצורה שמרנית יותר, ולסמן את אותם משפטים עם ציונים קרובים יותר לאמצע.

אתגר נוסף הוא, שוב, הסובייקטיביות. כדי לשפוט אם משפט הוא תרגום גרוע או לא, המעריכים צריכים לקבל החלטות לגבי שפה שהיא מעורפלת. נחזור למשפט לדוגמה:

השועל החום המהיר קפץ מעל בעל הזנב העצלן.

כאן, בעל הזנב זו לא בהכרח טעות, אבל זה גם לא הביטוי המתאים ביותר. מעריכים מסוימים עשויים לראות בכך תרגום מספיק טוב, בעוד שאחרים עשויים לסמן את זה כשגוי לחלוטין. לדוגמה, אם הציון נעשה בסולם של 5 נקודות, מתרגמים מסוימים עשויים לסמן אותו 4, בעוד שאחרים עשויים לתת לו רק 2.

ניתן לקזז אתגרים אלה על ידי שימוש במאגר גדול יותר של מעריכים, שיאפשר לנרמל את הציונים במונחים סטטיסטיים.

דירוג

דרך נוספת להעריך מערכות תרגום מכונה באמצעות הערכה אנושית היא דירוג.

במקרה זה, המעריכים אינם מספקים ציונים בודדים למשפטים, אלא משווים בין תרגומים ממערכות MT שונות. לאחר מכן הם מחליטים איזה מהם הוא התרגום הטוב ביותר, איזה הוא השני הטוב ביותר, וכן הלאה.

היתרון בשיטה זו על פני הערכה ישירה הוא בכך שהיא מספקת מיד השוואה ישירה, בניגוד להשוואת ציונים שנוצרו על פני ניסיונות שונים ואולי על ידי מעריכים שונים.

עם זאת, שיטה זו עדיין סובלת מאתגר הסובייקטיביות. במערכות MT שונות עשויות לצוץ שגיאות שונות. לדוגמה:

השועל הירוק המהיר קפץ מעל הכלב העצלן.

שועל חום מהיר קפץ מעל כלב עצלן.

השועל החום המהיר קופץ מעל הכלב העצלן.

לכל משפט יש שגיאה פשוטה. לראשון יש תרגום שגוי. השני משמיט ייחוס. השלישי חסר זמני פועל.

מעריכים צריכים כעת להחליט איזו שגיאה חשובה יותר מהשנייה, ושוב, למעריכים עשויות להיות דעות שונות בעניין.

המאמץ בעריכה אוחרת

אם מטרת המשתמש למערכת MT היא להכין מסמכים לעריכה אוחרת, ישנן גם דרכים להעריך זאת בהתאם לכמות המאמץ שנדרש לביצוע עריכה אוחרת.

המטרה הבסיסית של עריכה אוחרת היא לאפשר למתרגם לעבוד מהר יותר מאשר אם היה מתרגם טקסט מאפס. ככזה, הדרך הפשוטה ביותר להעריך מערכת MT לעריכה אוחרת היא על ידי מדידת הזמן שלוקח למתרגם לתקן את הפלט המתורגם במכונה.

דרך נוספת למדוד את המאמץ של עריכה אוחרת היא על ידי מדידת מספר ההקשות במקלדת שיידרש כדי להחליף את הטקסט המתורגם במכונה בתרגום התייחסות אנושי. זה אינו תלוי באילוצי זמן, אך גם אינו לוקח בחשבון את האפשרות של מספר תרגומים נכונים.

הערכה מבוססת משימה

לאחר מכן יש הערכה מבוססת משימות אשר, כפי שהשם מרמז, מעריכה מערכת MT בהתבסס על מידת ההתאמה שלה למשימה העומדת על הפרק. לדוגמה, אם משתמשים בו בהגדרת וובינר  רב לשוני, ניתן לבקש מהמשתתפים לדרג את החוויה שלהם באמצעות תמליל מתורגם במכונה. כלומר הם מדרגים את ההצלחה של מערכת MT בכללותה.

הבעיה בגישה זו היא שהיא פתוחה מאוד להכנסת אלמנטים בלתי מבוקרים אחרים שעשויים להשפיע על דירוג המעריכים. לכן, השימוש בהערכה מבוססת משימות הוא מאוד תלוי סיטואציה.

אתגרים כלליים בהערכה אנושית

כפי שאולי תוכל לראות, הסוגים השונים של הערכה אנושית של MT מגיעים עם אתגרים משלהם. ישנם גם כמה אתגרים שהם חולקים באופן רוחבי, והם קשורים לעקביות או להסכמה.

הסכמה בין-פרשנותית

הכוונה היא לעקביות הציונים בין מעריכים שונים. כפי שהזכרנו קודם, למעריכים שונים יהיו נטיות שונות לגבי האופן בו הם נותנים ציון לאותם קטעי טקסט. חלקם עשויים לדרג אותם בקיצוניות או לכיוון האמצע. כאשר הם מדרגים מנועי MT שונים, דעותיהם יכולות להשתנות. זו הסיבה שחשוב שיהיו מעריכים מרובים, כך שחלוקת הציונים תהיה מנורמלת.

הסכמה תוך-פרשנותית

האופן שבו מעריך בודד נותן ציון לטקסט הוא גם מדד לולידציה. מעריך עשוי לסמן משפט כטוב או רע בפעם הראשונה, אך הוא עשוי לשנות את דעתו כשחוזר על אותו מבחן. קיום מדידה מדויקת של הסכמה פרשנותית מבטיח כי המעריך הנבחר יכול להיחשב עקבי ואמין.

הערכה אוטומטית: האפשרות הניתנת לצמיחה מהירה

הערכה אנושית נחשבת לסטנדרט הזהב בכל הנוגע להערכת איכות התרגום המכונה. עם זאת, מדובר במשאב יקר מבחינת מאמץ וזמן. זו הסיבה שחוקרים בתחום פיתחו אמצעים שונים להערכת איכות MT באמצעות תהליכים אוטומטיים.

תהליכים אלה נועדו להעריך את האופן שבו בני אדם יעריכו את מערכת ה-MT. כמובן שהם רחוקים מלהיות מושלמים בכך, אך להערכה אוטומטית יש עדיין מקרי שימוש חשובים מאוד.

היתרון העיקרי של הערכה אוטומטית על פני הערכה אנושית הוא יכולת הצמיחה המהירה שלה. זה הרבה יותר מהיר להריץ מאות מקרים של הערכה אוטומטית מאשר אפילו סבב אחד של הערכה אנושית. זה הופך את ההערכה האוטומטית לפיתרון אידיאלי בעת ביצוע שינויים או אופטימיזציה של מערכת MT, הזקוקה לתוצאות מהירות.

אתגרים בהערכה אוטומטית

בניגוד לבני אדם, מכונות אינן מצוידות להתמודד עם הניואנסים השונים של השימוש בשפה. מערכות הערכה אוטומטיות מבוססות על כך של-MT יש התאמה מדויקת לטקסט המקור, והבדלים קלים יכולים להשפיע על הציון הסופי. הבדלים אלה יכולים לכלול סטיות במורפולוגיה, שימוש במילים נרדפות וסדר דקדוקי.

כל דבר שיכול להיחשב מבחינה טכנית פחות או יותר נכון על ידי מעריך אנושי יכול להיפסל בהערכה אוטומטית. עם זאת, מספר ההתאמות המדויקות, במיוחד כאשר בוחנים מדגם גדול של טקסט, הוא לעתים קרובות מספיק כדי להפוך הערכה אוטומטית לניתנת לשימוש.

מדדי הערכה אוטומטיים

ישנם מספר מדדי הערכה אוטומטיים שונים הזמינים כיום. הנה כמה דוגמאות לאלה הנמצאים בשימוש:

 

      BLEU (מחלקה להערכה דו לשונית)

      NIST (מהמכון הלאומי לתקנים וטכנולוגיה)

      METEOR (מדד להערכת תרגום עם הזמנה מפורשת)

      LEPOR (סקירת אורך, דיוק, סקירת הפרש מיקום ב-n-gram ופסילה כוללת)

      COMET 

      PRIS

      TER (שיעור שגיאות תרגום)

כל מדד עובד על אלגוריתמים שונים ולכן ניגש לתהליך ההערכה האוטומטית בצורה שונה. המשמעות היא שיש להם נקודות חוזק וחולשה שונות, ויש בינהם שונות לגבי סוגי הטעויות שלהן הם נותנים פסילות קשות או קלות יותר.

BLEU, המדד הפופולרי ביותר

מבין כל המדדים המפורטים לעיל BLEU הוא הנפוץ ביותר. זה היה אחד המדדים הראשונים שהשיגו רמה גבוהה של מתאם עם הערכה אנושית, והוליד וריאציות רבות ושונות.

השיטה היא שמשפטים בודדים מקבלים ציון מול קבוצה של תרגומי ייחוס באיכות גבוהה. לאחר מכן ציונים אלה עוברים מיצוע, והמספר המתקבל הוא ציון ה-BLEU הסופי עבור אותה מערכת MT. ציון זה מייצג עד כמה התפוקה של מערכת MT תואמת לתרגום הייחוס האנושי, שהוא הסמן לאיכות.

הציונים מחושבים באמצעות יחידות הנקראות n-grams, המתייחסות לקטעים של טקסט רצוף. אם נחזור למשפט המדגם הקודם, למשל:

השועל החום המהיר קפץ מעל הכלב העצלן.

ניתן לחלק את זה ל-n-grams באורך שונה. 2-gram, למשל, יהיה "המהיר", "החום המהיר" או "השועל החום". 3-gram יהיה "החום המהיר" או "השועל החום המהיר". 4-gram יהיה "השועל החום המהיר". וכן הלאה.

זהו תהליך מתמטי מורכב, אך במונחים בסיסיים האלגוריתם של BLEU מחשב את הציון על ידי בדיקת מספר החפיפות בין n-grams. הציון המחושב יהיה בין 0 ל -1, כאשר 1 מייצג התאמה זהה לחלוטין בין תרגום הייחוס למשפט הפלט. כעת קחו את הווריאציה הבאה במשפט המדגם:

השועל החום המהיר קפץ מעל הכלב העצלן.

כל ה-n-grams יתאימו למעט אלה שיש להם את המילה "מהיר". דוגמה נוספת:

השועל החום המהיר קפץ מעל הכלב.

בדוגמה זו, המילה "עצלן" חסרה, כך שגם היא משפיעה על החפיפה לרעה. בשני המקרים, ציון ה-BLEU עדיין יהיה גבוה, אך פחות מ-1.

בפועל, לא הרבה משפטים יראו את רמת המתאם הגבוהה הזו. לכן, ציוני BLEU הופכים למובהקים סטטיסטית רק כאשר הם נלקחים בהקשר של מדגם גדול של טקסט, או קבצים.

ישנם, כמובן, גורמים אחרים הנכנסים לחישוב ציון BLEU, כמו פסילות של מילים נוספות או משפטים קצרים מאוד. מערכות ניקוד נגזרות אחרות פותחו כדי לפצות על חסרונותיה, אך BLEU נותרה מדורגת גבוה מאוד וממשיכה להיות מערכת הערכת MT הנפוצה ביותר כיום.

מילים אחרונות על הערכת MT

ובכך נכסה את היסודות של הערכת תרגום מכונה. כפי שהראינו, הערכת מערכת MT יכולה להיעשות באמצעות הערכה אנושית או הערכה אוטומטית. לשני התהליכים יש יתרונות וחסרונות.

הערכה אנושית היא תקן הזהב מבחינת האיכות, אך היא יקרה וגוזלת זמן. תרגום אוטומטי אינו מדויק, אך הוא מהיר וניתן לצמיחה מהירה.ככזה, לשני הסוגים יש מקרי שימוש ספציפיים שבהם הם מככבים.