





自從IBM研究團隊提出自動翻譯評測模型BLEU [1] 之後,自動翻譯評測得到很多廣泛應用,因為其耗時少並且花費少,方便快捷,對機器翻譯系統的開發工作提供很大的推動作用。榆次同時,很多科研人員對此模型進行了分析,發現很多不足之處。陸續出現的自動評測模型包括METEOR,[2]等。但是目前的評測模型仍然面臨很多不足之處,比如,評測指標設計不夠完整,導致評測不準確,評測偏差;以及,使用過多的語言學特徵來提高評測質量,但是導致評測結果不易重複。萊葩評測工具[3]的提出是基於對存在問題的研究,努力克服這些議題,設置廣泛的評測因子提高評測準確性,減少語言學特徵來使得評測過程可重複性好。[4]



萊葩翻譯評測模型包含三個主要指標:長度懲罰,位移懲罰,準確度和召回率。 萊葩修改BLEU的長度懲罰因子,對簡短和冗長句子都進行懲罰系數設置。基於前人研究工作的位移懲罰設置[5],萊葩加入n元詞對齊的語言學上下文考慮。準確率和召回率是反應翻譯質量輸出準確性和對原文忠實度的重要指標。



萊葩模型在國際機器翻譯年度會議WMT的從屬比賽上取得優秀的表現 ACL頁面存檔備份,存於互聯網檔案館) (ACL-WMT頁面存檔備份,存於互聯網檔案館)). 在年度比賽ACL-WMT 2013,[6]中,萊葩對英語到其他語言的翻譯評測最接近人工評測,使用Pearson先關系數,取得五個語言對平均(英-法,英語-西班牙語,英語-捷克語,英語-德語,英語-俄語)相關分數排名第一。 在英語為目標語言的評測上另一個評測模型METEOR取得第一。 跟進的使用詞性標註信息的萊葩評測模型表現出更好的分數[7]




