双语替换评测

双语替换评测（英语：bilingual evaluation understudy，缩写：BLEU）是用于评估自然语言的字句用机器翻译出来的品质的一种算法。双语替换评测的核心概念是翻译的品质取决于机器翻译的输出与人工翻译之间的对应关系，“若机器翻译越接近专业人士的翻译结果，则机器翻译的表现越好”。双语替换评测是第一个宣称，其与人工判断翻译品质方式呈高度相关的度量，且目前仍是最流行的自动化与低成本的度量之一。

透过将各个译文片段（通常是句子）与一组翻译品质好的参考译文进行比较，计算出各个片段的分数。接着这些分数平均于整个语料库，估算翻译的整体品质。此算法不考虑字句的可理解性或语法的正确性。

双语替换评测的输出分数始终为0到1之间的数字。该输出值意味着候选译文与参考译文之间的相似程度，越接近1的值表示文本相似度越高。人工翻译少有能达到数值1，因为数值1表示候选文本与参考文本完全相同。由于这个原因，没有必要要求候选的翻译片段要获得1分。而也因为有更多可以匹配的机会，增加其他参考的译文文本将增加此评测得分。

算法

双语替换评测使用改良的测量精度形式将候选的翻译文本与多个参考翻译进行比较。此度量标准改良了简单的测量精度，原因是因为已知机器翻译系统会生成比参考译文文本更多的单词。以下图例说明算法（Papineni et al, 2002）。

高精度分数的机器翻译结果不佳的例子
候选文本	the	the	the	the	the	the	the
参考文本1	the	cat	is	on	the	mat
参考文本2	there	is	a	cat	on	the	mat

在候选翻译文本的七个单词，全部都出现在参考翻译文本中。因此，候选文本的字母组合测量精度分数为

P={\frac {m}{w_{t}}}={\frac {7}{7}}=1

$~m$ 是候选单词有在参考文本中的数量， $~w_{t}$ 是候选文本的单词总数。从上述可知，尽管候选译文文本几乎没有保留任何参考文本的内容，但还是有完美的分数。

双语替换评测所做的修改非常直观。对于候选译文中的每个候选单词，在任何参考译文中，算法改采用其最大总数 $~m_{max}$ 。上述例子中，单词“the”在参考文本1中出现两次，在参考文本2中出现一次，因此 $~m_{max}=2$ 。

P={\frac {2}{7}}

效能

双语替换评测虽然常被指称与人判断翻译品质的能力有很好的关联，且仍是用于评估任何新的评估指标的基准，但是也有许多批评声音出现。尽管从原则上来说，双语替换评测能够评估任何语言之间的翻译，但该度量方式被注意到，以目前的度量形式无法处理缺少单词边界的语言。

参见

参考文献