• [论文翻译]BLEU可能有罪但参考文献并非无辜

    机器翻译自动评估指标的质量日益受到质疑,尤其针对高质量系统。本文表明,虽然评估指标的选择很重要,但参考译文的性质同样关键。我们研究了不同参考译文采集方法,并通过报告各类系统与指标在人工评估中的相关性,比较它们在自动评估中的价值。研究发现传统参考译文存在多样性不足的问题(过度集中于翻译体语言),为此我们设计了由语言学家对现有参考译文进行改写的复述任务以消除这种偏差。我们的方法不仅在WMT 2019英语→德语参赛系统上获得更高的人工评估相关性,对于反向翻译(Back-translation)和自动后编辑(APE)增强的机器翻译输出同样有效——这些输出已被证明与使用标准参考译文的自动指标相关性较低。实验证明该方法能提升所有现代评估指标(包括基于嵌入的方法)的相关性。最后我们发现多参考译文BLEU对高质量输出的相关性没有提升,并提出了一种更有效的多参考译文构建方案。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个专注于科研服务的智能平台
在这里您可以获得本平台自训练的
科研智能体
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,赋能智慧快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理
连接科研与大众知识的桥梁
让科学生活融入日常
登陆小程序
AI数字人随身守护
智慧管理更高效
生活品质悄然升级

千集助理