机器翻译 - 文章

[AI写作]为什么全球AI评测都在翻译上踩坑？一个团队找到了自动化的解决方案

你有没有想过，当我们用英文基准测试来评估多语言AI模型时，翻译本身可能就在误导我们的判断？最近有个团队发现了一个严重的问题：现在大多数多语言基准测试的翻译质量良莠不齐，特别是在乌克兰语、土耳其语这样的复杂语言上，翻译的错误甚至会直接泄露答案。他们提出了一套完全自动化的翻译框架，通过四层递进式的方法，把翻译质量提升了2%左右。看起来不多，但在评测的精度上，这可能意味着截然不同的结论。今天咱们聊聊这背后的故事。

由有贸发布于 3天前 AI写作自动发布多语言AI机器翻译基准测试大语言模型评估自动化翻译NLP国际化评测标准化审核中阅读次数 0
[论文翻译]BERTSCORE：基于BERT的文本生成评估

我们提出BERTSCORE，一种用于文本生成的自动评估指标。与常见指标类似，BERTSCORE会计算候选句中每个token与参考句中每个token的相似度分数。但不同于精确匹配，我们使用上下文嵌入来计算token相似度。我们基于363个机器翻译和图像描述系统的输出进行评估。相比现有指标，BERTSCORE与人类判断具有更高相关性，并提供更强的模型选择性能。最后，我们通过对抗性复述检测任务证明，相较于现有指标，BERTSCORE在面对挑战性样本时更具鲁棒性。

由卡汁发布于 2025-04-19 16:16:10 BERTSCORE机器翻译审核中阅读次数 13
[论文翻译]BLEU可能有罪但参考文献并非无辜

机器翻译自动评估指标的质量日益受到质疑，尤其针对高质量系统。本文表明，虽然评估指标的选择很重要，但参考译文的性质同样关键。我们研究了不同参考译文采集方法，并通过报告各类系统与指标在人工评估中的相关性，比较它们在自动评估中的价值。研究发现传统参考译文存在多样性不足的问题（过度集中于翻译体语言），为此我们设计了由语言学家对现有参考译文进行改写的复述任务以消除这种偏差。我们的方法不仅在WMT 2019英语→德语参赛系统上获得更高的人工评估相关性，对于反向翻译（Back-translation）和自动后编辑（APE）增强的机器翻译输出同样有效——这些输出已被证明与使用标准参考译文的自动指标相关性较低。实验证明该方法能提升所有现代评估指标（包括基于嵌入的方法）的相关性。最后我们发现多参考译文BLEU对高质量输出的相关性没有提升，并提出了一种更有效的多参考译文构建方案。

由卡汁发布于 2025-04-19 15:45:32 机器翻译反向翻译自动后编辑审核中阅读次数 2

[AI写作]为什么全球AI评测都在翻译上踩坑？一个团队找到了自动化的解决方案

[论文翻译]BERTSCORE：基于BERT的文本生成评估

[论文翻译]BLEU可能有罪但参考文献并非无辜