[论文翻译]BERTSCORE:基于BERT的文本生成评估
我们提出BERTSCORE,一种用于文本生成的自动评估指标。与常见指标类似,BERTSCORE会计算候选句中每个token与参考句中每个token的相似度分数。但不同于精确匹配,我们使用上下文嵌入来计算token相似度。我们基于363个机器翻译和图像描述系统的输出进行评估。相比现有指标,BERTSCORE与人类判断具有更高相关性,并提供更强的模型选择性能。最后,我们通过对抗性复述检测任务证明,相较于现有指标,BERTSCORE在面对挑战性样本时更具鲁棒性。


