[论文翻译]BLEURT: 学习文本生成的鲁棒性指标
文本生成在过去几年取得了显著进展。然而评估指标却相对滞后,因为最常用的选择(如BLEU和ROUGE)可能与人类判断相关性较低。我们提出了BLEURT,这是一种基于BERT的学习型评估指标,仅需数千个可能存在偏差的训练样本即可建模人类判断。该方法的关键在于新颖的预训练方案,通过数百万合成样本来提升模型泛化能力。BLEURT在最近三年的WMT Metrics共享任务和WebNLG竞赛数据集上实现了最先进的结果。与原始基于BERT的方法相比,即使在训练数据稀缺且分布外的情况下,BLEURT仍能提供更优异的表现。