[论文翻译]INSTRUCTS CORE: 基于细粒度反馈的可解释文本生成评估

自动评估语言生成的质量至关重要。尽管近期基于学习的指标与人类判断显示出高度相关性，但这些指标既未提供明确的裁决解释，也未将评分与生成文本中的缺陷关联起来。为应对这一局限，我们提出INSTRUCT SCORE——一种细粒度可解释的文本生成评估指标。通过结合显式人工指令与GPT-4的隐式知识，我们基于LLaMA微调出能同时输出生成文本评分和人类可读诊断报告的文本评估指标。我们在翻译、字幕生成、数据到文本转换及常识生成等多种任务上评估INSTRUCT SCORE。实验表明，我们的70亿参数模型超越了所有其他无监督指标，包括基于1750亿参数GPT-3和GPT-4的指标。令人惊讶的是，即便未使用人工评分数据进行直接监督，INSTRUCT SCORE的性能仍与COMET22等基于人类评分微调的前沿指标相当。