[论文翻译]G-EVAL: 基于GPT-4并更好对齐人类的自然语言生成评估方法
自然语言生成(NLG)系统生成的文本质量难以自动衡量。传统的基于参考指标的评估方法(如BLEU和ROUGE)已被证明与人类判断相关性较低,特别是在需要创造力和多样性的任务中。近期研究表明,可将大语言模型(LLMs)作为无参考指标用于NLG评估,其优势在于适用于缺乏人工参考的新任务。然而,这些基于LLM的评估器与人类判断的吻合度仍低于中等规模的神经评估器。本研究提出G-EVAL框架,通过结合思维链(CoT)和表单填写范式,利用大语言模型评估NLG输出质量。我们在文本摘要和对话生成两个任务上进行实验,结果表明:以GPT-4为核心模型的G-EVAL在摘要任务中与人类评估的Spearman相关系数达到0.514,显著优于所有现有方法。我们还分析了基于LLM的评估器行为特征,并指出这类评估器可能对LLM生成文本存在偏好的潜在问题。[1]