[论文翻译]G-EVAL: 使用GPT-4进行自然语言生成评估并实现更好的人类对齐

自然语言生成(NLG)系统生成的文本质量难以自动评估。传统的基于参考指标的评估方法(如BLEU和ROUGE)已被证明与人类判断相关性较低，特别是在需要创造力和多样性的任务中。近期研究表明，可以使用大语言模型(LLM)作为无参考指标的NLG评估方法，其优势在于可应用于缺乏人工参考的新任务。然而，这些基于LLM的评估器与人类判断的相关性仍低于中等规模的神经评估器。本文提出G-EVAL框架，通过结合思维链(CoT)和表单填写范式，利用大语言模型评估NLG输出质量。我们在文本摘要和对话生成两个任务上进行实验，结果表明以GPT-4为骨干模型的G-EVAL在摘要任务上达到0.514的Spearman相关性，大幅超越所有现有方法。我们还分析了基于LLM的评估器行为特征，并指出这类评估器可能对LLM生成文本存在偏好的潜在问题。[1]